29 Mart 2013 Cuma

Cytoscape - 1

Cytoscape'le 2006 yılının yazında tanışmıştım, Toronto Üniversitesi Banting and Best Enstitüsü'ndeki stajımda (Banting ve Best, insülinin kaşifleri). Andrew Emili ile çalışmıştım 3 ay boyunca, ve amacımız MS-MS verilerini işleyerek kalp rahatsızlıklarına ilişkin biyobelirteçlerin keşfedilmesiydi. Protein protein etkileşimleri odaklı ilerliyorduk ve etkileşimleri şık bir şekilde görüntüleyebilmek için elimizdeki en iyi seçenek olan Cytoscape ile çalışıyorduk. Ancak bu yazılım sadece güzel etkileşim şekilleri oluşturmak için kullanılmıyordu; aynı zamanda eklentiler [plugin] yazarak etkileşim verilerini analiz edecek yazılımlar da hazırlayabiliyorduk. Bu amaç doğrultusunda yaptığımız bir iş de, BINGO eklentisini labın ihtiyaçları doğrultusunda yeniden yazmaktı.

İnsan zihni verileri şekillerle algılamaya ve analiz etmeye kelimeler veya sayılarla algılamaktan daha yatkın. Bu nedenle kutu grafiklerine [boxplot], histogramlara, ısı haritalarına [heat map] ve volkan grafiklerine [volcano plot] sıkı sıkıya sarılıyoruz; kocaman excel dosyalarını birkaç saniyede algılayabiliyoruz bu şekilde. Cytoscape'in en iyi yaptığı şey tam da bu: çok boyutlu etkileşim verilerini hızlıca anlayabilmemize olanak sağlayan muhteşem grafikler oluşturmak. Cytoscape ile neler yapılabildiğini göstermek adına iki farklı gerçek örnek üzerinden gideceğim. Sonunda -göreceli olarak- bol şekilli bir yazı olacak, umarım :) İlk örnekle başlayalım.

Ne demiştik; çok boyutlu bilgileri tek seferde görüntüleyebilmekten bahsetmiştik. İlk örneğim, TÜBİTAK'ta çalıştığım zamanlara ait. O zamanlar etki analizi adı verilen bir çalışma yürütülüyordu ve amaç, araştırmacılara verilen desteklerin amaçlandığı şekilde işe yarayıp yaramadığını ölçmekti. Bu çalışmada ben de yer alıyordum ve verileri analiz etmek için bir yol önerdim ancak çok da ciddiye alınmadım açıkçası; bu yöntemin çok benzerini bol sıfırlı bir fiyata yurt dışına yaptırmaya karar verdiler bir süre sonra ama sanırım bundan da vazgeçtiler sonunda, çalışma da nereye vardı bilemiyorum. Neyse, ben de bu analizi kendi başıma yapmaya karar verdim ve birkaç ay boyunca boş zamanlarımda, akşamları ve haftasonları bu veriye yoğunlaştım. Amacım, destek alan araştırmacıların özelliklerini eldeki verilerle belirleyebilmek ve çıkarımlarda bulunabilmekti; özetle, tam bir bulmaca :) Hikayeyi uzun uzun anlatıyorum ama bunun sebebi, sonunda dişe dokunur şeylerin çıkmış olması. Tabi bu sonuçların akibeti ayrı hikaye.

Önemli bir konuya değinerek başlamalıyım: veri gizliliği nedeniyle sadece verilerin mahiyetinden bahsedeceğim ve görseller de temsili olacak. Yine de Cytoscape'in maharetlerini anlatmak için bu yeterli. Elimizdeki veri, hangi araştırmacının proje başvurusunda bulunduğu; ekibindeki diğer araştırmacılar, projenin kabul edilip edilmediği, ve hangi desteğe (1001, 1002, Uluslararası vb.) başvurulduğu. En çok uğraştıran kısım, verilerin temizlenmesi ve düzenlenmesi oldu; son olarak da Cytoscape'e uygun bir şekilde yeniden organize edilmesi. Cytoscape -kabaca- 3 tür veri kabul eder. İlki, etkileşim verisi; yani bir kümenin elemanlarından aralarında etkileşim olanların hangileri olduğu. Bizim durumumuzda, aynı proje başvurusu içerisinde yer alan araştırmacılar birbiriyle etkileşim halindedirler. İkinci veri türü, her bir küme elemanına ait edinilebilen tüm veriler. Bizim durumumuzda bu, ilgili araştırmacının şimdiye kadar hangi proje başvurularında yer aldığı ve ne kadarının başarılı olduğu. Son veri türü ise, etkileşimin ve her bir küme elemanının nasıl görselleştirileceği; bizim durumumuzda bu her bir etkileşimin ve araştırmacının nasıl gösterileceği. Böylesine büyük bir verideki motifleri keşfedebilmek ve nereden başlanacağını belirleyebilmek için doğru görüntüleme yöntemini seçmek şart.



Yukarıdaki şekle bakınca hemen dikkatinizi çeken bir özellik olacaktır; o da, birbiriyle sıkı bağlantılara sahip tek parça büyük bir ağ ve bunun dışında kalan irili ufaklı küçük ağlar. Buradaki her bir nokta bir araştırmacıyı temsil ediyor, ve aralardaki renkli çizgiler ise etkileşimde olduklarını gösteriyor. Çizgilerin renkleri de etkileşimin ne kadar kuvvetli olduğunu işaret ediyor; kırmızı renk kuvvetli etkileşim demek (yani aynı proje başvurusunda birden fazla kez beraber yer almak). Şimdi sıradaki soru şu: acaba büyük ağda olmanın herhangi bir avantajı var mı? Bunun için detaylara inmek gerekiyor. Fakat burada da her bir araştırmacıya ait birden fazla boyutlu veri var elimizde. Cytoscape imdadımıza yetişiyor ve bu verileri tek bir seferde görselleştirmeye imkan sağlıyor. Yanda gördüğünüz şekil, temsili bir araştırmacıya ait. Sağ üstteki çeyrek daireler, araştırmacının yer aldığı 1001 Programı destek başvuru sayısını ve bunların kaçının kabul edildiğini gösteriyor; siyah renkli çeyrek daireler başvurunun reddedildiği anlamına geliyor. Yani, 4  tane 1001 Proje destek başvurusunda yer almış temsili araştırmacımız ve bunların 3'ü kabul edilmiş. Sağ alttaki çeyrek daireler 1002 proje başvurularını gösteriyor, sol alttaki çeyrek daireler uluslararası proje başvurularını, sol üsttekiler ise geri kalan türlerdeki başvuruları. Tek bir grafikte 8 (4x2) tür bilgiyi gösterebildik; 4 proje türüne başvuruları ve bunların desteklenip desteklenmediğini. 




Büyük ağa yakından bakalım ve önce ağın merkezinden bir kesit alalım (yukarıdaki şekil). Tekrar hatırlatmakta fayda var; bu veriler örnek vermek amaçlı hazırlanmış temsili veriler ancak bu haliyle dahi bazı özellikler dikkatinizi çekiyordur. Kıyaslamak için de bir de büyük ağ dışında bir yerden bir kesit alalım (yandaki şekil). Gördüğünüz üzere dışarıyla bağlantı neredeyse hiç yok ve temsili araştırmacılar daha az renkli. Gözümüzle gördüğümüzü istatistiksel hale çevirmek için Fisher's testine başvurunca, büyük ağda yer almanın, bu ağda yer almamaya göre başarıya olan etkisini gerçek verilerle de istatistiksel olarak gösterebiliyoruz. Hakikaten de bu sonuçları her bir araştırma grubu için tekrarladığımızda benzer bir durum ortaya çıkmıştı. Cytoscape gibi kuvvetli [powerful] ve etkili bir görselleştirme aracı kullanmadan bu sonuçlara varabilmek; hatta böyle bir analize nereden başlanılabileceğini bulabilmek bile başlıbaşına büyük bir sıkıntı.

Gerçek verilerle uğraşmak hiç de kolay değil; ancak işin sonunda elle tutulur bir sonuca vardığınızda da bunun keyfi başka bir şeyde yok :) Peki sonrasında ne oldu? Analiz sonuçları doğrultusunda hazırladığım raporu önce gayet kıymetli araştırmacılardan oluşan  bir grup önünde sundum ve öneriler doğrultusunda iyileştirmeler yaparak olgunlaştırdım.  Sonuç itibariyle hem desteklerin nasıl daha verimli bir şekilde kullanılabileceği, hem de destek programlarında yapılabilecek değişikliklerin ne doğrultuda yapılırsa daha faydalı olabileceği açık bir şekilde ortaya konmuş oldu. Ardından gayet özet bir şekilde nihai raporu hazırladım ve daha üst mercilere sundum; böylelikle hazırladığım rapor tarihin karanlık raflarında yerini aldı :)

Sözün özü:
Karmaşık bir yapıya sahip olan verilerin analizine nereden başlanılacağı ve verinin neye benzediğini görebilmek için Cytoscape mevcut alternatifleri arasında en iyi seçenek. Kısa bir görüntüleme çalışmasıyla analizlerinizden daha anlamlı ve etkili sonuçlar çıkarabilirsiniz.



Proje:
10 farklı protein seçin ve bunların arasındaki etkileşimleri hayali olarak bir kağıda yerleştirin. Ardından, bu etkileşimleri Cytoscape'in sevdiği biçimde programa yükleyin ve görselleştirme seçeneklerini inceleyin. Mümkün olan -neredeyse- tüm seçeneklerin Cytoscape'te de yer aldığını göreceksiniz.

Meraklısına:
Hazırladığım sonuç raporunu merak ediyorsanız lütfen iletişime geçmekten çekinmeyin; gerçek verilerle yapılan ve tamamen sayısal verilerle desteklenen uzun soluklu bir analizden ne denli sonuçların çıkarılabileceğini göreceksiniz.