30 Ocak 2014 Perşembe

Programlama Araçlarının Faydaları

Web tabanlı araçları kullanarak temel biyoinformatik analizleri gerçekleştirebilirsiniz ve detaylara girmediğiniz sürece ortaya kayda değer sonuçlar çıkarabilirsiniz. Ancak burada unutulmaması gereken bir şey var: çoğu zaman verileri analize hazırlamak, analizin kendisinden çok daha fazla emek ve zaman gerektirir. Elinizdeki dosyaları FASTA biçimine çevirmek, onlarca farklı dosyada yer alan verileri tek bir dosyada tablo şeklinde toplamak, veritabanlarından otomatik olarak veri çekmek, veya veriyi bir yerden başka bir yere kopyalamak. 

UNIX tabanlı işletim sistemlerinin bu tarz işlemleri kolaylaştırmak amacıyla geliştirildiğini söylesek sanırım yanılmış olmayız. Farklı Linux sürümleri arasında bu sıralar en popüler ve kullanışlı olanı Ubuntu, alternatif olarak da Mac işletim sisteminden bahsedebiliriz. Windows'ta komutları teker teker yazmak yerine bunları bir grafik arayüzünün arkasına gizleyip kullanıcıya daha basit şeyler göstermek kuşkusuz kişisel bilgisayarın yaygınlaşmasında büyük rol oynamıştır, ancak aynı zamanda da bilgisayarın nasıl çalıştığını anlamak noktasında kullanıcıyla bilgisayarın mantığı arasına bir perde çektiği de muhakkak. Özetle, programlama araçlarını tanımak ve etkin bir şekilde kullanmak, büyük miktarlarda veriyle uğraşanların olmazsa olmazı. Bu doğrultuda sizinle 3 farklı örnek paylaşmak istiyorum.

19 Ocak 2014 Pazar

Yeni Nesil Dizilimleme [Next Generation Sequencing] Teknolojisine Bakış - 1 (Sanger Dizilimleme)

Biyoinformatik analizlerimize konu olan veriler, büyük oranda yüksek çıktılı [high-troughput] teknolojilerden elde ediliyor. Her yeni teknolojide olduğu gibi, biyolojik çıktı üreten teknolojilerin de kendine has özellikleri ve yetersiz kaldıkları noktalar var. Bir biyoinformatik analiz içinse ilgili teknolojiyi çok iyi bilmek büyük bir önem kazanıyor; böylece elde edilen verinin kuvvetli yanlarına odaklanabilir ve yetersiz/yanıltıcı yanlarından ise uzak durabilir veya bu yanları telafi edecek yaklaşımlar geliştirebilirsiniz. Ulaşımdan bir örnek vereyim.

Kalabalık bir şehirde, şehrin bir tarafından diğerine gitmeniz gerektiğini düşünün. Birkaç alternatif ulaşım aracı düşünebiliriz ve bunların her birinin kendine has artı ve eksileri vardır. Ulaşım için kendi aracınızı kullanırsanız, o andaki ulaşım ihtiyacınızı büyük ihtimalle daha hızlı ve daha ucuza karşılarsınız ancak kendi aracınızı kullanmadığınız zamanlar da o araca sahip olmanın maliyetini üstlenmek zorunda kalırsınız, bunun yanısıra vergi ve bakım gibi masrafları da siz üstlenirsiniz. Otobüs, kullanım maliyeti çok daha düşük bir ulaşım aracıdır çünkü o otobüsteki herkesle biraraya gelip para toplar ve otobüsün giderlerini ve sürücü maliyetini hep birlikte paylaşırsınız. Otobüsü kullandığınız sürece giderlere ortak olursunuz, kullanmadığınız zaman ise ortaklıktan ayrılabilirsiniz; ancak eninde sonunda giderleri büyük ve kalabalık bir kitleyle paylaşmak zorunda kalırsınız. Dolmuş da otobüse çok benzer bir ekonomik modelle işler, yani giderleri ve aldığınız hizmeti bedelini diğer yolcularla paylaşırsınız; üstelik herhangi bir durak sınırlaması da yoktur bu araçta. Buna rağmen, durak sınırlamasının kalkmasının olumlu yanlarını yaygınlığın azalmasıyla karşılamak zorunda kalırsınız: dolmuş hatları otobüs hatları kadar yaygın değildir. Ayrıca bu iki ulaşım yönteminde de bekleme zorunluluğunuz vardır. Metro çok daha hızlıdır ancak yaygın değildir ve ana hatlarda faaliyet gösterir. Takside ise sürücü ve otomobil giderlerini başkalarıyla paylaşmazsınız ve durak sınırlamanız da yoktur, kullandığınız kadar ödediğiniz bu ulaşım modelinde ise birçok avantaja rağmen toplu ulaşım yöntemlerine kıyasla çok daha fazla ödeme yaparsınız.

17 Ocak 2014 Cuma

Kümeleme Analizi

İnsanın doğası gereği yeni bir bilgiyi öğrenmek, ve öğrendikten sonra bu bilgiyi kolay ve hızlı bir şekilde geri çağırmak için beynimizde sınıflara ayırırız. Giysi dolabımıza kıyafetlerimizi ayırarak koyduğumuz gibi. Pantolonlarımız bir yerde, kazaklarımız ayrı bir yerde olduğu gibi. Benzer giysileri bir araya koyarız çünkü bulmak istediğimizde nereye bakmamız gerektiğini biliriz hemde ulaşmak daha hızlı ve pratiktir. 

Verimizde benzer gözlemlerin olduğunu düşünüyorsak ve sınıflara ayırmak istiyorsak kümeleme analizi kullanırız. Kümeleme analizi veriya ait değişkenleri kullanarak, benzer gözlemleri kümeleme işlemidir. Biyoinformatikte genel resmi vermesi ve sonraki adıma ışık tuttuğu için sıkça kullanılan bir analiz yöntemidir. 

Benzer genleri kümelemek istediğimizde, bir gen ailesine sahip sekansları kümelemek için, gen ve protein anatasyonu yapabilmek için gibi işlemlerde kullanılır. 

16 Ocak 2014 Perşembe

Dünya ve Veri Analizi

Bu yazı zihnimde olgunlaşırken bir saat kadar önce bir konuşma izledim ve bunu da bu yazıya dahil etmem gerektiğini düşündüm. Konumuz, dünyanın ilerlediği yön ve veri analizinin dünyada nasıl algılandığı/geliştiği.

O'Reilly tarafından yürütülen kapsamlı bir anket çalışmasının sonuçları birkaç gün önce yayınlandı. Konu, veri analizi odaklı veya veri analizini içeren kariyerlere sahip profesyonellerin ortalama ne kadar maaş aldıkları, hangi programlama araçlarını kullandıkları ve trendler. Bu çalışmanın iki açıdan çok önemli olduğunu düşünüyorum. İlki, mevcut durum tespiti yapması. İkincisi ise, gelecekte veri analiziyle bağlantılı bir kariyere sahip olmak isteyenlerin (evet, biyoinformatik de veri analiziyle doğrudan bağlantılı bir kariyerdir) ne tür yetenekler geliştirmesi gerektiği hakkında önemli ipuçları vermesi. Bu raporu mümkün olduğunca özetlemeye çalışacağım, orjinaline buradan ulaşabilirsiniz.

İşin magazinsel ve ilgi çekici kısmından başlayayım: ABD'de veri analiziyle uğraşan ve kullandığı veri analizi aracı çeşidi 10'a kadar çıkan bir çalışanın elde ettiği brüt yıllık kazanç ortalama 100.000 $. Yani ortalama aylık 6.000 $'lık bir net maaştan söz ediyoruz. Bu ortalama kazanç, daha yeni ve özelleşmiş diğer programlama araçlarının da kullanılmasıyla 150.000 $'a kadar çıkıyor, yani aylık ortalama 9.000 $'dan bahsedebiliriz. Alım gücü farkı göz önüne alındığında, bu rakamların TL muadillerini elde etmek için 1,5 ile çarpmak yaklaşık bir fikir verecektir bizlere. 

13 Ocak 2014 Pazartesi

Birinci Yıl Biterken İstatistikler ve Yorumlar

Biyoinformatik üzerine Türkçe yazılar paylaşmaya başlayalı bir sene oldu. Bu süre zarfında hangi yazıların daha fazla okunduğu, arandığı ve takip edildiğine ilişkin istatistikleri sizlerle paylaşmak istiyorum. Bu istatistikleri, önümüzdeki yıl ne tür yazıların daha faydalı olabileceği doğrultusunda yorumlayarak yönümü buna göre belirlemeyi istiyorum. Ne demişler, ölçmezsen yönetemezsin.

Bu yazıyı hazırlamaya başladığım an itibariyle 71 yazı yayınlanmış, blogun toplam sayfa görüntülenme sayısı 21,702. Yazıların 11'i Deniz Ağırdan tarafından hazırlandı, 60'ını ise ben yazdım. Ortalama sayfa görüntülemesi açısından bakıldığında Deniz Ağırdan'ın yazılarıyla benim yazılarımın görüntülenme ortalaması neredeyse aynı. Toplam sayfa görüntülemelerinin yaklaşık %15'i sayfaya bir göz atıp geri çıkma şeklinde gerçekleşmiş, bunun iki temel nedeni olduğunu düşünüyorum: ya yeni yazı var mı diye kontrol etmek için, ya da ziyaretçinin bir arama sonucu sayfaya yönlendirilmesi ancak sayfanın ilgisini çekmemesi. Bunları çıkarınca yazı başına ortalama görüntülenme sayısı 260 oluyor. Tahminimce bu blogun daimi takipçi sayısı da 200 civarında.

2 Ocak 2014 Perşembe

Primer Tasarımı - 4 (BLAST ve Primer-BLAST)

Primer tasarımı üzerine paylaştığım yazı dizisinin son yazısıyla başlıyorum yeni yıla. Bu yazıda, primer tasarımının son halkası olan BLAST'tan (yani tasarlanan primerlerin genomda nerelere isabet edebileceğinden) ve bu doğrultuda hazırlanmış çok kullanışlı bir programdan bahsedeceğim. Önemli noktalara değinebilmek adına biraz uzun bir yazı hazırladım ancak sonuna kadar sabırla okuduğunuzda buna değecektir.