18 Temmuz 2013 Perşembe

İstatistiksel Model ile Hastalıkların Önceden Tahmini

Biyoinformatik biliminin en çok katkısı olacağı alanlardan biri de şüphesiz tıp olacaktır. Genleri ve proteinleri inceleyerek hastalık daha oluşmadan teşhisinin yapılması fikri çok etkileyici. Tabi teşhisi yanında gen terapisi gibi yöntemlerle sorunun kaynağına inilerek düzeltilmesi kesin çözüm olabilir. Açıkçası bu konudaki çalışmalar tam olarak nedir bilmiyorum. Bundan ziyade beni heyecanlandıran kısmı, gen ifade düzeylerinin istatistiksel modeller yardımıyla incelenerek hastalıklar daha oluşmadan teşhisi. Tabi ki hastalığın oluşmasının son kararı proteinlerden geçiyor. Bu sebeple proteinlerin yapılarının önceden kestirimleri de önemli çalışma konularındandır. Fakat gen ifadesi analizleri verisi kullanılarak kurulan modeller başlangıç açısından çok faydalıdır.

Model kurmayı sadece istatistiksel yöntemlerle sınırlandırmak yanlış olur. Yapay öğrenme metodlarına da sıkça başvurulur. Yapılan bazı çalışmalarda gen ifade verileri kullanılarak kurulan modellerde neredeyse %100'e yakın doğru kestirimler yapıldığı görülmektedir. 

Hasta ve sağlıklı gibi iki sınıftan oluşan verilerde hasta ve sağlıklı bireyleri tahmin edebilmek için bazı sınıflandırma yöntemleri vardır. Bunlardan bazıları; lojistik regresyon analizi, diskriminant analizi ve bayescil yöntemlerdir. Bu sınıflandırma yöntemlerinin yani hastalığın önceden bilinebilmesi için kurulmaya çalışan istatistiksel modeli saptayabilmek için veriden öğrenme gerçekleştirilmelidir. Biraz daha açarsak,  elimizde olan veride gerçekte hasta ve sağlıklı bireylerin bilgisi vardır. Bu sınıf bilgisi ve değişkenlerin bilgisi kullanılarak bir kestirim modeli kurulur. Bu sayede örneğin 5 tane genin hastalıkta ilişkisi olduğunu düşündüğünüz genleri kullanarak hasta veya sağlıklıdır diye kestirim yapılabilir. 

Sınıflandırma yöntemlerinin kullanılabilmesi için sınıf bilgisinin kesinlikle olması gerekir. Bu bilgiye sahip olmak çok değerlidir. Sınıf bilgisine sahip olmadığımız durumlarda ise kümeleme yöntemleri kullanılır. Kümeleme analizi, sınıflandırmaya göre istatistiksel açıdan biraz daha havada kalan bir yöntemdir. Sebebi de alt yapısında sağlam bir istatistiksel teoriye sahip olmamasından kaynaklanır. Kümeleme analizlerinde genellikle uzaklık ölçüm birimleri kullanılarak analizler yapılır. Benzer gözlemleri kümelemek için kullanılır. 

Özellikle mikrodizi gen ifadesi analizlerinde bundan önceki yazımda anlattığım öznitelik seçimi dahil, sınıflandırma ve kümeleme analizlerine sıkça başvurulur. Buna benzer yöntemleri kullanarak genetiksel hastalıklara yakalanma riskini hesaplayan ve hizmet veren şirketler var. 23andme bu hizmeti veren bir şirket bildiğim kadarıyla. 

Bu yazımda anlattığım yöntemlerin hangi durumda kullanıldığının anlaşılması açısından 10. İstatistik Öğrenci Kolokyumu'nda sunduğum "Biyoinformatik ve Mikrodizi Gen İfadesi Analizi" adlı bildirimden örnek vermek istiyorum. 

Elimde NCBI veri tabanından aldığım meme kanseri hastalarına ve sağlıklı bireylere ait mikrodizi gen ifadesi verisi vardı. Araştırmak istediğim; meme kanserine hangi genlerin sebep olduğunu bulabilmek ve veriyi iyi açıklayan genlerle çalışarak bir model kurmaktı. Bu model ile kestirim yaparak modelde kullandığım değişkenin ve sınıflandırma yönteminin başarısını ölçmekti. 

Verim bazı gürültüleri içerdiği için bu gürültülerden kurtulmak için RMA normalizasyon yöntemi kullandım. Gürültülerden büyük oranda kurtulduktan sonra binlerce değişkenle modeli kurmak hatayı arttıracağından, veriyi en iyi açıklayan yani meme kanseriyle ilişkisi olan genleri bulabilmek için öznitelik seçimi yöntemlerinden t-istatistiğini kullandım. Skorlama yapıp meme kanserine sebep olan en önemli genden daha az önemli gene doğru sıraladıktan sonra. 10, 50, ... , 2000 'er en iyi gen alt kümeleri oluşturarak lojistik regresyon ve naive bayes sınıflayıcısı ile model kurdum. Başarı %'lerini karşılaştırdım. Aşağıdaki tabloda orjinal sonuçlar vardır.




Bu çalışmada naive bayes sınıflayıcısı lojistik regresyona göre daha başarılı bir sınıflandırma yapmıştır. Naive bayes sınıflandırıcısında en önemli 10 tane gen %86.3 oranında doğru sınıflandırma yaparken, lojistik regresyon en önemli 10 tane gen ile %76.8 oranında doğru kestirim yapmıştır.

Aşağıda ise sınıflandırma yönteminin çalışma prensibini anlayabilmek için güzel bir grafik var. Mavi olanlar gerçekte hasta olanlar siyah olanlar ise gerçekte sağlıklı bireylerdir. Modelimiz yani hasta ve hasta değil şeklinde kestirim yapan modelimiz ise kırmızı çizgidir. Kırmızı çizginin solunda kalana hasta sağında kalana ise sağlıklı olarak atama yapıyor. Fakat modelimizde hatalar olduğu başarı tablomuzdan da bildiğimizi gibi gözükmektedir. Gerçek hasta olan bir kaç gözlem hasta değil olarak, gerçekte hasta olmayan bazı gözlemler ise hasta olarak kestirilmiştir.