14 Mart 2013 Perşembe

Biyoinformatik ve Veri Analizi - 4


"İnsanlar dünyanın düz olduğuna inandıkları zamanlarda haksızdılar. Dünyanın küre şeklinde olduğunu düşündüklerinde de haksızdırlar. Fakat eğer dünyanın küre şeklinde olduğuna inanmanın, düz olduğuna inanmak kadar yanlış olduğunu düşünüyorsanız, sizin bakış açınız bu kişinin toplamından daha yanlıştır." Isaac Asimov

Dünyanın geoit bir yapıya sahip olduğunu gelişmiş teknoloji ve bilim sayesinde biliyoruz. Geçmiş zamanlarda ise bunu bilmek zordu. Veri çok azdı ve kısıtlı araçlar ile çalışmalar sürdürülmekteydi. Günümüzde de bazı istatistiksel çalışmalarda bu durumla karşı karşıya gelebiliyoruz. Örneklemin az sayıda olması, verinin aykırı değerler içermesi, yanlış yöntemlerin seçilmesi gibi nedenlerden dolayı dünyanın düz bir şekle sahip olduğu sonucuna varıyoruz. İyi bir çalışmada bile geoit sonucuna varamasak da küre şeklinde olduğuna dair yorum getirmemiz çok değerli bilgileri sunar. İstatistiğin aslında tanımından gelen bir varsayım ile (yanılma payı) geoit olması göz ardı edilebilir olması uygulamada kullanılabilirliği avantajını sağlar.

Matematiksel model: y=a+bx


İstatistiksel model:     y=a+bx+ε


İstatistiğin matematikten farkı yanılma payı (ε) ile başlar. Belli bir yanılma ile hipotezlerini test eder. Modeldeki hata terimi sayesinde belirli bir güven düzeyi içerisinde dünyanın küre şekli olduğunu kabul etmemizi sağlar. Güven aralığı sayesinde zaman zaman geoit olabileceğini ama çoğunlukla küre şekline benzediğini söyleyebileceğini de not düşmek lazım. Yanılma payını (hatayı) ilerideki yazılarımda biraz daha detaylı açıklayacağım.

Örneklemin az sayıda olması, verinin aykırı değerlere sahip olması ve yanlış yöntemlerin seçiminin ne demek olduğunun anlaşılır olması için örnekle açıklama yapmanın daha faydalı olacağını düşünüyorum.



Örnek
Bir hastalığa ait genin hastalık durumunda gen ifade düzeyini incelemek istiyoruz diyelim.



Örneklem
X geni(sağlıklı)
X geni(hasta)
1
15
75
2
25
50
3
13
10
4
54
500
5
12
30
6
35
40
7
41
35

İlk öncelikle veriye çıkarımsal istatistik yöntemleri uygulamadan sadece tanımlayıcı istatistiklerle basitçe açıklama yapacağım. Excel'de fonksiyonları kullanarak siz de çok hızlıca yapabilirsiniz.

Ortalama (mean)
27,85
105,71
Ortanca (median)
25
40
Standart hata (std. error)
6,08
66,13


Genel bir bakışta 4. gözlemimizde gen ifadesi seviyesinin diğer örnekler arasında çok fazla farklılık gösterdiğini görüyoruz. Yanlış ölçülmüş olabilir ya da gerçek değeri de olabilir bilemiyoruz. Bunu örneklem kümemizi arttırarak daha güvenli yorum yapabiliriz. Ortalamalar üzerinden konuşursak; ortalama denince genellikle aritmetik ortalama ilk akla gelendir. Aritmetik ortalama en çok bilinen ve yaygın olarak kullanılan bir ortalamadır. Her gözlemin değerinden etkilendiği için aykırı ve uç değerlere karşı çok duyarlıdır. Örneğimizde de uç değerden etkilenmiştir. Standart hata da aritmetik hatanın azizliğine uğramış ve payını o da almıştır. Oysa böyle bir veride medyan güvenilir bir merkezi eğilim ölçüsüdür.

Kutu çizimi (Box plot) yaparak da uç değerlerin varlığını görebiliriz. Box plot medyandan yararlanarak çizim yapar. Her gözlemden etkilenmediği için ilk bakışta verimiz hakkında genel resmi çıkarması açısından sıklıkla yararlanır.



Sözün özü:
Girişte alıntıda, Isaac Asimov sözün özünü gayet güzel açıklamış aslında.