Hipotez
testlerinde sıklıkla kullanılan t-testinin keşfinin aslında ilginç bir öyküsü
var. 1900'lü yılların başında Guinness bira
fabrikası kaliteli bira üretimini arttırarak diğer üreticilerden farklılaşmak
istiyordu. Guinness bira fabrikasında kimyager olarak çalışan William Gosset de
bu yüzden biranın tadını geliştirmeye çalışıyordu. Şimdiye kadar üretilen
biralarla kendi geliştirdiği biralar arasındaki kaliteyi ölçmek için örnekler
aldı. Kimyasal analizler yaptıktan sonra örnek aldığı biraların kıvamlarını
karşılaştırdı. O zamanlar örneklemler üzerinden karşılaştıracak uygun bir
istatistik testi bulunmadığı için kendisi küçük örneklemler için kullanılacak
bir test geliştirdi. Gosset daha sonra bulduğu bu testi yayınlamak istedi fakat Guinness
diğer bira üreticilerinde bu testin kullanılacağı düşüncesiyle karşı çıktı (O günün şartıyla düşünürsek Guinness adı altında geliştirdiği için
telif hakkı Guinness’a aitti diyebiliriz). Sonunda Guinness ve Gosset, makalenin Gosset’in takma adı altında yayınlaması koşuluyla, anlaştılar ve “Student” takma adıyla test yayınladı (Böylece t-testinin bira üretiminin kalite kontrolünde kullanıldığı saklanmış oldu). Bu sebeple
t-testi, Student’s t testi olarak da bilinir.
T-testi
adını “student” kelimesinin son harfinden almaktadır. T dağılımdan yararlanılarak
hesaplanır. Anakütlenin normal dağılımdan geldiği şartı altında ve 30’dan küçük
gözlemlerde kullanılır. Gosset’in makalesinde, eğer örnek aldığımız kütle normal
dağılıyorsa t istatistiğinin örneklem dağılımının normal dağılıma benzeyeceği söylenilmektedir.
T-testi
tek örnekleme ilişkin ortalamanın testinde ya da iki grup arasında farkın olup
olmadığı gibi durumlar incelenmek istendiğinde kullanılır. Biyoinformatikte ise
genellikle ikinci dediğim durumla karşılaşılır. Örneğin bir hastalık için belirli bir genin, gen ifade düzeylerinin, hasta ile sağlıklı kişiler arasında ifade düzeylerinin anlamlı bir fark olup olmadığı incelenmek istendiğinde kullanılabilir. Başka amaçlarla, gen
seçiminde ya da boyut
azaltmak ( anlamsız değişkenleri elemek ) için de kullanılabilir.
T
ve z testleri (Gauss) birbirine çok benzer. Anakütleye ait parametrelerin bilindiği
durumlarda kullanılır fakat gerçek hayatta anakütleye ait parametrelerin
bilinmesi çok nadir olduğu için örneklemin 30’dan büyük olduğu durumlarda
örnekleme ait istatistikler kullanılabilir. Uygulamalarda göstermektedir ki
gözlem sayısı 30’u aştığında örneklem istatistikleri anakütle parametre
değerlerine oldukça yaklaşmaktadır. T-testi bir düzeltme terimine sahip olduğu
için de örneklemin az olduğu durumlarda kullanılır. Fakat değişkenliği z-testine
göre daha geniş olduğu unutulmamalıdır.
T-testinin
bazı varsayımları sağlanmadığında alternatif testleri de mevcuttur. Onlardan da
ilerideki yazılarımda bahsedeceğim.
Sözün özü
T-testi
örneklemin az olduğu ve normallik varsayımı şartı altında kullanılan bir
hipotez testidir. Biyoinformatikte genellikle iki grubun, incelenen değişkene göre
farklılık gösterip göstermediği test edilir.