23 Mart 2013 Cumartesi

T-Testi ve Guinness Biraları



Hipotez testlerinde sıklıkla kullanılan t-testinin keşfinin aslında ilginç bir öyküsü var.  1900'lü yılların başında Guinness bira fabrikası kaliteli bira üretimini arttırarak diğer üreticilerden farklılaşmak istiyordu. Guinness bira fabrikasında kimyager olarak çalışan William Gosset de bu yüzden biranın tadını geliştirmeye çalışıyordu. Şimdiye kadar üretilen biralarla kendi geliştirdiği biralar arasındaki kaliteyi ölçmek için örnekler aldı. Kimyasal analizler yaptıktan sonra örnek aldığı biraların kıvamlarını karşılaştırdı. O zamanlar örneklemler üzerinden karşılaştıracak uygun bir istatistik testi bulunmadığı için kendisi küçük örneklemler için kullanılacak bir test geliştirdi. Gosset daha sonra  bulduğu bu testi yayınlamak istedi fakat Guinness diğer bira üreticilerinde bu testin kullanılacağı düşüncesiyle karşı çıktı (O günün şartıyla düşünürsek Guinness adı altında geliştirdiği için telif hakkı Guinness’a aitti diyebiliriz). Sonunda Guinness ve Gosset, makalenin Gosset’in  takma adı altında yayınlaması koşuluyla, anlaştılar ve “Student” takma adıyla test yayınladı (Böylece t-testinin bira üretiminin kalite kontrolünde kullanıldığı saklanmış oldu). Bu sebeple t-testi, Student’s t testi olarak da bilinir.  

T-testi adını “student” kelimesinin son harfinden almaktadır. T dağılımdan yararlanılarak hesaplanır. Anakütlenin normal dağılımdan geldiği şartı altında ve 30’dan küçük gözlemlerde kullanılır. Gosset’in makalesinde, eğer örnek aldığımız kütle normal dağılıyorsa t istatistiğinin örneklem dağılımının normal dağılıma benzeyeceği söylenilmektedir.

T-testi tek örnekleme ilişkin ortalamanın testinde ya da iki grup arasında farkın olup olmadığı gibi durumlar incelenmek istendiğinde kullanılır. Biyoinformatikte ise genellikle ikinci dediğim durumla karşılaşılır. Örneğin bir hastalık için belirli bir genin, gen ifade düzeylerinin, hasta ile sağlıklı kişiler arasında ifade düzeylerinin anlamlı bir fark olup olmadığı incelenmek istendiğinde kullanılabilir. Başka amaçlarla, gen seçiminde ya da boyut azaltmak ( anlamsız değişkenleri elemek ) için de kullanılabilir.

T ve z testleri (Gauss) birbirine çok benzer. Anakütleye ait parametrelerin bilindiği durumlarda kullanılır fakat gerçek hayatta anakütleye ait parametrelerin bilinmesi çok nadir olduğu için örneklemin 30’dan büyük olduğu durumlarda örnekleme ait istatistikler kullanılabilir. Uygulamalarda göstermektedir ki gözlem sayısı 30’u aştığında örneklem istatistikleri anakütle parametre değerlerine oldukça yaklaşmaktadır. T-testi bir düzeltme terimine sahip olduğu için de örneklemin az olduğu durumlarda kullanılır. Fakat değişkenliği z-testine göre daha geniş olduğu unutulmamalıdır.

T-testinin bazı varsayımları sağlanmadığında alternatif testleri de mevcuttur. Onlardan da ilerideki yazılarımda bahsedeceğim.

Sözün özü
T-testi örneklemin az olduğu ve normallik varsayımı şartı altında kullanılan bir hipotez testidir. Biyoinformatikte genellikle iki grubun, incelenen değişkene göre farklılık gösterip göstermediği test edilir.