Bu yazımda,istatistiksel testlerden ki-kare dağılımından bahsedeceğim.
Ki-Kare Dağılımı
İstatistikte önemli diğer bir sürekli dağılım ki-kare dağılımıdır.Normal dağılım istatistikte önemli bir dağılım olduğu için,normal dağılımlı kitlelerden alınan örneklemler üzerinden tanımlı istatistiklerin örneklem dağılımları çok önemlidir.Normal dağılımdan alınan örneklemler için en çok kullanılan örneklem dağılımlarından biri de ki-kare dağılımıdır.
Ki-kare Dağılımın Özellikleri Ve Varsayımları
- Ki kare değişkeni 0 ile sonsuz arasında dağılım gösteren tek taraflı bir değişkendir.
-
Ortalaması μ ve standart sapması σ olan normal dağılan bir popülasyondan çekilen her bir değeri X değeri için (X-μ)/σ şeklinde hesaplanark k tane bağımsız Z değerinin karelerinin toplamının gösterdiği dağılı ki-kare dağılımı oluşur.
- Gruplar bibirinden bağımsız olmalıdır.BAğımlı gruplara ki-kare testi yerine Mc-Nemar testi uygulanır.
-
Ki kare dağılımı süreklidir.Beklenen frekanslardan herhangi biri 5’den küçük ise dağılım kesikli ya da çarpık olur.Bu yüzden test sonucu elde edilen ki-kare değeri ki-kare dağılımına uygunluk göstermez. Böyle durumlarda aşağıdaki yollar uygulanır.
-
2x2 çapraz tablo: Fisher’in kesin ki-kare testi
-
2xc,rx2 ya da rxc çapraz tablo: Ki-kare testi uygulamak isteniyorsa satır ya da sütun birleştirilerek 5’den küçük değerin ortadan kaldırılmasına çalışılır.
-
Ki-kare Dağılımını Hangi Durumlarda Kullanırız ?
-
Değişkenlerin tümü kategorik olduğunda
-
Bağımsızlık kontrolü
-
Gruplar arası fark konrtolü
-
Uyum iyiliği testi
Ki-kare Testinin Uygulanması
Nitel yapıdaki iki değişkenin birlikte dağılımını veren RxC boyutlu çapraz tabloların analizinde ki-kare testi uygulanmaktadır.Burada R(r) satırdaki değişkenin düzey sayısını C(c) ise sütundaki değişkenin düzey sayısını ifade etmektedir. RxC boyutlu çapraz tabloların analizinde araştırmanın hedefine bağlı olarak iki temel analiz söz konusudur.Bunlardan 1.Bağımsızlık Kontrolü, 2.Gruplar Arası Fark Kontrolüdür
Bağımsızlık kontrolünde,satır ve sütun değişkenler arasında ilişkinin analizi söz konusu iken,gruplar arası fark kontrolünde bir değişken bakımından diğer değişkenin düzeyleri arasında fark olup olmadığı incelenmektedir.Bu iki analiz arasındaki farklılıklar olsa da iki analizde de aynı ki-kare testi kullanılmaktadır.Farklılıklar kurulacak olan Ho hipotezi ve Ho reddedilği takdirde izlenecek olan yoldur.
Ki-kare testi formulü:
1.RxC Çapraz Tablolarda Bağımsızlık Kontrolü:
- Çapraz tabloda bir kitleden alınan bir örneklemin düzeylere göre incelenmesinden oluşuyor ise bağımsızlık kontrolü yapılır.
- Test süreci, gruplar arası fark kontrolü ile aynıdır.Ancak hipotez ifadeleri değişir.
-
Hipotezler
1 2 3 4
Ho: Değişkenler arasında ilişki yoktur. H1: Değişkenler arasında ilişki vardır.
biçiminde kurulur.Testin diğer adımları aynıdır.Eğer test sonucu hipotez reddedilirse yani incelenen değişkenler arasında ilişki olduğu söylenebilir.Bu durumda değişkenler arasında ilişki katsayısı hesaplanır.
İlişki Katsayıları
- Bağımsızlık kontrolünde hipotez reddedilirse değişkenler arasındaki ilişki katsayısı hesaplanır.Hesaplanan ilişki katsayıları değişkenlerin ordinal(sıralanabilir) ya da nominal(sınıflanabilir) olmasına göre farklılık gösterir.
-
Değişkenlerin her ikisi nominal olduğunda (nominal-nominal ) kulanılan ilişki katsayıları;
- Pearson’n C katsayısı
- Cramer’in V katsayısı
- Phi katsayısı
- Değişkenlerin her ikiside ordinal ya da nominal- ordinal olduğunda kullanılan ilişki katsayıları;
- Gamma
- Kendall’s Tau b
- Kendall’s Tau c
İlişki Katsayısının Önem Kontrolü Hesaplanan ilişki katsayılarının istatistiksel olarak anlamlı olup olmadığıda test edilebilir. θ bir ilişki katsayısını göstersin;
1
Ho: θ = 0 şeklinde kurulan yokluk hipozetezi
Yokluk hpotezinin dğruluğu altında Z standart normal dağılım gösterir.Bu durumda | Z | >Zα/2 ise Ho reddedilir. p değeri α ile karşılatırılır.P<α ise ilişki katsayısı önemlidir. |
Örnek
Türkiye’de evliliklerinde eşlerin eğitim durumlarına önem verdikleri,eş seçimlerinde kendi eğitim durumlarına eşit eğitim durumuna sahip eşler seçme eğilimi gösterdikleri ileri sürülmektedir.Bu savı denetlemek için yapılan bir eğitim düzeyi araştırmasında rasgele seçilen 200 ailede eşlerin eğitim durumlarına göre verileri aşağıdaki gibidir.Eşlerin eğitim durumları birbirinden bağımsız mıdır? %95 güven düzeyinde test ediniz.
Çözüm
Beklenen Sıklıkları hesaplamak için her göze için ; bulunduğu satır toplamı * bulunduğu sütun toplamı / Genel toplam
Yukarıdaki toplada beklenen her göze için beklenen frekanslar hesaplanmıştır.
Ki-kare formül yoluyla bulabilirsiniz.Sizlere pythonda nasıl yapılacağını göstereceğim.
1
2
3
4
5
6
import researchpy, pandas ,numpy
df = pandas.DataFrame(numpy.random.randint(3, size= (200, 3)),
columns= ['erkek', 'severity', 'kadın'])
researchpy.crosstab(df['erkek'],df['kadın'],test='chi-square')
Sonuç, yokluk hipotezini değişkenler arasında ilişki yoktur diye kurmuştuk.(Eşlerin eğitim durumları arasında ilişki yoktur.) p-value 0.05’den büyük olduğu için Ho hipotezi reddedilemez olduğunu 0.05 yanılma payıyla söylenebilir.Eğer ki aralarındaki ilişki önemli olsaydı ilişki katsayısını hesaplamamız gerekirdi.
2-2x2 Çapraz Tabloda Ki-kare Testi: Örnek üzerinden anlatacağım.Bir hastanede muayene edilen 176 hastanın sigara içme durumu ile akciğer kanseri olması arasındaki ilişki incelenmek istenmektedir.Hastalara ait veriler aşağıda verilmiş ve gerekli çözümlemeyi yapınız.
Beklenen frekansları yine aynı şekilde buluyoruz.
2x2 çapraz tabloda en az bir gözlenen sıklık 5’ten küçük olduğu için Fisher’in Exact testi ile ilgili değerler yorumlanır.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
from scipy.stats import fisher_exact
# Örnek veri seti
# Kanser Var Kanser Yok
# Sigara İçiyor: 82 15
# Sigara İçmiyor: 4 75
# İki grup arasındaki ilişkiyi değerlendirmek için Fisher's exact testi
contingency_table = [[82, 15], [4, 75]]
odds_ratio, p_value = fisher_exact(contingency_table)
print("Odds Ratio:", odds_ratio)
print("p-value:", p_value)
Output:
Odds Ratio: 102.5
p-value: 4.5642139755146983e-29
1
2
3
Ho:Sigara içme durumu ve kanser olup olmama arasında ilişki yoktur.
H1:Sigara içme durumu ve kanser olup olmama arasında ilişki vardır.
Fisher kesin olasılık testi sonucuna göre Ho hipotezi reddedilir (p<0.001).Sigara ve Kanser değişkenleri arasında istatistiksel olarak anlamlı bir ilişki bulunmuştur.
Sınıflanabilir kategorik değişkenler arasındaki ilişkininn derecesini incelemek için Phi ve Cramer V ilişki katsayılarının sonuçları verilmiştir.
1
2
3
4
5
6
7
8
9
10
11
# Phi katsayısını hesapla
def phi_coefficient(table):
a = table[0][0]
b = table[0][1]
c = table[1][0]
d = table[1][1]
return (a*d - b*c) / sqrt((a+b)*(c+d)*(a+c)*(b+d))
phi = phi_coefficient(contingency_table)
print("Phi Coefficient:", phi)
Yorum, Phi Coefficient: 0.7907649284913115 sigara ve kanser değişkenleri arasında güçlü derecede (%79) ve istatistiksel olarak anlamlı bir ilişki vardır. Sigara ve Kanser değişkenlerine ait çapraz tabşo üzerinden hesaplan odds oranı 102,5 olarak bulunmuştur.Sigara içen hastaların sigara içmeyenlere göre,kansere yakalanma olasılığı kansere yakalanmama olasılığından 102,5 kat daha fazladır.(Sigara içen hastaların kansere yakalanma riski,sigara içmeyenlere göre 102,5 kat daha fazladır.)
3-Uyum İyiliği Analizi: Uyum analizi, aynı zamanda uygunluk analizi olarak bilinir.İki ya da daha fazla kategorik değişken arasındaki ilişkilerin çok boyutlu uzayda grafiksel olarak ifade edildiği bir yöntemdir.Dağılımın gözlenen dağılım arasındaki farklılık olup olmadığını test edilmektedir.
Uyum İyiliği Testi Adımları:
1. Yokluk(H0) ve alternatif(H1) hipotezler kurulur.
2. Rasgele örneklem seçilir ve k sınıf için gözlenen sıklık (fi) kaydedilir.
3. Dağılımdan yararlanarak önce kuramsal olasılıkları (pi) ve sonrasında beklenen(kuramsal) sıklıklar (ei) hesaplanır.
1
Beklenen sıklık(ei): Her sınıf için örneklem büyüklüğü ile olasılığın çarpımı ile hesaplanır.
4. k:sınıf sayısı üzerinden test istatistiği hesaplanır.
5.
Kaynakça
-
Previous
Öneri Sistemleri Hakkında -
Next
Destek Vektör Makinesi Algoritması (Support Vector Machine)🤖