Rastlantının Düzeni: Normal Dağılım (Gauss Distribution)

İstatistiksel analizlerde sıklıkla karşımıza çıkan normal dağılım, veri setlerinin dağılımını açıklamak ve analiz etmek için kritik öneme sahiptir. Çoğu zaman çan eğrisi olarak adlandırılan bu dağılım, istatistik dünyasının temel taşı olarak kabul edilir.Peki, normal dağılım nedir ve neden bu kadar önemlidir?.

Posted by Şuheda Karabudak on October 24, 2023

Normal Dağılım Nedir?

Normal dağılımın ne demek olduğundan bahsetmeden önce dağılım kavramına bakalım. Dağılım, bir veri kümesindeki değerlerin nasıl dağıldığına ilişkin bir ölçüdür.Bir veri setinin merkezi eğiliminden (ortalama veya medyan) ve verilerin varyansından farklı bir perspektif sağlar.Bir dağılımın şekli,simetrik olup olmadığı, zirvenin konumu, kuyrukların uzunluğu ve verilerin ortalamaya göre ne kadar yayıldığı gibi faktörler,verilerin analiz ve sonuçların yorumlanması için önemlidir.Bazı yaygın dağılım türleri arasında normal dağılım, poisson dağılımı,binom dağılımı ve uniform dağılım bulunmaktadır. Normal dağılıma geçmeden önce bir kavramı daha açıklamak istiyorum.

Bu da Olasılık dağılımı, rastgele bir değişkenin alabileceği olası değerleri elde etme olasılığını tanımlayan istatistiksel bir fonksiyondur.Bununla, bir parametreden rastgele değerler aldığımızda alabileceği değer aralığını kastediyoruz.Bir olasılık dağılımı kesikli ya da sürekli olabilir.Sürekli olasılık dağılımları içinde en önemlisi normal dağılımdır.

Normal dağılım eğrisi simetrik ve çan şeklindedir. Normal dağılım eğrisinin ortasında en yüksek frekansı gösteren puan, uçlarda ise daha az frekans gösteren puanlar yer almaktadır. Normallik test edilirken betimsel istatistiklerden (çarpıklık ve basıklık katsayıları vb.), grafiklerden (normal dağılım eğrisi ile histogram, normal Q-Q grafiği,gövde-yaprak diyagramı,boxplot vb.) ya da hipotez testlerinden (KolmogorovSmirnov, Shapiro Wilk vb.) yararlanılmaktadır (Pituch ve Stevens, 2016). Literatürde tek değişkenli normalliğin belirlenmesinde kullanılabilecek yaklaşık 40 yöntemden söz edilmektedir(Thode, 2002).

Tanımlama

  • f(x) = olasılık fonksiyonu
  • x = değişken değeri
  • μ = ortalama
  • σ = standart sapma
  • σ2 = varyans
  • e ≈ 2.718
  • π ≈ 3.14

Normal Dağılımın Özellikleri

  1. Normalliğin iki bileşeninin çarpıklık ve basıklık olduğu belirtilebilir.
    • Çarpıklık dağılımların simetrik olma durumuyla ilgili olup eğer dağılımın ortalaması 0’ın sağında ve puanlar sağa yığılmışsa dağılım sola çarpık (kuyruk solda uzun, negatif çarpık), solunda ise dağılım sağa çarpıktır (kuyruk sağda uzun, pozitif çarpık). Şekilde sırasıyla sola çarpık, normal ve sağa çarpık üç eğri yer almaktadır.
    • Basıklık ise dağılımın sivriliği ile ilgili olup sivri (basıklık değeri 0’ın üzerindeyse) ya da neredeyse düz (basıklık değeri 0’ın altında, kuyruklarda veri yoğunluğu fazla) dağılımlarla karşılaşılabilmektedir.Çarpıklık ve basıklık 0 olduğunda ise dağılımın normal olduğu belirtilebilir.

Screenshot from 2023-10-24 14-59-07

2.%68-95-99.7 kuralı, istatistiksel olarak normal dağılıma sahip bir veri setinin belirli aralıklarda yoğunlaşma eğilimini ifade eden bir kuraldır.

  • %68 kısmı, normal dağılımın ortalama değeri etrafında, bir standart sapma mesafesinde bulunan veri noktalarını içerir. Bu, dağılımın simetrik yapısının bir sonucudur. Yani, verilerin büyük çoğunluğu ortalama değere yakın bir aralıkta bulunur.
  • %95 kısmı, normal dağılımın ortalama etrafında iki standart sapma mesafesindeki veri noktalarını içerir. Bu bölge, %68 bölgesine ek olarak daha geniş bir aralığı kapsar.
  • %99.7 kısmı, normal dağılımın ortalama etrafında üç standart sapma mesafesindeki veri noktalarını içerir.Bu bölge, dağılımın genişliğinin ve veri noktalarının yayılmasının daha geniş bir göstergesidir.

Screenshot from 2023-10-24 15-13-20

3.Standart Normal Dağılım μ=0 ve σ =1 olan özel bir normal dağılımdır. Standart Normal Dağılım’ın her zaman orta noktası (μ) 0’dır ve aralıklar birer birer artar. Standart normal dağılıma ihtiyaç duyulmasının nedenlerinden biri veri setlerini standart normal dağılıma dönüştürmek, farklı veri setlerini karşılaştırmak veya analiz etmek için kolaylık sağlar. Bu dönüşüm, verilerin ortalamasını 0 ve standart sapmasını 1 olarak standartlaştırarak, veri setlerinin aynı ölçekte ve karşılaştırılabilir hale gelmesini sağlar.

4.Merkezi Limit Teoremi: Normal dağılım, merkezi limit teoreminin temelini oluşturur. Bu teorem, birçok rastgele değişkenin toplamının (veya ortalamasının) normal dağılıma yaklaştığını belirtir. Bu, istatistiksel analizlerde büyük önem taşır çünkü bu teorem, örnekleme dağılımlarının normal dağılıma yaklaşması nedeniyle, bir popülasyonun parametrelerinin tahmin edilmesinde ve hipotez testlerinde kullanılır.

Normal Dağılım Testleri

Normallik değerlendirilirken hipotez testlerinden yararlanılabilmektedir. Kolmogorov-Smirnov ve Shapiro-Wilk testlerinin yer aldığı görülmektedir. Kolmogorov-Smirnov testinde eğer dağılım normal ise sonuçların anlamlı çıkmaması beklenmektedir. Yani sıfır hipotezi reddedilmelidir. Nitekim bu durum dağılımın normalliğini göstermektedir. Ancak Kolmogorov-Smirnov yöntemi örneklem büyüdüğünde normalliği reddetme eğilimine girmektedir. Shapiro Wilk yönteminin ise sadece küçük örneklemlerde istatistiksel olarak güçlü olduğu bilinmektedir Ancak hipotez testleri yukarıda sözü edilen iki test ile sınırlı değildir.

Python da rasgele 0 ile 1 arasında veri setleri oluşturarak testleri uygulayalım.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
from scipy import stats
import numpy as np
import matplotlib.pyplot as plt

# Shapiro-Wilk testi için örneklem sayısı
shapiro_sample_size = 30

# Kolmogorov-Smirnov testi için örneklem sayısı
ks_sample_size = 100

# Örnek veri oluştur
shapiro_data = np.random.normal(0, 1, shapiro_sample_size)
ks_data = np.random.normal(0, 1, ks_sample_size)

# Shapiro-Wilk testi
shapiro_test_stat, shapiro_p_value = stats.shapiro(shapiro_data)
print(f"Shapiro-Wilk Test Sonucu - Test İstatistiği: {shapiro_test_stat}, p-değer: {shapiro_p_value}")

# Kolmogorov-Smirnov testi
ks_test_stat, ks_p_value = stats.kstest(ks_data, 'norm')
print(f"Kolmogorov-Smirnov Test Sonucu - Test İstatistiği: {ks_test_stat}, p-değer: {ks_p_value}")

# Grafiği çizdirme
plt.figure(figsize=(10, 6))
plt.hist(shapiro_data, bins=12, density=True, alpha=0.6, color='g', label='Shapiro Veri')
plt.hist(ks_data, bins=12, density=True, alpha=0.6, color='b', label='Kolmogorov-Smirnov Veri')

# Normal dağılım çizgisi ekleme
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = stats.norm.pdf(x, np.mean(shapiro_data), np.std(shapiro_data))
plt.plot(x, p, 'k', linewidth=2, label='Normal Dağılım')

# Çarpıklık ve basıklık değerlerini hesaplama
shapiro_skewness = stats.skew(shapiro_data)
shapiro_kurtosis = stats.kurtosis(shapiro_data)
print(f"Shapiro-Wilk Veri Çarpıklık Değeri: {shapiro_skewness}, Basıklık Değeri: {shapiro_kurtosis}")

ks_skewness = stats.skew(ks_data)
ks_kurtosis = stats.kurtosis(ks_data)
print(f"Kolmogorov-Smirnov Veri Çarpıklık Değeri: {ks_skewness}, Basıklık Değeri: {ks_kurtosis}")
plt.title('Shapiro-Wilk ve Kolmogorov-Smirnov Test Verileri Karşılaştırması')
plt.xlabel('Değerler')
plt.ylabel('Yoğunluk')
plt.legend(loc='upper right')
plt.show()

Screenshot from 2023-10-25 00-38-01

Shapiro-Wilk Veri Setinin Yorumu:

  • Null Hipotezi (Ho): Veri, normal olarak dağılmıştır.

    Alternatif Hipotez (H1): Veri, normal olarak dağılmamıştır.p değeri > 0,05 olduğundan Ho hipotezi reddedilemez. Verinin normal dağıldığını 0,05 yanılma düzeyinde söyleyebiliriz.

  • Çarpıklık (Skewness) Değeri: Bu değer, veri setinin simetrisini gösterir. Değer ne kadar 0 yakınsa, dağılım o kadar simetrik olur. Veri seti simetriktir.

  • Basıklık (Kurtosis) Değeri: Bu değer, veri setinin zirvesinin yuvarlaklığını gösterir. 3’e yakınsa, veri seti normal dağılıma yakın bir zirveye sahiptir.Biraz basık olduğu yorumu yapılabilir.

Kolmogorov-Smirnov Veri Setinin Yorumu:

  • Null Hipotezi (H0): İki örnek dağılımı aynı dağılımdan gelmektedir.

    Alternatif Hipotez (H1): İki örnek dağılımı aynı dağılımdan gelmemektedir. p değeri >0.05 olduğundan Ho reddedilemez.

  • Çarpıklık (Skewness) Değeri: Değer yakın olduğu için simetriktir.

  • Basıklık (Kurtosis) Değeri: Biraz basık olduğu yorumu yapılabilir.

download

Normal Dağılımın Gündelik Hayatta Karşılaştığımız Örnekleri

Normal dağılım, sadece istatistiksel analizlerde değil, gündelik hayatta da göz ardı edilmemesi gereken bir fenomendir. Pratikte, insan vücudu ölçümlerinden ekonomik analizlere, hatta doğal olayların incelenmesine kadar, normal dağılımın etkisi her yerdedir.

Sağlık Alanında: Tıbbi ölçümler genellikle normal dağılıma uyar. Kan basıncı, vücut kitle indeksi gibi ölçümler, sağlık analizlerinde önemli bir rol oynar.

Eğitim Sistemi: Sınav sonuçları ve öğrenci performansı, normal dağılımı temel alarak değerlendirilir. Eğitim politikaları ve öğrenci başarısının belirlenmesi, normal dağılımın etkisi altındadır.

Üretim Süreçlerinde: Kalite kontrol, üretim verimliliği ve ürün özellikleri, normal dağılım prensiplerine göre analiz edilir. Endüstriyel süreçlerin verimliliği, bu dağılımın belirlediği standartlarla ölçülür.

Ekonomi ve Finans: Fiyat değişimleri, hisse senedi performansı ve ekonomik göstergeler genellikle normal dağılıma uyar. Bu nedenle, finansal analizler ve ekonomik tahminler, bu matematiksel modelin temelinde şekillenir.

Doğal Olaylar: Yağış miktarı, hava sıcaklığı değişimleri, deprem büyüklükleri gibi doğal olaylar da normal dağılıma uygun bir yapı gösterir. Bu veriler, meteoroloji ve jeolojik araştırmalarda kritik öneme sahiptir.

Bu alanlardaki verilerin normal dağılıma uyumlu olması, günlük hayatta veri yorumlamasının doğruluğunu artırır. Bu nedenle, normal dağılımın temel özelliklerini anlamak ve gündelik hayatta karşılaşılan durumları matematiksel bakış açısıyla değerlendirmek, verilerin anlamını kavramak için temel bir adımdır.

Aşağıdaki fotoğraf da spor salonlarında insanların kaldırdıkları ağırlıklara göre oluşan bir normal dağılımı görebiliyoruz. :)

example_resized (1)

Kaynakça

Normal Distribution Dilemma

68-95-99 Rule – Normal Distribution

Normal dağılım

scipy