Normal Dağılım Testleri

7 dk. okuma süresi

Normal dağılım istatistik biliminin birçok alanında kullanılmaktadır. Örneğin örneklem ortalaması için örnek dağılımı, örneğin kaynağı olan anakütle için dağılımın normal olmadığı gayet açık olsa bile, yaklaşık olarak normal dağılım göstermektedir. Bunun yanında, değerleri bilinen ortalaması ve varyansı olan bütün dağılımlar içinde enformasyon entropisini maksimum yapan dağılımın normal olduğu ispat edilmiştir. Böylece örnek ortalaması ve varyansı ile özetlenen her veri için bilinmeyen kaynak dağılımı olarak normal dağılımı kullanmak gayet doğal bir yaklaşım olması çok uygun bir davranıştır. İstatistikte kullanılan dağılımlar aileleri arasında normal dağılım pratikte en çok kullanılanıdır ve birçok istatistiksel test, normal dağılımın varolduğu varsayımına dayanılarak geliştirilmiştir ve kullanılmaktadır. Olasılık kuramı içinde birkaç sürekli olasılık dağılımları ve ayrık olasılık dağılımlarının limite giden dağılımları yani rassal değişkenlerin yakınsama analizinde kullanılmaktadır. Bu dağılım ailesinin her bir üyesi sadece iki parametre ile, tam olarak tanımlanabilir: Bunlarkonum gösteren ortalama (μ aritmetik ortalama) ve ölçek gösteren varyans (σ2 “yayılım”)dır. Standart normal dağılım ortalama değeri 0 ve varyans değeri 1 olan normal dağılım ailesinin tek bir elemanıdır. Carl Friedrich Gauss bu dağılımlar grubu ile, astronomik verileri analiz etmekte iken, ilgilenmiş ve bu dağılım için olasılık yoğunluk fonksiyonunu ilk defa tanımlamıştır [1]. Bu olasılık fonksiyonunun grafik şekli bir çan gibi görüntü verdiği için çoğu kez çan eğrisi olarak da anılır.

Yeşil renkli dağılım bir normal dağılım örneğidir. Bir normal dağılımdan seçilmiş değerlerin %68i ortalama olan μ’in bir standart sapma σ > 0 uzaklığındaki noktalar arasındadır; değerlerin neredeye %97si μ’den iki standart sapma uzaklıklar aralığında; ve %99,7 üç standart sapma uzaklıklar aralıgında bulunur. Buna empirik kural veya 68-55-99.7 kuralı adı da verilir. Normallik sınamaları, verilmiş bir veri dizisinin normal dağılıma benzerliğinin incelenmesidir. Bu sınamalarda sıfır hipoztez veri dizisinin normal dağılıma benzer olmasıdır. Bu nedenle normal olmayan veri için yeter derecede küçük bir p-değeri (yani genellikle %0,05den veya 0,01den küçük) ortaya çıkacak ve sıfır hipotez olan veri dizisinin normal dağılıma benzerliği hipotezinin ret edilmesine neden olacaktır.

Kolmogorov-Smirnov Sınaması

Kolmogorov-Smirnov (K-S) sınaması parametrik olmayan istatistik olup iki değişik problem için hipotez sınaması olarak kullanılır: Tek örneklem K-S sınaması: Hedef, verilmiş olan bir deneysel olasılık dağılımı gösteren örneklem verilerinin, dağılım parametreleri tam olarak bilinen tam tanımlanmış bir teorik anakitle olasılık dağılımına uyum gösterip göstermediğini sınamak. Bu tip problemde sıfır hipotez Ho örneklem verilerin deneysel dağılımının tam tanımlanmış bir anakitle olasılık dağılımından gelmiş olduğudur. İki örneklem K-S sınaması: Hedef, verilmis iki tane değişik deneysel olasılık dağılımı gösteren iki orneklem veri serisinin aynı tek bir teorik anakitle olasılık dağılımından gelip gelmediğini sınamak. Bu tip problemde sıfır hipotez Ho ise iki orneklem verilerin deneysel dağılımlarının tek bir anakitle olasılık dağılımindan gelmiş olduğudur. Tek örneklem K-S sınaması çok popüler olarak olarak bir normallik sınaması olarak, yani örneklem verilerinin tanımlanmış bir anakitle normal olasılık dağılımına uyumluluk gösterip göstermemesini sınamak için kullanılır. Örneklem verileri standardize edilerek (yani her bir veri değerinden teorik anakitle olasılığı için verilmiş ortalama çıkartıp sonucu verilmiş teorik yığın varyansına bölerek) elde edilen normalize veriler standart normal dağılım ile karşılaştırılır.

Jarque-Berra Sınaması

Jarque-Bera sınaması normal dağılımdan ayrılmayı ölçmek için kullanılan bir uyum iyiliğiölçüsüdür. İlk defa bu sınamayi ortaya atan ekonemetrici A.K.Bera ve C.M.Jarque adları ile anılmaktadir. Bu sınama icin hipotezler şöyle ifade edilir: H0: Veriler normal dağılım gösterir H1: Veriler normal dağılım göstermez. Jarque ve Bera sınaması bir Lagranj çarpanı prensipine dayanan bir sınama tipindendir. Sınama istatistiği örneklem basıklık ve çarpıklık ölçülerinin dönüşümlerinden elde edilmiştir. Sıfır hipotezi daha ayrıntılı olarak bir bileşik hipotezdir: beklenen çarpıklığın 0 değerde ve beklenen basıklık fazlalığının 3 değerde olacağı sıfır hipotezdir; çünkü bir normal dağılım için bu değerler gereklidir.

Shapiro-Wilk Sınaması

Shapiro-Wilk sınaması bir parametrik olmayan istatistik sınaması olup normallik sınamaları arasında bulunmaktadır. Bu sınama ilk defa 1965de Amerikan istatistikçi Samuel Shapiro ile Kanadalı istatistikçi Martin Wilk tarafından yayınlanmıştır. Bu sınama için sıfır hipotez bir örneklem veri serisinin (yani x1, …, xn serisinin) bir normal dağılım gösteren anakütleden geldiğidir. Shapiro-Wilks sınamasının diğer normallik sınamalarına karşılaştırılması yapılmış ve Shapiro-Wilks için güç özelliklerinin daha iyi olduğu önerilmiştir. Bu sınamanın büyük örneklem hacimlerine (5000 gözleme kadar) uygulanabilecek geliştirilmiş şekli bazı istatistik paket programlarında uygulanmıştır.

Bilgisayar Ortamında Normallik Analizleri

Verilerin normal dağılıma uygun olup olmadığını ortaya koymak amacıyla çeşitli normallik testlerinden yararlanmak mümkündür. Bu testler arasında en bilinenleri Ki-Kare, Kolmogorow-Smirnov, Lilliefors ve Shapiro – Wilk normallik testleridir. Sözkonusu testlerde hipotezi ile verilerin normal dağılımlı bir anakütleden geldiği ifade edilirken, hipotezi ile anakütlenin dağılımının normale uymadığı ileri sürülmektedir.

Shapiro-Wilk-W Testi

Shapiro-Wilk-W testi normallik varsayımını sınayan en güçlü testtir. Shapiro-Wilk sınaması şu şekilde gerçekleştirilir:

ADIM-1. Analyze – Descriptive statistics – Explore süreci takip edilir.

ADIM-2. Açılan pencerede, normallik sınamasına tabi tutulacak değişken/ler “Dependent List” hücresine aktarılır. Ardından aşağıdaki resimde kırmızı daire içinde gösterilen “Plots” menüsü açılır.

ADIM-3. Açılan Plots penceresinde, aşağıdaki resimde kırmızı daire içinde gösterilen “Normality Plots wirh tests” seçeneği işaretlenir. “Continue” seçeneği ile bir önceki pencereye dönülür ve “OK” komutu ile işlem gerçekleştirlir.

ADIM-4. Oluşan “Output” dosyası bir dizi tablo ve grafik sunacaktır. Bunlar arasından aşağıda örneği verilen “Test of Normality” isimli tablonun sağ sütunu Shapiro Wilk değerini sunar.

Kırmızı daire içinde gösterilen anlamlılık düzeyi p<.05 düzeyinde anlamlı ise hipotezi reddedilir ve dağılımın normal olmadığı kararı verilir. Şayet p>.05 değeri elde edilmişse hipotezi kabul edilir ve dağılımın normal dağılımdan anlamlı bir farklılık sergilemediği yorumu yapılır.

Kolmogorov-Smirnov Testi

One-sample Kolmogorov Smirnov testi normallik varsayımını sınayan hipotez testlerinin belki en çok bilinen ve kullanılanıdır. Kolmogorov Smirnov normallik sınaması şu şekilde gerçekleştirilir:

ADIM-1. Analyze – Nonparametric Tests – 1-Sample K-S süreci takip edilir.

ADIM-2. Açılan pencerede, normallik sınamasına tabi tutulacak değişken/ler “Test Variable List” hücresine aktarılır. Bu menü sadece istenen bir dağılımı başka dağılımlarla da karşılaştırabilir. Bu dağılımlar açılan pencerenin sol altında sunulur. Normallik sınamasında “normal” seçeneğinin işaretlenmiş olması gerekir.

ADIM-3. Oluşan “Output” dosyası bir tablo sunacaktır.

Kırmızı daire içinde gösterilen z değeri ve buna bağlı anlamlılık düzeyi (asymp. Sig.) p<.05 düzeyinde anlamlı ise hipotezi reddedilir ve dağılımın normal olmadığı kararı verilir. Şayet p>.05 değeri elde edilmişse hipotezi kabul edilir ve dağılımın normal dağılımdan anlamlı bir farklılık sergilemediği yorumu yapılır.

Yorum yap