Parametrik vs Non-parametrik Testler: Varsayımlar, Güç ve Karşılaştırma

İstatistiksel analiz sürecinde en sık karşılaşılan kararlardan biri, parametrik mi yoksa non-parametrik test mi kullanılması gerektiğidir. Bu karar, verilerin doğasına, dağılım özelliklerine ve ölçek düzeyine bağlıdır. Yanlış test seçimi, Tip I veya Tip II hata olasılığını artırarak araştırma sonuçlarının güvenilirliğini ciddi biçimde tehdit eder. Bu yazıda, her iki test grubunu varsayımlar, güç, uygulama koşulları ve pratik örnekler üzerinden kapsamlı biçimde karşılaştıracağız.

Temel Tanımlar

Parametrik Testler

Verilerin belirli bir olasılık dağılımından (genellikle normal dağılım) geldiğini varsayan istatistiksel testlerdir. Popülasyon parametrelerini (ortalama, varyans) tahmin etmeye ve test etmeye yöneliktir. Verilerden en fazla bilgiyi çıkarmak için güçlü istatistiksel teknikler kullanır.

Non-parametrik Testler

Verilerin belirli bir dağılıma uymasını varsaymayan (distribution-free) istatistiksel testlerdir. Sıralama verileri, nominal veriler veya parametrik varsayımları karşılamayan sürekli veriler için uygundur. Daha az varsayım gerektirir ancak karşılığında daha düşük istatistiksel güce sahiptir.

Varsayımlar Karşılaştırması

Varsayım	Parametrik Testler	Non-parametrik Testler
Dağılım	Normal dağılım varsayılır	Dağılım varsayımı yoktur
Ölçek düzeyi	Aralık (interval) veya oran (ratio) ölçeği	Sıralama (ordinal) veya nominal ölçek yeterlidir
Varyans homojenliği	Gruplar arası varyanslar eşit olmalıdır	Genellikle gerekli değildir
Örneklem büyüklüğü	Yeterli büyüklükte (genellikle N ≥ 30)	Küçük örneklemlerde de uygulanabilir
Bağımsızlık	Gözlemler birbirinden bağımsız	Gözlemler birbirinden bağımsız
Uç değerler	Uç değerlerden etkilenir	Sıra tabanlı olduğu için uç değerlere dayanıklıdır

Önemli Not: Parametrik testlerin varsayımları aslında test istatistiğinin dağılımıyla ilgilidir. Merkezi limit teoremine göre, yeterince büyük örneklemlerde (N ≥ 30-50) örneklem ortalamasının dağılımı normalliğe yaklaşır. Bu nedenle büyük örneklemlerde normallik varsayımının ihlali daha az sorunludur.

Parametrik ve Non-parametrik Test Eşleştirmeleri

Her parametrik testin genellikle bir veya birden fazla non-parametrik karşılığı vardır:

Amaç	Parametrik Test	Non-parametrik Karşılığı
İki bağımsız grubun karşılaştırılması	Bağımsız örneklem t-testi	Mann-Whitney U testi
İki bağımlı grubun karşılaştırılması	Bağımlı örneklem t-testi	Wilcoxon işaretli sıralar testi
Üç+ bağımsız grubun karşılaştırılması	Tek yönlü ANOVA	Kruskal-Wallis H testi
Üç+ bağımlı grubun karşılaştırılması	Tekrarlı ölçümler ANOVA	Friedman testi
İki değişken arası ilişki	Pearson korelasyonu	Spearman sıra korelasyonu
Kategori bağımsızlığı	-	Ki-kare (χ²) testi
İki oran karşılaştırması	Z testi (oranlar)	Fisher kesin testi

İstatistiksel Güç Karşılaştırması

İstatistiksel güç, gerçekte var olan bir etkiyi tespit edebilme olasılığıdır (1 - β). Parametrik ve non-parametrik testler güç açısından önemli farklılıklar gösterir:

Boyut	Parametrik Testler	Non-parametrik Testler
Güç düzeyi	Yüksek (varsayımlar karşılandığında)	Düşük-orta (%90-95 oranında parametriğin gücüne sahip)
Bilgi kullanımı	Verideki tüm sayısal bilgiyi kullanır	Verileri sıralara dönüştürür, bir miktar bilgi kaybı olur
Küçük örneklem	Güç düşer, varsayımlar test edilemez	Düşük güç ama varsayım ihlali riski az
Büyük örneklem	En yüksek güç	Güç artar, parametriğe yaklaşır
Varsayım ihlali durumunda	Güç dramatik biçimde düşer	Stabil kalır

Güç Kaybının Pratik Anlamı

Non-parametrik testlerin güç kaybı pratikte ne anlama gelir? Örneğin, bağımsız örneklem t-testi ile anlamlı çıkacak bir fark için 64 kişilik örneklem yeterliyken, Mann-Whitney U testi için aynı gücü elde etmek için yaklaşık 67-68 kişi gerekebilir. Bu fark, çoğu araştırmada ihmal edilebilir düzeydedir. Ancak çok küçük etki büyüklüklerinde ve sınırlı örneklemlerde bu güç farkı önemli hale gelebilir.

Normallik Testi: Karar Süreci

Parametrik veya non-parametrik test tercihinde ilk adım, verilerin normallik varsayımını karşılayıp karşılamadığını değerlendirmektir:

Normallik Değerlendirme Yöntemleri

Görsel inceleme: Histogram, Q-Q grafiği, kutu grafiği (box plot)
Çarpıklık ve basıklık katsayıları: |Çarpıklık| < 1.0 ve |Basıklık| < 3.0 ise kabul edilebilir (bazı kaynaklar ±2 sınırını kullanır)
Shapiro-Wilk testi: Küçük örneklemler için en güçlü normallik testi (N < 50)
Kolmogorov-Smirnov testi: Büyük örneklemler için (N ≥ 50), ancak Shapiro-Wilk genellikle tercih edilir

Normallik Karar Akışı

Durum	Karar	Gerekçe
Normal dağılım + büyük örneklem	Parametrik test	Tüm varsayımlar karşılanıyor, en yüksek güç
Normal dağılım + küçük örneklem	Parametrik test (dikkatli)	Varsayımlar karşılanıyor, ancak güç analizi yapılmalı
Normal olmayan dağılım + büyük örneklem (N > 30)	Parametrik test kabul edilebilir	Merkezi limit teoremi sayesinde ortalama dağılımı normalleşir
Normal olmayan dağılım + küçük örneklem	Non-parametrik test	Varsayım ihlali, merkezi limit teoremi yetersiz
Sıralama (ordinal) verisi	Non-parametrik test	Ölçek düzeyi parametrik test için yetersiz
Aşırı uç değerler mevcut	Non-parametrik test	Uç değerler parametrik test sonuçlarını bozar

Yaygın Testlerin Detaylı Karşılaştırması

t-testi vs Mann-Whitney U Testi

Boyut	t-testi	Mann-Whitney U
Ne karşılaştırır?	İki grubun ortalamalarını	İki grubun sıra ortalamalarını (medyanlarını)
Varsayımlar	Normallik, varyans homojenliği, aralık ölçeği	Sıralama ölçeği yeterli, dağılım varsayımı yok
Uç değerlere duyarlılık	Yüksek	Düşük
Raporlama	t(sd) = değer, p = değer, d = etki büyüklüğü	U = değer, z = değer, p = değer, r = etki büyüklüğü
SPSS menüsü	Analyze > Compare Means > Independent Samples T Test	Analyze > Nonparametric Tests > 2 Independent Samples

ANOVA vs Kruskal-Wallis Testi

Boyut	Tek Yönlü ANOVA	Kruskal-Wallis H
Ne karşılaştırır?	Üç veya daha fazla grubun ortalamalarını	Üç veya daha fazla grubun sıra ortalamalarını
Varsayımlar	Normallik, varyans homojenliği, aralık ölçeği	Sıralama ölçeği yeterli
Post-hoc testler	Tukey, Scheffe, Bonferroni	Dunn testi, Mann-Whitney U (Bonferroni düzeltmeli)
Etki büyüklüğü	η² (eta-kare)	η² = H / (N-1)

Pearson vs Spearman Korelasyonu

Boyut	Pearson (r)	Spearman (ρ)
İlişki türü	Doğrusal (linear) ilişki	Monoton (sıralı) ilişki
Ölçek	Aralık veya oran	Sıralama veya daha üstü
Dağılım	Her iki değişken normal dağılmalı (iki değişkenli normallik)	Dağılım varsayımı yok
Uç değerler	Çok hassas	Dayanıklı
Yorumlama	Doğrusal ilişkinin gücü ve yönü	Sıralı ilişkinin gücü ve yönü

Sık Yapılan Hatalar

Otomatik olarak non-parametrik tercih etmek: "Verilerim normal dağılmıyor" diyerek her zaman non-parametrik test kullanmak yanlıştır. Büyük örneklemlerde parametrik testler sağlam (robust) davranır
Normallik testine aşırı güvenmek: Shapiro-Wilk testi büyük örneklemlerde çok küçük sapmaları bile anlamlı bulur. Görsel inceleme ve çarpıklık/basıklık değerleri de göz önüne alınmalıdır
Likert ölçeği tartışmasını görmezden gelmek: Tek bir Likert maddesi sıralama düzeyindedir ancak toplam puan (yeterli madde sayısıyla) aralık ölçeği olarak değerlendirilebilir
Parametrik testin her zaman daha iyi olduğunu sanmak: Varsayımlar ciddi biçimde ihlal edildiğinde parametrik testler yanlış sonuçlar verebilir
Hem parametrik hem non-parametrik uygulayıp işine geleni raporlamak: Bu "p-hacking" olarak bilinen etik dışı bir uygulamadır
Etki büyüklüğü raporlamamak: Her iki test grubu için de etki büyüklüğü mutlaka raporlanmalıdır

Pratik Karar Rehberi

Ölçek düzeyini belirleyin: Nominal veya ordinal ise non-parametrik; aralık veya oran ise bir sonraki adıma geçin
Örneklem büyüklüğünü değerlendirin: N < 15-20 ise genellikle non-parametrik tercih edin
Normalliği kontrol edin: Shapiro-Wilk, histogram, Q-Q grafiği ve çarpıklık/basıklık katsayılarını birlikte değerlendirin
Varyans homojenliğini test edin: Levene testi ile kontrol edin
Uç değerleri inceleyin: Kutu grafiğinde aşırı uç değerler varsa non-parametrik düşünün
Karar verin ve gerekçeleyin: Test seçiminizi neden yaptığınızı makalenizde açıkça belirtin

Sonuç

Parametrik ve non-parametrik testler arasındaki seçim, basit bir "evet veya hayır" kararı değildir. Verilerinizin doğasını, örneklem büyüklüğünüzü, dağılım özelliklerini ve araştırma sorunuzu bütüncül biçimde değerlendirerek bilinçli bir karar vermelisiniz. Parametrik testler varsayımlar karşılandığında daha güçlüdür; ancak non-parametrik testler bu varsayımlar ihlal edildiğinde güvenilir bir alternatif sunar. İyi bir araştırmacı, her iki test grubunun mantığını, varsayımlarını ve sınırlılıklarını bilir ve test seçimini şeffaf biçimde gerekçelendirir.

Parametrik vs Non-parametrik Testler: Kapsamlı Karşılaştırma