Parametrik vs Non-parametrik Testler: Kapsamlı Karşılaştırma
İstatistiksel analiz sürecinde en sık karşılaşılan kararlardan biri, parametrik mi yoksa non-parametrik test mi kullanılması gerektiğidir. Bu karar, verilerin doğasına, dağılım özelliklerine ve ölçek düzeyine bağlıdır. Yanlış test seçimi, Tip I veya Tip II hata olasılığını artırarak araştırma sonuçlarının güvenilirliğini ciddi biçimde tehdit eder. Bu yazıda, her iki test grubunu varsayımlar, güç, uygulama koşulları ve pratik örnekler üzerinden kapsamlı biçimde karşılaştıracağız.
Temel Tanımlar
Parametrik Testler
Verilerin belirli bir olasılık dağılımından (genellikle normal dağılım) geldiğini varsayan istatistiksel testlerdir. Popülasyon parametrelerini (ortalama, varyans) tahmin etmeye ve test etmeye yöneliktir. Verilerden en fazla bilgiyi çıkarmak için güçlü istatistiksel teknikler kullanır.
Non-parametrik Testler
Verilerin belirli bir dağılıma uymasını varsaymayan (distribution-free) istatistiksel testlerdir. Sıralama verileri, nominal veriler veya parametrik varsayımları karşılamayan sürekli veriler için uygundur. Daha az varsayım gerektirir ancak karşılığında daha düşük istatistiksel güce sahiptir.
Varsayımlar Karşılaştırması
| Varsayım | Parametrik Testler | Non-parametrik Testler |
|---|---|---|
| Dağılım | Normal dağılım varsayılır | Dağılım varsayımı yoktur |
| Ölçek düzeyi | Aralık (interval) veya oran (ratio) ölçeği | Sıralama (ordinal) veya nominal ölçek yeterlidir |
| Varyans homojenliği | Gruplar arası varyanslar eşit olmalıdır | Genellikle gerekli değildir |
| Örneklem büyüklüğü | Yeterli büyüklükte (genellikle N ≥ 30) | Küçük örneklemlerde de uygulanabilir |
| Bağımsızlık | Gözlemler birbirinden bağımsız | Gözlemler birbirinden bağımsız |
| Uç değerler | Uç değerlerden etkilenir | Sıra tabanlı olduğu için uç değerlere dayanıklıdır |
Önemli Not: Parametrik testlerin varsayımları aslında test istatistiğinin dağılımıyla ilgilidir. Merkezi limit teoremine göre, yeterince büyük örneklemlerde (N ≥ 30-50) örneklem ortalamasının dağılımı normalliğe yaklaşır. Bu nedenle büyük örneklemlerde normallik varsayımının ihlali daha az sorunludur.
Parametrik ve Non-parametrik Test Eşleştirmeleri
Her parametrik testin genellikle bir veya birden fazla non-parametrik karşılığı vardır:
| Amaç | Parametrik Test | Non-parametrik Karşılığı |
|---|---|---|
| İki bağımsız grubun karşılaştırılması | Bağımsız örneklem t-testi | Mann-Whitney U testi |
| İki bağımlı grubun karşılaştırılması | Bağımlı örneklem t-testi | Wilcoxon işaretli sıralar testi |
| Üç+ bağımsız grubun karşılaştırılması | Tek yönlü ANOVA | Kruskal-Wallis H testi |
| Üç+ bağımlı grubun karşılaştırılması | Tekrarlı ölçümler ANOVA | Friedman testi |
| İki değişken arası ilişki | Pearson korelasyonu | Spearman sıra korelasyonu |
| Kategori bağımsızlığı | - | Ki-kare (χ²) testi |
| İki oran karşılaştırması | Z testi (oranlar) | Fisher kesin testi |
İstatistiksel Güç Karşılaştırması
İstatistiksel güç, gerçekte var olan bir etkiyi tespit edebilme olasılığıdır (1 - β). Parametrik ve non-parametrik testler güç açısından önemli farklılıklar gösterir:
| Boyut | Parametrik Testler | Non-parametrik Testler |
|---|---|---|
| Güç düzeyi | Yüksek (varsayımlar karşılandığında) | Düşük-orta (%90-95 oranında parametriğin gücüne sahip) |
| Bilgi kullanımı | Verideki tüm sayısal bilgiyi kullanır | Verileri sıralara dönüştürür, bir miktar bilgi kaybı olur |
| Küçük örneklem | Güç düşer, varsayımlar test edilemez | Düşük güç ama varsayım ihlali riski az |
| Büyük örneklem | En yüksek güç | Güç artar, parametriğe yaklaşır |
| Varsayım ihlali durumunda | Güç dramatik biçimde düşer | Stabil kalır |
Güç Kaybının Pratik Anlamı
Non-parametrik testlerin güç kaybı pratikte ne anlama gelir? Örneğin, bağımsız örneklem t-testi ile anlamlı çıkacak bir fark için 64 kişilik örneklem yeterliyken, Mann-Whitney U testi için aynı gücü elde etmek için yaklaşık 67-68 kişi gerekebilir. Bu fark, çoğu araştırmada ihmal edilebilir düzeydedir. Ancak çok küçük etki büyüklüklerinde ve sınırlı örneklemlerde bu güç farkı önemli hale gelebilir.
Normallik Testi: Karar Süreci
Parametrik veya non-parametrik test tercihinde ilk adım, verilerin normallik varsayımını karşılayıp karşılamadığını değerlendirmektir:
Normallik Değerlendirme Yöntemleri
- Görsel inceleme: Histogram, Q-Q grafiği, kutu grafiği (box plot)
- Çarpıklık ve basıklık katsayıları: |Çarpıklık| < 1.0 ve |Basıklık| < 3.0 ise kabul edilebilir (bazı kaynaklar ±2 sınırını kullanır)
- Shapiro-Wilk testi: Küçük örneklemler için en güçlü normallik testi (N < 50)
- Kolmogorov-Smirnov testi: Büyük örneklemler için (N ≥ 50), ancak Shapiro-Wilk genellikle tercih edilir
Normallik Karar Akışı
| Durum | Karar | Gerekçe |
|---|---|---|
| Normal dağılım + büyük örneklem | Parametrik test | Tüm varsayımlar karşılanıyor, en yüksek güç |
| Normal dağılım + küçük örneklem | Parametrik test (dikkatli) | Varsayımlar karşılanıyor, ancak güç analizi yapılmalı |
| Normal olmayan dağılım + büyük örneklem (N > 30) | Parametrik test kabul edilebilir | Merkezi limit teoremi sayesinde ortalama dağılımı normalleşir |
| Normal olmayan dağılım + küçük örneklem | Non-parametrik test | Varsayım ihlali, merkezi limit teoremi yetersiz |
| Sıralama (ordinal) verisi | Non-parametrik test | Ölçek düzeyi parametrik test için yetersiz |
| Aşırı uç değerler mevcut | Non-parametrik test | Uç değerler parametrik test sonuçlarını bozar |
Yaygın Testlerin Detaylı Karşılaştırması
t-testi vs Mann-Whitney U Testi
| Boyut | t-testi | Mann-Whitney U |
|---|---|---|
| Ne karşılaştırır? | İki grubun ortalamalarını | İki grubun sıra ortalamalarını (medyanlarını) |
| Varsayımlar | Normallik, varyans homojenliği, aralık ölçeği | Sıralama ölçeği yeterli, dağılım varsayımı yok |
| Uç değerlere duyarlılık | Yüksek | Düşük |
| Raporlama | t(sd) = değer, p = değer, d = etki büyüklüğü | U = değer, z = değer, p = değer, r = etki büyüklüğü |
| SPSS menüsü | Analyze > Compare Means > Independent Samples T Test | Analyze > Nonparametric Tests > 2 Independent Samples |
ANOVA vs Kruskal-Wallis Testi
| Boyut | Tek Yönlü ANOVA | Kruskal-Wallis H |
|---|---|---|
| Ne karşılaştırır? | Üç veya daha fazla grubun ortalamalarını | Üç veya daha fazla grubun sıra ortalamalarını |
| Varsayımlar | Normallik, varyans homojenliği, aralık ölçeği | Sıralama ölçeği yeterli |
| Post-hoc testler | Tukey, Scheffe, Bonferroni | Dunn testi, Mann-Whitney U (Bonferroni düzeltmeli) |
| Etki büyüklüğü | η² (eta-kare) | η² = H / (N-1) |
Pearson vs Spearman Korelasyonu
| Boyut | Pearson (r) | Spearman (ρ) |
|---|---|---|
| İlişki türü | Doğrusal (linear) ilişki | Monoton (sıralı) ilişki |
| Ölçek | Aralık veya oran | Sıralama veya daha üstü |
| Dağılım | Her iki değişken normal dağılmalı (iki değişkenli normallik) | Dağılım varsayımı yok |
| Uç değerler | Çok hassas | Dayanıklı |
| Yorumlama | Doğrusal ilişkinin gücü ve yönü | Sıralı ilişkinin gücü ve yönü |
Sık Yapılan Hatalar
- Otomatik olarak non-parametrik tercih etmek: "Verilerim normal dağılmıyor" diyerek her zaman non-parametrik test kullanmak yanlıştır. Büyük örneklemlerde parametrik testler sağlam (robust) davranır
- Normallik testine aşırı güvenmek: Shapiro-Wilk testi büyük örneklemlerde çok küçük sapmaları bile anlamlı bulur. Görsel inceleme ve çarpıklık/basıklık değerleri de göz önüne alınmalıdır
- Likert ölçeği tartışmasını görmezden gelmek: Tek bir Likert maddesi sıralama düzeyindedir ancak toplam puan (yeterli madde sayısıyla) aralık ölçeği olarak değerlendirilebilir
- Parametrik testin her zaman daha iyi olduğunu sanmak: Varsayımlar ciddi biçimde ihlal edildiğinde parametrik testler yanlış sonuçlar verebilir
- Hem parametrik hem non-parametrik uygulayıp işine geleni raporlamak: Bu "p-hacking" olarak bilinen etik dışı bir uygulamadır
- Etki büyüklüğü raporlamamak: Her iki test grubu için de etki büyüklüğü mutlaka raporlanmalıdır
Pratik Karar Rehberi
- Ölçek düzeyini belirleyin: Nominal veya ordinal ise non-parametrik; aralık veya oran ise bir sonraki adıma geçin
- Örneklem büyüklüğünü değerlendirin: N < 15-20 ise genellikle non-parametrik tercih edin
- Normalliği kontrol edin: Shapiro-Wilk, histogram, Q-Q grafiği ve çarpıklık/basıklık katsayılarını birlikte değerlendirin
- Varyans homojenliğini test edin: Levene testi ile kontrol edin
- Uç değerleri inceleyin: Kutu grafiğinde aşırı uç değerler varsa non-parametrik düşünün
- Karar verin ve gerekçeleyin: Test seçiminizi neden yaptığınızı makalenizde açıkça belirtin
Sonuç
Parametrik ve non-parametrik testler arasındaki seçim, basit bir "evet veya hayır" kararı değildir. Verilerinizin doğasını, örneklem büyüklüğünüzü, dağılım özelliklerini ve araştırma sorunuzu bütüncül biçimde değerlendirerek bilinçli bir karar vermelisiniz. Parametrik testler varsayımlar karşılandığında daha güçlüdür; ancak non-parametrik testler bu varsayımlar ihlal edildiğinde güvenilir bir alternatif sunar. İyi bir araştırmacı, her iki test grubunun mantığını, varsayımlarını ve sınırlılıklarını bilir ve test seçimini şeffaf biçimde gerekçelendirir.
Kaynak
Yorumlar (0)
Yorum yapmak için giriş yapmalısınız.
