Çoklu Karşılaştırma Testleri: Post-hoc Analizler ve Düzeltmeler
Üç veya daha fazla grup karşılaştırıldığında ANOVA anlamlı bir F değeri verdiğinde, hangi grupların birbirinden farklılaştığı sorusu ortaya çıkar. Post-hoc (sonradan yapılan) karşılaştırma testleri bu soruya yanıt verir. Ancak çoklu karşılaştırma yapmak, Tip I hata oranını şişirme riski taşır ve bu nedenle uygun düzeltmeler uygulanmalıdır.
Çoklu Karşılaştırma Problemi
Tek bir karşılaştırmada alfa düzeyi 0.05 olduğunda Tip I hata (yanlış pozitif) olasılığı %5'tir. Ancak birden fazla karşılaştırma yapıldığında, aile bazında hata oranı (familywise error rate - FWER) önemli ölçüde artar.
Aile bazında hata oranı şu formülle hesaplanır:
FWER = 1 - (1 - α)^c
Burada c karşılaştırma sayısıdır. Örneğin, 4 gruplu bir ANOVA'da 6 ikili karşılaştırma yapılır ve düzeltme uygulanmazsa gerçek hata oranı yaklaşık %26'ya çıkar. Bu durum, aslında olmayan farkları "anlamlı" bulma olasılığını dramatik biçimde artırır.
Planlı Karşılaştırmalar vs Post-hoc Testler
Planlı Karşılaştırmalar (A Priori Kontrastlar)
Araştırmacı, veri toplamadan önce hangi grupları karşılaştıracağını belirlediğinde planlı karşılaştırmalardan söz edilir. Bu yaklaşımın avantajları şunlardır:
- Daha yüksek istatistiksel güç sağlar
- Kuramsal beklentilere dayandığı için daha savunulabilir sonuçlar verir
- Ortogonal kontrastlar kullanıldığında bağımsızlık sağlanır
Ortogonal Kontrastlar
Ortogonal kontrastlar, birbirinden bağımsız karşılaştırmalardır. k grup olduğunda en fazla k-1 ortogonal kontrast yapılabilir. Kontrastlar arasında ortogonallik, katsayıların çarpımlarının toplamının sıfıra eşit olmasıyla sağlanır. Bu özellik, her kontrastın benzersiz bilgi sağlamasını garanti eder.
Yaygın Post-hoc Testler
1. Bonferroni Düzeltmesi
En basit ve en muhafazakar düzeltme yöntemidir. Alfa düzeyi karşılaştırma sayısına bölünür:
α_düzeltilmiş = α / c
Örneğin, 6 karşılaştırma ve α = 0.05 için her karşılaştırmada α = 0.0083 kullanılır. Avantajı: Uygulaması kolaydır ve herhangi bir istatistiksel teste uygulanabilir. Dezavantajı: Karşılaştırma sayısı arttıkça çok muhafazakar hale gelir ve istatistiksel güç düşer.
2. Tukey'in HSD (Honestly Significant Difference) Testi
Tüm olası ikili karşılaştırmaları kontrol etmek için tasarlanmıştır. Studentized range (q) dağılımını kullanır. Eşit örneklem büyüklükleri gerektirir (eşit değilse Tukey-Kramer varyantı kullanılır). FWER'yi kontrol ederken Bonferroni'den daha güçlüdür. ANOVA sonrası en yaygın kullanılan post-hoc testtir.
3. Scheffé Testi
Hem ikili hem de karmaşık karşılaştırmalara (üç veya daha fazla grubun kombinasyonları) izin verir. En muhafazakar post-hoc testtir ve bu nedenle istatistiksel gücü düşüktür. Ancak tüm olası kontrast türlerinde FWER'yi kontrol eder. Yalnızca ikili karşılaştırma yapılacaksa tercih edilmemelidir.
4. Dunnett Testi
Tüm deney gruplarını tek bir kontrol grubuyla karşılaştırmak için özel olarak tasarlanmıştır. Tüm ikili karşılaştırmaları yapmadığı için daha yüksek güç sağlar. Kontrol grubu olan deneysel tasarımlarda idealdir.
5. Games-Howell Testi
Varyansların eşit olmadığı durumlarda kullanılır. Welch t-testi mantığını çoklu karşılaştırmaya genişletir. Eşit olmayan örneklem büyüklükleri ve varyanslar durumunda güvenilir sonuçlar verir. Levene testi anlamlı çıktığında tercih edilmelidir.
6. Fisher'ın LSD (Least Significant Difference) Testi
En liberal post-hoc testtir ve düzeltme uygulamaz. Yalnızca ANOVA F testi anlamlıysa kullanılır (korumalı LSD). Üç gruplu durumlar dışında önerilmez çünkü FWER'yi yeterince kontrol edemez.
Hangi Testi Ne Zaman Kullanmalı?
| Durum | Önerilen Test |
|---|---|
| Tüm ikili karşılaştırmalar, eşit varyans | Tukey HSD |
| Kontrol grubuyla karşılaştırma | Dunnett |
| Eşit olmayan varyanslar | Games-Howell |
| Karmaşık kontrastlar | Scheffé |
| Az sayıda planlı karşılaştırma | Bonferroni |
| Sadece 3 grup | Fisher LSD (korumalı) |
APA Formatında Raporlama
Post-hoc sonuçları raporlanırken şu bilgiler verilmelidir:
- Kullanılan post-hoc testin adı ve seçilme gerekçesi
- Karşılaştırılan grupların ortalamaları ve standart sapmaları
- Ortalama farkları ve güven aralıkları
- p değerleri ve etki büyüklükleri (Cohen's d)
Örnek: "Tek yönlü ANOVA sonuçları gruplar arasında anlamlı fark olduğunu göstermiştir, F(3, 116) = 8.42, p < .001, η² = .18. Tukey HSD post-hoc testi, deney grubunun (M = 78.5, SS = 12.3) kontrol grubundan (M = 65.2, SS = 14.1) anlamlı biçimde yüksek puan aldığını ortaya koymuştur (ortalama fark = 13.3, %95 GA [5.8, 20.8], p < .001, d = 1.00)."
Sonuç
Çoklu karşılaştırma testleri, ANOVA'nın anlamlı sonuç verdiği durumlarda hangi grupların farklılaştığını belirlemenin sistematik yoludur. Araştırmacılar, veri özelliklerine ve araştırma sorularına uygun testi seçerek hem Tip I hata kontrolünü sağlamalı hem de istatistiksel güçten gereksiz yere ödün vermemelidir.
Yorumlar (0)
Yorum yapmak için giriş yapmalısınız.
