Çoklu Karşılaştırma Testleri: Bonferroni, Tukey HSD, Scheffé Post-hoc Analizler

Üç veya daha fazla grup karşılaştırıldığında ANOVA anlamlı bir F değeri verdiğinde, hangi grupların birbirinden farklılaştığı sorusu ortaya çıkar. Post-hoc (sonradan yapılan) karşılaştırma testleri bu soruya yanıt verir. Ancak çoklu karşılaştırma yapmak, Tip I hata oranını şişirme riski taşır ve bu nedenle uygun düzeltmeler uygulanmalıdır.

Çoklu Karşılaştırma Problemi

Tek bir karşılaştırmada alfa düzeyi 0.05 olduğunda Tip I hata (yanlış pozitif) olasılığı %5'tir. Ancak birden fazla karşılaştırma yapıldığında, aile bazında hata oranı (familywise error rate - FWER) önemli ölçüde artar.

Aile bazında hata oranı şu formülle hesaplanır:

FWER = 1 - (1 - α)^c

Burada c karşılaştırma sayısıdır. Örneğin, 4 gruplu bir ANOVA'da 6 ikili karşılaştırma yapılır ve düzeltme uygulanmazsa gerçek hata oranı yaklaşık %26'ya çıkar. Bu durum, aslında olmayan farkları "anlamlı" bulma olasılığını dramatik biçimde artırır.

Planlı Karşılaştırmalar vs Post-hoc Testler

Planlı Karşılaştırmalar (A Priori Kontrastlar)

Araştırmacı, veri toplamadan önce hangi grupları karşılaştıracağını belirlediğinde planlı karşılaştırmalardan söz edilir. Bu yaklaşımın avantajları şunlardır:

Daha yüksek istatistiksel güç sağlar
Kuramsal beklentilere dayandığı için daha savunulabilir sonuçlar verir
Ortogonal kontrastlar kullanıldığında bağımsızlık sağlanır

Ortogonal Kontrastlar

Ortogonal kontrastlar, birbirinden bağımsız karşılaştırmalardır. k grup olduğunda en fazla k-1 ortogonal kontrast yapılabilir. Kontrastlar arasında ortogonallik, katsayıların çarpımlarının toplamının sıfıra eşit olmasıyla sağlanır. Bu özellik, her kontrastın benzersiz bilgi sağlamasını garanti eder.

Yaygın Post-hoc Testler

1. Bonferroni Düzeltmesi

En basit ve en muhafazakar düzeltme yöntemidir. Alfa düzeyi karşılaştırma sayısına bölünür:

α_düzeltilmiş = α / c

Örneğin, 6 karşılaştırma ve α = 0.05 için her karşılaştırmada α = 0.0083 kullanılır. Avantajı: Uygulaması kolaydır ve herhangi bir istatistiksel teste uygulanabilir. Dezavantajı: Karşılaştırma sayısı arttıkça çok muhafazakar hale gelir ve istatistiksel güç düşer.

2. Tukey'in HSD (Honestly Significant Difference) Testi

Tüm olası ikili karşılaştırmaları kontrol etmek için tasarlanmıştır. Studentized range (q) dağılımını kullanır. Eşit örneklem büyüklükleri gerektirir (eşit değilse Tukey-Kramer varyantı kullanılır). FWER'yi kontrol ederken Bonferroni'den daha güçlüdür. ANOVA sonrası en yaygın kullanılan post-hoc testtir.

3. Scheffé Testi

Hem ikili hem de karmaşık karşılaştırmalara (üç veya daha fazla grubun kombinasyonları) izin verir. En muhafazakar post-hoc testtir ve bu nedenle istatistiksel gücü düşüktür. Ancak tüm olası kontrast türlerinde FWER'yi kontrol eder. Yalnızca ikili karşılaştırma yapılacaksa tercih edilmemelidir.

4. Dunnett Testi

Tüm deney gruplarını tek bir kontrol grubuyla karşılaştırmak için özel olarak tasarlanmıştır. Tüm ikili karşılaştırmaları yapmadığı için daha yüksek güç sağlar. Kontrol grubu olan deneysel tasarımlarda idealdir.

5. Games-Howell Testi

Varyansların eşit olmadığı durumlarda kullanılır. Welch t-testi mantığını çoklu karşılaştırmaya genişletir. Eşit olmayan örneklem büyüklükleri ve varyanslar durumunda güvenilir sonuçlar verir. Levene testi anlamlı çıktığında tercih edilmelidir.

6. Fisher'ın LSD (Least Significant Difference) Testi

En liberal post-hoc testtir ve düzeltme uygulamaz. Yalnızca ANOVA F testi anlamlıysa kullanılır (korumalı LSD). Üç gruplu durumlar dışında önerilmez çünkü FWER'yi yeterince kontrol edemez.

Hangi Testi Ne Zaman Kullanmalı?

Durum	Önerilen Test
Tüm ikili karşılaştırmalar, eşit varyans	Tukey HSD
Kontrol grubuyla karşılaştırma	Dunnett
Eşit olmayan varyanslar	Games-Howell
Karmaşık kontrastlar	Scheffé
Az sayıda planlı karşılaştırma	Bonferroni
Sadece 3 grup	Fisher LSD (korumalı)

APA Formatında Raporlama

Post-hoc sonuçları raporlanırken şu bilgiler verilmelidir:

Kullanılan post-hoc testin adı ve seçilme gerekçesi
Karşılaştırılan grupların ortalamaları ve standart sapmaları
Ortalama farkları ve güven aralıkları
p değerleri ve etki büyüklükleri (Cohen's d)

Örnek: "Tek yönlü ANOVA sonuçları gruplar arasında anlamlı fark olduğunu göstermiştir, F(3, 116) = 8.42, p < .001, η² = .18. Tukey HSD post-hoc testi, deney grubunun (M = 78.5, SS = 12.3) kontrol grubundan (M = 65.2, SS = 14.1) anlamlı biçimde yüksek puan aldığını ortaya koymuştur (ortalama fark = 13.3, %95 GA [5.8, 20.8], p < .001, d = 1.00)."

Sonuç

Çoklu karşılaştırma testleri, ANOVA'nın anlamlı sonuç verdiği durumlarda hangi grupların farklılaştığını belirlemenin sistematik yoludur. Araştırmacılar, veri özelliklerine ve araştırma sorularına uygun testi seçerek hem Tip I hata kontrolünü sağlamalı hem de istatistiksel güçten gereksiz yere ödün vermemelidir.

Çoklu Karşılaştırma Testleri: Post-hoc Analizler ve Düzeltmeler