Varyans Analizi (ANOVA): Üç veya Daha Fazla Grubun Karşılaştırılması

Araştırmacılar sıklıkla üç veya daha fazla grubun ortalamasını karşılaştırmak ister. İki grup için bağımsız örneklemler t-testi kullanılabilir, ancak üç veya daha fazla grup olduğunda durum karmaşıklaşır. İşte bu noktada Varyans Analizi (ANOVA) devreye girer. ANOVA, Sir Ronald Fisher tarafından geliştirilen ve modern istatistiğin temel taşlarından biri olan güçlü bir analiz yöntemidir.

Neden Çoklu t-Testi Yapılmamalı?

Üç grubun karşılaştırılması gerektiğinde, üç ayrı t-testi yapmak (A-B, A-C, B-C) cazip görünebilir. Ancak bu yaklaşım ciddi bir istatistiksel sorun yaratır: şişirilmiş Tip I hata oranı (inflated Type I error rate).

Her bir t-testi α = 0.05 düzeyinde yapıldığında, her testte %5 Tip I hata yapma olasılığı vardır. Ancak çoklu testlerin bileşik hata oranı çok daha yüksektir:

3 karşılaştırma: 1 - (1 - 0.05)³ = 0.143 → %14.3 Tip I hata olasılığı
6 karşılaştırma (4 grup): 1 - (1 - 0.05)⁶ = 0.265 → %26.5 Tip I hata olasılığı
10 karşılaştırma (5 grup): 1 - (1 - 0.05)¹⁰ = 0.401 → %40.1 Tip I hata olasılığı

Bu durum aile-bazlı hata oranı (family-wise error rate) olarak adlandırılır. ANOVA, tüm grupları tek bir testte karşılaştırarak bu sorunu ortadan kaldırır ve Tip I hata oranını belirlenen α düzeyinde tutar.

Tek Yönlü ANOVA'nın Mantığı

ANOVA'nın temel mantığı, toplam varyansı iki kaynağa ayırmaktır:

Gruplar arası varyans (Between-group variance): Grup ortalamalarının genel ortalamadan ne kadar farklılaştığını gösterir. Bu varyans hem bağımsız değişkenin etkisini hem de bireysel farklılıkları ve rastgele hatayı yansıtır.
Grup içi varyans (Within-group variance): Her grup içindeki bireylerin kendi grup ortalamasından ne kadar farklılaştığını gösterir. Bu varyans yalnızca bireysel farklılıkları ve rastgele hatayı yansıtır (hata varyansı).

Eğer bağımsız değişkenin gerçek bir etkisi yoksa, gruplar arası varyans ile grup içi varyans benzer büyüklükte olmalıdır. Eğer bağımsız değişkenin etkisi varsa, gruplar arası varyans grup içi varyanstan anlamlı derecede büyük olacaktır.

F Oranı (F Ratio)

F oranı, ANOVA'nın test istatistiğidir ve şu şekilde hesaplanır:

F = Gruplar arası varyans (MS_between) / Grup içi varyans (MS_within)

F değerinin yorumu:

F ≈ 1.0: Gruplar arası varyans, grup içi varyansa benzerdir → bağımsız değişkenin anlamlı bir etkisi yoktur.
F > 1.0: Gruplar arası varyans, grup içi varyanstan büyüktür → bağımsız değişkenin etkisi olabilir.
F >> 1.0: Gruplar arası varyans, grup içi varyanstan çok büyüktür → bağımsız değişkenin güçlü bir etkisi vardır.

F oranının istatistiksel anlamlılığı, F dağılımı kullanılarak değerlendirilir. F her zaman pozitif bir değerdir ve sıfırdan başlar (negatif F değeri olmaz).

Serbestlik Dereceleri (Degrees of Freedom)

F dağılımını belirleyen iki serbestlik derecesi vardır:

df_between = k - 1 (k = grup sayısı)
df_within = N - k (N = toplam katılımcı sayısı)

ANOVA Tablosu

ANOVA sonuçları standart bir tablo formatında raporlanır:

Varyans Kaynağı	Kareler Toplamı (SS)	sd (df)	Kareler Ortalaması (MS)	F	p
Gruplar arası	SS_between	k - 1	SS_between / df_between	MS_between / MS_within	—
Grup içi (Hata)	SS_within	N - k	SS_within / df_within	—	—
Toplam	SS_total	N - 1	—	—	—

Post-Hoc Testleri

ANOVA sonucu anlamlı çıktığında, bu yalnızca en az bir grup çiftinin ortalamasının farklı olduğunu gösterir. Hangi grupların birbirinden farklı olduğunu belirlemek için post-hoc (sonradan) testleri uygulanır:

Tukey HSD (Honestly Significant Difference): En yaygın kullanılan post-hoc testidir. Tüm olası grup çiftlerini karşılaştırır ve aile-bazlı hata oranını kontrol eder. Eşit örneklem büyüklükleri için idealdir.
Bonferroni düzeltmesi: α düzeyini karşılaştırma sayısına bölerek her bir karşılaştırma için daha katı bir anlamlılık eşiği belirler. Basit ve yaygın bir yöntemdir, ancak az sayıda karşılaştırma için daha uygundur; çok sayıda karşılaştırmada aşırı muhafazakar olabilir.
Scheffé testi: En muhafazakar post-hoc testidir ancak her türlü karşılaştırmayı (basit ve karmaşık kontrastlar) yapabilir. Tip I hatayı çok iyi kontrol eder ancak istatistiksel gücü düşüktür.
Games-Howell testi: Varyansların homojen olmadığı durumlarda kullanılır. Welch ANOVA ile birlikte tercih edilir.

Etki Büyüklüğü: Eta-Kare (η²)

İstatistiksel anlamlılığın yanı sıra, etkinin pratik büyüklüğünü de raporlamak gerekir. ANOVA için en yaygın etki büyüklüğü ölçüsü eta-kare'dir:

η² = SS_between / SS_total

Eta-kare, bağımlı değişkendeki toplam varyansın ne kadarının bağımsız değişken tarafından açıklandığını gösterir. Cohen'in önerdiği yorumlama ölçütleri:

η² = 0.01: Küçük etki
η² = 0.06: Orta etki
η² = 0.14: Büyük etki

ANOVA Varsayımları

Tek yönlü ANOVA'nın üç temel varsayımı vardır:

Normallik: Her gruptaki bağımlı değişken puanları normal dağılım göstermelidir. Shapiro-Wilk testi ile kontrol edilebilir. ANOVA büyük örneklemlerde normallik sapmasına karşı oldukça dayanıklıdır (robust).
Varyansların homojenliği: Grupların varyansları birbirine yakın olmalıdır. Levene testi ile kontrol edilir. İhlal durumunda Welch ANOVA veya Brown-Forsythe testi kullanılabilir.
Bağımsızlık: Gözlemler birbirinden bağımsız olmalıdır. Bu varsayım ihlal edildiğinde sonuçlar ciddi şekilde bozulabilir ve bu varsayım sağlamlık (robustness) ile telafi edilemez.

Uygulama önerisi: ANOVA sonuçlarını raporlarken her zaman betimsel istatistikleri (ortalama, standart sapma), F değerini, serbestlik derecelerini, p değerini ve etki büyüklüğünü birlikte bildirin. Anlamlı sonuç durumunda post-hoc test sonuçlarını da raporlayın.