Hipotez Testi: p Değeri, Tip I-II Hatalar, İstatistiksel Güç ve Etki Büyüklüğü

Hipotez testi, araştırma verilerinden evrene ilişkin çıkarımlar yapma sürecidir. Çıkarımsal istatistiğin temelini oluşturan bu süreç, araştırmacılara gözlemledikleri farklılıkların gerçek mi yoksa şansa bağlı mı olduğunu belirleme imkânı verir.

Hipotez Türleri

Sıfır Hipotezi (H₀)

Sıfır hipotezi, "bir etki yoktur" veya "gruplar arasında fark yoktur" iddiasını ifade eder. Araştırmacının çürütmeye çalıştığı hipotezdir.

Örnek: "Yeni öğretim yöntemi ile geleneksel yöntem arasında öğrenci başarısı açısından fark yoktur."

Alternatif Hipotez (H₁ veya Hₐ)

Alternatif hipotez, sıfır hipotezinin karşıtıdır ve araştırmacının doğrulamayı umduğu iddiayı içerir.

Örnek: "Yeni öğretim yöntemi, geleneksel yönteme göre daha yüksek öğrenci başarısı sağlar."

Tek Yönlü ve Çift Yönlü Testler

Tek yönlü (one-tailed): Farkın belirli bir yönde olacağını öngörür. "A grubu B grubundan daha yüksek puan alır."
Çift yönlü (two-tailed): Farkın yönünü belirtmez. "A grubu ile B grubu arasında fark vardır."

Hipotez Testi Süreci

Hipotezleri oluştur: H₀ ve H₁'i belirle
Anlamlılık düzeyini belirle: Genellikle α = 0.05
Veri topla ve test istatistiğini hesapla
p değerini bul veya kritik değerle karşılaştır
Karar ver: H₀'ı reddet veya reddetme

p Değeri Nedir?

p değeri, sıfır hipotezi doğruyken, gözlemlenen sonucun veya daha aşırı bir sonucun elde edilme olasılığıdır.

p < 0.05: Sonuç istatistiksel olarak anlamlıdır — H₀ reddedilir
p ≥ 0.05: Sonuç istatistiksel olarak anlamlı değildir — H₀ reddedilemez

Dikkat: "p < 0.05" demek "sonuç kesinlikle doğrudur" demek değildir. Sadece bu sonucun şansa bağlı olma olasılığının %5'ten az olduğunu gösterir.

Tip I ve Tip II Hatalar

	H₀ Aslında Doğru	H₀ Aslında Yanlış
H₀'ı Reddet	Tip I Hata (α) — Yanlış alarm	Doğru Karar — Güç (1-β)
H₀'ı Reddetme	Doğru Karar	Tip II Hata (β) — Kaçırma

Tip I Hata (α — Alfa Hatası)

Gerçekte bir etki yokken etki var sonucuna varmaktır. "Yanlış pozitif" olarak da bilinir. Anlamlılık düzeyi (α) bu hatanın olasılığını kontrol eder.

Örnek: Etkisiz bir ilacın etkili olduğuna karar vermek.

Tip II Hata (β — Beta Hatası)

Gerçekte bir etki varken etki yok sonucuna varmaktır. "Yanlış negatif" olarak da bilinir.

Örnek: Etkili bir ilacın etkisiz olduğuna karar vermek.

İstatistiksel Güç (Power)

İstatistiksel güç, gerçek bir etkiyi doğru tespit etme olasılığıdır (1 - β). Yeterli güce sahip olmayan bir çalışma, gerçek etkileri kaçırabilir.

İstatistiksel gücü etkileyen faktörler:

Örneklem büyüklüğü: Büyük örneklemler güçü artırır
Etki büyüklüğü: Büyük etkiler tespit etmesi daha kolaydır
Alfa düzeyi: Daha yüksek alfa düzeyi güçü artırır (ancak Tip I hata riskini de artırır)
Test türü: Tek yönlü testler çift yönlüden daha güçlüdür

Genel kabul edilen standart, çalışmaların en az %80 güce sahip olmasıdır.

Etki Büyüklüğü (Effect Size)

Etki büyüklüğü, gözlemlenen etkinin pratik anlamlılığını gösterir. İstatistiksel anlamlılıktan farklıdır:

İstatistiksel anlamlılık: Etkinin var olup olmadığını söyler
Etki büyüklüğü: Etkinin ne kadar büyük olduğunu söyler

Cohen's d yaygın bir etki büyüklüğü ölçüsüdür:

d = 0.2 → Küçük etki
d = 0.5 → Orta etki
d = 0.8 → Büyük etki

Temel İstatistiksel Testler

z Testi

Bir örneklem ortalamasını bilinen bir evren ortalamasıyla karşılaştırır. Evren standart sapması bilindiğinde kullanılır.

t Testi

Evren standart sapması bilinmediğinde kullanılır (çoğu durumda). Örneklem standart sapmasını kullanarak tahmin yapar.

Tek örneklem t testi: Bir örneklem ortalamasını bilinen bir değerle karşılaştırır
Bağımsız örneklemler t testi: İki farklı grubun ortalamalarını karşılaştırır
Bağımlı (eşleştirilmiş) t testi: Aynı grubun iki farklı ölçümünü karşılaştırır

Ki-kare (χ²) Testi

Kategorik veriler için kullanılır. Gözlenen frekansları beklenen frekanslarla karşılaştırır.

Örnek: Bir zarın adil olup olmadığını test etmek — her yüzün eşit sıklıkta gelip gelmediğini kontrol etme.

Güven Aralığı (Confidence Interval)

Güven aralığı, evren parametresinin tahmini aralığıdır. %95 güven aralığı, eğer çalışma 100 kez tekrarlansaydı, 95'inde gerçek değerin bu aralıkta olacağı anlamına gelir.

Örnek: "Ortalama sınav puanı %95 güven aralığı ile 72 ± 4'tür" → Gerçek evren ortalamasının 68 ile 76 arasında olduğuna %95 güven duyuyoruz.

Hipotez testi, bilimsel araştırmanın karar verme mekanizmasıdır. Ancak p değerine körü körüne bağlanmak yerine, etki büyüklüğü ve güven aralıkları gibi tamamlayıcı ölçülerin de değerlendirilmesi gerektiğini unutmamak önemlidir.

Hipotez Testi ve İstatistiksel Anlamlılık: p Değeri, Hatalar ve Güç Analizi