Araştırma Yöntemleri

Korelasyon ve Nedensellik: En Yaygın İstatistiksel Yanılgılar

PNPeda Network·19 Şubat 2026·0 görüntülenme·
Korelasyon ve Nedensellik: En Yaygın İstatistiksel Yanılgılar

İstatistikte en sık yapılan hatalardan biri, iki değişken arasında gözlenen korelasyonu nedensellik ilişkisi olarak yorumlamaktır. Bu yanılgı sadece günlük yaşamda değil, akademik araştırmalarda ve medya haberlerinde de son derece yaygındır. Bu yazıda, korelasyon ve nedensellik arasındaki kritik farkı ve en yaygın istatistiksel yanılgıları detaylı olarak inceliyoruz.

Korelasyon Nedensellik Değildir

İki değişkenin birlikte değişmesi (kovaryasyon), birinin diğerine neden olduğu anlamına gelmez. Nedensellik için üç koşulun sağlanması gerekir: (1) iki değişken arasında sistematik bir ilişki olmalı, (2) neden olan değişken zamanca önce gelmeli, (3) alternatif açıklamalar (üçüncü değişkenler) elenmelidir. Korelasyonel çalışmalar genellikle yalnızca birinci koşulu test edebilir.

Gerçek Dünyadan Örnekler

  • Dondurma satışları ve boğulma vakaları: Yaz aylarında hem dondurma satışları hem de boğulma vakaları artar. Ancak dondurma yemek boğulmaya neden olmaz; her ikisini de artıran üçüncü değişken sıcak havadır.
  • Ayakkabıyla yatanlar ve baş ağrısı: Ayakkabılarıyla uyuyan insanların ertesi gün baş ağrısı yaşama olasılığı yüksektir. Gerçek neden: alkol tüketimi hem ayakkabıyla uyumaya hem de baş ağrısına yol açar.
  • Leylek popülasyonu ve doğum oranı: Avrupa'da ülkeler arası karşılaştırmalarda leylek popülasyonu ile doğum oranı arasında pozitif korelasyon bulunmuştur. Açıklama: kırsal bölgelerde hem leylek popülasyonu hem de doğum oranı daha yüksektir.

Üçüncü Değişken Sorunu (Confounding)

Üçüncü değişken sorunu, iki değişken arasında gözlenen ilişkinin aslında her ikisini de etkileyen gizli bir üçüncü değişkenden kaynaklandığı durumu ifade eder. Örneğin, eğitim düzeyi ile yaşam süresi arasında güçlü bir pozitif korelasyon vardır. Ancak bu ilişki, sosyoekonomik statü, sağlık hizmetlerine erişim ve yaşam koşulları gibi birçok karıştırıcı değişken tarafından açıklanabilir.

Yönelim Sorunu (Directionality Problem)

Korelasyonel veriler, nedenselliğin yönünü belirlememize izin vermez. Depresyon ile sosyal izolasyon arasında güçlü bir korelasyon var. Peki depresyon mu izolasyona yol açıyor, yoksa izolasyon mu depresyona neden oluyor? Gerçekte bu ilişki çift yönlü olabilir ve her iki değişken karşılıklı olarak birbirini etkileyebilir.

Sahte Korelasyonlar (Spurious Correlations)

Tyler Vigen'in ünlü "Spurious Correlations" projesi, tamamen ilgisiz değişkenler arasındaki şaşırtıcı korelasyonları gözler önüne serer:

  • Nicolas Cage filmleri ve havuzda boğulma: Nicolas Cage'in bir yılda çıkan film sayısı ile havuzda boğulma vakaları arasında r=0.666 korelasyon bulunmuştur.
  • Margarin tüketimi ve boşanma oranı: ABD'de kişi başı margarin tüketimi ile Maine eyaletinin boşanma oranı arasında r=0.993 korelasyon vardır.
  • Peynir tüketimi ve yatak örtüsüne dolanarak ölüm: Kişi başı peynir tüketimi ile yatak çarşafına dolanarak ölüm vakaları arasında yüksek korelasyon raporlanmıştır.

Bu örnekler, yeterince büyük veri setlerinde tamamen rastlantısal korelasyonların kaçınılmaz olduğunu gösterir.

Ekolojik Yanılgı (Ecological Fallacy)

Ekolojik yanılgı, grup düzeyindeki verilere dayanarak bireyler hakkında çıkarım yapma hatasıdır. Örneğin, ülke düzeyinde çikolata tüketimi ile Nobel ödülü sayısı arasında korelasyon bulunmuştur. Ancak bu, çikolata yiyen bireylerin Nobel kazanacağı anlamına gelmez. Grup ortalamaları bireyleri temsil etmeyebilir.

Simpson Paradoksu

Simpson paradoksu, alt gruplarda gözlenen bir eğilimin, gruplar birleştirildiğinde tersine dönmesidir. Klasik örnek: Berkeley Üniversitesi'nin 1973 yılındaki kabul verileri. Toplu verilere bakıldığında kadınlara karşı ayrımcılık yapılıyor gibi görünüyordu. Ancak bölüm bazında incelendiğinde kadınların çoğunun düşük kabul oranlı bölümlere başvurduğu ortaya çıktı. Her bir bölümde kadınların kabul oranı erkeklerden düşük değildi, hatta bazılarında daha yüksekti.

Taban Oranı Yanılgısı (Base Rate Neglect)

İnsanlar istatistiksel değerlendirme yaparken taban oranlarını göz ardı etme eğilimindedir. Nadir bir hastalığı %99 doğrulukla tespit eden bir testin pozitif sonuç vermesi, hastalığa gerçekten yakalanmış olma olasılığının %99 olduğu anlamına gelmez. Hastalığın taban oranı %0.1 ise, pozitif sonuç alanların çoğu aslında sağlıklıdır (yanlış pozitif).

Kumar Yanılgısı ve Ortalamaya Regresyon

Kumar yanılgısı, bağımsız olayların önceki sonuçlardan etkileneceğine inanma hatasıdır. Rulet masasında art arda beş kez siyah geldikten sonra "şimdi kesinlikle kırmızı gelecek" düşüncesi bu yanılgının tipik örneğidir. Ortalamaya regresyon ise ekstrem değerlerin zaman içinde ortalamaya yaklaşma eğilimini ifade eder. Bir sınavda çok yüksek puan alan öğrenciler genellikle bir sonraki sınavda daha düşük puan alır; bu, müdahalenin etkisi değil, istatistiksel bir zorunluluktur.

Medya ve Korelasyon Yanılgısı

Medya haberleri korelasyonel çalışmaları sıklıkla "X, Y'ye neden oluyor" şeklinde sunar. "Kahve içmek ömrü uzatıyor" başlığı, aslında kahve tüketimi ile uzun yaşam arasındaki korelasyonel bulguyu nedensel bir ifadeye dönüştürür. Eleştirel okur, "Bu bir korelasyon mu yoksa kontrollü bir deney mi?", "Hangi karıştırıcı değişkenler kontrol edildi?" ve "Etki büyüklüğü ne kadar?" sorularını sormalıdır.

"Korelasyon nedensellik anlamına gelmez, ancak göz kırpar ve yol tarifi verir." — Edward Tufte

Yorumlar (0)

Yorum yapmak için giriş yapmalısınız.