Lojistik Regresyon Nedir? Binary, Multinomial ve Ordinal Analiz

Araştırma dünyasında bağımlı değişkenin kategorik olduğu durumlar son derece yaygındır: Bir öğrenci sınavı geçer mi geçmez mi, bir hasta tedaviye yanıt verir mi vermez mi, bir müşteri ürünü satın alır mı almaz mı? Bu tür evet/hayır, başarılı/başarısız gibi ikili veya çok kategorili sonuç değişkenlerini tahmin etmek için lojistik regresyon (logistic regression) kullanılır. Jackson'a (2015) göre lojistik regresyon, doğrusal regresyonun kategorik bağımlı değişkenler için uyarlanmış bir uzantısıdır ve sosyal bilimler, eğitim, sağlık ve pazarlama gibi pek çok alanda en sık kullanılan istatistiksel tekniklerden biridir. Bu yazıda lojistik regresyonun temel mantığını, türlerini, varsayımlarını ve uygulama adımlarını kapsamlı biçimde ele alacağız.

Doğrusal Regresyon Neden Kategorik Bağımlı Değişkende Başarısız Olur?

Doğrusal regresyon, bağımlı değişkenin sürekli ve normal dağılımlı olduğunu varsayar. Bağımlı değişken 0 ve 1 gibi iki değer aldığında, doğrusal regresyon modelinin ciddi sorunları ortaya çıkar (Cohen, Manion ve Morrison, 2007):

Tahmin değerlerinin 0-1 aralığı dışına çıkması: Doğrusal regresyon denklemi, tahmin edilen Y değerlerinin 0'ın altına veya 1'in üstüne çıkmasına izin verir ki bu olasılık açısından anlamsızdır.
Normallik varsayımının ihlali: İkili bir bağımlı değişken tanım gereği normal dağılmaz; Bernoulli dağılımı gösterir.
Hataların sabit varyanslı olmaması (heteroskedastisite): Kategorik bağımlı değişkende hata terimleri sabit varyanslı değildir.
Doğrusallık varsayımının ihlali: İkili sonuç ile yordayıcılar arasındaki ilişki doğrusal değil, S-biçimli bir eğri izler.

Bu sorunları çözmek için lojistik regresyon, tahmin edilen değerleri lojistik fonksiyon (sigmoid eğrisi) aracılığıyla 0 ile 1 arasına sıkıştırır ve böylece olasılık tahmini yapar (Kothari, 2004).

Lojistik Fonksiyon ve Sigmoid Eğrisi

Lojistik regresyonun temelinde lojistik fonksiyon (sigmoid fonksiyonu) yer alır. Bu fonksiyon, herhangi bir gerçek sayıyı 0 ile 1 arasında bir değere dönüştürür:

P(Y=1) = 1 / (1 + e^{-(b₀ + b₁X₁ + b₂X₂ + ... + bₖXₖ)})

Bu denklemde P(Y=1) olayın gerçekleşme olasılığını, e doğal logaritma tabanını (yaklaşık 2.718), b₀ sabiti ve b₁...bₖ regresyon katsayılarını temsil eder. Sigmoid eğrisi S-biçimli bir yapıya sahiptir: düşük değerlerde 0'a, yüksek değerlerde 1'e yaklaşır ve orta bölgede hızlı bir geçiş gösterir (Jackson, 2015).

Lojistik fonksiyonun en önemli özelliği, çıktının her zaman bir olasılık değeri olmasıdır. Bu değer genellikle 0.50 eşik değeriyle sınıflandırmaya dönüştürülür: P ≥ 0.50 ise "evet" (1), P < 0.50 ise "hayır" (0) olarak tahmin edilir.

İkili (Binary) Lojistik Regresyon

İkili lojistik regresyon, bağımlı değişkenin iki kategoriden oluştuğu durumlarda kullanılır: başarılı/başarısız, hasta/sağlıklı, satın alan/almayan gibi. Bu, lojistik regresyonun en yaygın ve temel formudur (Cohen ve ark., 2007).

Odds, Log-Odds ve Odds Ratio Kavramları

Lojistik regresyonu anlamak için üç temel kavramın bilinmesi gerekir:

Odds (Olasılık oranı): Bir olayın gerçekleşme olasılığının gerçekleşmeme olasılığına oranıdır. P olayın olasılığı ise Odds = P / (1-P). Örneğin bir öğrencinin sınavı geçme olasılığı 0.80 ise odds = 0.80 / 0.20 = 4.0 olur; yani geçme olasılığı geçmeme olasılığının 4 katıdır.
Log-odds (Logit): Odds değerinin doğal logaritmasıdır: logit = ln(P / (1-P)). Log-odds, lojistik regresyon denkleminin doğrusal kısmını oluşturur ve -∞ ile +∞ arasında değer alabilir.
Odds Ratio (OR): Bağımsız değişkendeki bir birimlik artışın odds üzerindeki çarpımsal etkisini gösterir. OR = e^b formülü ile hesaplanır. OR = 1 ise etki yoktur; OR > 1 ise olayın gerçekleşme olasılığı artar; OR < 1 ise azalır (Jackson, 2015).

Odds Ratio Yorumlama Örnekleri

Odds ratio, lojistik regresyonda en önemli yorumlama aracıdır. Kothari'ye (2004) göre OR değerleri şu şekilde yorumlanır:

OR Değeri	Anlam	Örnek Yorum
OR = 1.00	Etki yok	Değişkenin sonuç üzerinde anlamlı etkisi yoktur
OR = 2.50	Olasılık 2.5 kat artış	Her bir birimlik artışta olay gerçekleşme odds'u 2.5 kat artar
OR = 0.40	Olasılık %60 azalış	Her bir birimlik artışta olay gerçekleşme odds'u %60 azalır
OR = 1.15	Olasılık %15 artış	Her bir birimlik artışta olay gerçekleşme odds'u %15 artar

Önemli not: Odds ratio, olasılık oranı ile aynı şey değildir. Nadir olaylarda (prevalans < %10) OR, göreceli riski (relative risk) iyi yaklaştırır; ancak sık olaylarda OR, göreceli riskten sapabilir (Cohen ve ark., 2007).

Maksimum Olabilirlik Tahmini (Maximum Likelihood Estimation)

Doğrusal regresyon en küçük kareler yöntemini (OLS) kullanırken, lojistik regresyon maksimum olabilirlik tahmini (MLE) yöntemini kullanır. MLE, gözlenen verileri en iyi açıklayan parametre değerlerini bulur. Bu yöntem iteratif (yinelemeli) bir süreçtir; başlangıç tahminleriyle başlar ve parametre tahminlerini yakınsama sağlanana kadar günceller (Kothari, 2004).

MLE'nin temel mantığı şudur: Gözlenen veri setini üreten en olası parametre değerleri nelerdir? Bu değerler, olabilirlik fonksiyonunu (likelihood function) maksimize eden katsayılardır. Uygulamada genellikle log-olabilirlik (-2 Log Likelihood veya -2LL) kullanılır ve bu değerin küçük olması modelin daha iyi uyum gösterdiği anlamına gelir (Jackson, 2015).

Model Değerlendirme Ölçütleri

Lojistik regresyon modelinin kalitesini değerlendirmek için birden fazla ölçüt kullanılır. Cohen ve arkadaşları (2007), aşağıdaki değerlendirme araçlarını önermiştir:

Sınıflandırma Tablosu (Classification Table)

Sınıflandırma tablosu, modelin gerçek ve tahmin edilen kategorileri ne kadar doğru eşleştirdiğini gösterir. Tabloda dört hücre bulunur:

	Tahmin: Evet	Tahmin: Hayır
Gerçek: Evet	Doğru Pozitif (DP)	Yanlış Negatif (YN)
Gerçek: Hayır	Yanlış Pozitif (YP)	Doğru Negatif (DN)

Duyarlılık (Sensitivity): DP / (DP + YN) — Gerçek evet olanların doğru tahmin edilme oranı
Özgüllük (Specificity): DN / (DN + YP) — Gerçek hayır olanların doğru tahmin edilme oranı
Genel doğruluk oranı: (DP + DN) / Toplam — Tüm doğru tahminlerin oranı

Hosmer-Lemeshow Uyum İyiliği Testi

Bu test, modelin tahmin ettiği olasılıkların gözlenen oranlarla ne kadar uyumlu olduğunu değerlendirir. Veriler tahmin edilen olasılıklara göre gruplara ayrılır ve gözlenen ile beklenen frekanslar karşılaştırılır. p > .05 ise model veriyle iyi uyum göstermektedir; p < .05 ise model uyumsuzluğu söz konusudur (Jackson, 2015).

Pseudo R² Değerleri

Doğrusal regresyondaki R²'nin aksine, lojistik regresyonda gerçek bir R² değeri yoktur. Bunun yerine çeşitli pseudo R² (sözde R²) ölçütleri kullanılır:

Cox & Snell R²: -2LL değişimine dayalıdır; ancak teorik üst sınırı 1'den küçüktür, bu nedenle yorumlaması güçtür.
Nagelkerke R²: Cox & Snell R² değerini düzeltir ve 0-1 aralığında değer almasını sağlar. En yaygın raporlanan pseudo R² değeridir.
McFadden R²: Log-olabilirlik oranına dayalıdır; 0.20-0.40 arası değerler iyi uyuma işaret eder (Kothari, 2004).

ROC Eğrisi ve AUC

ROC (Receiver Operating Characteristic) eğrisi, modelin farklı eşik değerlerindeki duyarlılık ve 1-özgüllük değerlerini grafik olarak gösterir. Bu eğri, modelin ayırt edicilik gücünü görsel olarak değerlendirmeye imkân tanır (Cohen ve ark., 2007).

AUC (Area Under the Curve) — ROC eğrisinin altında kalan alan — modelin genel sınıflandırma performansını tek bir sayı ile özetler:

AUC Değeri	Modelin Ayırt Edicilik Gücü
0.90 – 1.00	Mükemmel
0.80 – 0.90	İyi
0.70 – 0.80	Kabul edilebilir
0.60 – 0.70	Zayıf
0.50 – 0.60	Başarısız (şanstan farksız)

AUC = 0.50, modelin rastgele tahminden farksız olduğunu gösterir. AUC = 1.00 ise mükemmel ayrımı ifade eder. Uygulamada AUC ≥ 0.70 genellikle kabul edilebilir sayılır (Jackson, 2015).

Çoklu (Multinomial) Lojistik Regresyon

Bağımlı değişkenin ikiden fazla sırasız kategorisi olduğunda çoklu lojistik regresyon kullanılır. Örneğin bir öğrencinin meslek tercihi (öğretmen, mühendis, doktor) veya bir seçmenin oy vereceği parti (A, B, C) gibi durumlar çoklu lojistik regresyon gerektirir (Cohen ve ark., 2007).

Çoklu lojistik regresyon, bir referans kategorisi belirlenerek çalışır. Diğer her kategori, referans kategorisine karşı ayrı bir ikili lojistik regresyon modeli ile tahmin edilir. Eğer bağımlı değişkende k kategori varsa, k-1 adet lojistik regresyon denklemi oluşturulur.

Çoklu Lojistik Regresyonda Dikkat Edilecekler

Referans kategorisi seçimi: En sık gözlenen veya teorik olarak en anlamlı kategori referans olarak seçilmelidir.
Bağımsızlık varsayımı (IIA): Bir alternatifin eklenmesi veya çıkarılması, diğer alternatiflerin odds ratio'larını etkilememelidir. Bu, "alakasız alternatiflerin bağımsızlığı" (Independence of Irrelevant Alternatives) varsayımıdır (Kothari, 2004).
Örneklem büyüklüğü: Her kategoride yeterli gözlem sayısı olmalıdır; genel kural olarak her bağımsız değişken başına kategorideki minimum gözlem sayısı 10-20 olmalıdır.

Sıralı (Ordinal) Lojistik Regresyon

Bağımlı değişkenin kategorileri arasında doğal bir sıralama olduğunda sıralı lojistik regresyon tercih edilir. Likert tipi ölçeklerden elde edilen veriler (kesinlikle katılmıyorum, katılmıyorum, kararsızım, katılıyorum, kesinlikle katılıyorum) veya hastalık evreleri (hafif, orta, ağır) gibi sıralı kategoriler bu analizin konusudur (Jackson, 2015).

Orantılı Odds Varsayımı (Proportional Odds Assumption)

Sıralı lojistik regresyonun en kritik varsayımı orantılı odds (proportional odds) varsayımıdır. Bu varsayıma göre bağımsız değişkenlerin etkisi, bağımlı değişkenin tüm kesme noktalarında aynıdır. Başka bir deyişle, regresyon katsayıları kategoriler arası tüm karşılaştırmalarda eşit kalır. Bu varsayım Brant testi veya paralel çizgiler testi ile kontrol edilir. Varsayım ihlal edilirse genelleştirilmiş sıralı logit modeli veya çoklu lojistik regresyon tercih edilmelidir (Cohen ve ark., 2007).

Lojistik Regresyonun Varsayımları

Lojistik regresyon, doğrusal regresyona kıyasla daha az kısıtlayıcı varsayımlara sahiptir. Ancak yine de bazı önemli varsayımlar bulunmaktadır (Kothari, 2004; Jackson, 2015):

Çoklu doğrusal bağlantı olmaması: Bağımsız değişkenler arasında yüksek korelasyon olmamalıdır. VIF > 10 veya tolerans < 0.10 değerleri sorunlu kabul edilir.
Logit ile doğrusallık: Sürekli bağımsız değişkenler ile log-odds arasında doğrusal bir ilişki olmalıdır. Bu, Box-Tidwell testi ile kontrol edilebilir.
Bağımsız gözlemler: Gözlemler birbirinden bağımsız olmalıdır; tekrarlı ölçümler varsa farklı modeller (koşullu lojistik regresyon, GEE) kullanılmalıdır.
Büyük örneklem: MLE yöntemi büyük örneklemlerde iyi çalışır. Genel kural olarak en az 10-20 olay/bağımsız değişken oranı önerilir.
Aşırı uç değer olmaması: Aşırı değerler model tahminlerini önemli ölçüde etkileyebilir; Cook's distance ve standardize artıklar kontrol edilmelidir.

Doğrusal Regresyon ile Lojistik Regresyon Türlerinin Karşılaştırması

Özellik	Doğrusal Regresyon	İkili Lojistik	Çoklu Lojistik	Sıralı Lojistik
Bağımlı değişken	Sürekli	İkili (0/1)	Nominal (≥3 kategori)	Sıralı (≥3 kategori)
Tahmin fonksiyonu	Doğrusal	Sigmoid	Softmax	Kümülatif logit
Tahmin yöntemi	OLS	MLE	MLE	MLE
Çıktı	Tahmin edilen Y	Olasılık (0-1)	Her kategorinin olasılığı	Kümülatif olasılık
Etki ölçüsü	β katsayısı	Odds ratio	Odds ratio (referansa göre)	Odds ratio (orantılı)
Model uyumu	R², F testi	-2LL, Nagelkerke R²	-2LL, Nagelkerke R²	-2LL, Nagelkerke R²
Normallik varsayımı	Evet	Hayır	Hayır	Hayır

SPSS'te Lojistik Regresyon Uygulama Adımları

SPSS'te ikili lojistik regresyon analizi şu adımlarla gerçekleştirilir (Jackson, 2015):

Analyze → Regression → Binary Logistic menüsü açılır.
Bağımlı değişken Dependent kutusuna, bağımsız değişkenler Covariates kutusuna aktarılır.
Method bölümünden giriş yöntemi seçilir: Enter (tüm değişkenler aynı anda), Forward (ileri adımsal) veya Backward (geri adımsal).
Options sekmesinde Hosmer-Lemeshow testi, sınıflandırma tablosu ve CI for Exp(B) seçenekleri işaretlenir.
Save sekmesinde tahmin edilen olasılıklar ve artıklar kaydedilebilir.
Çoklu lojistik regresyon için Analyze → Regression → Multinomial Logistic, sıralı lojistik regresyon için Analyze → Regression → Ordinal menüleri kullanılır.

ROC Eğrisi Çizimi

SPSS'te ROC eğrisi çizmek için önce lojistik regresyon analizinden tahmin edilen olasılıklar kaydedilir, ardından Analyze → ROC Curve menüsü kullanılır. Test değişkeni olarak tahmin edilen olasılık, durum değişkeni olarak bağımlı değişken seçilir (Cohen ve ark., 2007).

APA Formatında Raporlama

Lojistik regresyon sonuçları APA formatında raporlanırken şu bilgiler verilmelidir:

Örnek raporlama: "Öğrenci başarısını yordamak amacıyla ikili lojistik regresyon analizi yapılmıştır. Model istatistiksel olarak anlamlı bulunmuştur, χ²(4) = 45.32, p < .001. Model, varyansın %38'ini (Nagelkerke R² = .38) açıklamış ve gözlemlerin %82.5'ini doğru sınıflandırmıştır. Hosmer-Lemeshow testi model uyumunun yeterli olduğunu göstermiştir, χ²(8) = 6.42, p = .491. Çalışma süresi (OR = 1.85, %95 GA [1.42, 2.41], p < .001) ve devamsızlık (OR = 0.72, %95 GA [0.58, 0.89], p = .003) anlamlı yordayıcılar olarak belirlenmiştir."

Raporlamada Verilmesi Gereken Bilgiler

Model ki-kare testi ve serbestlik derecesi
Nagelkerke R² (veya diğer pseudo R² değerleri)
Sınıflandırma doğruluğu
Hosmer-Lemeshow testi sonucu
Her yordayıcı için B, SE, Wald, p, OR ve %95 güven aralığı
Gerektiğinde ROC eğrisi ve AUC değeri

Eğitim Araştırmalarında Lojistik Regresyon Örnekleri

Lojistik regresyon, eğitim araştırmalarında pek çok farklı bağlamda kullanılmaktadır. Cohen ve arkadaşlarına (2007) göre yaygın uygulama alanları şunlardır:

Okul terk riskinin tahmini: Sosyoekonomik düzey, devamsızlık, akademik başarı ve aile desteği gibi değişkenlerle okulu terk etme olasılığının modellenmesi.
Program seçimi: Öğrencilerin fen, sosyal veya eşit ağırlık alanı tercihlerinin demografik ve akademik değişkenlerle tahmin edilmesi (çoklu lojistik regresyon).
Mezuniyet durumu: Üniversite öğrencilerinin zamanında mezun olup olmayacağının yordanması.
Memnuniyet düzeyi: Öğretmenlerin mesleki memnuniyet düzeylerinin (düşük, orta, yüksek) çalışma koşullarıyla ilişkisinin incelenmesi (sıralı lojistik regresyon).

Jackson (2015), eğitim alanında lojistik regresyonun özellikle yararlı olduğunu vurgulamıştır çünkü eğitim araştırmalarında pek çok bağımlı değişken doğası gereği kategoriktir: başarılı/başarısız, devam eden/terk eden, kabul edilen/reddedilen gibi.

Sonuç ve Değerlendirme

Lojistik regresyon, kategorik bağımlı değişkenlerle çalışan araştırmacılar için vazgeçilmez bir istatistiksel araçtır. İkili, çoklu ve sıralı olmak üzere üç temel türü, farklı veri yapılarına uyum sağlar. Modelin değerlendirilmesinde sınıflandırma tablosu, Hosmer-Lemeshow testi, pseudo R² değerleri ve ROC eğrisi birlikte kullanılmalıdır. Araştırmacılar, doğru lojistik regresyon türünü seçmek için öncelikle bağımlı değişkenin ölçüm düzeyini (ikili, nominal çok kategorili veya sıralı) belirlemeli ve varsayımları titizlikle kontrol etmelidir (Kothari, 2004). Odds ratio yorumlaması ve APA formatında doğru raporlama, bulguların bilimsel topluluğa etkili biçimde aktarılmasını sağlar.

Lojistik Regresyon: Kategorik Bağımlı Değişken ile Tahmin Modelleri