Diskriminant Analizi: Grup Ayrımı ve Sınıflandırma Rehberi

Araştırmalarda sıklıkla yanıtlanması gereken sorulardan biri şudur: Belirli özellikler temelinde bireylerin hangi gruba ait olduğu tahmin edilebilir mi? Örneğin bir öğrencinin akademik başarı, motivasyon ve çalışma alışkanlıklarına bakarak mezun olup olamayacağı tahmin edilebilir mi? Diskriminant analizi (discriminant analysis), sürekli bağımsız değişkenler kullanarak bireylerin kategorik bir gruba ait olma olasılığını tahmin eden çok değişkenli bir istatistiksel tekniktir. Kothari'ye (2004) göre diskriminant analizi, "gruplar arası farklılıkları maksimize eden ve grup içi farklılıkları minimize eden doğrusal kombinasyonları bulan" güçlü bir sınıflandırma aracıdır. Bu yazıda diskriminant analizinin temel ilkelerini, varsayımlarını, uygulama adımlarını ve alternatif yöntemlerle karşılaştırmasını kapsamlı biçimde ele alacağız.

Diskriminant Analizinin Amacı ve Mantığı

Diskriminant analizi iki temel amaca hizmet eder (Jackson, 2015):

Tahmin (Sınıflandırma): Yeni gözlemlerin hangi gruba ait olduğunu tahmin etmek. Örneğin bir hastanın test sonuçlarına göre hangi hastalık grubuna dahil olduğunu belirlemek.
Betimleme (Ayırt etme): Grupları birbirinden en iyi ayırt eden değişkenleri belirlemek. Örneğin başarılı ve başarısız öğrencileri en çok hangi faktörlerin ayırt ettiğini ortaya koymak.

Diskriminant analizinin temel mantığı, bağımsız değişkenlerin doğrusal kombinasyonunu oluşturarak gruplar arasındaki ayrımı maksimize etmektir. Bu doğrusal kombinasyon diskriminant fonksiyonu olarak adlandırılır (Kothari, 2004).

Doğrusal Diskriminant Fonksiyonu

Diskriminant fonksiyonu, bağımsız değişkenlerin ağırlıklı toplamından oluşan doğrusal bir denklemdir:

D = b₀ + b₁X₁ + b₂X₂ + b₃X₃ + ... + bₖXₖ

Bu denklemde D diskriminant skorunu, b₀ sabiti, b₁...bₖ diskriminant katsayılarını ve X₁...Xₖ bağımsız değişkenleri temsil eder. Her gözlem için hesaplanan D skoru, o gözlemin hangi gruba daha yakın olduğunu belirler.

İki gruplu bir analizde tek bir diskriminant fonksiyonu oluşturulur. Genel kural olarak g grup ve p bağımsız değişken varsa, oluşturulabilecek maksimum diskriminant fonksiyonu sayısı min(g-1, p) kadardır (Jackson, 2015).

Standardize ve Standardize Edilmemiş Katsayılar

Diskriminant analizinde iki tür katsayı raporlanır:

Standardize edilmemiş (ham) katsayılar: Yeni gözlemlerin sınıflandırılmasında kullanılır. Orijinal ölçek birimindedirler ve doğrudan tahmin denkleminde yer alırlar.
Standardize katsayılar: Değişkenlerin göreli önemini karşılaştırmak için kullanılır. Standardize edilmiş değişkenler üzerinden hesaplanır; mutlak değeri büyük olan katsayılar, ayrıma daha fazla katkıda bulunan değişkenleri gösterir (Kothari, 2004).

Yapı Matrisi (Structure Matrix)

Yapı matrisi, her bağımsız değişken ile diskriminant fonksiyonu arasındaki korelasyonu gösterir. Bu korelasyonlar diskriminant yükleri (discriminant loadings) veya yapı katsayıları olarak da adlandırılır. Jackson'a (2015) göre yapı matrisi, hangi değişkenlerin diskriminant fonksiyonu ile en güçlü ilişkiye sahip olduğunu ortaya koyar.

Yapı matrisinin yorumlanmasında dikkat edilmesi gereken noktalar:

Yükler -1 ile +1 arasında değer alır.
Mutlak değeri 0.30 veya üzeri olan yükler genellikle anlamlı kabul edilir.
Yapı matrisi, standardize katsayılardan daha güvenilir bir değişken önem göstergesidir çünkü çoklu doğrusal bağlantıdan daha az etkilenir.
Yükün işareti, değişkenin hangi gruba doğru ayrım yaptığını gösterir.

Wilks' Lambda Testi

Wilks' Lambda (Λ), diskriminant fonksiyonunun istatistiksel anlamlılığını test etmek için kullanılan temel istatistiktir. Değeri 0 ile 1 arasında değişir (Kothari, 2004):

Λ = 0: Gruplar tamamen ayrılmıştır (mükemmel ayrım).
Λ = 1: Gruplar arasında hiç fark yoktur (ayrım yok).

Wilks' Lambda, F istatistiğine veya ki-kare değerine dönüştürülerek anlamlılık testi yapılır. Küçük Λ değerleri ve anlamlı p değerleri (p < .05), diskriminant fonksiyonunun grupları istatistiksel olarak anlamlı biçimde ayırt ettiğini gösterir.

Etki büyüklüğü: Wilks' Lambda'dan elde edilen eta-kare (η²) = 1 - Λ formülü ile hesaplanır. Bu değer, diskriminant fonksiyonunun açıkladığı varyans oranını ifade eder (Jackson, 2015).

Sınıflandırma Matrisi ve Doğruluk Oranı

Sınıflandırma matrisi (confusion matrix), modelin gözlemleri gruplara ne kadar doğru atadığını gösteren bir çapraz tablodur. Her satır gerçek grup üyeliğini, her sütun tahmin edilen grup üyeliğini gösterir.

Hit Ratio (Doğru Sınıflandırma Oranı)

Hit ratio, doğru sınıflandırılan gözlemlerin toplam gözlem sayısına oranıdır. Bu oranın anlamlılığını değerlendirmek için şans kriterlerinden yüksek olması gerekir (Kothari, 2004):

Orantılı şans kriteri: Her grubun oranının karesi toplamıdır. Örneğin iki eşit grupta şans kriteri = 0.50² + 0.50² = 0.50'dir.
Maksimum şans kriteri: En büyük grubun oranıdır. Bir grupta %70, diğerinde %30 gözlem varsa maksimum şans kriteri = 0.70'tir.
Kural: Hit ratio, orantılı şans kriterinin en az %25 üzerinde olmalıdır.

Çapraz Geçerlilik (Cross-Validation)

Modelin genellenebilirliğini test etmek için çapraz geçerlilik analizi yapılır. En yaygın yöntem bırak-bir-dışarıda (leave-one-out) çapraz geçerliliktir: Her gözlem sırayla analiz dışı bırakılır, kalan gözlemlerle model kurulur ve dışarıda bırakılan gözlem sınıflandırılır. Çapraz geçerlilik hit ratio'su genellikle orijinal hit ratio'dan düşüktür; ancak daha gerçekçi bir performans tahmini sunar (Jackson, 2015).

Diskriminant Analizinin Varsayımları

Diskriminant analizi, aşağıdaki varsayımların karşılanmasını gerektirir (Kothari, 2004; Jackson, 2015):

Çok değişkenli normallik: Her gruptaki bağımsız değişkenlerin çok değişkenli normal dağılım göstermesi gerekir. Tek değişkenli normallik testleri (Shapiro-Wilk, Kolmogorov-Smirnov) ve çok değişkenli normallik testleri (Mardia testi) kullanılır.
Eşit kovaryans matrisleri (homojenlik): Grupların kovaryans matrislerinin eşit olması gerekir. Box's M testi ile kontrol edilir. Box's M anlamlı ise (p < .001, çünkü test aşırı duyarlıdır) kovaryans matrisleri eşit değildir ve bu durumda ayrı kovaryans matrisleri kullanan kuadratik diskriminant analizi tercih edilebilir.
Çoklu doğrusal bağlantı olmaması: Bağımsız değişkenler arasında yüksek korelasyon olmamalıdır. Tolerans ve VIF değerleri kontrol edilmelidir.
Aşırı uç değer olmaması: Çok değişkenli aşırı değerler Mahalanobis uzaklığı ile tespit edilir.
Doğrusallık: Değişkenler arasındaki ilişkiler doğrusal olmalıdır.

Adımsal ve Eşzamanlı Giriş Yöntemleri

Diskriminant analizinde değişkenlerin modele dahil edilme biçimi iki şekilde olabilir (Jackson, 2015):

Eşzamanlı (Simultaneous/Direct) Giriş

Tüm bağımsız değişkenler aynı anda modele girilir. Kuramsal olarak desteklenen değişkenlerin test edilmesinde tercih edilir. Her değişkenin diğer değişkenler kontrol edildikten sonraki katkısı değerlendirilir.

Adımsal (Stepwise) Giriş

Değişkenler belirli istatistiksel kriterlere göre sırayla modele eklenir veya çıkarılır. Wilks' Lambda, F değeri veya Mahalanobis uzaklığı giriş kriteri olarak kullanılabilir. Adımsal yöntem keşifsel çalışmalarda yararlıdır ancak örnekleme bağımlılığı riski taşır; sonuçların farklı örneklemlerde tekrarlanması garanti değildir (Kothari, 2004).

Çoklu Diskriminant Analizi (İkiden Fazla Grup)

İkiden fazla grup olduğunda çoklu diskriminant analizi uygulanır. Bu durumda birden fazla diskriminant fonksiyonu oluşturulur. Her fonksiyon, önceki fonksiyonlarla ilişkisiz (ortogonal) olarak gruplar arası kalan varyansı açıklar (Jackson, 2015).

Çoklu diskriminant analizinde yorumlama adımları:

Her fonksiyonun Wilks' Lambda testi ile anlamlılığı kontrol edilir.
Her fonksiyonun açıkladığı varyans oranı (eigenvalue yüzdesi) incelenir.
Anlamlı fonksiyonlar için yapı matrisi yorumlanır.
Bölgesel harita (territorial map) veya grup merkezleri grafiği ile kümeler görselleştirilir.

Diskriminant Analizi ile Lojistik Regresyon Karşılaştırması

Diskriminant analizi ve lojistik regresyon benzer amaçlara hizmet eder: her ikisi de grup üyeliğini tahmin eder. Ancak önemli farklılıkları vardır (Kothari, 2004; Jackson, 2015):

Özellik	Diskriminant Analizi	Lojistik Regresyon
Varsayımlar	Çok değişkenli normallik, eşit kovaryans matrisleri gerektirir	Daha az kısıtlayıcı varsayımlar
Bağımsız değişken türü	Sürekli değişkenler	Sürekli ve kategorik değişkenler
Tahmin yöntemi	Diskriminant skoru	Olasılık tahmini (0-1)
Etki ölçüsü	Standardize katsayılar, yapı matrisi	Odds ratio
Çıktı yorumu	Hangi değişkenler ayırt edici	Olasılık artış/azalışı
Sağlamlık	Varsayım ihlallerine duyarlı	Varsayım ihlallerine karşı daha dayanıklı
İkiden fazla grup	Doğal uzantısı var	Çoklu lojistik regresyon gerektirir

Hangi durumda hangisi tercih edilmeli? Varsayımlar karşılandığında ve tüm bağımsız değişkenler sürekli ise diskriminant analizi daha güçlü sonuçlar verir. Varsayımlar ihlal edildiğinde, kategorik bağımsız değişkenler olduğunda veya olasılık tahmini istendiğinde lojistik regresyon tercih edilmelidir (Jackson, 2015).

Diskriminant Analizi ile MANOVA İlişkisi

Diskriminant analizi ve MANOVA matematiksel olarak birbirine çok yakındır; aslında aynı madalyonun iki yüzüdürler. MANOVA, gruplar arasında birden fazla bağımlı değişken üzerinde anlamlı fark olup olmadığını test ederken, diskriminant analizi bu farkın hangi değişkenlerden kaynaklandığını ve sınıflandırmanın ne kadar doğru yapılabildiğini ortaya koyar. Bu nedenle MANOVA anlamlı çıktığında diskriminant analizi post-hoc bir izleme analizi olarak kullanılabilir (Kothari, 2004).

SPSS'te Diskriminant Analizi Uygulama Adımları

Analyze → Classify → Discriminant menüsü açılır.
Gruplandırma değişkeni ve değer aralığı tanımlanır (Define Range).
Bağımsız değişkenler Independents kutusuna aktarılır.
Giriş yöntemi seçilir: Enter independents together (eşzamanlı) veya Use stepwise method (adımsal).
Statistics sekmesinde Box's M testi, Fisher sınıflandırma katsayıları ve standardize katsayılar istenir.
Classify sekmesinde sınıflandırma sonuçları ve leave-one-out çapraz geçerlilik seçenekleri işaretlenir.
Save sekmesinde diskriminant skorları ve grup üyeliği tahminleri kaydedilebilir.

Pratik Araştırma Örneği

Bir eğitim araştırmasında 300 lise öğrencisinin akademik durumları incelenmiş ve öğrenciler üç gruba ayrılmıştır: başarılı (n=120), orta düzey (n=100) ve başarısız (n=80). Bağımsız değişkenler olarak öz-yeterlik puanı, çalışma süresi, devamsızlık günü ve aile desteği ölçeği kullanılmıştır. Diskriminant analizi sonucunda iki anlamlı fonksiyon elde edilmiştir: Birinci fonksiyon varyansın %85'ini, ikinci fonksiyon %15'ini açıklamıştır. Yapı matrisi incelendiğinde çalışma süresi ve öz-yeterliğin birinci fonksiyona, devamsızlığın ikinci fonksiyona en yüksek yükü verdiği görülmüştür. Sınıflandırma matrisi, gözlemlerin %74.3'ünün doğru sınıflandırıldığını; çapraz geçerlilik sonucunda bu oranın %71.0'a düştüğünü göstermiştir (Jackson, 2015).

APA Formatında Raporlama

Diskriminant analizi sonuçları APA formatında şu şekilde raporlanır:

Örnek: "Akademik başarı gruplarını yordamak amacıyla doğrusal diskriminant analizi yapılmıştır. İki anlamlı diskriminant fonksiyonu elde edilmiştir. Birinci fonksiyon, Λ = .42, χ²(8) = 254.67, p < .001, toplam varyansın %85.2'sini açıklamıştır. İkinci fonksiyon, Λ = .87, χ²(3) = 41.23, p < .001, kalan varyansın %14.8'ini açıklamıştır. Yapı matrisi incelendiğinde çalışma süresi (.82) ve öz-yeterlik (.76) birinci fonksiyona en yüksek yükü vermiştir. Sınıflandırma doğruluğu %74.3 (çapraz geçerlilik: %71.0) olarak bulunmuştur."

Sonuç ve Değerlendirme

Diskriminant analizi, sürekli bağımsız değişkenler kullanarak grup üyeliğini tahmin etmek ve grupları en iyi ayırt eden değişkenleri belirlemek için güçlü bir çok değişkenli tekniktir. Wilks' Lambda testi ile model anlamlılığı, sınıflandırma matrisi ile tahmin doğruluğu, yapı matrisi ile değişkenlerin göreli önemi değerlendirilir. Varsayımların karşılanması durumunda lojistik regresyona göre daha güçlü sonuçlar sunar; ancak varsayım ihlallerinde lojistik regresyon daha güvenilir bir alternatiftir. Araştırmacılar, her iki tekniğin güçlü ve zayıf yönlerini bilerek araştırma sorusuna en uygun yöntemi seçmelidir (Kothari, 2004; Jackson, 2015).

Diskriminant Analizi: Grup Üyeliğini Tahmin Etme