Kümeleme Analizi: Verileri Doğal Gruplarına Ayırma
Araştırma verilerinde gizli yapıları keşfetmek, gözlemleri benzerliklerine göre doğal gruplara ayırmak bilimsel araştırmanın temel hedeflerinden biridir. Kümeleme analizi (cluster analysis), denetimsiz (unsupervised) bir sınıflandırma tekniği olarak gözlemleri önceden belirlenmiş bir grup bilgisi olmadan benzerliklerine göre kümelere ayırır. Kothari'ye (2004) göre kümeleme analizi, "verilerdeki doğal yapıyı ortaya çıkaran keşifsel bir araçtır" ve pazar araştırmasından eğitim bilimine, biyolojiden sosyal bilimlere kadar geniş bir yelpazede kullanılır. Bu yazıda kümeleme analizinin temel yöntemlerini, uzaklık ölçülerini, küme sayısı belirleme stratejilerini ve uygulama adımlarını kapsamlı biçimde ele alacağız.
Kümeleme Analizi Nedir?
Kümeleme analizi, bir veri setindeki gözlemleri birbirine benzer olanların aynı grupta, farklı olanların farklı gruplarda yer alacağı şekilde sınıflandıran çok değişkenli bir istatistiksel tekniktir. Faktör analizi değişkenleri gruplarken, kümeleme analizi gözlemleri (vakaları, bireyleri) gruplar (Cohen, Manion ve Morrison, 2007).
Kümeleme analizinin temel özellikleri şunlardır:
- Denetimsiz sınıflandırma: Bağımlı değişken yoktur; gözlemler önceden tanımlanmış gruplara atanmaz, doğal gruplar keşfedilir.
- Keşifsel doğa: Kümeleme analizi doğrulayıcı değil keşifsel bir tekniktir; sonuçları hipotez üretmek için kullanılır.
- Benzerlik temelli: Gözlemler arası benzerlik veya uzaklık ölçülerine dayanır.
- Çoklu çözümler: Farklı yöntemler ve parametreler farklı kümeleme sonuçları üretebilir; tek bir "doğru" çözüm yoktur (Kothari, 2004).
Hiyerarşik Kümeleme
Hiyerarşik kümeleme, gözlemleri adım adım birleştirerek veya ayırarak bir kümeleme hiyerarşisi oluşturur. İki temel yaklaşımı vardır (Cohen ve ark., 2007):
Aglomeratif (Birleştirici) Yaklaşım
En yaygın hiyerarşik kümeleme yöntemidir. Her gözlem tek başına bir küme olarak başlar; en benzer iki küme adım adım birleştirilir ve tek bir küme kalana kadar sürer. Bu aşağıdan yukarıya (bottom-up) bir süreçtir.
Bölücü (Divisive) Yaklaşım
Tüm gözlemler tek bir küme olarak başlar ve adım adım en farklı alt gruplara bölünür. Bu yukarıdan aşağıya (top-down) bir süreçtir. Hesaplama maliyeti yüksek olduğundan pratikte daha az kullanılır.
Bağlantı (Linkage) Yöntemleri
Hiyerarşik kümelemede iki küme arasındaki uzaklığı hesaplamak için farklı bağlantı yöntemleri kullanılır. Her yöntem farklı küme yapıları üretir (Kothari, 2004):
| Bağlantı Yöntemi | Uzaklık Tanımı | Özellik | Uygun Küme Şekli |
|---|---|---|---|
| Tek bağlantı (Single) | İki kümedeki en yakın iki nokta arası uzaklık | Zincir etkisi oluşturabilir | Uzun, düzensiz kümeler |
| Tam bağlantı (Complete) | İki kümedeki en uzak iki nokta arası uzaklık | Kompakt kümeler üretir | Küresel, eşit büyüklükte kümeler |
| Ortalama bağlantı (Average) | İki kümedeki tüm nokta çiftlerinin ortalama uzaklığı | Dengeleyici yaklaşım | Orta düzey kompaktlık |
| Ward yöntemi | Birleşme sonucu küme içi varyans artışını minimize eder | En yaygın kullanılan yöntem | Eşit büyüklükte, kompakt kümeler |
Pratik öneri: Eğitim ve sosyal bilim araştırmalarında Ward yöntemi en sık tercih edilen bağlantı yöntemidir çünkü küme içi homojenliği maksimize ederek iyi tanımlanmış, kompakt kümeler üretir (Cohen ve ark., 2007).
Dendogram Okuma ve Yorumlama
Hiyerarşik kümelemenin en önemli görselleştirme aracı dendogram (dendrogram) adı verilen ağaç diyagramıdır. Dendogram, kümelerin birleşme sürecini ve birleşme mesafelerini grafiksel olarak gösterir.
Dendogram Okuma İlkeleri
- Yatay eksen: Gözlemleri veya kümeleri temsil eder.
- Dikey eksen: Birleşme uzaklığını (veya benzerliğini) gösterir.
- Dallar: Hangi gözlemlerin veya kümelerin birleştiğini gösterir.
- Birleşme yüksekliği: Birleşmenin gerçekleştiği uzaklık; yüksek birleşme noktaları farklı kümelerin birleştiğini gösterir.
- Küme sayısı belirleme: Dendogramda en uzun dikey mesafenin bulunduğu yerden yatay bir çizgi çekilir; bu çizginin kestiği dal sayısı önerilen küme sayısını verir (Kothari, 2004).
Dendogramda büyük bir dikey sıçrama, iki farklı kümenin zorla birleştirildiğini gösterir. Bu nedenle sıçramadan önceki küme sayısı genellikle optimal çözüm olarak kabul edilir.
Hiyerarşik Olmayan Kümeleme: K-Means Algoritması
K-means, en popüler hiyerarşik olmayan kümeleme algoritmasıdır. Araştırmacı önceden küme sayısını (k) belirler ve algoritma gözlemleri bu k kümeye atar (Cohen ve ark., 2007).
K-Means Algoritma Adımları
- Başlangıç merkezleri belirleme: k adet başlangıç küme merkezi (centroid) rastgele seçilir veya belirli bir yöntemle atanır.
- Atama adımı: Her gözlem, en yakın küme merkezine atanır (genellikle Öklid uzaklığına göre).
- Güncelleme adımı: Her kümenin yeni merkezi, o kümedeki tüm gözlemlerin ortalaması olarak yeniden hesaplanır.
- Yakınsama kontrolü: Atamalar değişmeyene veya maksimum iterasyon sayısına ulaşılana kadar 2. ve 3. adımlar tekrarlanır.
K-Medoids Algoritması
K-medoids (PAM — Partitioning Around Medoids), k-means'in aşırı değerlere karşı daha dayanıklı bir alternatifidir. Küme merkezi olarak ortalama yerine medoid (kümedeki en merkezi gerçek gözlem) kullanır. Bu özellik sayesinde aşırı uç değerlerden daha az etkilenir (Kothari, 2004).
Küme Sayısı Belirleme Yöntemleri
Kümeleme analizinde en kritik karar, optimal küme sayısının belirlenmesidir. Bunun için birden fazla yöntem birlikte kullanılmalıdır:
Dirsek (Elbow) Yöntemi
Farklı k değerleri için küme içi kareler toplamı (WCSS — Within-Cluster Sum of Squares) hesaplanır ve k'ya karşı grafiğe döküldüğünde, eğrinin belirgin şekilde düzleşmeye başladığı nokta "dirsek" olarak adlandırılır ve optimal küme sayısını gösterir. Ancak dirsek noktası her zaman net olmayabilir (Cohen ve ark., 2007).
Silhouette Analizi
Her gözlem için silhouette katsayısı hesaplanır. Bu katsayı -1 ile +1 arasında değer alır:
- +1'e yakın: Gözlem kendi kümesine çok iyi uyum sağlamıştır.
- 0'a yakın: Gözlem iki küme arasında belirsizdir.
- -1'e yakın: Gözlem muhtemelen yanlış kümeye atanmıştır.
Ortalama silhouette katsayısı en yüksek olan k değeri optimal küme sayısı olarak seçilir. Genel olarak ortalama silhouette ≥ 0.50 iyi bir kümeleme yapısına işaret eder (Kothari, 2004).
Gap İstatistiği
Gap istatistiği, gözlenen küme içi dağılımı ile beklenen (rastgele dağılımlı) referans dağılımı karşılaştırır. Gap değerinin maksimum olduğu veya artışın durduğu k değeri optimal küme sayısını verir. Bu yöntem istatistiksel olarak daha sağlam bir temel sunar ancak hesaplama maliyeti daha yüksektir.
Uzaklık Ölçüleri
Kümeleme analizinin temeli, gözlemler arası benzerlik veya uzaklık hesaplamasına dayanır. Farklı uzaklık ölçüleri farklı kümeleme sonuçları üretebilir (Cohen ve ark., 2007):
| Uzaklık Ölçüsü | Formül Mantığı | Özellik | Uygun Durum |
|---|---|---|---|
| Öklid uzaklığı | İki nokta arası düz çizgi mesafesi | En yaygın kullanılan; ölçek duyarlıdır | Sürekli, standartlaştırılmış veriler |
| Kare Öklid uzaklığı | Öklid uzaklığının karesi | Büyük uzaklıklara daha fazla ağırlık verir | Ward yöntemi ile birlikte |
| Manhattan uzaklığı | Farkların mutlak değerlerinin toplamı | Aşırı değerlere karşı daha dayanıklı | Aşırı değerli veriler |
| Mahalanobis uzaklığı | Değişkenler arası korelasyonu dikkate alır | Ölçek ve korelasyon bağımsız | Korelasyonlu değişkenler |
| Kosinüs uzaklığı | İki vektör arası açının kosinüsü | Büyüklükten bağımsız, yön odaklı | Metin madenciliği, profil analizi |
Kümeleme Öncesi Standardizasyon
Kümeleme analizinde kullanılan değişkenlerin farklı ölçeklerde olması, büyük ölçekli değişkenlerin kümelemeyi domine etmesine neden olur. Örneğin yaş (18-65) ve gelir (1000-50000) birlikte kullanıldığında gelir değişkeni kümelemeyi belirler. Bu sorunu önlemek için veriler kümeleme öncesi standardize edilmelidir (Kothari, 2004).
Yaygın standardizasyon yöntemleri:
- Z-skoru standardizasyonu: Her değişken ortalaması 0, standart sapması 1 olacak şekilde dönüştürülür. En yaygın kullanılan yöntemdir.
- Min-max normalizasyonu: Değerler 0-1 aralığına dönüştürülür.
- Range standardizasyonu: Değerler değişken aralığına bölünür.
İki Adımlı (Two-Step) Kümeleme
İki adımlı kümeleme, büyük veri setleri ve karma değişken türleri (sürekli + kategorik) için geliştirilmiş bir yöntemdir. İlk adımda veriler ön kümeleme ile alt kümelere ayrılır; ikinci adımda bu alt kümeler hiyerarşik yöntemle birleştirilir. Optimal küme sayısını otomatik olarak belirleyebilmesi (BIC veya AIC kriteri ile) önemli bir avantajıdır (Cohen ve ark., 2007).
Hiyerarşik Kümeleme ile K-Means Karşılaştırması
| Özellik | Hiyerarşik Kümeleme | K-Means |
|---|---|---|
| Küme sayısı | Önceden belirlenmez; dendogramdan karar verilir | Önceden belirlenmelidir |
| Algoritma türü | Birleştirici veya bölücü | Bölme ve yeniden atama |
| Hesaplama karmaşıklığı | O(n³) — büyük verilerde yavaş | O(nkt) — büyük verilerde hızlı |
| Sonuç türü | Hiyerarşik yapı (dendogram) | Tek düzey kümeleme |
| Geri dönüşüm | Birleşme geri alınamaz | Gözlemler iterasyonlarda yeniden atanabilir |
| Başlangıç değeri etkisi | Yok (deterministik) | Var (farklı başlangıçlar farklı sonuçlar üretebilir) |
| Küme şekli | Esnek; farklı şekiller olabilir | Küresel kümeler varsayar |
| Uygun örneklem | Küçük-orta (n < 500) | Büyük (n > 500) |
Kombine strateji: Yaygın bir uygulama stratejisi, önce hiyerarşik kümeleme ile optimal küme sayısını belirlemek, ardından bu sayıyı k-means analizinde kullanmaktır. Bu yaklaşım her iki yöntemin güçlü yönlerini birleştirir (Kothari, 2004).
Eğitim ve Sosyal Bilim Araştırmalarında Uygulamalar
Kümeleme analizi, eğitim ve sosyal bilim araştırmalarında çeşitli amaçlarla kullanılmaktadır (Cohen ve ark., 2007):
- Öğrenci profilleri: Öğrenme stratejileri, motivasyon düzeyleri ve akademik performansa göre öğrenci gruplarının belirlenmesi.
- Okul sınıflandırması: Okulların başarı düzeyleri, kaynakları ve demografik yapılarına göre doğal gruplara ayrılması.
- Öğretmen tipolojileri: Öğretim yöntemleri, tutumlar ve mesleki gelişim özelliklerine göre öğretmen tiplerinin keşfedilmesi.
- Davranış kalıpları: Anket verilerindeki yanıt kalıplarına göre katılımcıların gruplandırılması.
- Pazar segmentasyonu: Tüketici özelliklerine göre pazar bölümlerinin belirlenmesi.
Yazılım Uygulamaları
SPSS'te Kümeleme Analizi
- Hiyerarşik kümeleme: Analyze → Classify → Hierarchical Cluster menüsü kullanılır. Method sekmesinde bağlantı yöntemi ve uzaklık ölçüsü seçilir; Plots sekmesinde dendogram istenir.
- K-means kümeleme: Analyze → Classify → K-Means Cluster menüsü kullanılır. Küme sayısı belirtilir; Options sekmesinde ANOVA tablosu ve başlangıç merkezleri seçilebilir.
- İki adımlı kümeleme: Analyze → Classify → TwoStep Cluster menüsü kullanılır. Otomatik küme sayısı belirleme özelliği aktif edilebilir.
R'da Kümeleme Analizi
R programlama dilinde kümeleme analizi için temel fonksiyonlar şunlardır: hclust() hiyerarşik kümeleme için, kmeans() k-means için, pam() k-medoids için kullanılır. Ayrıca factoextra paketi kümeleme sonuçlarının görselleştirilmesi için güçlü araçlar sunar (Kothari, 2004).
Kümeleme Analizinin Sınırlılıkları
Her istatistiksel teknik gibi kümeleme analizinin de önemli sınırlılıkları vardır (Cohen ve ark., 2007):
- Optimal küme sayısı belirsizliği: Tek bir doğru küme sayısı yoktur; farklı yöntemler farklı sayılar önerebilir.
- Yöntem bağımlılığı: Farklı kümeleme yöntemleri ve uzaklık ölçüleri farklı sonuçlar üretebilir.
- Değişken seçimi etkisi: Analize dahil edilen değişkenler kümeleme sonuçlarını doğrudan etkiler.
- Aşırı değer duyarlılığı: Özellikle k-means algoritması aşırı değerlerden etkilenir.
- Yorumlama öznelliği: Kümelerin anlamlılığı ve adlandırılması araştırmacının yorumuna bağlıdır.
- Doğrulayıcı değil keşifsel: Kümeleme sonuçları istatistiksel anlamlılık testleri ile doğrudan değerlendirilemez.
Sonuç ve Değerlendirme
Kümeleme analizi, verilerdeki doğal yapıları keşfetmek için güçlü bir araçtır. Hiyerarşik kümeleme ve k-means algoritması en yaygın kullanılan iki yöntemdir ve araştırmacılar genellikle her iki yöntemi birlikte kullanarak bulgularını doğrularlar. Küme sayısı belirlemede dirsek yöntemi, silhouette analizi ve gap istatistiğinin birlikte değerlendirilmesi önerilir. Standardizasyon, uygun uzaklık ölçüsü seçimi ve sonuçların geçerliliğinin dışsal kriterlerle kontrol edilmesi, güvenilir kümeleme sonuçları elde etmenin temel koşullarıdır (Kothari, 2004). Araştırmacılar, kümeleme analizinin keşifsel doğasını göz önünde bulundurarak sonuçlarını farklı yöntem ve parametrelerle çapraz doğrulamalı ve kümelerin kuramsal anlamlılığını tartışmalıdır.
Kaynaklar
Yorumlar (0)
Yorum yapmak için giriş yapmalısınız.
