Kümeleme Analizi Nedir? K-Means ve Hiyerarşik Kümeleme Rehberi

Araştırma verilerinde gizli yapıları keşfetmek, gözlemleri benzerliklerine göre doğal gruplara ayırmak bilimsel araştırmanın temel hedeflerinden biridir. Kümeleme analizi (cluster analysis), denetimsiz (unsupervised) bir sınıflandırma tekniği olarak gözlemleri önceden belirlenmiş bir grup bilgisi olmadan benzerliklerine göre kümelere ayırır. Kothari'ye (2004) göre kümeleme analizi, "verilerdeki doğal yapıyı ortaya çıkaran keşifsel bir araçtır" ve pazar araştırmasından eğitim bilimine, biyolojiden sosyal bilimlere kadar geniş bir yelpazede kullanılır. Bu yazıda kümeleme analizinin temel yöntemlerini, uzaklık ölçülerini, küme sayısı belirleme stratejilerini ve uygulama adımlarını kapsamlı biçimde ele alacağız.

Kümeleme Analizi Nedir?

Kümeleme analizi, bir veri setindeki gözlemleri birbirine benzer olanların aynı grupta, farklı olanların farklı gruplarda yer alacağı şekilde sınıflandıran çok değişkenli bir istatistiksel tekniktir. Faktör analizi değişkenleri gruplarken, kümeleme analizi gözlemleri (vakaları, bireyleri) gruplar (Cohen, Manion ve Morrison, 2007).

Kümeleme analizinin temel özellikleri şunlardır:

Denetimsiz sınıflandırma: Bağımlı değişken yoktur; gözlemler önceden tanımlanmış gruplara atanmaz, doğal gruplar keşfedilir.
Keşifsel doğa: Kümeleme analizi doğrulayıcı değil keşifsel bir tekniktir; sonuçları hipotez üretmek için kullanılır.
Benzerlik temelli: Gözlemler arası benzerlik veya uzaklık ölçülerine dayanır.
Çoklu çözümler: Farklı yöntemler ve parametreler farklı kümeleme sonuçları üretebilir; tek bir "doğru" çözüm yoktur (Kothari, 2004).

Hiyerarşik Kümeleme

Hiyerarşik kümeleme, gözlemleri adım adım birleştirerek veya ayırarak bir kümeleme hiyerarşisi oluşturur. İki temel yaklaşımı vardır (Cohen ve ark., 2007):

Aglomeratif (Birleştirici) Yaklaşım

En yaygın hiyerarşik kümeleme yöntemidir. Her gözlem tek başına bir küme olarak başlar; en benzer iki küme adım adım birleştirilir ve tek bir küme kalana kadar sürer. Bu aşağıdan yukarıya (bottom-up) bir süreçtir.

Bölücü (Divisive) Yaklaşım

Tüm gözlemler tek bir küme olarak başlar ve adım adım en farklı alt gruplara bölünür. Bu yukarıdan aşağıya (top-down) bir süreçtir. Hesaplama maliyeti yüksek olduğundan pratikte daha az kullanılır.

Bağlantı (Linkage) Yöntemleri

Hiyerarşik kümelemede iki küme arasındaki uzaklığı hesaplamak için farklı bağlantı yöntemleri kullanılır. Her yöntem farklı küme yapıları üretir (Kothari, 2004):

Bağlantı Yöntemi	Uzaklık Tanımı	Özellik	Uygun Küme Şekli
Tek bağlantı (Single)	İki kümedeki en yakın iki nokta arası uzaklık	Zincir etkisi oluşturabilir	Uzun, düzensiz kümeler
Tam bağlantı (Complete)	İki kümedeki en uzak iki nokta arası uzaklık	Kompakt kümeler üretir	Küresel, eşit büyüklükte kümeler
Ortalama bağlantı (Average)	İki kümedeki tüm nokta çiftlerinin ortalama uzaklığı	Dengeleyici yaklaşım	Orta düzey kompaktlık
Ward yöntemi	Birleşme sonucu küme içi varyans artışını minimize eder	En yaygın kullanılan yöntem	Eşit büyüklükte, kompakt kümeler

Pratik öneri: Eğitim ve sosyal bilim araştırmalarında Ward yöntemi en sık tercih edilen bağlantı yöntemidir çünkü küme içi homojenliği maksimize ederek iyi tanımlanmış, kompakt kümeler üretir (Cohen ve ark., 2007).

Dendogram Okuma ve Yorumlama

Hiyerarşik kümelemenin en önemli görselleştirme aracı dendogram (dendrogram) adı verilen ağaç diyagramıdır. Dendogram, kümelerin birleşme sürecini ve birleşme mesafelerini grafiksel olarak gösterir.

Dendogram Okuma İlkeleri

Yatay eksen: Gözlemleri veya kümeleri temsil eder.
Dikey eksen: Birleşme uzaklığını (veya benzerliğini) gösterir.
Dallar: Hangi gözlemlerin veya kümelerin birleştiğini gösterir.
Birleşme yüksekliği: Birleşmenin gerçekleştiği uzaklık; yüksek birleşme noktaları farklı kümelerin birleştiğini gösterir.
Küme sayısı belirleme: Dendogramda en uzun dikey mesafenin bulunduğu yerden yatay bir çizgi çekilir; bu çizginin kestiği dal sayısı önerilen küme sayısını verir (Kothari, 2004).

Dendogramda büyük bir dikey sıçrama, iki farklı kümenin zorla birleştirildiğini gösterir. Bu nedenle sıçramadan önceki küme sayısı genellikle optimal çözüm olarak kabul edilir.

Hiyerarşik Olmayan Kümeleme: K-Means Algoritması

K-means, en popüler hiyerarşik olmayan kümeleme algoritmasıdır. Araştırmacı önceden küme sayısını (k) belirler ve algoritma gözlemleri bu k kümeye atar (Cohen ve ark., 2007).

K-Means Algoritma Adımları

Başlangıç merkezleri belirleme: k adet başlangıç küme merkezi (centroid) rastgele seçilir veya belirli bir yöntemle atanır.
Atama adımı: Her gözlem, en yakın küme merkezine atanır (genellikle Öklid uzaklığına göre).
Güncelleme adımı: Her kümenin yeni merkezi, o kümedeki tüm gözlemlerin ortalaması olarak yeniden hesaplanır.
Yakınsama kontrolü: Atamalar değişmeyene veya maksimum iterasyon sayısına ulaşılana kadar 2. ve 3. adımlar tekrarlanır.

K-Medoids Algoritması

K-medoids (PAM — Partitioning Around Medoids), k-means'in aşırı değerlere karşı daha dayanıklı bir alternatifidir. Küme merkezi olarak ortalama yerine medoid (kümedeki en merkezi gerçek gözlem) kullanır. Bu özellik sayesinde aşırı uç değerlerden daha az etkilenir (Kothari, 2004).

Küme Sayısı Belirleme Yöntemleri

Kümeleme analizinde en kritik karar, optimal küme sayısının belirlenmesidir. Bunun için birden fazla yöntem birlikte kullanılmalıdır:

Dirsek (Elbow) Yöntemi

Farklı k değerleri için küme içi kareler toplamı (WCSS — Within-Cluster Sum of Squares) hesaplanır ve k'ya karşı grafiğe döküldüğünde, eğrinin belirgin şekilde düzleşmeye başladığı nokta "dirsek" olarak adlandırılır ve optimal küme sayısını gösterir. Ancak dirsek noktası her zaman net olmayabilir (Cohen ve ark., 2007).

Silhouette Analizi

Her gözlem için silhouette katsayısı hesaplanır. Bu katsayı -1 ile +1 arasında değer alır:

+1'e yakın: Gözlem kendi kümesine çok iyi uyum sağlamıştır.
0'a yakın: Gözlem iki küme arasında belirsizdir.
-1'e yakın: Gözlem muhtemelen yanlış kümeye atanmıştır.

Ortalama silhouette katsayısı en yüksek olan k değeri optimal küme sayısı olarak seçilir. Genel olarak ortalama silhouette ≥ 0.50 iyi bir kümeleme yapısına işaret eder (Kothari, 2004).

Gap İstatistiği

Gap istatistiği, gözlenen küme içi dağılımı ile beklenen (rastgele dağılımlı) referans dağılımı karşılaştırır. Gap değerinin maksimum olduğu veya artışın durduğu k değeri optimal küme sayısını verir. Bu yöntem istatistiksel olarak daha sağlam bir temel sunar ancak hesaplama maliyeti daha yüksektir.

Uzaklık Ölçüleri

Kümeleme analizinin temeli, gözlemler arası benzerlik veya uzaklık hesaplamasına dayanır. Farklı uzaklık ölçüleri farklı kümeleme sonuçları üretebilir (Cohen ve ark., 2007):

Uzaklık Ölçüsü	Formül Mantığı	Özellik	Uygun Durum
Öklid uzaklığı	İki nokta arası düz çizgi mesafesi	En yaygın kullanılan; ölçek duyarlıdır	Sürekli, standartlaştırılmış veriler
Kare Öklid uzaklığı	Öklid uzaklığının karesi	Büyük uzaklıklara daha fazla ağırlık verir	Ward yöntemi ile birlikte
Manhattan uzaklığı	Farkların mutlak değerlerinin toplamı	Aşırı değerlere karşı daha dayanıklı	Aşırı değerli veriler
Mahalanobis uzaklığı	Değişkenler arası korelasyonu dikkate alır	Ölçek ve korelasyon bağımsız	Korelasyonlu değişkenler
Kosinüs uzaklığı	İki vektör arası açının kosinüsü	Büyüklükten bağımsız, yön odaklı	Metin madenciliği, profil analizi

Kümeleme Öncesi Standardizasyon

Kümeleme analizinde kullanılan değişkenlerin farklı ölçeklerde olması, büyük ölçekli değişkenlerin kümelemeyi domine etmesine neden olur. Örneğin yaş (18-65) ve gelir (1000-50000) birlikte kullanıldığında gelir değişkeni kümelemeyi belirler. Bu sorunu önlemek için veriler kümeleme öncesi standardize edilmelidir (Kothari, 2004).

Yaygın standardizasyon yöntemleri:

Z-skoru standardizasyonu: Her değişken ortalaması 0, standart sapması 1 olacak şekilde dönüştürülür. En yaygın kullanılan yöntemdir.
Min-max normalizasyonu: Değerler 0-1 aralığına dönüştürülür.
Range standardizasyonu: Değerler değişken aralığına bölünür.

İki Adımlı (Two-Step) Kümeleme

İki adımlı kümeleme, büyük veri setleri ve karma değişken türleri (sürekli + kategorik) için geliştirilmiş bir yöntemdir. İlk adımda veriler ön kümeleme ile alt kümelere ayrılır; ikinci adımda bu alt kümeler hiyerarşik yöntemle birleştirilir. Optimal küme sayısını otomatik olarak belirleyebilmesi (BIC veya AIC kriteri ile) önemli bir avantajıdır (Cohen ve ark., 2007).

Hiyerarşik Kümeleme ile K-Means Karşılaştırması

Özellik	Hiyerarşik Kümeleme	K-Means
Küme sayısı	Önceden belirlenmez; dendogramdan karar verilir	Önceden belirlenmelidir
Algoritma türü	Birleştirici veya bölücü	Bölme ve yeniden atama
Hesaplama karmaşıklığı	O(n³) — büyük verilerde yavaş	O(nkt) — büyük verilerde hızlı
Sonuç türü	Hiyerarşik yapı (dendogram)	Tek düzey kümeleme
Geri dönüşüm	Birleşme geri alınamaz	Gözlemler iterasyonlarda yeniden atanabilir
Başlangıç değeri etkisi	Yok (deterministik)	Var (farklı başlangıçlar farklı sonuçlar üretebilir)
Küme şekli	Esnek; farklı şekiller olabilir	Küresel kümeler varsayar
Uygun örneklem	Küçük-orta (n < 500)	Büyük (n > 500)

Kombine strateji: Yaygın bir uygulama stratejisi, önce hiyerarşik kümeleme ile optimal küme sayısını belirlemek, ardından bu sayıyı k-means analizinde kullanmaktır. Bu yaklaşım her iki yöntemin güçlü yönlerini birleştirir (Kothari, 2004).

Eğitim ve Sosyal Bilim Araştırmalarında Uygulamalar

Kümeleme analizi, eğitim ve sosyal bilim araştırmalarında çeşitli amaçlarla kullanılmaktadır (Cohen ve ark., 2007):

Öğrenci profilleri: Öğrenme stratejileri, motivasyon düzeyleri ve akademik performansa göre öğrenci gruplarının belirlenmesi.
Okul sınıflandırması: Okulların başarı düzeyleri, kaynakları ve demografik yapılarına göre doğal gruplara ayrılması.
Öğretmen tipolojileri: Öğretim yöntemleri, tutumlar ve mesleki gelişim özelliklerine göre öğretmen tiplerinin keşfedilmesi.
Davranış kalıpları: Anket verilerindeki yanıt kalıplarına göre katılımcıların gruplandırılması.
Pazar segmentasyonu: Tüketici özelliklerine göre pazar bölümlerinin belirlenmesi.

Yazılım Uygulamaları

SPSS'te Kümeleme Analizi

Hiyerarşik kümeleme: Analyze → Classify → Hierarchical Cluster menüsü kullanılır. Method sekmesinde bağlantı yöntemi ve uzaklık ölçüsü seçilir; Plots sekmesinde dendogram istenir.
K-means kümeleme: Analyze → Classify → K-Means Cluster menüsü kullanılır. Küme sayısı belirtilir; Options sekmesinde ANOVA tablosu ve başlangıç merkezleri seçilebilir.
İki adımlı kümeleme: Analyze → Classify → TwoStep Cluster menüsü kullanılır. Otomatik küme sayısı belirleme özelliği aktif edilebilir.

R'da Kümeleme Analizi

R programlama dilinde kümeleme analizi için temel fonksiyonlar şunlardır: hclust() hiyerarşik kümeleme için, kmeans() k-means için, pam() k-medoids için kullanılır. Ayrıca factoextra paketi kümeleme sonuçlarının görselleştirilmesi için güçlü araçlar sunar (Kothari, 2004).

Kümeleme Analizinin Sınırlılıkları

Her istatistiksel teknik gibi kümeleme analizinin de önemli sınırlılıkları vardır (Cohen ve ark., 2007):

Optimal küme sayısı belirsizliği: Tek bir doğru küme sayısı yoktur; farklı yöntemler farklı sayılar önerebilir.
Yöntem bağımlılığı: Farklı kümeleme yöntemleri ve uzaklık ölçüleri farklı sonuçlar üretebilir.
Değişken seçimi etkisi: Analize dahil edilen değişkenler kümeleme sonuçlarını doğrudan etkiler.
Aşırı değer duyarlılığı: Özellikle k-means algoritması aşırı değerlerden etkilenir.
Yorumlama öznelliği: Kümelerin anlamlılığı ve adlandırılması araştırmacının yorumuna bağlıdır.
Doğrulayıcı değil keşifsel: Kümeleme sonuçları istatistiksel anlamlılık testleri ile doğrudan değerlendirilemez.

Sonuç ve Değerlendirme

Kümeleme analizi, verilerdeki doğal yapıları keşfetmek için güçlü bir araçtır. Hiyerarşik kümeleme ve k-means algoritması en yaygın kullanılan iki yöntemdir ve araştırmacılar genellikle her iki yöntemi birlikte kullanarak bulgularını doğrularlar. Küme sayısı belirlemede dirsek yöntemi, silhouette analizi ve gap istatistiğinin birlikte değerlendirilmesi önerilir. Standardizasyon, uygun uzaklık ölçüsü seçimi ve sonuçların geçerliliğinin dışsal kriterlerle kontrol edilmesi, güvenilir kümeleme sonuçları elde etmenin temel koşullarıdır (Kothari, 2004). Araştırmacılar, kümeleme analizinin keşifsel doğasını göz önünde bulundurarak sonuçlarını farklı yöntem ve parametrelerle çapraz doğrulamalı ve kümelerin kuramsal anlamlılığını tartışmalıdır.

Kümeleme Analizi: Verileri Doğal Gruplarına Ayırma