Araştırma Yöntemleri

Kümeleme Analizi: Verileri Doğal Gruplarına Ayırma

PNPeda Network·12 Şubat 2026·0 görüntülenme·
Kümeleme Analizi: Verileri Doğal Gruplarına Ayırma

Araştırma verilerinde gizli yapıları keşfetmek, gözlemleri benzerliklerine göre doğal gruplara ayırmak bilimsel araştırmanın temel hedeflerinden biridir. Kümeleme analizi (cluster analysis), denetimsiz (unsupervised) bir sınıflandırma tekniği olarak gözlemleri önceden belirlenmiş bir grup bilgisi olmadan benzerliklerine göre kümelere ayırır. Kothari'ye (2004) göre kümeleme analizi, "verilerdeki doğal yapıyı ortaya çıkaran keşifsel bir araçtır" ve pazar araştırmasından eğitim bilimine, biyolojiden sosyal bilimlere kadar geniş bir yelpazede kullanılır. Bu yazıda kümeleme analizinin temel yöntemlerini, uzaklık ölçülerini, küme sayısı belirleme stratejilerini ve uygulama adımlarını kapsamlı biçimde ele alacağız.

Kümeleme Analizi Nedir?

Kümeleme analizi, bir veri setindeki gözlemleri birbirine benzer olanların aynı grupta, farklı olanların farklı gruplarda yer alacağı şekilde sınıflandıran çok değişkenli bir istatistiksel tekniktir. Faktör analizi değişkenleri gruplarken, kümeleme analizi gözlemleri (vakaları, bireyleri) gruplar (Cohen, Manion ve Morrison, 2007).

Kümeleme analizinin temel özellikleri şunlardır:

  • Denetimsiz sınıflandırma: Bağımlı değişken yoktur; gözlemler önceden tanımlanmış gruplara atanmaz, doğal gruplar keşfedilir.
  • Keşifsel doğa: Kümeleme analizi doğrulayıcı değil keşifsel bir tekniktir; sonuçları hipotez üretmek için kullanılır.
  • Benzerlik temelli: Gözlemler arası benzerlik veya uzaklık ölçülerine dayanır.
  • Çoklu çözümler: Farklı yöntemler ve parametreler farklı kümeleme sonuçları üretebilir; tek bir "doğru" çözüm yoktur (Kothari, 2004).

Hiyerarşik Kümeleme

Hiyerarşik kümeleme, gözlemleri adım adım birleştirerek veya ayırarak bir kümeleme hiyerarşisi oluşturur. İki temel yaklaşımı vardır (Cohen ve ark., 2007):

Aglomeratif (Birleştirici) Yaklaşım

En yaygın hiyerarşik kümeleme yöntemidir. Her gözlem tek başına bir küme olarak başlar; en benzer iki küme adım adım birleştirilir ve tek bir küme kalana kadar sürer. Bu aşağıdan yukarıya (bottom-up) bir süreçtir.

Bölücü (Divisive) Yaklaşım

Tüm gözlemler tek bir küme olarak başlar ve adım adım en farklı alt gruplara bölünür. Bu yukarıdan aşağıya (top-down) bir süreçtir. Hesaplama maliyeti yüksek olduğundan pratikte daha az kullanılır.

Bağlantı (Linkage) Yöntemleri

Hiyerarşik kümelemede iki küme arasındaki uzaklığı hesaplamak için farklı bağlantı yöntemleri kullanılır. Her yöntem farklı küme yapıları üretir (Kothari, 2004):

Bağlantı YöntemiUzaklık TanımıÖzellikUygun Küme Şekli
Tek bağlantı (Single)İki kümedeki en yakın iki nokta arası uzaklıkZincir etkisi oluşturabilirUzun, düzensiz kümeler
Tam bağlantı (Complete)İki kümedeki en uzak iki nokta arası uzaklıkKompakt kümeler üretirKüresel, eşit büyüklükte kümeler
Ortalama bağlantı (Average)İki kümedeki tüm nokta çiftlerinin ortalama uzaklığıDengeleyici yaklaşımOrta düzey kompaktlık
Ward yöntemiBirleşme sonucu küme içi varyans artışını minimize ederEn yaygın kullanılan yöntemEşit büyüklükte, kompakt kümeler

Pratik öneri: Eğitim ve sosyal bilim araştırmalarında Ward yöntemi en sık tercih edilen bağlantı yöntemidir çünkü küme içi homojenliği maksimize ederek iyi tanımlanmış, kompakt kümeler üretir (Cohen ve ark., 2007).

Dendogram Okuma ve Yorumlama

Hiyerarşik kümelemenin en önemli görselleştirme aracı dendogram (dendrogram) adı verilen ağaç diyagramıdır. Dendogram, kümelerin birleşme sürecini ve birleşme mesafelerini grafiksel olarak gösterir.

Dendogram Okuma İlkeleri

  • Yatay eksen: Gözlemleri veya kümeleri temsil eder.
  • Dikey eksen: Birleşme uzaklığını (veya benzerliğini) gösterir.
  • Dallar: Hangi gözlemlerin veya kümelerin birleştiğini gösterir.
  • Birleşme yüksekliği: Birleşmenin gerçekleştiği uzaklık; yüksek birleşme noktaları farklı kümelerin birleştiğini gösterir.
  • Küme sayısı belirleme: Dendogramda en uzun dikey mesafenin bulunduğu yerden yatay bir çizgi çekilir; bu çizginin kestiği dal sayısı önerilen küme sayısını verir (Kothari, 2004).

Dendogramda büyük bir dikey sıçrama, iki farklı kümenin zorla birleştirildiğini gösterir. Bu nedenle sıçramadan önceki küme sayısı genellikle optimal çözüm olarak kabul edilir.

Hiyerarşik Olmayan Kümeleme: K-Means Algoritması

K-means, en popüler hiyerarşik olmayan kümeleme algoritmasıdır. Araştırmacı önceden küme sayısını (k) belirler ve algoritma gözlemleri bu k kümeye atar (Cohen ve ark., 2007).

K-Means Algoritma Adımları

  1. Başlangıç merkezleri belirleme: k adet başlangıç küme merkezi (centroid) rastgele seçilir veya belirli bir yöntemle atanır.
  2. Atama adımı: Her gözlem, en yakın küme merkezine atanır (genellikle Öklid uzaklığına göre).
  3. Güncelleme adımı: Her kümenin yeni merkezi, o kümedeki tüm gözlemlerin ortalaması olarak yeniden hesaplanır.
  4. Yakınsama kontrolü: Atamalar değişmeyene veya maksimum iterasyon sayısına ulaşılana kadar 2. ve 3. adımlar tekrarlanır.

K-Medoids Algoritması

K-medoids (PAM — Partitioning Around Medoids), k-means'in aşırı değerlere karşı daha dayanıklı bir alternatifidir. Küme merkezi olarak ortalama yerine medoid (kümedeki en merkezi gerçek gözlem) kullanır. Bu özellik sayesinde aşırı uç değerlerden daha az etkilenir (Kothari, 2004).

Küme Sayısı Belirleme Yöntemleri

Kümeleme analizinde en kritik karar, optimal küme sayısının belirlenmesidir. Bunun için birden fazla yöntem birlikte kullanılmalıdır:

Dirsek (Elbow) Yöntemi

Farklı k değerleri için küme içi kareler toplamı (WCSS — Within-Cluster Sum of Squares) hesaplanır ve k'ya karşı grafiğe döküldüğünde, eğrinin belirgin şekilde düzleşmeye başladığı nokta "dirsek" olarak adlandırılır ve optimal küme sayısını gösterir. Ancak dirsek noktası her zaman net olmayabilir (Cohen ve ark., 2007).

Silhouette Analizi

Her gözlem için silhouette katsayısı hesaplanır. Bu katsayı -1 ile +1 arasında değer alır:

  • +1'e yakın: Gözlem kendi kümesine çok iyi uyum sağlamıştır.
  • 0'a yakın: Gözlem iki küme arasında belirsizdir.
  • -1'e yakın: Gözlem muhtemelen yanlış kümeye atanmıştır.

Ortalama silhouette katsayısı en yüksek olan k değeri optimal küme sayısı olarak seçilir. Genel olarak ortalama silhouette ≥ 0.50 iyi bir kümeleme yapısına işaret eder (Kothari, 2004).

Gap İstatistiği

Gap istatistiği, gözlenen küme içi dağılımı ile beklenen (rastgele dağılımlı) referans dağılımı karşılaştırır. Gap değerinin maksimum olduğu veya artışın durduğu k değeri optimal küme sayısını verir. Bu yöntem istatistiksel olarak daha sağlam bir temel sunar ancak hesaplama maliyeti daha yüksektir.

Uzaklık Ölçüleri

Kümeleme analizinin temeli, gözlemler arası benzerlik veya uzaklık hesaplamasına dayanır. Farklı uzaklık ölçüleri farklı kümeleme sonuçları üretebilir (Cohen ve ark., 2007):

Uzaklık ÖlçüsüFormül MantığıÖzellikUygun Durum
Öklid uzaklığıİki nokta arası düz çizgi mesafesiEn yaygın kullanılan; ölçek duyarlıdırSürekli, standartlaştırılmış veriler
Kare Öklid uzaklığıÖklid uzaklığının karesiBüyük uzaklıklara daha fazla ağırlık verirWard yöntemi ile birlikte
Manhattan uzaklığıFarkların mutlak değerlerinin toplamıAşırı değerlere karşı daha dayanıklıAşırı değerli veriler
Mahalanobis uzaklığıDeğişkenler arası korelasyonu dikkate alırÖlçek ve korelasyon bağımsızKorelasyonlu değişkenler
Kosinüs uzaklığıİki vektör arası açının kosinüsüBüyüklükten bağımsız, yön odaklıMetin madenciliği, profil analizi

Kümeleme Öncesi Standardizasyon

Kümeleme analizinde kullanılan değişkenlerin farklı ölçeklerde olması, büyük ölçekli değişkenlerin kümelemeyi domine etmesine neden olur. Örneğin yaş (18-65) ve gelir (1000-50000) birlikte kullanıldığında gelir değişkeni kümelemeyi belirler. Bu sorunu önlemek için veriler kümeleme öncesi standardize edilmelidir (Kothari, 2004).

Yaygın standardizasyon yöntemleri:

  • Z-skoru standardizasyonu: Her değişken ortalaması 0, standart sapması 1 olacak şekilde dönüştürülür. En yaygın kullanılan yöntemdir.
  • Min-max normalizasyonu: Değerler 0-1 aralığına dönüştürülür.
  • Range standardizasyonu: Değerler değişken aralığına bölünür.

İki Adımlı (Two-Step) Kümeleme

İki adımlı kümeleme, büyük veri setleri ve karma değişken türleri (sürekli + kategorik) için geliştirilmiş bir yöntemdir. İlk adımda veriler ön kümeleme ile alt kümelere ayrılır; ikinci adımda bu alt kümeler hiyerarşik yöntemle birleştirilir. Optimal küme sayısını otomatik olarak belirleyebilmesi (BIC veya AIC kriteri ile) önemli bir avantajıdır (Cohen ve ark., 2007).

Hiyerarşik Kümeleme ile K-Means Karşılaştırması

ÖzellikHiyerarşik KümelemeK-Means
Küme sayısıÖnceden belirlenmez; dendogramdan karar verilirÖnceden belirlenmelidir
Algoritma türüBirleştirici veya bölücüBölme ve yeniden atama
Hesaplama karmaşıklığıO(n³) — büyük verilerde yavaşO(nkt) — büyük verilerde hızlı
Sonuç türüHiyerarşik yapı (dendogram)Tek düzey kümeleme
Geri dönüşümBirleşme geri alınamazGözlemler iterasyonlarda yeniden atanabilir
Başlangıç değeri etkisiYok (deterministik)Var (farklı başlangıçlar farklı sonuçlar üretebilir)
Küme şekliEsnek; farklı şekiller olabilirKüresel kümeler varsayar
Uygun örneklemKüçük-orta (n < 500)Büyük (n > 500)

Kombine strateji: Yaygın bir uygulama stratejisi, önce hiyerarşik kümeleme ile optimal küme sayısını belirlemek, ardından bu sayıyı k-means analizinde kullanmaktır. Bu yaklaşım her iki yöntemin güçlü yönlerini birleştirir (Kothari, 2004).

Eğitim ve Sosyal Bilim Araştırmalarında Uygulamalar

Kümeleme analizi, eğitim ve sosyal bilim araştırmalarında çeşitli amaçlarla kullanılmaktadır (Cohen ve ark., 2007):

  • Öğrenci profilleri: Öğrenme stratejileri, motivasyon düzeyleri ve akademik performansa göre öğrenci gruplarının belirlenmesi.
  • Okul sınıflandırması: Okulların başarı düzeyleri, kaynakları ve demografik yapılarına göre doğal gruplara ayrılması.
  • Öğretmen tipolojileri: Öğretim yöntemleri, tutumlar ve mesleki gelişim özelliklerine göre öğretmen tiplerinin keşfedilmesi.
  • Davranış kalıpları: Anket verilerindeki yanıt kalıplarına göre katılımcıların gruplandırılması.
  • Pazar segmentasyonu: Tüketici özelliklerine göre pazar bölümlerinin belirlenmesi.

Yazılım Uygulamaları

SPSS'te Kümeleme Analizi

  1. Hiyerarşik kümeleme: Analyze → Classify → Hierarchical Cluster menüsü kullanılır. Method sekmesinde bağlantı yöntemi ve uzaklık ölçüsü seçilir; Plots sekmesinde dendogram istenir.
  2. K-means kümeleme: Analyze → Classify → K-Means Cluster menüsü kullanılır. Küme sayısı belirtilir; Options sekmesinde ANOVA tablosu ve başlangıç merkezleri seçilebilir.
  3. İki adımlı kümeleme: Analyze → Classify → TwoStep Cluster menüsü kullanılır. Otomatik küme sayısı belirleme özelliği aktif edilebilir.

R'da Kümeleme Analizi

R programlama dilinde kümeleme analizi için temel fonksiyonlar şunlardır: hclust() hiyerarşik kümeleme için, kmeans() k-means için, pam() k-medoids için kullanılır. Ayrıca factoextra paketi kümeleme sonuçlarının görselleştirilmesi için güçlü araçlar sunar (Kothari, 2004).

Kümeleme Analizinin Sınırlılıkları

Her istatistiksel teknik gibi kümeleme analizinin de önemli sınırlılıkları vardır (Cohen ve ark., 2007):

  • Optimal küme sayısı belirsizliği: Tek bir doğru küme sayısı yoktur; farklı yöntemler farklı sayılar önerebilir.
  • Yöntem bağımlılığı: Farklı kümeleme yöntemleri ve uzaklık ölçüleri farklı sonuçlar üretebilir.
  • Değişken seçimi etkisi: Analize dahil edilen değişkenler kümeleme sonuçlarını doğrudan etkiler.
  • Aşırı değer duyarlılığı: Özellikle k-means algoritması aşırı değerlerden etkilenir.
  • Yorumlama öznelliği: Kümelerin anlamlılığı ve adlandırılması araştırmacının yorumuna bağlıdır.
  • Doğrulayıcı değil keşifsel: Kümeleme sonuçları istatistiksel anlamlılık testleri ile doğrudan değerlendirilemez.

Sonuç ve Değerlendirme

Kümeleme analizi, verilerdeki doğal yapıları keşfetmek için güçlü bir araçtır. Hiyerarşik kümeleme ve k-means algoritması en yaygın kullanılan iki yöntemdir ve araştırmacılar genellikle her iki yöntemi birlikte kullanarak bulgularını doğrularlar. Küme sayısı belirlemede dirsek yöntemi, silhouette analizi ve gap istatistiğinin birlikte değerlendirilmesi önerilir. Standardizasyon, uygun uzaklık ölçüsü seçimi ve sonuçların geçerliliğinin dışsal kriterlerle kontrol edilmesi, güvenilir kümeleme sonuçları elde etmenin temel koşullarıdır (Kothari, 2004). Araştırmacılar, kümeleme analizinin keşifsel doğasını göz önünde bulundurarak sonuçlarını farklı yöntem ve parametrelerle çapraz doğrulamalı ve kümelerin kuramsal anlamlılığını tartışmalıdır.

Kaynaklar

Jackson, S. L. (2015). Research methods and statistics: A critical thinking approach (5th ed.). Cengage Learning.Kothari, C. R. (2004). Research methodology: Methods and techniques (2nd ed.). New Age International.Creswell, J. W. (2009). Research design: Qualitative, quantitative, and mixed methods approaches (3rd ed.). SAGE.Bhome, S. M., Jha, J. K., et al. (2013). Research methodology. Himalaya Publishing House.

Yorumlar (0)

Yorum yapmak için giriş yapmalısınız.