Ölçme ve Ölçekleme Teknikleri: Thurstone, Guttman, Semantik Farklılık

Bilimsel araştırmalarda soyut kavramları ölçülebilir hale getirmek, araştırma sürecinin en kritik aşamalarından biridir. Ölçme, gözlemlenen özelliklere belirli kurallar çerçevesinde sayılar veya semboller atama işlemi olarak tanımlanır. Ölçekleme ise bu ölçme işlemini sistematik hale getiren teknik ve yöntemlerin bütününü ifade eder. Kothari'ye (2004) göre ölçekleme, "araştırmacının ilgilendiği kavramları ölçülebilir biçimde operasyonelleştirmesinin temel aracıdır." Bu yazıda, araştırmalarda yaygın olarak kullanılan ölçme düzeylerini ve ölçekleme tekniklerini kapsamlı biçimde ele alacağız.

Ölçme Düzeyleri

Stevens'ın (1946) klasik sınıflandırmasına göre ölçme düzeyleri dört kategoride ele alınır. Her düzey, farklı matematiksel işlemlere ve istatistiksel analizlere olanak tanır. Jackson (2015), araştırmacıların veri toplama aracı geliştirmeden önce ölçme düzeyini doğru biçimde belirlemesi gerektiğini vurgular.

Ölçme Düzeyi	Tanım	Özellikler	Örnek	Uygun İstatistikler
Sınıflama (Nominal)	Nesneleri kategorilere ayırma	Eşitlik/farklılık belirlenir; sıralama yoktur	Cinsiyet, medeni durum, kan grubu	Frekans, mod, ki-kare
Sıralama (Ordinal)	Nesneleri büyüklük sırasına koyma	Sıralama var; aralıklar eşit değil	Eğitim düzeyi, rütbe, sınıf sıralaması	Medyan, yüzdelik, Spearman korelasyon
Eşit Aralıklı (Interval)	Eşit aralıklarla ölçme	Sıralama ve eşit aralıklar var; mutlak sıfır yok	Sıcaklık (Celsius), IQ puanı, takvim yılı	Ortalama, standart sapma, Pearson korelasyon
Oransal (Ratio)	Gerçek sıfır noktası olan ölçme	Tüm matematiksel işlemler uygulanabilir	Boy, kilo, yaş, gelir	Geometrik ortalama, varyasyon katsayısı

Önemli Not: Kothari'ye (2004) göre, sosyal bilimlerde kullanılan tutum ölçeklerinin (Likert, Thurstone vb.) ölçme düzeyi tartışmalıdır. Bu ölçekler genellikle ordinal düzeyde veri üretir; ancak pratikte sıklıkla eşit aralıklı (interval) gibi ele alınır ve parametrik istatistikler uygulanır. Bu uygulama, alan yazında süregelen bir tartışma konusudur.

Likert Ölçeği

Rensis Likert tarafından 1932 yılında geliştirilen bu ölçek, tutum ölçümünde en yaygın kullanılan tekniklerden biridir. Likert ölçeği, bireylerin belirli ifadelere ne ölçüde katıldıklarını derecelendirmeleri ilkesine dayanır.

Likert Ölçeği Yapısı

Tipik bir Likert ölçeği şu bileşenlerden oluşur:

İfade (madde): Tutumu yansıtan olumlu veya olumsuz bir cümle
Derecelendirme: Genellikle 5 veya 7 basamaklı bir ölçek (1 = Kesinlikle Katılmıyorum, 5 = Kesinlikle Katılıyorum)
Puanlama: Olumlu maddeler doğrudan, olumsuz maddeler ters kodlanarak puanlanır
Toplam puan: Tüm madde puanlarının toplamı veya ortalaması, bireyin tutumunu temsil eder

Likert Ölçeği Geliştirme Adımları

Madde havuzu oluşturma: Ölçülmek istenen tutumla ilgili çok sayıda madde yazın (genellikle nihai ölçeğin 2-3 katı).
Uzman görüşü alma: Maddeleri alan uzmanlarına inceletin ve kapsam geçerliğini sağlayın.
Pilot uygulama: Madde havuzunu hedef kitleye benzer bir grupta uygulayın.
Madde analizi: Madde-toplam korelasyonlarını hesaplayın; düşük korelasyonlu maddeleri çıkarın.
Faktör analizi: Ölçeğin yapı geçerliğini test etmek için açımlayıcı ve doğrulayıcı faktör analizi yapın.
Güvenirlik analizi: Cronbach alfa katsayısını hesaplayın (genellikle .70 ve üzeri kabul edilir).

Jackson'a (2015) göre Likert ölçeğinin en büyük avantajı, uygulaması ve puanlamasının kolay olmasıdır. Ancak tepki setleri (acquiescence bias), sosyal beğenirlik ve merkeze yığılma eğilimi gibi sınırlılıkları da göz ardı edilmemelidir.

Thurstone Eşit Görünen Aralıklar Ölçeği

Louis Leon Thurstone tarafından 1928 yılında geliştirilen bu teknik, ölçekleme tarihindeki ilk sistematik tutum ölçeği olarak kabul edilir. Kothari (2004), Thurstone ölçeğinin Likert'e kıyasla daha karmaşık bir geliştirme süreci gerektirdiğini belirtir.

Thurstone Ölçeği Geliştirme Süreci

Madde yazımı: Ölçülecek tutumla ilgili çok sayıda (genellikle 100+) ifade yazılır.
Yargıcı değerlendirmesi: Her ifade, çok sayıda (genellikle 50-300) yargıcı tarafından 1 (en olumsuz) ile 11 (en olumlu) arasında bir ölçekte değerlendirilir. Yargıcılar kendi tutumlarını değil, ifadenin olumlu-olumsuz derecesini belirler.
Ölçek değerlerinin hesaplanması: Her ifadenin medyan değeri, o ifadenin ölçek değeri olur.
Belirsiz maddelerin çıkarılması: Yarı-çeyrekler arası genişliği (Q değeri) yüksek olan, yani yargıcılar arasında tutarsızlık yaratan maddeler elenir.
Nihai ölçek: 1'den 11'e kadar eşit aralıklarla dağılan yaklaşık 20-22 madde seçilir.
Uygulama: Katılımcı, katıldığı maddeleri işaretler; katıldığı maddelerin ölçek değerlerinin ortalaması, bireyin tutum puanını verir.

Thurstone Ölçeğinin Özellikleri

Eşit aralıklı (interval) düzeyde ölçüm sağladığı kabul edilir
Geliştirme süreci çok uzun ve zahmetlidir
Yargıcıların kendi tutumlarından etkilenme riski bulunur
Günümüzde Likert ölçeğine kıyasla çok daha az kullanılmaktadır

Guttman Ölçeği (Scalogram Analizi)

Louis Guttman tarafından 1940'larda geliştirilen bu ölçek, birikimli (cumulative) bir yapıya sahiptir. Guttman ölçeğinde maddeler, kolaydan zora veya hafiften şiddetliye doğru sıralanır ve bir bireyin belirli bir maddeyi onaylaması, o maddeden daha kolay tüm maddeleri de onayladığı anlamına gelir.

Guttman Ölçeğinin Mantığı

Kothari'ye (2004) göre Guttman ölçeğinin temel varsayımı tek boyutluluktur: Ölçek, yalnızca tek bir boyutu ölçer ve maddeler bu boyut üzerinde hiyerarşik olarak sıralanır. Örneğin, fiziksel engellilik düzeyini ölçen bir Guttman ölçeği şöyle olabilir:

Yataktan kalkabiliyorum (en kolay)
Oda içinde yürüyebiliyorum
Merdiven çıkabiliyorum
500 metre yürüyebiliyorum
1 kilometre koşabiliyorum (en zor)

Bu örnekte, 4. maddeyi onaylayan bir birey, mantıken 1, 2 ve 3. maddeleri de onaylıyor olmalıdır.

Tekrarlanabilirlik Katsayısı

Guttman ölçeğinin kalitesi, tekrarlanabilirlik katsayısı (coefficient of reproducibility) ile değerlendirilir. Bu katsayı, bireylerin toplam puanlarından yanıt kalıplarının ne ölçüde tahmin edilebildiğini gösterir. Genellikle .90 ve üzeri bir değer, kabul edilebilir bir Guttman ölçeği için gereklidir.

Guttman Ölçeğinin Avantaj ve Sınırlılıkları

Avantajlar	Sınırlılıklar
Tek boyutluluk sağlar	Mükemmel birikimlilik elde etmek çok zordur
Puandan yanıt kalıbı tahmin edilebilir	Çok az konu gerçek bir Guttman ölçeğine uyar
Ordinalden daha güçlü ölçüm sağlar	Madde geliştirme süreci karmaşıktır
Yapı geçerliği kanıtı sunar	Madde sayısı genellikle sınırlı kalır

Semantik Farklılık Ölçeği (Osgood)

Charles Osgood ve arkadaşları tarafından 1957 yılında geliştirilen Semantik Farklılık (Semantic Differential) ölçeği, kavramlara yüklenen anlamları ölçmek için kullanılır. Creswell (2009), bu tekniğin özellikle tutum, algı ve imaj araştırmalarında etkili olduğunu belirtir.

Semantik Farklılık Ölçeğinin Yapısı

Bu ölçekte, bir kavram (örneğin "uzaktan eğitim") birbirine zıt sıfat çiftleri arasında değerlendirilir. Genellikle 7 basamaklı bir ölçek kullanılır:

Örnek:

	1	2	3	4	5	6	7
İyi	○	○	○	○	○	○	○	Kötü
Güçlü	○	○	○	○	○	○	○	Zayıf
Hızlı	○	○	○	○	○	○	○	Yavaş
Aktif	○	○	○	○	○	○	○	Pasif

Osgood'un Üç Temel Boyutu

Osgood'un kapsamlı çalışmaları, anlamın üç temel boyutta organize olduğunu ortaya koymuştur:

Değerlendirme (Evaluation): İyi-kötü, güzel-çirkin, temiz-kirli
Güç/Potansiyel (Potency): Güçlü-zayıf, büyük-küçük, ağır-hafif
Etkinlik (Activity): Hızlı-yavaş, aktif-pasif, sıcak-soğuk

Semantik Farklılık Ölçeğinin Avantajları

Farklı kavramlar arasında doğrudan karşılaştırma yapılabilir
Kültürler arası çalışmalarda kullanılabilir
Hem bireysel hem de grup düzeyinde analiz yapılabilir
Uygulaması hızlı ve kolaydır
Profil analizi ve anlam haritaları oluşturulabilir

Diğer Ölçekleme Teknikleri

Derecelendirme Ölçekleri (Rating Scales)

Jackson'a (2015) göre derecelendirme ölçekleri, en basit ve en yaygın kullanılan ölçme araçlarıdır. Sayısal derecelendirme (1-10 arası puanlama), grafik derecelendirme (bir çizgi üzerinde işaretleme) ve açıklayıcı derecelendirme (zayıf, orta, iyi gibi kategoriler) biçimlerinde uygulanabilir.

Karşılaştırmalı Ölçekleme Teknikleri

İkili karşılaştırma (Paired Comparison): Nesneler ikişerli olarak karşılaştırılır ve her çiftte biri tercih edilir.
Sıralama (Rank Order): Nesneler en çoktan en aza doğru sıralanır.
Sabit toplam (Constant Sum): Belirli bir puan (örneğin 100) nesneler arasında dağıtılır.
Q-Sort: Çok sayıda ifade, zorunlu normal dağılıma göre sıralanır.

Ölçekleme Tekniklerinin Karşılaştırması

Özellik	Likert	Thurstone	Guttman	Semantik Farklılık
Geliştirme kolaylığı	Kolay	Çok zor	Zor	Orta
Uygulama kolaylığı	Kolay	Kolay	Kolay	Kolay
Ölçme düzeyi	Ordinal (tartışmalı)	Interval	Ordinal+	Interval
Tek boyutluluk	Garanti değil	Garanti değil	Garanti	Çok boyutlu
Kullanım yaygınlığı	Çok yaygın	Az	Az	Orta
Tepki formatı	Katılma derecesi	Katılıyorum/katılmıyorum	Evet/hayır	Zıt sıfat çiftleri
Puanlama	Toplam/ortalama	Onaylanan maddelerin ortalaması	Onaylanan en zor madde	Boyut ortalamaları

Ölçeklerin Güvenirlik ve Geçerliği

Hangi ölçekleme tekniği kullanılırsa kullanılsın, geliştirilen ölçeğin güvenirlik ve geçerlik kanıtlarının sunulması zorunludur. Creswell (2009), araştırma raporlarında bu kanıtların ayrıntılı biçimde raporlanması gerektiğini belirtir.

Güvenirlik Türleri

İç tutarlılık: Cronbach alfa, Kuder-Richardson formülleri
Test-tekrar test: Aynı ölçeğin farklı zamanlarda uygulanması
Eşdeğer formlar: Paralel formların tutarlılığı
Yarıya bölme: Ölçeğin iki yarısının tutarlılığı

Geçerlik Türleri

Kapsam geçerliği: Uzman görüşüyle değerlendirilen içerik uygunluğu
Yapı geçerliği: Faktör analizi ile test edilen kuramsal yapı
Ölçüt geçerliği: Eşzamanlı veya yordama geçerliği; dış ölçütlerle karşılaştırma
Görünüş geçerliği: Ölçeğin ölçmesi gerekeni ölçüyor gibi görünmesi

Ölçek Geliştirme İçin Pratik Öneriler

Amaçla başlayın: Neyi ölçmek istediğinizi net biçimde tanımlayın ve kavramsal çerçeveyi oluşturun.
Uygun tekniği seçin: Araştırma sorunuza ve kavramın doğasına en uygun ölçekleme tekniğini belirleyin.
Geniş madde havuzu oluşturun: Nihai ölçeğin en az 2-3 katı madde yazın.
Uzman görüşü alın: En az 5-7 alan uzmanından kapsam geçerliği değerlendirmesi isteyin.
Pilot uygulama yapın: Hedef kitleye benzer bir grupta ön test yapın.
İstatistiksel analiz uygulayın: Madde analizi, faktör analizi ve güvenirlik analizi yapın.
Revize edin: Analiz sonuçlarına göre zayıf maddeleri çıkarın veya düzenleyin.
Raporlayın: Ölçek geliştirme sürecini ve psikometrik özelliklerini ayrıntılı biçimde raporlayın.

Sonuç

Ölçme ve ölçekleme teknikleri, bilimsel araştırmanın temel yapı taşlarından biridir. Kothari'nin (2004) vurguladığı gibi, soyut kavramları güvenilir ve geçerli biçimde ölçmek, araştırma bulgularının kalitesini doğrudan etkiler. Likert ölçeği pratikliği nedeniyle en yaygın kullanılan teknik olmaya devam etse de, Thurstone, Guttman ve Semantik Farklılık ölçekleri farklı araştırma bağlamlarında değerli alternatifler sunar. Jackson'ın (2015) belirttiği gibi, araştırmacının ölçekleme tekniklerinin güçlü ve zayıf yönlerini bilerek bilinçli bir tercih yapması, araştırma kalitesinin temel güvencesidir.