Test Geliştirme Rehberi: Başarı ve Yetenek Testi Oluşturma Adımları

Eğitim ve psikoloji araştırmalarında test geliştirme, bireylerin bilgi, beceri, yetenek veya performans düzeylerini ölçmek amacıyla sistematik bir araç oluşturma sürecidir. Ölçek geliştirmeden farklı olarak test geliştirme, genellikle doğru-yanlış yanıtları olan maddeler içerir ve katılımcının performansını değerlendirmeye yöneliktir. Cohen, Manion ve Morrison (2007), test geliştirmenin hem psikometrik bilgi hem de alan uzmanlığı gerektiren titiz bir süreç olduğunu belirtir. Bu yazıda, test geliştirmenin temel adımlarını, madde türlerini, madde analizini, norm ve ölçüt referanslı testleri ve madde tepki kuramının temellerini kapsamlı biçimde ele alacağız.

Test Geliştirme ile Ölçek Geliştirme Arasındaki Fark

Test geliştirme ve ölçek geliştirme sıklıkla karıştırılır; ancak bu iki süreç önemli farklılıklar taşır. Jackson (2015), temel ayrımları şöyle açıklar:

Boyut	Test Geliştirme	Ölçek Geliştirme
Yanıt türü	Doğru-yanlış yanıtlar (performans)	Derecelendirme (tutum, algı, inanç)
Ölçülen yapı	Bilgi, beceri, yetenek	Tutum, kişilik, duygu
Puanlama	Doğru yanıt sayısı veya oranı	Likert veya benzeri toplam puanlar
Madde analizi	Güçlük ve ayırt edicilik indeksleri	Faktör analizi ve madde-toplam korelasyonu
Örnek alanlar	Başarı testleri, yetenek testleri	Öz-yeterlik, motivasyon, kaygı ölçekleri

Test Türleri

Araştırmada kullanılan testler, ölçtükleri yapıya göre çeşitli kategorilere ayrılır. Cohen, Manion ve Morrison (2007), başlıca test türlerini şöyle sınıflandırır:

Başarı testleri (Achievement tests): Bireyin belirli bir öğretim sürecinin ardından kazandığı bilgi ve becerileri ölçer. Ders sonu sınavları, ulusal düzeyde uygulanan standart testler bu kategoriye girer
Yetenek testleri (Aptitude tests): Bireyin gelecekteki performans potansiyelini ve öğrenme kapasitesini ölçer. Genel zihinsel yetenek testleri, sözel ve sayısal yetenek testleri bu gruptadır
Yeterlilik testleri (Proficiency tests): Bireyin belirli bir alanda mevcut yetkinlik düzeyini ölçer. Dil yeterlilik sınavları (TOEFL, IELTS) bu türe örnektir
Tanılama testleri (Diagnostic tests): Bireyin güçlü ve zayıf yönlerini belirlemek için tasarlanmış, spesifik alt beceri alanlarını ölçen testlerdir

Test Geliştirme Adımları

Test geliştirme, sistematik bir süreç izler. Jackson (2015) ve Cohen, Manion ve Morrison (2007), bu süreci şu adımlarla tanımlar:

1. Yapının Tanımlanması

Test geliştirmenin ilk adımı, neyin ölçüleceğinin açık ve kesin biçimde tanımlanmasıdır. Yapı tanımı, ilgili literatür taramasına, uzman görüşüne ve programa dayandırılmalıdır. Örneğin, bir matematik başarı testi geliştirmek için öncelikle ilgili sınıf düzeyinin öğretim programındaki kazanımlar analiz edilir.

2. Belirtke Tablosu (Test Blueprint) Hazırlama

Belirtke tablosu, testin içerik ve bilişsel süreç boyutlarını çaprazlayan iki yönlü bir matristir. Satırlarda içerik alanları (konular), sütunlarda bilişsel düzeyler (Bloom taksonomisi: hatırlama, anlama, uygulama, analiz, değerlendirme, yaratma) yer alır. Her hücre, o konu ve bilişsel düzey kombinasyonu için yazılacak madde sayısını belirtir. Cohen, Manion ve Morrison (2007), belirtke tablosunun testin kapsam geçerliğini güvence altına almak için vazgeçilmez olduğunu vurgular.

3. Madde Yazımı

Belirtke tablosuna uygun olarak test maddeleri yazılır. Genellikle nihai testte yer alacak madde sayısının 1.5-2 katı kadar madde hazırlanır; çünkü pilot uygulama sonrasında bazı maddeler elenecektir. Madde yazımında alan uzmanları, ölçme uzmanları ve hedef kitlenin özelliklerine hakim eğitimciler işbirliği yapmalıdır.

4. Uzman İncelemesi

Yazılan maddeler, en az 3-5 alan uzmanına ve ölçme değerlendirme uzmanına sunulur. Uzmanlar, her maddeyi içerik doğruluğu, hedef yapıyla uyum, dil açıklığı, bilişsel düzey uygunluğu ve olası yanlılıklar açısından değerlendirir. Jackson (2015), uzman incelemesinin testin görünüş geçerliği ve kapsam geçerliği için kritik olduğunu belirtir.

5. Pilot Uygulama

Uzman görüşü doğrultusunda revize edilen maddeler, hedef kitleye benzer bir örneklem üzerinde pilot olarak uygulanır. Pilot örneklem büyüklüğü genellikle madde sayısının 5-10 katı olarak belirlenir. Pilot uygulama, madde analizi için gerekli verileri sağlar.

6. Madde Analizi

Pilot uygulama verilerine dayalı olarak her maddenin psikometrik özellikleri incelenir (aşağıda ayrıntılı olarak ele alınacaktır).

7. Revizyon

Madde analizi sonuçlarına göre zayıf maddeler elenir veya revize edilir. Gerekirse revize edilmiş maddeler ikinci bir pilot uygulamaya tabi tutulur.

8. Standardizasyon

Nihai test, geniş ve temsili bir örneklem üzerinde uygulanarak norm tabloları oluşturulur. Test uygulama koşulları, puanlama prosedürleri ve yorum kriterleri standartlaştırılır.

Madde Türleri

Test maddelerinin seçimi, ölçülmek istenen yapıya ve bilişsel düzeye bağlıdır. Cohen, Manion ve Morrison (2007), başlıca madde türlerini şöyle tanımlar:

Çoktan Seçmeli Maddeler

Bir kök (soru veya tamamlanmamış ifade) ve seçeneklerden (bir doğru yanıt ve çeldiriciler) oluşur. En yaygın madde türüdür; objektif puanlama, geniş içerik kapsama ve hızlı uygulama avantajları sunar. Etkili çoktan seçmeli madde yazımı için şu kurallar izlenir: Kök, tek bir sorunu açıkça ifade etmeli; çeldiriciler makul ve homojen olmalı; "yukarıdakilerin hepsi" ve "hiçbiri" seçeneklerinden kaçınılmalı; olumsuz köklerin altı çizilmelidir.

Doğru-Yanlış Maddeleri

Bir ifadenin doğruluğunu değerlendirmeye yönelik maddelerdir. Hazırlanması kolaydır; ancak %50 şans başarısı en büyük dezavantajıdır. Jackson (2015), doğru-yanlış maddelerinde belirsiz ifadelerden, çift olumsuzdan ve "her zaman" veya "hiçbir zaman" gibi mutlak ifadelerden kaçınılmasını önerir.

Eşleştirme Maddeleri

İki sütundaki öğelerin birbiriyle eşleştirilmesini gerektiren maddelerdir. Terminoloji, tarih-olay ve kavram-tanım eşleştirmeleri için uygundur. Yanıt sütununda öğe sayısının, soru sütunundakinden fazla olması (fazla seçenek) şans başarısını azaltır.

Kısa Yanıtlı Maddeler

Katılımcının bir kelime, sayı veya kısa ifade ile yanıt vermesini gerektiren maddelerdir. Şans başarısını ortadan kaldırır; ancak puanlama sübjektifliği riski taşır.

Açık Uçlu (Essay) Maddeler

Katılımcının kapsamlı bir yazılı yanıt vermesini gerektiren maddelerdir. Üst düzey bilişsel becerileri (analiz, sentez, değerlendirme) ölçmek için idealdir; ancak puanlama güvenirliği düşüktür. Rubrik kullanımı puanlama tutarlılığını artırır.

Madde Analizi

Madde analizi, her test maddesinin psikometrik kalitesini değerlendiren istatistiksel prosedürler bütünüdür. Jackson (2015), madde analizinin dört temel bileşenini tanımlar:

Madde Güçlük İndeksi (p-değeri)

Maddeyi doğru yanıtlayan katılımcıların oranıdır. Formülü basittir: p = Doğru yanıt sayısı / Toplam katılımcı sayısı. Değer 0 ile 1 arasında değişir; 0 en zor, 1 en kolay maddeyi ifade eder. Cohen, Manion ve Morrison (2007), norm referanslı testlerde ideal güçlük değerinin 0.30-0.70 aralığında olduğunu, ortalamanın 0.50 civarında tutulmasının bireyler arası farklılıkları en iyi yansıtacağını belirtir. Ölçüt referanslı testlerde ise güçlük değeri öğretimin etkililiğine bağlı olarak daha yüksek olabilir.

Madde Ayırt Edicilik İndeksi (D)

Maddenin yüksek ve düşük performanslı katılımcıları birbirinden ayırt etme gücünü gösterir. Hesaplama şöyle yapılır: Toplam puana göre katılımcılar sıralanır; üst %27 ve alt %27'lik gruplar belirlenir; D = (Üst gruptaki doğru yanıt oranı) - (Alt gruptaki doğru yanıt oranı). Değer -1 ile +1 arasında değişir. Jackson (2015), D değerlerinin yorumlanmasını şöyle sınıflandırır:

D ≥ 0.40: Çok iyi ayırt edici madde
0.30 ≤ D < 0.40: İyi ayırt edici madde
0.20 ≤ D < 0.30: Kabul edilebilir; revizyon düşünülebilir
D < 0.20: Zayıf; madde elenmeli veya ciddi biçimde revize edilmeli
D < 0: Sorunlu madde; alt grup üst gruptan daha başarılı, mutlaka elenmelidir

Çeldirici Analizi

Çoktan seçmeli maddelerde, yanlış seçeneklerin (çeldiricilerin) her birinin ne oranda seçildiği incelenir. İyi bir çeldirici, alt gruptan katılımcılar tarafından daha fazla seçilmelidir. Hiçbir katılımcının seçmediği çeldiriciler işlevsel değildir ve revize edilmelidir. Cohen, Manion ve Morrison (2007), etkili çeldiricilerin yaygın kavram yanılgılarına veya tipik hatalara dayandırılmasını önerir.

Madde-Toplam Korelasyonu

Her maddenin puanı ile toplam test puanı arasındaki korelasyondur. Nokta-biserial korelasyon katsayısı kullanılır. r ≥ 0.30 genellikle kabul edilebilir alt sınır olarak değerlendirilir. Negatif korelasyon gösteren maddeler, testin bütünlüğünü bozar ve mutlaka elenmelidir.

Norm Referanslı ve Ölçüt Referanslı Testler

Test sonuçlarının yorumlanma biçimi, testin tasarımını doğrudan etkiler. Jackson (2015), iki temel yaklaşımı karşılaştırır:

Boyut	Norm Referanslı Test	Ölçüt Referanslı Test
Amaç	Bireyleri birbirleriyle karşılaştırmak	Bireyin belirli ölçütleri karşılayıp karşılamadığını belirlemek
Yorum	Grup içindeki göreli konum (yüzdelik dilim)	Belirli hedeflere ulaşma durumu (başarılı/başarısız)
Madde güçlüğü	Orta düzey (p ≈ 0.50) tercih edilir	Öğretimle uyumlu; yüksek p değerleri olabilir
Madde ayırt ediciliği	Yüksek D değeri aranır	Öğretim öncesi-sonrası fark önemli
Kapsam	Geniş içerik alanı	Spesifik hedef ve kazanımlar
Puan dağılımı	Normal dağılım beklenir	Çarpık dağılım kabul edilebilir
Örnekler	IQ testleri, üniversite giriş sınavları	Ehliyet sınavları, yetkinlik belgelendirme

Üçüncü bir yaklaşım olan alan referanslı testler (domain-referenced tests), belirli bir bilgi alanının ne kadarının kazanıldığını ölçer ve ölçüt referanslı testlere benzer bir mantık izler.

Standardizasyon ve Normlama

Norm referanslı testlerde, test puanlarının anlamlı biçimde yorumlanabilmesi için norm tabloları oluşturulmalıdır. Cohen, Manion ve Morrison (2007), normlama sürecinin şu adımları içerdiğini belirtir:

Temsili örneklem belirleme: Yaş, cinsiyet, bölge, sosyoekonomik düzey gibi değişkenler açısından hedef popülasyonu temsil eden geniş bir örneklem seçilir
Standart koşullarda uygulama: Test, tüm katılımcılara aynı koşullarda (zaman, ortam, talimatlar) uygulanır
Norm tabloları oluşturma: Ham puanlar; yüzdelik dilimler, standart puanlar (z, T, stanine), yaş eşdeğerleri veya sınıf eşdeğerlerine dönüştürülür
Güncelleme: Normlar zamanla güncelliğini yitirebilir; düzenli aralıklarla yeniden normlama yapılmalıdır

Madde Tepki Kuramı (MTK) Temelleri

Klasik Test Kuramına (KTK) alternatif olarak geliştirilen Madde Tepki Kuramı (Item Response Theory - IRT), madde düzeyinde daha detaylı analizler sunar. Jackson (2015), MTK'nın temel modellerini şöyle özetler:

1 Parametreli Model (1PL / Rasch Modeli)

Yalnızca madde güçlüğünü (b parametresi) dikkate alır. Her maddenin ayırt edicilik gücünün eşit olduğunu varsayar. En basit ve en kısıtlayıcı modeldir; ancak pratik uygulamalarda sıklıkla kullanılır.

2 Parametreli Model (2PL)

Madde güçlüğüne ek olarak madde ayırt ediciliğini (a parametresi) de modele dahil eder. Her maddenin farklı düzeylerde ayırt edici olabileceğini kabul eder.

3 Parametreli Model (3PL)

Güçlük ve ayırt ediciliğe ek olarak şans parametresini (c parametresi) de içerir. Özellikle çoktan seçmeli testlerde, düşük yetenek düzeyindeki bireylerin şansla doğru yanıt verme olasılığını hesaba katar.

Madde Karakteristik Eğrisi

MTK'nın temel aracı olan madde karakteristik eğrisi (Item Characteristic Curve - ICC), bireyin yetenek düzeyi ile doğru yanıt olasılığı arasındaki ilişkiyi grafik olarak gösterir. Eğrinin konumu güçlüğü, dikliği ayırt ediciliği, alt asimptotu şans parametresini yansıtır. Cohen, Manion ve Morrison (2007), MTK'nın testin her maddesinin farklı yetenek düzeylerindeki performansını ayrı ayrı değerlendirme imkanı sunduğunu vurgular.

Bilgisayar Uyarlamalı Test (CAT)

MTK'nın en önemli uygulamalarından biri bilgisayar uyarlamalı test (Computerized Adaptive Testing - CAT) teknolojisidir. CAT'ta her katılımcıya farklı maddeler sunulur: Bir maddeye doğru yanıt verildiğinde bir sonraki madde daha zor, yanlış yanıt verildiğinde daha kolay olur. Bu süreç, bireyin yetenek düzeyi yeterli hassasiyetle tahmin edilene kadar devam eder. CAT, geleneksel sabit testlere göre daha az maddeyle daha hassas ölçüm yapabilir ve uygulama süresini önemli ölçüde kısaltır.

Test Güvenliği ve Adalet

Test geliştirmede güvenlik ve adalet boyutları kritik öneme sahiptir. Jackson (2015), şu hususlara dikkat edilmesi gerektiğini belirtir:

Madde güvenliği: Test maddelerinin sızmasını önlemek için güvenlik protokolleri oluşturulmalıdır
Yanlılık analizi: Cinsiyet, etnisite veya sosyoekonomik düzeye göre belirli grupları sistematik olarak dezavantajlı kılan maddeler tespit edilmeli ve elenmelidir (Diferansiyel Madde İşleyişi - DIF analizi)
Kültürel adalet: Test içeriği, hedef kitlenin kültürel çeşitliliğini yansıtmalı ve belirli bir kültürel arka planı avantajlı kılmamalıdır
Erişilebilirlik: Engelli bireylere yönelik uyarlamalar (ek süre, büyük punto, sesli okuma) planlanmalıdır

Test Geliştirmenin Araştırmada Raporlanması

Araştırmacı kendi geliştirdiği testi kullandığında, araştırma raporunda test geliştirme sürecini kapsamlı biçimde belgelemelidir. Cohen, Manion ve Morrison (2007), raporun şu bilgileri içermesini önerir:

Yapı tanımı ve kuramsal temel
Belirtke tablosu
Madde yazım süreci ve uzman incelemesi bulguları
Pilot uygulama örneklemi ve prosedürü
Madde analizi sonuçları (güçlük, ayırt edicilik, çeldirici analizi)
Elenen ve revize edilen maddeler hakkında bilgi
Güvenirlik kanıtları (KR-20, Cronbach alfa, test-tekrar test)
Geçerlik kanıtları (kapsam, yapı, ölçüt geçerliği)
Nihai test formu hakkında bilgi (madde sayısı, uygulama süresi, puanlama)

Sonuç

Test geliştirme, araştırmada veri toplama araçlarının en sistematik ve titiz biçimde oluşturulmasını gerektiren süreçlerden biridir. Yapı tanımından belirtke tablosu hazırlamaya, madde yazımından istatistiksel madde analizine, standardizasyondan normlama sürecine kadar her adım, testin geçerlik ve güvenirliğini doğrudan etkiler. Cohen, Manion ve Morrison'un (2007) belirttiği gibi, iyi bir test yalnızca doğru yanıtları ölçmez; bireylerin bilgi ve beceri düzeylerini adil, güvenilir ve geçerli biçimde yansıtır. Jackson (2015), araştırmacıların mevcut testleri kullanmayı tercih etseler bile test geliştirme ilkelerini bilmelerinin, kullandıkları araçların kalitesini değerlendirme kapasitelerini artıracağını vurgular. Madde Tepki Kuramı ve bilgisayar uyarlamalı testler gibi modern yaklaşımlar, test geliştirme alanını sürekli dönüştürmekte ve daha hassas, adil ve verimli ölçme araçlarının geliştirilmesine olanak tanımaktadır.

Araştırmada Test Geliştirme: Başarı ve Yetenek Testleri Oluşturma