Araştırmada Test Geliştirme: Başarı ve Yetenek Testleri Oluşturma
Eğitim ve psikoloji araştırmalarında test geliştirme, bireylerin bilgi, beceri, yetenek veya performans düzeylerini ölçmek amacıyla sistematik bir araç oluşturma sürecidir. Ölçek geliştirmeden farklı olarak test geliştirme, genellikle doğru-yanlış yanıtları olan maddeler içerir ve katılımcının performansını değerlendirmeye yöneliktir. Cohen, Manion ve Morrison (2007), test geliştirmenin hem psikometrik bilgi hem de alan uzmanlığı gerektiren titiz bir süreç olduğunu belirtir. Bu yazıda, test geliştirmenin temel adımlarını, madde türlerini, madde analizini, norm ve ölçüt referanslı testleri ve madde tepki kuramının temellerini kapsamlı biçimde ele alacağız.
Test Geliştirme ile Ölçek Geliştirme Arasındaki Fark
Test geliştirme ve ölçek geliştirme sıklıkla karıştırılır; ancak bu iki süreç önemli farklılıklar taşır. Jackson (2015), temel ayrımları şöyle açıklar:
| Boyut | Test Geliştirme | Ölçek Geliştirme |
|---|---|---|
| Yanıt türü | Doğru-yanlış yanıtlar (performans) | Derecelendirme (tutum, algı, inanç) |
| Ölçülen yapı | Bilgi, beceri, yetenek | Tutum, kişilik, duygu |
| Puanlama | Doğru yanıt sayısı veya oranı | Likert veya benzeri toplam puanlar |
| Madde analizi | Güçlük ve ayırt edicilik indeksleri | Faktör analizi ve madde-toplam korelasyonu |
| Örnek alanlar | Başarı testleri, yetenek testleri | Öz-yeterlik, motivasyon, kaygı ölçekleri |
Test Türleri
Araştırmada kullanılan testler, ölçtükleri yapıya göre çeşitli kategorilere ayrılır. Cohen, Manion ve Morrison (2007), başlıca test türlerini şöyle sınıflandırır:
- Başarı testleri (Achievement tests): Bireyin belirli bir öğretim sürecinin ardından kazandığı bilgi ve becerileri ölçer. Ders sonu sınavları, ulusal düzeyde uygulanan standart testler bu kategoriye girer
- Yetenek testleri (Aptitude tests): Bireyin gelecekteki performans potansiyelini ve öğrenme kapasitesini ölçer. Genel zihinsel yetenek testleri, sözel ve sayısal yetenek testleri bu gruptadır
- Yeterlilik testleri (Proficiency tests): Bireyin belirli bir alanda mevcut yetkinlik düzeyini ölçer. Dil yeterlilik sınavları (TOEFL, IELTS) bu türe örnektir
- Tanılama testleri (Diagnostic tests): Bireyin güçlü ve zayıf yönlerini belirlemek için tasarlanmış, spesifik alt beceri alanlarını ölçen testlerdir
Test Geliştirme Adımları
Test geliştirme, sistematik bir süreç izler. Jackson (2015) ve Cohen, Manion ve Morrison (2007), bu süreci şu adımlarla tanımlar:
1. Yapının Tanımlanması
Test geliştirmenin ilk adımı, neyin ölçüleceğinin açık ve kesin biçimde tanımlanmasıdır. Yapı tanımı, ilgili literatür taramasına, uzman görüşüne ve programa dayandırılmalıdır. Örneğin, bir matematik başarı testi geliştirmek için öncelikle ilgili sınıf düzeyinin öğretim programındaki kazanımlar analiz edilir.
2. Belirtke Tablosu (Test Blueprint) Hazırlama
Belirtke tablosu, testin içerik ve bilişsel süreç boyutlarını çaprazlayan iki yönlü bir matristir. Satırlarda içerik alanları (konular), sütunlarda bilişsel düzeyler (Bloom taksonomisi: hatırlama, anlama, uygulama, analiz, değerlendirme, yaratma) yer alır. Her hücre, o konu ve bilişsel düzey kombinasyonu için yazılacak madde sayısını belirtir. Cohen, Manion ve Morrison (2007), belirtke tablosunun testin kapsam geçerliğini güvence altına almak için vazgeçilmez olduğunu vurgular.
3. Madde Yazımı
Belirtke tablosuna uygun olarak test maddeleri yazılır. Genellikle nihai testte yer alacak madde sayısının 1.5-2 katı kadar madde hazırlanır; çünkü pilot uygulama sonrasında bazı maddeler elenecektir. Madde yazımında alan uzmanları, ölçme uzmanları ve hedef kitlenin özelliklerine hakim eğitimciler işbirliği yapmalıdır.
4. Uzman İncelemesi
Yazılan maddeler, en az 3-5 alan uzmanına ve ölçme değerlendirme uzmanına sunulur. Uzmanlar, her maddeyi içerik doğruluğu, hedef yapıyla uyum, dil açıklığı, bilişsel düzey uygunluğu ve olası yanlılıklar açısından değerlendirir. Jackson (2015), uzman incelemesinin testin görünüş geçerliği ve kapsam geçerliği için kritik olduğunu belirtir.
5. Pilot Uygulama
Uzman görüşü doğrultusunda revize edilen maddeler, hedef kitleye benzer bir örneklem üzerinde pilot olarak uygulanır. Pilot örneklem büyüklüğü genellikle madde sayısının 5-10 katı olarak belirlenir. Pilot uygulama, madde analizi için gerekli verileri sağlar.
6. Madde Analizi
Pilot uygulama verilerine dayalı olarak her maddenin psikometrik özellikleri incelenir (aşağıda ayrıntılı olarak ele alınacaktır).
7. Revizyon
Madde analizi sonuçlarına göre zayıf maddeler elenir veya revize edilir. Gerekirse revize edilmiş maddeler ikinci bir pilot uygulamaya tabi tutulur.
8. Standardizasyon
Nihai test, geniş ve temsili bir örneklem üzerinde uygulanarak norm tabloları oluşturulur. Test uygulama koşulları, puanlama prosedürleri ve yorum kriterleri standartlaştırılır.
Madde Türleri
Test maddelerinin seçimi, ölçülmek istenen yapıya ve bilişsel düzeye bağlıdır. Cohen, Manion ve Morrison (2007), başlıca madde türlerini şöyle tanımlar:
Çoktan Seçmeli Maddeler
Bir kök (soru veya tamamlanmamış ifade) ve seçeneklerden (bir doğru yanıt ve çeldiriciler) oluşur. En yaygın madde türüdür; objektif puanlama, geniş içerik kapsama ve hızlı uygulama avantajları sunar. Etkili çoktan seçmeli madde yazımı için şu kurallar izlenir: Kök, tek bir sorunu açıkça ifade etmeli; çeldiriciler makul ve homojen olmalı; "yukarıdakilerin hepsi" ve "hiçbiri" seçeneklerinden kaçınılmalı; olumsuz köklerin altı çizilmelidir.
Doğru-Yanlış Maddeleri
Bir ifadenin doğruluğunu değerlendirmeye yönelik maddelerdir. Hazırlanması kolaydır; ancak %50 şans başarısı en büyük dezavantajıdır. Jackson (2015), doğru-yanlış maddelerinde belirsiz ifadelerden, çift olumsuzdan ve "her zaman" veya "hiçbir zaman" gibi mutlak ifadelerden kaçınılmasını önerir.
Eşleştirme Maddeleri
İki sütundaki öğelerin birbiriyle eşleştirilmesini gerektiren maddelerdir. Terminoloji, tarih-olay ve kavram-tanım eşleştirmeleri için uygundur. Yanıt sütununda öğe sayısının, soru sütunundakinden fazla olması (fazla seçenek) şans başarısını azaltır.
Kısa Yanıtlı Maddeler
Katılımcının bir kelime, sayı veya kısa ifade ile yanıt vermesini gerektiren maddelerdir. Şans başarısını ortadan kaldırır; ancak puanlama sübjektifliği riski taşır.
Açık Uçlu (Essay) Maddeler
Katılımcının kapsamlı bir yazılı yanıt vermesini gerektiren maddelerdir. Üst düzey bilişsel becerileri (analiz, sentez, değerlendirme) ölçmek için idealdir; ancak puanlama güvenirliği düşüktür. Rubrik kullanımı puanlama tutarlılığını artırır.
Madde Analizi
Madde analizi, her test maddesinin psikometrik kalitesini değerlendiren istatistiksel prosedürler bütünüdür. Jackson (2015), madde analizinin dört temel bileşenini tanımlar:
Madde Güçlük İndeksi (p-değeri)
Maddeyi doğru yanıtlayan katılımcıların oranıdır. Formülü basittir: p = Doğru yanıt sayısı / Toplam katılımcı sayısı. Değer 0 ile 1 arasında değişir; 0 en zor, 1 en kolay maddeyi ifade eder. Cohen, Manion ve Morrison (2007), norm referanslı testlerde ideal güçlük değerinin 0.30-0.70 aralığında olduğunu, ortalamanın 0.50 civarında tutulmasının bireyler arası farklılıkları en iyi yansıtacağını belirtir. Ölçüt referanslı testlerde ise güçlük değeri öğretimin etkililiğine bağlı olarak daha yüksek olabilir.
Madde Ayırt Edicilik İndeksi (D)
Maddenin yüksek ve düşük performanslı katılımcıları birbirinden ayırt etme gücünü gösterir. Hesaplama şöyle yapılır: Toplam puana göre katılımcılar sıralanır; üst %27 ve alt %27'lik gruplar belirlenir; D = (Üst gruptaki doğru yanıt oranı) - (Alt gruptaki doğru yanıt oranı). Değer -1 ile +1 arasında değişir. Jackson (2015), D değerlerinin yorumlanmasını şöyle sınıflandırır:
- D ≥ 0.40: Çok iyi ayırt edici madde
- 0.30 ≤ D < 0.40: İyi ayırt edici madde
- 0.20 ≤ D < 0.30: Kabul edilebilir; revizyon düşünülebilir
- D < 0.20: Zayıf; madde elenmeli veya ciddi biçimde revize edilmeli
- D < 0: Sorunlu madde; alt grup üst gruptan daha başarılı, mutlaka elenmelidir
Çeldirici Analizi
Çoktan seçmeli maddelerde, yanlış seçeneklerin (çeldiricilerin) her birinin ne oranda seçildiği incelenir. İyi bir çeldirici, alt gruptan katılımcılar tarafından daha fazla seçilmelidir. Hiçbir katılımcının seçmediği çeldiriciler işlevsel değildir ve revize edilmelidir. Cohen, Manion ve Morrison (2007), etkili çeldiricilerin yaygın kavram yanılgılarına veya tipik hatalara dayandırılmasını önerir.
Madde-Toplam Korelasyonu
Her maddenin puanı ile toplam test puanı arasındaki korelasyondur. Nokta-biserial korelasyon katsayısı kullanılır. r ≥ 0.30 genellikle kabul edilebilir alt sınır olarak değerlendirilir. Negatif korelasyon gösteren maddeler, testin bütünlüğünü bozar ve mutlaka elenmelidir.
Norm Referanslı ve Ölçüt Referanslı Testler
Test sonuçlarının yorumlanma biçimi, testin tasarımını doğrudan etkiler. Jackson (2015), iki temel yaklaşımı karşılaştırır:
| Boyut | Norm Referanslı Test | Ölçüt Referanslı Test |
|---|---|---|
| Amaç | Bireyleri birbirleriyle karşılaştırmak | Bireyin belirli ölçütleri karşılayıp karşılamadığını belirlemek |
| Yorum | Grup içindeki göreli konum (yüzdelik dilim) | Belirli hedeflere ulaşma durumu (başarılı/başarısız) |
| Madde güçlüğü | Orta düzey (p ≈ 0.50) tercih edilir | Öğretimle uyumlu; yüksek p değerleri olabilir |
| Madde ayırt ediciliği | Yüksek D değeri aranır | Öğretim öncesi-sonrası fark önemli |
| Kapsam | Geniş içerik alanı | Spesifik hedef ve kazanımlar |
| Puan dağılımı | Normal dağılım beklenir | Çarpık dağılım kabul edilebilir |
| Örnekler | IQ testleri, üniversite giriş sınavları | Ehliyet sınavları, yetkinlik belgelendirme |
Üçüncü bir yaklaşım olan alan referanslı testler (domain-referenced tests), belirli bir bilgi alanının ne kadarının kazanıldığını ölçer ve ölçüt referanslı testlere benzer bir mantık izler.
Standardizasyon ve Normlama
Norm referanslı testlerde, test puanlarının anlamlı biçimde yorumlanabilmesi için norm tabloları oluşturulmalıdır. Cohen, Manion ve Morrison (2007), normlama sürecinin şu adımları içerdiğini belirtir:
- Temsili örneklem belirleme: Yaş, cinsiyet, bölge, sosyoekonomik düzey gibi değişkenler açısından hedef popülasyonu temsil eden geniş bir örneklem seçilir
- Standart koşullarda uygulama: Test, tüm katılımcılara aynı koşullarda (zaman, ortam, talimatlar) uygulanır
- Norm tabloları oluşturma: Ham puanlar; yüzdelik dilimler, standart puanlar (z, T, stanine), yaş eşdeğerleri veya sınıf eşdeğerlerine dönüştürülür
- Güncelleme: Normlar zamanla güncelliğini yitirebilir; düzenli aralıklarla yeniden normlama yapılmalıdır
Madde Tepki Kuramı (MTK) Temelleri
Klasik Test Kuramına (KTK) alternatif olarak geliştirilen Madde Tepki Kuramı (Item Response Theory - IRT), madde düzeyinde daha detaylı analizler sunar. Jackson (2015), MTK'nın temel modellerini şöyle özetler:
1 Parametreli Model (1PL / Rasch Modeli)
Yalnızca madde güçlüğünü (b parametresi) dikkate alır. Her maddenin ayırt edicilik gücünün eşit olduğunu varsayar. En basit ve en kısıtlayıcı modeldir; ancak pratik uygulamalarda sıklıkla kullanılır.
2 Parametreli Model (2PL)
Madde güçlüğüne ek olarak madde ayırt ediciliğini (a parametresi) de modele dahil eder. Her maddenin farklı düzeylerde ayırt edici olabileceğini kabul eder.
3 Parametreli Model (3PL)
Güçlük ve ayırt ediciliğe ek olarak şans parametresini (c parametresi) de içerir. Özellikle çoktan seçmeli testlerde, düşük yetenek düzeyindeki bireylerin şansla doğru yanıt verme olasılığını hesaba katar.
Madde Karakteristik Eğrisi
MTK'nın temel aracı olan madde karakteristik eğrisi (Item Characteristic Curve - ICC), bireyin yetenek düzeyi ile doğru yanıt olasılığı arasındaki ilişkiyi grafik olarak gösterir. Eğrinin konumu güçlüğü, dikliği ayırt ediciliği, alt asimptotu şans parametresini yansıtır. Cohen, Manion ve Morrison (2007), MTK'nın testin her maddesinin farklı yetenek düzeylerindeki performansını ayrı ayrı değerlendirme imkanı sunduğunu vurgular.
Bilgisayar Uyarlamalı Test (CAT)
MTK'nın en önemli uygulamalarından biri bilgisayar uyarlamalı test (Computerized Adaptive Testing - CAT) teknolojisidir. CAT'ta her katılımcıya farklı maddeler sunulur: Bir maddeye doğru yanıt verildiğinde bir sonraki madde daha zor, yanlış yanıt verildiğinde daha kolay olur. Bu süreç, bireyin yetenek düzeyi yeterli hassasiyetle tahmin edilene kadar devam eder. CAT, geleneksel sabit testlere göre daha az maddeyle daha hassas ölçüm yapabilir ve uygulama süresini önemli ölçüde kısaltır.
Test Güvenliği ve Adalet
Test geliştirmede güvenlik ve adalet boyutları kritik öneme sahiptir. Jackson (2015), şu hususlara dikkat edilmesi gerektiğini belirtir:
- Madde güvenliği: Test maddelerinin sızmasını önlemek için güvenlik protokolleri oluşturulmalıdır
- Yanlılık analizi: Cinsiyet, etnisite veya sosyoekonomik düzeye göre belirli grupları sistematik olarak dezavantajlı kılan maddeler tespit edilmeli ve elenmelidir (Diferansiyel Madde İşleyişi - DIF analizi)
- Kültürel adalet: Test içeriği, hedef kitlenin kültürel çeşitliliğini yansıtmalı ve belirli bir kültürel arka planı avantajlı kılmamalıdır
- Erişilebilirlik: Engelli bireylere yönelik uyarlamalar (ek süre, büyük punto, sesli okuma) planlanmalıdır
Test Geliştirmenin Araştırmada Raporlanması
Araştırmacı kendi geliştirdiği testi kullandığında, araştırma raporunda test geliştirme sürecini kapsamlı biçimde belgelemelidir. Cohen, Manion ve Morrison (2007), raporun şu bilgileri içermesini önerir:
- Yapı tanımı ve kuramsal temel
- Belirtke tablosu
- Madde yazım süreci ve uzman incelemesi bulguları
- Pilot uygulama örneklemi ve prosedürü
- Madde analizi sonuçları (güçlük, ayırt edicilik, çeldirici analizi)
- Elenen ve revize edilen maddeler hakkında bilgi
- Güvenirlik kanıtları (KR-20, Cronbach alfa, test-tekrar test)
- Geçerlik kanıtları (kapsam, yapı, ölçüt geçerliği)
- Nihai test formu hakkında bilgi (madde sayısı, uygulama süresi, puanlama)
Sonuç
Test geliştirme, araştırmada veri toplama araçlarının en sistematik ve titiz biçimde oluşturulmasını gerektiren süreçlerden biridir. Yapı tanımından belirtke tablosu hazırlamaya, madde yazımından istatistiksel madde analizine, standardizasyondan normlama sürecine kadar her adım, testin geçerlik ve güvenirliğini doğrudan etkiler. Cohen, Manion ve Morrison'un (2007) belirttiği gibi, iyi bir test yalnızca doğru yanıtları ölçmez; bireylerin bilgi ve beceri düzeylerini adil, güvenilir ve geçerli biçimde yansıtır. Jackson (2015), araştırmacıların mevcut testleri kullanmayı tercih etseler bile test geliştirme ilkelerini bilmelerinin, kullandıkları araçların kalitesini değerlendirme kapasitelerini artıracağını vurgular. Madde Tepki Kuramı ve bilgisayar uyarlamalı testler gibi modern yaklaşımlar, test geliştirme alanını sürekli dönüştürmekte ve daha hassas, adil ve verimli ölçme araçlarının geliştirilmesine olanak tanımaktadır.
Kaynaklar
Yorumlar (0)
Yorum yapmak için giriş yapmalısınız.
