Veri İşleme ve Kodlama: Kodlama Şeması ve Veri Girişi Rehberi

Araştırma sürecinde toplanan ham veriler, doğrudan analiz edilmeye uygun değildir. Ham verinin analiz edilebilir bir veri setine dönüştürülmesi, sistematik bir veri işleme (data processing) sürecini gerektirir. Kothari (2004), veri işlemeyi "ham verilerin düzenli, anlamlı ve analiz edilebilir bilgiye dönüştürülme süreci" olarak tanımlar. Bu süreç; düzenleme, kodlama, veri girişi, temizleme, sınıflama, tablolama ve dönüştürme aşamalarından oluşur. Bu yazıda, veri işleme hattının her aşamasını, kodlama şeması oluşturma ilkelerini, kod kitabı hazırlama yöntemlerini ve veri dönüştürme tekniklerini kapsamlı biçimde ele alacağız.

Veri İşleme Hattı: Genel Bakış

Veri işleme, birbirine bağlı aşamalardan oluşan bir ardışık süreçtir (pipeline). Kothari (2004) ve Bhome ve diğerleri (2013), bu süreci şu adımlarla tanımlar:

Veri toplama: Anketler, görüşmeler, gözlemler veya deneyler yoluyla ham veri elde edilir
Düzenleme (Editing): Ham veriler eksiksizlik, tutarlılık ve okunabilirlik açısından kontrol edilir
Kodlama (Coding): Yanıtlar sayısal veya kategorik kodlara dönüştürülür
Veri girişi (Data entry): Kodlanmış veriler bilgisayar ortamına aktarılır
Temizleme (Cleaning): Veri girişi hataları tespit edilir ve düzeltilir
Dönüştürme (Transformation): Veriler analiz gereksinimlerine göre dönüştürülür
Analiz: İstatistiksel veya nitel analiz teknikleri uygulanır

Bu aşamaların her biri, bir sonraki aşamanın kalitesini doğrudan etkiler. Düzenleme aşamasındaki bir ihmal, kodlama hatalarına; kodlama hataları, veri girişi sorunlarına; veri girişi sorunları ise hatalı analiz sonuçlarına yol açar.

Düzenleme Aşaması

Düzenleme, ham verilerin kalite kontrolünden geçirilmesi aşamasıdır. Kothari (2004), düzenlemenin iki alt aşamadan oluştuğunu belirtir:

Saha Düzenlemesi (Field Editing)

Veri toplama sırasında veya hemen sonrasında gerçekleştirilen ilk düzenleme aşamasıdır. Anketör, her görüşme veya gözlem sonrasında formları gözden geçirir ve şu kontrolleri yapar:

Okunaklılık: El yazısı notların okunabilirliği
Eksiksizlik: Tüm soruların yanıtlanıp yanıtlanmadığı
Tutarlılık: Yanıtlar arasındaki mantıksal tutarlılık
Netlik: Belirsiz veya çelişkili yanıtların açıklığa kavuşturulması

Saha düzenlemesi, verilerin henüz taze olduğu dönemde yapıldığı için eksikliklerin giderilmesi mümkündür. Bhome ve diğerleri (2013), saha düzenlemesinin mümkün olduğunca veri toplama günü içinde tamamlanmasını önerir.

Ofis Düzenlemesi (Office Editing)

Tüm veriler toplandıktan sonra merkezi olarak gerçekleştirilen kapsamlı düzenlemedir. Bu aşamada:

Eksiksizlik kontrolü: Tüm formlar gözden geçirilir; eksik formlar veya sorular belirlenir
Tutarlılık kontrolü: Formlar arası ve form içi tutarlılık kontrol edilir (örneğin, yaşı 15 olan bir katılımcının evlilik durumunun "evli" olarak işaretlenmesi tutarsızlık gösterir)
Doğruluk kontrolü: Açıkça hatalı yanıtlar tespit edilir
Tekbiçimlilik: Yanıt formatlarının standartlaştırılması (örneğin, tarihlerin aynı formatta yazılması)

Kodlama Aşaması

Kodlama, yanıtların sayısal veya kategorik semboller ile temsil edilmesi sürecidir. Kothari (2004), kodlamanın verilerin bilgisayar ortamına aktarılması ve istatistiksel analiz için vazgeçilmez olduğunu vurgular.

Kodlama Şeması Oluşturma

Kodlama şeması, her değişken için kullanılacak kodları sistematik biçimde tanımlayan bir çerçevedir. Etkili bir kodlama şeması şu özelliklere sahip olmalıdır:

Karşılıklı dışlayıcılık: Her yanıt yalnızca bir koda atanabilmelidir
Kapsayıcılık: Tüm olası yanıtlar için kod bulunmalıdır
Tutarlılık: Benzer değişkenler için benzer kodlama mantığı kullanılmalıdır
Basitlik: Kodlar mümkün olduğunca basit ve anlaşılır olmalıdır

Kapalı Uçlu Soruların Kodlanması

Kapalı uçlu sorular için kodlama genellikle basittir; çünkü yanıt seçenekleri önceden belirlenmiştir. Örnek kodlama şeması:

Cinsiyet: Kadın = 1, Erkek = 2, Diğer = 3
Eğitim düzeyi: İlkokul = 1, Ortaokul = 2, Lise = 3, Lisans = 4, Lisansüstü = 5
Likert ölçeği: Kesinlikle katılmıyorum = 1, Katılmıyorum = 2, Kararsızım = 3, Katılıyorum = 4, Kesinlikle katılıyorum = 5

Açık Uçlu Soruların Kodlanması

Açık uçlu soruların kodlanması daha karmaşıktır. Bhome ve diğerleri (2013), bu süreci şu adımlarla tanımlar:

Yanıtların okunması: Tüm açık uçlu yanıtlar baştan sona okunarak genel eğilimler belirlenir
Kategori oluşturma: Benzer yanıtlar gruplandırılarak kategoriler oluşturulur
Kod atama: Her kategoriye sayısal bir kod atanır
Sınıflandırılamayan yanıtlar: Hiçbir kategoriye uymayan yanıtlar için "diğer" kodu kullanılır; ancak bu kategorinin oranı düşük tutulmalıdır
Kodlama güvenirliği: İki bağımsız kodlayıcı aynı verileri kodlar ve uyum oranı hesaplanır (Cohen'in kappa katsayısı)

Dummy (Yapay) Kodlama

Kategorik değişkenlerin regresyon analizine dahil edilmesi için dummy kodlama (kukla kodlama) kullanılır. k kategorili bir değişken, k-1 dummy değişken ile temsil edilir. Örneğin, 3 kategorili bir eğitim düzeyi değişkeni (lise, lisans, lisansüstü) için 2 dummy değişken oluşturulur; bir kategori referans grubu olarak seçilir (Kothari, 2004).

Etki Kodlaması

Dummy kodlamaya alternatif olarak etki kodlaması (effect coding) kullanılabilir. Etki kodlamasında referans grubu 0 yerine -1 ile kodlanır. Bu durumda regresyon katsayıları, her grubun genel ortalamadan sapmasını gösterir (dummy kodlamada referans grubundan sapma gösterilir).

Veri Girişi

Kodlanmış veriler, analiz yazılımına (SPSS, Excel, R vb.) aktarılır. Kothari (2004), veri girişinde kaliteyi güvence altına almak için iki temel yaklaşım tanımlar:

Tek Giriş (Single Entry)

Veriler bir kez girilir; ardından rastgele seçilen formlar kontrol edilerek hata oranı tahmin edilir. Daha hızlıdır; ancak hata riski daha yüksektir.

Çift Giriş (Double Entry)

Veriler iki farklı kişi tarafından bağımsız olarak girilir; ardından iki veri seti otomatik olarak karşılaştırılır ve uyumsuzluklar tespit edilir. Bhome ve diğerleri (2013), çift girişin hata oranını %99'un üzerinde azalttığını belirtir. Büyük ve kritik veri setlerinde çift giriş tercih edilmelidir.

Doğrulama (Verification)

Veri girişinin ardından sistematik doğrulama prosedürleri uygulanır:

Aralık kontrolleri: Her değişkenin değer aralığı kontrol edilir (örneğin, yaş değişkeninde 200 gibi imkansız değerler)
Tutarlılık kontrolleri: Mantıksal tutarlılık kontrol edilir (örneğin, hiç sigara içmediğini belirten birinin günlük sigara sayısının 0 olması gerekir)
Frekans dağılımları: Tüm değişkenlerin frekans dağılımları incelenerek olağandışı değerler tespit edilir

Sınıflama ve Tablolama

Sınıflama, verilerin belirli özelliklere göre gruplandırılmasıdır. Tablolama ise sınıflandırılmış verilerin tablo biçiminde özetlenmesidir. Kothari (2004), tablolama türlerini şöyle ayırır:

Basit Tablolama

Tek bir değişkenin frekans dağılımını gösterir. Örneğin, katılımcıların eğitim düzeylerine göre dağılımı.

Çapraz Tablolama (Cross-Tabulation)

İki veya daha fazla değişkenin birlikte dağılımını gösterir. Örneğin, cinsiyet ve eğitim düzeyinin çapraz tablosu. Bhome ve diğerleri (2013), çapraz tablolamenin değişkenler arası ilişkileri keşfetmek için en temel araçlardan biri olduğunu belirtir.

Kod Kitabı (Codebook) Hazırlama

Kod kitabı (veri sözlüğü), veri setindeki tüm değişkenleri ve kodları belgeleyen bir referans dokümanıdır. Kothari (2004), iyi bir kod kitabının şu bilgileri içermesi gerektiğini belirtir:

Bilgi Türü	Açıklama	Örnek
Değişken adı	Kısa ve tanımlayıcı	EGT_DUZ
Değişken açıklaması	Değişkenin tam tanımı	Eğitim düzeyi
Ölçme düzeyi	Sınıflama, sıralama, eşit aralıklı, oransal	Sıralama
Kodlar	Her yanıt kategorisinin kodu	1=İlkokul, 2=Ortaokul, 3=Lise, 4=Lisans, 5=Lisansüstü
Kayıp değer kodları	Eksik verilerin kodlanma biçimi	99=Yanıtsız, 88=Geçersiz
Değer aralığı	Geçerli değerlerin alt ve üst sınırları	1-5
Veri kaynağı	Verinin hangi ölçme aracından geldiği	Anket, Bölüm 2, Soru 5

Pratik Kod Kitabı Şablonu

Aşağıda bir araştırma projesi için örnek kod kitabı yapısı sunulmaktadır:

Sıra	Değişken	Açıklama	Tür	Kodlar	Kayıp
1	ID	Katılımcı numarası	Tanımlayıcı	001-500	-
2	CNST	Cinsiyet	Nominal	1=Kadın, 2=Erkek	99
3	YAS	Yaş (yıl)	Oransal	18-65	99
4	EGT	Eğitim düzeyi	Sıralama	1=İlk, 2=Orta, 3=Lise, 4=Ünv, 5=LÜ	99
5	MEM1	Memnuniyet madde 1	Aralık	1-5 (Likert)	99
6	BASARI	Başarı testi puanı	Oransal	0-100	999

Veri Dönüştürme

Ham verilerin analiz gereksinimlerine uygun biçime dönüştürülmesi sıklıkla gerekir. Bhome ve diğerleri (2013), yaygın veri dönüştürme işlemlerini şöyle sınıflandırır:

Yeniden Kodlama (Recoding)

Mevcut değişkenin değerlerinin yeni değerlere dönüştürülmesidir. Örneğin, sürekli bir yaş değişkeninin kategorik hale getirilmesi: 18-25 = 1 (Genç), 26-40 = 2 (Orta), 41-65 = 3 (İleri). Ters kodlama ise ölçeklerde olumsuz ifadeli maddelerin yönünün tersine çevrilmesidir.

Yeni Değişken Hesaplama (Computing)

Mevcut değişkenlerden yeni değişkenlerin türetilmesidir. Örneğin, bir ölçeğin alt boyut puanlarının ilgili maddelerin ortalaması alınarak hesaplanması. Vücut kitle indeksinin ağırlık ve boy değişkenlerinden hesaplanması da bu kategoriye girer.

Toplama (Aggregation)

Bireysel düzeydeki verilerin grup düzeyine toplanmasıdır. Örneğin, sınıf düzeyinde analiz yapmak için öğrenci düzeyindeki verilerin sınıf ortalaması olarak toplanması.

Veri İşleme Adımları ve Araçları Karşılaştırması

Aşama	Temel İşlem	Yaygın Araçlar	Kalite Kontrol
Düzenleme	Eksiksizlik ve tutarlılık kontrolü	Manuel inceleme, kontrol listeleri	Saha ve ofis düzenlemesi
Kodlama	Yanıtları kodlara dönüştürme	Kodlama şeması, kod kitabı	Kodlayıcılar arası güvenirlik
Veri girişi	Dijital ortama aktarma	SPSS, Excel, Google Forms	Çift giriş, aralık kontrolleri
Temizleme	Hata tespiti ve düzeltme	SPSS syntax, R, Python	Frekans dağılımları, uç değer analizi
Sınıflama	Verileri gruplandırma	SPSS, Excel pivot	Kategorilerin karşılıklı dışlayıcılığı
Tablolama	Frekans ve çapraz tablolar	SPSS, Excel, R	Toplamların doğruluğu
Dönüştürme	Yeniden kodlama, hesaplama	SPSS Recode/Compute, R	Dönüşüm sonrası dağılım kontrolü

Yaygın Veri Girişi Hataları ve Tespit Yöntemleri

Veri girişi hataları, araştırma sonuçlarını ciddi biçimde etkileyebilir. Kothari (2004), en yaygın veri girişi hatalarını ve tespit yöntemlerini şöyle sıralar:

Transkripsiyon hataları: Yanlış sayı veya kod girişi. Çift giriş ve aralık kontrolleri ile tespit edilir
Atlanmış girişler: Verilerin girilmemesi. Eksik veri analizi ile tespit edilir
Çift girişler: Aynı katılımcının verilerinin iki kez girilmesi. ID kontrolü ile tespit edilir
Sütun kayması: Verilerin yanlış sütuna girilmesi. Aralık kontrolleri ile tespit edilir
Kodlama hataları: Yanlış kodun atanması. Frekans dağılımları ve mantık kontrolleri ile tespit edilir

Etik Veri İşleme ve Saklama

Veri işleme sürecinde etik ilkelere uyum zorunludur. Bhome ve diğerleri (2013), şu hususlara dikkat edilmesini önerir:

Anonimleştirme: Kişisel tanımlayıcı bilgiler veri setinden çıkarılmalı veya kodlanmalıdır
Güvenli saklama: Dijital veriler şifreli ortamlarda saklanmalı; fiziksel formlar kilitli dolaplarda muhafaza edilmelidir
Erişim kontrolü: Verilere yalnızca yetkili araştırma ekibi üyeleri erişebilmelidir
Saklama süresi: Veriler, araştırma kurumunun veya fonlayıcının belirlediği süre boyunca saklanmalı; süre sonunda güvenli biçimde imha edilmelidir
Veri paylaşımı: Açık bilim ilkeleri gereği veri paylaşımı teşvik edilir; ancak paylaşım öncesinde tam anonimleştirme sağlanmalıdır

Sonuç

Veri işleme ve kodlama, araştırma sürecinin en teknik ama aynı zamanda en kritik aşamalarından biridir. Ham verinin analiz edilebilir bir veri setine dönüştürülmesi, dikkatli düzenleme, sistematik kodlama, doğrulanmış veri girişi ve kapsamlı kalite kontrol prosedürlerini gerektirir. Kothari'nin (2004) vurguladığı gibi, veri işleme aşamasındaki hatalar, en sofistike istatistiksel analizleri bile geçersiz kılabilir; bu nedenle araştırmacı, bu aşamaya en az analiz kadar özen göstermelidir. Bhome ve diğerlerinin (2013) belirttiği gibi, iyi hazırlanmış bir kod kitabı ve kodlama şeması, yalnızca mevcut araştırma için değil, verilerin tekrar kullanılabilirliği ve araştırmanın tekrarlanabilirliği için de vazgeçilmezdir. Veri işleme becerileri, niceliksel araştırmanın temel taşıdır ve her araştırmacının bu sürecin ilkelerini bilmesi, araştırma kalitesinin güvencesidir.

Veri İşleme ve Kodlama: Ham Veriden Analiz-Hazır Veri Setine