Veri Temizleme ve Hazırlama: Analizden Önce Yapılması Gerekenler

Veri analizi sürecinin en kritik aşamalarından biri, veri temizleme ve hazırlama sürecidir. Araştırmacılar toplanan ham verinin doğrudan analize uygun olmadığını sıklıkla fark eder. Kayıp veriler, aykırı değerler, hatalı girişler ve varsayım ihlalleri, analiz sonuçlarını ciddi şekilde etkileyebilir. Bu nedenle analize başlamadan önce sistematik bir veri temizleme süreci yürütmek zorunludur.

Kayıp Veriler (Missing Data)

Kayıp veri, araştırma sürecinde bazı gözlemler için veri elde edilememesi durumudur. Kayıp verilerin kaynağı ve mekanizması, nasıl ele alınacağını belirler. Rubin'in (1976) sınıflandırmasına göre üç tür kayıp veri mekanizması vardır:

MCAR (Missing Completely at Random) - Tamamen Rastgele Kayıp

Verinin kayıp olma olasılığı, gözlenen veya gözlenmeyen hiçbir değişkenle ilişkili değildir. Örneğin, bir anket formu posta ile gönderildiğinde postada kaybolması tamamen rastgeledir. Bu en ideal durumdur çünkü kayıp veriler sistematik bir yanlılık oluşturmaz.

MAR (Missing at Random) - Rastgele Kayıp

Verinin kayıp olma olasılığı, gözlenen diğer değişkenlerle ilişkilidir ancak kayıp verinin kendisiyle ilişkili değildir. Örneğin, erkeklerin gelir sorusunu yanıtlamama olasılığı kadınlardan yüksek olabilir, ancak bu kayıp gelir düzeyiyle ilgili değildir.

MNAR (Missing Not at Random) - Rastgele Olmayan Kayıp

Verinin kayıp olma olasılığı, kayıp verinin kendisiyle ilişkilidir. Örneğin, yüksek gelirli bireylerin gelir sorusunu yanıtlamaması bu türe girer. Bu en sorunlu durumdur ve basit yöntemlerle düzeltilemez.

Kayıp Veri ile Başa Çıkma Yöntemleri

Listwise silme: Herhangi bir değişkende kayıp verisi olan gözlem tamamen çıkarılır. Basit ama örneklemi önemli ölçüde küçültebilir
Pairwise silme: Her analizde yalnızca ilgili değişkenlerde kayıp olan gözlemler çıkarılır. Farklı analizlerde farklı N kullanılır
Ortalama ile atama: Kayıp değer yerine değişkenin ortalaması konur. Basit ancak varyansı küçültür ve ilişkileri zayıflatır
Regresyon ile atama: Diğer değişkenlerden tahmin edilen değer atanır. Daha doğru ancak standart hataları küçültür
Çoklu atama (Multiple Imputation): Birden fazla olası değer seti oluşturulur ve sonuçlar birleştirilir. En önerilen modern yöntemdir
EM (Expectation-Maximization) algoritması: Kayıp verileri tahmin etmek için maksimum olabilirlik yöntemini kullanır

Aykırı Değerlerin Tespiti ve Ele Alınması

Aykırı değerler (outliers), diğer gözlemlerden önemli ölçüde farklı olan veri noktalarıdır. Bu değerler veri giriş hataları, ölçüm hataları veya gerçek uç değerlerden kaynaklanabilir.

Aykırı Değer Tespit Yöntemleri

Kutu grafiği (Box Plot): Q1 - 1.5*IQR'den küçük veya Q3 + 1.5*IQR'den büyük değerler aykırı kabul edilir. Çeyrekler arası genişlik (IQR = Q3 - Q1) referans alınır
Z puanı yöntemi: Z puanı mutlak değerce 3'ten büyük olan gözlemler aykırı değer olarak değerlendirilir. Ancak bu yöntem normal dağılım varsayar
IQR yöntemi: Çeyrekler arası genişliğin 1.5 katı dışında kalan değerler hafif aykırı, 3 katı dışında kalanlar ise şiddetli aykırı değer olarak sınıflandırılır
Mahalanobis uzaklığı: Çok değişkenli aykırı değerleri tespit etmek için kullanılır

Aykırı Değerlerle Başa Çıkma

Silme: Veri giriş hatası ise düzeltilir veya silinir
Dönüştürme: Logaritmik veya karekök dönüşümü ile etkisi azaltılır
Winsorizing: Uç değerler belirli bir yüzdelik dilime çekilir (örn. %95 yüzdeliğe)
Robust istatistikler: Aykırı değerlere duyarlı olmayan yöntemler tercih edilir

Veri Dönüştürme (Data Transformation)

Normal dağılım varsayımı karşılanmadığında veya ilişkiler doğrusal olmadığında veri dönüştürme uygulanabilir:

Logaritmik dönüşüm (log): Sağa çarpık dağılımları normalleştirmek için etkilidir
Karekök dönüşümü: Hafif sağa çarpıklıkta ve sayım verilerinde kullanılır
Ters dönüşüm (1/x): Şiddetli sağa çarpıklıkta tercih edilir
Box-Cox dönüşümü: En uygun dönüşümü otomatik olarak belirler

Ters Kodlama (Reverse Coding)

Likert tipi ölçeklerde bazı maddeler olumsuz ifade edilir. Bu maddelerin yönünü diğer maddelerle uyumlu hale getirmek için ters kodlama yapılır. Formül: Yeni Değer = (Maksimum + Minimum) - Eski Değer. Örneğin 5'li Likert ölçekte: Yeni = 6 - Eski.

Normallik Varsayımının Test Edilmesi

Parametrik testlerin çoğu, verilerin normal dağıldığını varsayar. Normalliğin test edilmesi için:

Shapiro-Wilk testi: Küçük örneklemlerde (n < 50) en güçlü normallik testidir. p > .05 ise normallik varsayımı kabul edilir
Kolmogorov-Smirnov testi: Büyük örneklemlerde kullanılır ancak düşük güce sahiptir
Çarpıklık ve basıklık değerleri: Bu değerlerin ±2 aralığında olması kabul edilebilir dağılıma işaret eder
Q-Q grafiği: Noktalar referans çizgisine yakın dağılıyorsa normallik varsayılır
Histogram inceleme: Görsel olarak çan eğrisine benzerlik değerlendirilir

Veri Temizleme Kontrol Listesi

Veri setindeki değişken sayısı ve gözlem sayısını doğrulayın
Her değişkenin ölçüm düzeyini kontrol edin
Kayıp veri oranını ve mekanizmasını belirleyin
Aykırı değerleri tespit edin ve nedenlerini araştırın
Normallik varsayımını test edin
Gerekirse veri dönüştürme uygulayın
Ters kodlama gereken maddeleri kodlayın
Ölçek güvenirliğini (Cronbach alfa) kontrol edin
Temizlenmiş veri setini yeni bir dosya olarak kaydedin

Veri temizleme, araştırma sürecinin zaman alıcı ama vazgeçilmez bir aşamasıdır. Dikkatli ve sistematik bir şekilde yürütülen veri hazırlama süreci, analiz sonuçlarının güvenilirliğini ve geçerliğini doğrudan artırır.