Veri Temizleme ve Hazırlama: Analizden Önce Yapılması Gerekenler
Veri analizi sürecinin en kritik aşamalarından biri, veri temizleme ve hazırlama sürecidir. Araştırmacılar toplanan ham verinin doğrudan analize uygun olmadığını sıklıkla fark eder. Kayıp veriler, aykırı değerler, hatalı girişler ve varsayım ihlalleri, analiz sonuçlarını ciddi şekilde etkileyebilir. Bu nedenle analize başlamadan önce sistematik bir veri temizleme süreci yürütmek zorunludur.
Kayıp Veriler (Missing Data)
Kayıp veri, araştırma sürecinde bazı gözlemler için veri elde edilememesi durumudur. Kayıp verilerin kaynağı ve mekanizması, nasıl ele alınacağını belirler. Rubin'in (1976) sınıflandırmasına göre üç tür kayıp veri mekanizması vardır:
MCAR (Missing Completely at Random) - Tamamen Rastgele Kayıp
Verinin kayıp olma olasılığı, gözlenen veya gözlenmeyen hiçbir değişkenle ilişkili değildir. Örneğin, bir anket formu posta ile gönderildiğinde postada kaybolması tamamen rastgeledir. Bu en ideal durumdur çünkü kayıp veriler sistematik bir yanlılık oluşturmaz.
MAR (Missing at Random) - Rastgele Kayıp
Verinin kayıp olma olasılığı, gözlenen diğer değişkenlerle ilişkilidir ancak kayıp verinin kendisiyle ilişkili değildir. Örneğin, erkeklerin gelir sorusunu yanıtlamama olasılığı kadınlardan yüksek olabilir, ancak bu kayıp gelir düzeyiyle ilgili değildir.
MNAR (Missing Not at Random) - Rastgele Olmayan Kayıp
Verinin kayıp olma olasılığı, kayıp verinin kendisiyle ilişkilidir. Örneğin, yüksek gelirli bireylerin gelir sorusunu yanıtlamaması bu türe girer. Bu en sorunlu durumdur ve basit yöntemlerle düzeltilemez.
Kayıp Veri ile Başa Çıkma Yöntemleri
- Listwise silme: Herhangi bir değişkende kayıp verisi olan gözlem tamamen çıkarılır. Basit ama örneklemi önemli ölçüde küçültebilir
- Pairwise silme: Her analizde yalnızca ilgili değişkenlerde kayıp olan gözlemler çıkarılır. Farklı analizlerde farklı N kullanılır
- Ortalama ile atama: Kayıp değer yerine değişkenin ortalaması konur. Basit ancak varyansı küçültür ve ilişkileri zayıflatır
- Regresyon ile atama: Diğer değişkenlerden tahmin edilen değer atanır. Daha doğru ancak standart hataları küçültür
- Çoklu atama (Multiple Imputation): Birden fazla olası değer seti oluşturulur ve sonuçlar birleştirilir. En önerilen modern yöntemdir
- EM (Expectation-Maximization) algoritması: Kayıp verileri tahmin etmek için maksimum olabilirlik yöntemini kullanır
Aykırı Değerlerin Tespiti ve Ele Alınması
Aykırı değerler (outliers), diğer gözlemlerden önemli ölçüde farklı olan veri noktalarıdır. Bu değerler veri giriş hataları, ölçüm hataları veya gerçek uç değerlerden kaynaklanabilir.
Aykırı Değer Tespit Yöntemleri
- Kutu grafiği (Box Plot): Q1 - 1.5*IQR'den küçük veya Q3 + 1.5*IQR'den büyük değerler aykırı kabul edilir. Çeyrekler arası genişlik (IQR = Q3 - Q1) referans alınır
- Z puanı yöntemi: Z puanı mutlak değerce 3'ten büyük olan gözlemler aykırı değer olarak değerlendirilir. Ancak bu yöntem normal dağılım varsayar
- IQR yöntemi: Çeyrekler arası genişliğin 1.5 katı dışında kalan değerler hafif aykırı, 3 katı dışında kalanlar ise şiddetli aykırı değer olarak sınıflandırılır
- Mahalanobis uzaklığı: Çok değişkenli aykırı değerleri tespit etmek için kullanılır
Aykırı Değerlerle Başa Çıkma
- Silme: Veri giriş hatası ise düzeltilir veya silinir
- Dönüştürme: Logaritmik veya karekök dönüşümü ile etkisi azaltılır
- Winsorizing: Uç değerler belirli bir yüzdelik dilime çekilir (örn. %95 yüzdeliğe)
- Robust istatistikler: Aykırı değerlere duyarlı olmayan yöntemler tercih edilir
Veri Dönüştürme (Data Transformation)
Normal dağılım varsayımı karşılanmadığında veya ilişkiler doğrusal olmadığında veri dönüştürme uygulanabilir:
- Logaritmik dönüşüm (log): Sağa çarpık dağılımları normalleştirmek için etkilidir
- Karekök dönüşümü: Hafif sağa çarpıklıkta ve sayım verilerinde kullanılır
- Ters dönüşüm (1/x): Şiddetli sağa çarpıklıkta tercih edilir
- Box-Cox dönüşümü: En uygun dönüşümü otomatik olarak belirler
Ters Kodlama (Reverse Coding)
Likert tipi ölçeklerde bazı maddeler olumsuz ifade edilir. Bu maddelerin yönünü diğer maddelerle uyumlu hale getirmek için ters kodlama yapılır. Formül: Yeni Değer = (Maksimum + Minimum) - Eski Değer. Örneğin 5'li Likert ölçekte: Yeni = 6 - Eski.
Normallik Varsayımının Test Edilmesi
Parametrik testlerin çoğu, verilerin normal dağıldığını varsayar. Normalliğin test edilmesi için:
- Shapiro-Wilk testi: Küçük örneklemlerde (n < 50) en güçlü normallik testidir. p > .05 ise normallik varsayımı kabul edilir
- Kolmogorov-Smirnov testi: Büyük örneklemlerde kullanılır ancak düşük güce sahiptir
- Çarpıklık ve basıklık değerleri: Bu değerlerin ±2 aralığında olması kabul edilebilir dağılıma işaret eder
- Q-Q grafiği: Noktalar referans çizgisine yakın dağılıyorsa normallik varsayılır
- Histogram inceleme: Görsel olarak çan eğrisine benzerlik değerlendirilir
Veri Temizleme Kontrol Listesi
- Veri setindeki değişken sayısı ve gözlem sayısını doğrulayın
- Her değişkenin ölçüm düzeyini kontrol edin
- Kayıp veri oranını ve mekanizmasını belirleyin
- Aykırı değerleri tespit edin ve nedenlerini araştırın
- Normallik varsayımını test edin
- Gerekirse veri dönüştürme uygulayın
- Ters kodlama gereken maddeleri kodlayın
- Ölçek güvenirliğini (Cronbach alfa) kontrol edin
- Temizlenmiş veri setini yeni bir dosya olarak kaydedin
Veri temizleme, araştırma sürecinin zaman alıcı ama vazgeçilmez bir aşamasıdır. Dikkatli ve sistematik bir şekilde yürütülen veri hazırlama süreci, analiz sonuçlarının güvenilirliğini ve geçerliğini doğrudan artırır.
Yorumlar (0)
Yorum yapmak için giriş yapmalısınız.
