Araştırma Yöntemleri

Veri Temizleme ve Hazırlama: Analizden Önce Yapılması Gerekenler

PNPeda Network·19 Şubat 2026·0 görüntülenme·
Veri Temizleme ve Hazırlama: Analizden Önce Yapılması Gerekenler

Veri analizi sürecinin en kritik aşamalarından biri, veri temizleme ve hazırlama sürecidir. Araştırmacılar toplanan ham verinin doğrudan analize uygun olmadığını sıklıkla fark eder. Kayıp veriler, aykırı değerler, hatalı girişler ve varsayım ihlalleri, analiz sonuçlarını ciddi şekilde etkileyebilir. Bu nedenle analize başlamadan önce sistematik bir veri temizleme süreci yürütmek zorunludur.

Kayıp Veriler (Missing Data)

Kayıp veri, araştırma sürecinde bazı gözlemler için veri elde edilememesi durumudur. Kayıp verilerin kaynağı ve mekanizması, nasıl ele alınacağını belirler. Rubin'in (1976) sınıflandırmasına göre üç tür kayıp veri mekanizması vardır:

MCAR (Missing Completely at Random) - Tamamen Rastgele Kayıp

Verinin kayıp olma olasılığı, gözlenen veya gözlenmeyen hiçbir değişkenle ilişkili değildir. Örneğin, bir anket formu posta ile gönderildiğinde postada kaybolması tamamen rastgeledir. Bu en ideal durumdur çünkü kayıp veriler sistematik bir yanlılık oluşturmaz.

MAR (Missing at Random) - Rastgele Kayıp

Verinin kayıp olma olasılığı, gözlenen diğer değişkenlerle ilişkilidir ancak kayıp verinin kendisiyle ilişkili değildir. Örneğin, erkeklerin gelir sorusunu yanıtlamama olasılığı kadınlardan yüksek olabilir, ancak bu kayıp gelir düzeyiyle ilgili değildir.

MNAR (Missing Not at Random) - Rastgele Olmayan Kayıp

Verinin kayıp olma olasılığı, kayıp verinin kendisiyle ilişkilidir. Örneğin, yüksek gelirli bireylerin gelir sorusunu yanıtlamaması bu türe girer. Bu en sorunlu durumdur ve basit yöntemlerle düzeltilemez.

Kayıp Veri ile Başa Çıkma Yöntemleri

  • Listwise silme: Herhangi bir değişkende kayıp verisi olan gözlem tamamen çıkarılır. Basit ama örneklemi önemli ölçüde küçültebilir
  • Pairwise silme: Her analizde yalnızca ilgili değişkenlerde kayıp olan gözlemler çıkarılır. Farklı analizlerde farklı N kullanılır
  • Ortalama ile atama: Kayıp değer yerine değişkenin ortalaması konur. Basit ancak varyansı küçültür ve ilişkileri zayıflatır
  • Regresyon ile atama: Diğer değişkenlerden tahmin edilen değer atanır. Daha doğru ancak standart hataları küçültür
  • Çoklu atama (Multiple Imputation): Birden fazla olası değer seti oluşturulur ve sonuçlar birleştirilir. En önerilen modern yöntemdir
  • EM (Expectation-Maximization) algoritması: Kayıp verileri tahmin etmek için maksimum olabilirlik yöntemini kullanır

Aykırı Değerlerin Tespiti ve Ele Alınması

Aykırı değerler (outliers), diğer gözlemlerden önemli ölçüde farklı olan veri noktalarıdır. Bu değerler veri giriş hataları, ölçüm hataları veya gerçek uç değerlerden kaynaklanabilir.

Aykırı Değer Tespit Yöntemleri

  • Kutu grafiği (Box Plot): Q1 - 1.5*IQR'den küçük veya Q3 + 1.5*IQR'den büyük değerler aykırı kabul edilir. Çeyrekler arası genişlik (IQR = Q3 - Q1) referans alınır
  • Z puanı yöntemi: Z puanı mutlak değerce 3'ten büyük olan gözlemler aykırı değer olarak değerlendirilir. Ancak bu yöntem normal dağılım varsayar
  • IQR yöntemi: Çeyrekler arası genişliğin 1.5 katı dışında kalan değerler hafif aykırı, 3 katı dışında kalanlar ise şiddetli aykırı değer olarak sınıflandırılır
  • Mahalanobis uzaklığı: Çok değişkenli aykırı değerleri tespit etmek için kullanılır

Aykırı Değerlerle Başa Çıkma

  • Silme: Veri giriş hatası ise düzeltilir veya silinir
  • Dönüştürme: Logaritmik veya karekök dönüşümü ile etkisi azaltılır
  • Winsorizing: Uç değerler belirli bir yüzdelik dilime çekilir (örn. %95 yüzdeliğe)
  • Robust istatistikler: Aykırı değerlere duyarlı olmayan yöntemler tercih edilir

Veri Dönüştürme (Data Transformation)

Normal dağılım varsayımı karşılanmadığında veya ilişkiler doğrusal olmadığında veri dönüştürme uygulanabilir:

  • Logaritmik dönüşüm (log): Sağa çarpık dağılımları normalleştirmek için etkilidir
  • Karekök dönüşümü: Hafif sağa çarpıklıkta ve sayım verilerinde kullanılır
  • Ters dönüşüm (1/x): Şiddetli sağa çarpıklıkta tercih edilir
  • Box-Cox dönüşümü: En uygun dönüşümü otomatik olarak belirler

Ters Kodlama (Reverse Coding)

Likert tipi ölçeklerde bazı maddeler olumsuz ifade edilir. Bu maddelerin yönünü diğer maddelerle uyumlu hale getirmek için ters kodlama yapılır. Formül: Yeni Değer = (Maksimum + Minimum) - Eski Değer. Örneğin 5'li Likert ölçekte: Yeni = 6 - Eski.

Normallik Varsayımının Test Edilmesi

Parametrik testlerin çoğu, verilerin normal dağıldığını varsayar. Normalliğin test edilmesi için:

  • Shapiro-Wilk testi: Küçük örneklemlerde (n < 50) en güçlü normallik testidir. p > .05 ise normallik varsayımı kabul edilir
  • Kolmogorov-Smirnov testi: Büyük örneklemlerde kullanılır ancak düşük güce sahiptir
  • Çarpıklık ve basıklık değerleri: Bu değerlerin ±2 aralığında olması kabul edilebilir dağılıma işaret eder
  • Q-Q grafiği: Noktalar referans çizgisine yakın dağılıyorsa normallik varsayılır
  • Histogram inceleme: Görsel olarak çan eğrisine benzerlik değerlendirilir

Veri Temizleme Kontrol Listesi

  1. Veri setindeki değişken sayısı ve gözlem sayısını doğrulayın
  2. Her değişkenin ölçüm düzeyini kontrol edin
  3. Kayıp veri oranını ve mekanizmasını belirleyin
  4. Aykırı değerleri tespit edin ve nedenlerini araştırın
  5. Normallik varsayımını test edin
  6. Gerekirse veri dönüştürme uygulayın
  7. Ters kodlama gereken maddeleri kodlayın
  8. Ölçek güvenirliğini (Cronbach alfa) kontrol edin
  9. Temizlenmiş veri setini yeni bir dosya olarak kaydedin

Veri temizleme, araştırma sürecinin zaman alıcı ama vazgeçilmez bir aşamasıdır. Dikkatli ve sistematik bir şekilde yürütülen veri hazırlama süreci, analiz sonuçlarının güvenilirliğini ve geçerliğini doğrudan artırır.

Yorumlar (0)

Yorum yapmak için giriş yapmalısınız.