Betimsel İstatistik: Merkezi Eğilim, Değişkenlik ve Normal Dağılım
Bir araştırmada toplanan ham veriler, düzenlenmeden ve özetlenmeden anlamlı bilgi sağlamaz. Betimsel istatistik, verileri düzenleme, özetleme ve anlamlı bir şekilde sunma yöntemlerini kapsar.
Verileri Düzenleme
Frekans Dağılımları
Frekans dağılımı, her bir değerin veya değer aralığının kaç kez tekrarlandığını gösteren bir tablodur. Büyük veri kümelerinde, veriler sınıf aralıklarına (class intervals) gruplanarak daha okunabilir hale getirilir.
Grafikler
Veriler görsel olarak sunulduğunda daha kolay anlaşılır:
- Çubuk grafik: Kategorik (nominal) veriler için kullanılır. Çubuklar arasında boşluk vardır.
- Histogram: Sürekli (nicel) veriler için kullanılır. Çubuklar bitişiktir.
- Frekans poligonu: Histogramın çizgi grafiği versiyonudur. Birden fazla dağılımı karşılaştırmak için idealdir.
Merkezi Eğilim Ölçüleri
Merkezi eğilim ölçüleri, bir veri setini tek bir temsil edici sayıyla özetler:
Aritmetik Ortalama (Mean)
Tüm değerlerin toplamının değer sayısına bölünmesiyle elde edilir. En yaygın kullanılan merkezi eğilim ölçüsüdür.
Formül: X̄ = ΣX / N
Örnek: 5, 8, 10, 12, 15 → Ortalama = 50 / 5 = 10
Dikkat: Aşırı (uç) değerlerden etkilenir. Bir sınıfta 9 öğrenci 50 puan, 1 öğrenci 100 puan aldıysa, ortalama 55 olur ancak sınıfın çoğunluğunu doğru temsil etmez.
Medyan (Median)
Veriler sıralandığında tam ortada kalan değerdir. Uç değerlerden etkilenmez.
Örnek: 3, 5, 7, 9, 100 → Medyan = 7 (Ortalama ise 24.8 olurdu)
Çift sayıda gözlem varsa, ortadaki iki değerin ortalaması alınır.
Mod (Mode)
Veri setinde en sık tekrarlanan değerdir. Nominal verilerde kullanılabilecek tek merkezi eğilim ölçüsüdür.
- Tek modlu (unimodal): Bir tepe noktası
- Çift modlu (bimodal): İki tepe noktası
- Çok modlu (multimodal): İkiden fazla tepe noktası
Ne Zaman Hangi Ölçü?
| Durum | Önerilen Ölçü |
|---|---|
| Normal dağılım | Ortalama |
| Çarpık dağılım veya uç değerler var | Medyan |
| Nominal (kategorik) veri | Mod |
Değişkenlik (Yayılım) Ölçüleri
Merkezi eğilim ölçüleri tek başına yeterli değildir. Verilerin ne kadar dağıldığını bilmek de önemlidir.
Ranj (Range)
En büyük değer ile en küçük değer arasındaki farktır. Basit ancak uç değerlerden etkilenir.
Formül: Ranj = X(max) - X(min)
Varyans (Variance)
Her değerin ortalamadan sapmasının karelerinin ortalamasıdır.
Formül: σ² = Σ(X - X̄)² / N (evren) veya s² = Σ(X - X̄)² / (N-1) (örneklem)
Standart Sapma (Standard Deviation)
Varyansın kareköküdür ve en yaygın kullanılan değişkenlik ölçüsüdür. Orijinal veriyle aynı birimde ifade edilir.
Formül: σ = √(Σ(X - X̄)² / N)
Yorum: Standart sapma ne kadar büyükse, veriler ortalamadan o kadar fazla sapmaktadır (daha heterojen).
Normal Dağılım
Normal dağılım, istatistiğin en önemli kavramlarından biridir. Çan eğrisi olarak da bilinen bu dağılımın özellikleri:
- Simetriktir — ortalama etrafında eşit dağılır
- Ortalama, medyan ve mod aynı noktadadır
- Verilerin yaklaşık %68'i ortalamanın ±1 standart sapma içindedir
- Verilerin yaklaşık %95'i ortalamanın ±2 standart sapma içindedir
- Verilerin yaklaşık %99.7'si ortalamanın ±3 standart sapma içindedir
Bu kurala "68-95-99.7 kuralı" veya "ampirik kural" denir.
Çarpık Dağılımlar
- Pozitif çarpık (sağa çarpık): Kuyruk sağa uzanır; az sayıda yüksek değer vardır. Ortalama > Medyan > Mod
- Negatif çarpık (sola çarpık): Kuyruk sola uzanır; az sayıda düşük değer vardır. Mod > Medyan > Ortalama
z Puanı (Standart Puan)
z puanı, bir değerin ortalamadan kaç standart sapma uzakta olduğunu gösterir. Farklı ölçeklerden gelen puanları karşılaştırmak için kullanılır.
Formül: z = (X - X̄) / σ
Yorum:
- z = 0 → Değer tam ortalamada
- z = +1.5 → Değer ortalamanın 1.5 standart sapma üstünde
- z = -2.0 → Değer ortalamanın 2 standart sapma altında
Örnek: Matematik sınavında ortalama 70, standart sapma 10 ise, 85 alan bir öğrencinin z puanı: z = (85-70)/10 = 1.5
Bu, öğrencinin sınıfın yaklaşık %93'ünden daha iyi performans gösterdiği anlamına gelir (z tablosundan).
Betimsel istatistik, verilerin anlaşılması ve sunulması için vazgeçilmez bir araçtır. Bu temel kavramlar, daha ileri istatistiksel analizlerin (hipotez testleri, regresyon analizi vb.) ön koşulunu oluşturur.
Yorumlar (0)
Yorum yapmak için giriş yapmalısınız.
