Sağkalım Analizi: Kaplan-Meier, Cox Regresyon ve Hazard Oranı

Birçok araştırma sorusu, belirli bir olayın ne zaman gerçekleştiğini anlamaya odaklanır: Bir hastanın tedaviden sonra nüks yaşamasına kadar geçen süre, bir öğrencinin üniversiteden ayrılmasına kadar geçen dönem sayısı, bir çalışanın işten ayrılmasına kadar geçen ay sayısı veya bir müşterinin abonelikten çıkmasına kadar geçen süre. Bu tür olaya kadar geçen süre (time-to-event) verileri, standart regresyon veya ANOVA teknikleriyle doğru biçimde analiz edilemez; çünkü bu verilerin kendine özgü yapısal özellikleri vardır. Sağkalım analizi (survival analysis), olaya kadar geçen süreyi modelleyen özel istatistiksel yöntemler ailesini kapsar. Cohen, Manion ve Morrison (2007), sağkalım analizinin tıp dışında eğitim, sosyal bilimler ve iş dünyasında da giderek artan biçimde kullanıldığını belirtir. Bu yazıda, sağkalım analizinin temel kavramlarını, yöntemlerini ve uygulama alanlarını kapsamlı biçimde ele alacağız.

Sağkalım Analizi Nedir?

Sağkalım analizi, bir başlangıç noktasından (örneğin tedavi başlangıcı, kayıt tarihi) belirli bir olayın (ölüm, nüks, ayrılma, başarısızlık) gerçekleşmesine kadar geçen süreyi inceleyen istatistiksel yöntemler bütünüdür. "Sağkalım" terimi tıbbi araştırmalardan gelir ancak olayın ölüm olması zorunlu değildir; herhangi bir "son nokta" olayı olabilir.

Jackson (2015), sağkalım analizini diğer istatistiksel yöntemlerden ayıran iki temel özellik olduğunu vurgular:

Sansürlü veri: Bazı gözlemler için olay, çalışma süresi içinde gerçekleşmemiştir (sansürleme)
Zamanla değişen risk: Olayın gerçekleşme riski zamanla sabit kalmayabilir

Sansürleme Türleri

Sağkalım analizinin en kritik kavramı sansürleme (censoring) dir. Sansürleme, bir gözlem biriminin olaya kadar geçen süresinin tam olarak bilinmemesi durumudur.

Sağdan Sansürleme (Right Censoring)

En yaygın sansürleme türüdür. Birey çalışma süresi sonunda hâlâ "hayatta"dır (olay gerçekleşmemiştir) veya takipten çıkmıştır. Bilinen tek şey, gerçek olay süresinin gözlenen süreden daha uzun olduğudur.

Sağdan sansürleme üç alt türe ayrılır:

Tip I sansürleme: Çalışma sabit bir tarihte sonlandırılır; o zamana kadar olay yaşamamış herkes sansürlenir
Tip II sansürleme: Belirli sayıda olay gerçekleşene kadar çalışma devam eder; kalan bireyler sansürlenir
Rastgele sansürleme: Bireyler çeşitli nedenlerle (taşınma, iletişim kaybı) çalışmadan çıkar

Soldan Sansürleme (Left Censoring)

Olay, bireyin çalışmaya girmesinden önce gerçekleşmiştir ancak tam zamanı bilinmemektedir. Cohen, Manion ve Morrison (2007), soldan sansürlemenin sağdan sansürlemeden daha nadir olduğunu ancak belirli araştırma bağlamlarında (örneğin çocuklarda belirli bir becerinin ne zaman kazanıldığını inceleme) karşılaşılabildiğini belirtir.

Aralık Sansürleme (Interval Censoring)

Olayın iki kontrol noktası arasında gerçekleştiği bilinir ancak kesin zamanı bilinmez. Örneğin, altı ayda bir yapılan kontrollerde, önceki kontrolde olmayan bir durum sonraki kontrolde tespit edilmişse olay bu aralıkta gerçekleşmiştir.

Temel Fonksiyonlar

Sağkalım Fonksiyonu S(t)

Sağkalım fonksiyonu, bir bireyin t zamanına kadar hayatta kalma (olayı yaşamama) olasılığını gösterir:

S(t) = P(T > t)
Burada T = olaya kadar geçen süre rastgele değişkeni. S(0) = 1 (başlangıçta herkes hayattadır) ve zaman arttıkça S(t) azalır.

Hazard Fonksiyonu h(t)

Hazard fonksiyonu, t zamanına kadar hayatta kalmış bir bireyin, t anında olayı yaşama anlık riskini ifade eder:

h(t) = lim[Δt→0] P(t ≤ T < t+Δt | T ≥ t) / Δt

Jackson (2015), hazard fonksiyonunun sağkalım fonksiyonundan farklı olarak bir olasılık değil bir oran (rate) olduğunu belirtir; bu nedenle 0 ile sonsuz arasında değer alabilir. Hazard fonksiyonu zamanla artabilir (yaşlanma etkisi), azalabilir (erken dönemde risk yüksek) veya sabit kalabilir.

İki Fonksiyon Arasındaki İlişki

Sağkalım ve hazard fonksiyonları matematiksel olarak birbirine dönüştürülebilir:

h(t) = -d[ln S(t)] / dt
S(t) = exp[-∫₀ᵗ h(u) du] = exp[-H(t)]
Burada H(t) = kümülatif hazard fonksiyonu

Kaplan-Meier Tahmincisi

Kaplan-Meier (KM) tahmincisi, sağkalım fonksiyonunu tahmin etmenin en yaygın parametrik olmayan yöntemidir. Ürün-sınır (product-limit) yöntemi olarak da bilinir.

Formül

Ŝ(t) = ∏(t_i ≤ t) [(n_i - d_i) / n_i]
Burada n_i = t_i zamanında risk altındaki birey sayısı, d_i = t_i zamanında olay yaşayan birey sayısı. Çarpım yalnızca olay zamanlarında güncellenir.

Kaplan-Meier Eğrisinin Yorumlanması

KM eğrisi basamaklı (step function) bir grafiktir:

Y ekseni: Sağkalım olasılığı S(t), 0 ile 1 arasında
X ekseni: Zaman (gün, ay, yıl)
Basamaklar: Her düşüş bir veya daha fazla olayın gerçekleştiği zamanı gösterir
Sansür işaretleri: Eğri üzerindeki küçük dikey çizgiler (+) sansürlenen bireyleri gösterir
Medyan sağkalım süresi: S(t) = 0.50 çizgisini kestiği zaman noktası

Cohen, Manion ve Morrison (2007), KM eğrisinin sağkalım analizinin en yaygın görselleştirmesi olduğunu ve tek başına bile güçlü bir betimleyici araç olduğunu belirtir.

Log-Rank Testi

Log-rank testi, iki veya daha fazla grubun sağkalım eğrilerinin istatistiksel olarak farklı olup olmadığını test eder. Temel mantığı şudur: Her olay zamanında, gözlenen ve beklenen olay sayıları karşılaştırılır.

Log-rank istatistiği = Σ(O_i - E_i)² / E_i
Bu istatistik, serbestlik derecesi (grup sayısı - 1) ile ki-kare dağılımına sahiptir.

Log-Rank Testinin Özellikleri

Non-parametrik: Sağkalım süresinin dağılımı hakkında varsayım gerektirmez
Her zaman noktasına eşit ağırlık: Erken ve geç olaylar eşit ağırlıklandırılır
Alternatifleri: Gehan-Breslow testi (erken olaylara daha fazla ağırlık) ve Tarone-Ware testi (orta düzey ağırlıklandırma)
Sınırlılık: Yalnızca tek bir kategorik değişkenin etkisini test eder; kovaryatları modele dahil edemez

Cox Orantılı Hazardlar Regresyonu

Cox orantılı hazardlar (proportional hazards - PH) modeli, sağkalım analizinin en güçlü ve yaygın kullanılan yarı-parametrik yöntemidir. Sir David Cox tarafından 1972'de önerilen bu model, birden fazla bağımsız değişkenin (kovaryat) sağkalım süresi üzerindeki etkisini eş zamanlı olarak incelemeyi sağlar.

Model Formülü

h(t|X) = h₀(t) × exp(β₁X₁ + β₂X₂ + ... + βₖXₖ)
Burada h₀(t) = temel hazard fonksiyonu (baseline hazard), β = regresyon katsayıları, X = kovaryatlar

Hazard Oranı (HR) Yorumlama

Cox modelinin en önemli çıktısı hazard oranıdır (Hazard Ratio - HR):

HR = exp(β)

HR Değeri	Yorumlama	Örnek
HR = 1.00	Risk farkı yok	Grup A ve B'nin riski eşit
HR = 1.50	%50 daha yüksek risk	Tedavi almayanların riski %50 daha fazla
HR = 0.60	%40 daha düşük risk	Yeni tedavinin riski %40 azalttığı
HR = 2.00	İki kat risk	Risk faktörüne sahip olanların riski iki kat

Jackson (2015), hazard oranının odds oranına (OR) benzer biçimde yorumlandığını ancak kavramsal olarak farklı olduğunu belirtir: OR bir olasılık oranıyken, HR bir anlık risk oranıdır.

Orantılı Hazardlar Varsayımı

Cox modelinin temel varsayımı, kovaryatların etkisinin zamanla sabit olmasıdır; yani hazard oranının zaman boyunca değişmemesidir. Bu varsayım çeşitli yöntemlerle test edilir:

Schoenfeld artıkları testi: Artıkların zamanla korelasyonu istatistiksel olarak test edilir. Anlamlı korelasyon, orantılılık varsayımının ihlal edildiğini gösterir
Log-log sağkalım grafiği: Gruplar için log[-log S(t)] vs. log(t) grafikleri paralel çizgiler oluşturmalıdır
Zamanla etkileşim: Kovaryat × zaman etkileşim terimi modele eklenerek test edilir

Zamanla Değişen Kovaryatlar

Bazı bağımsız değişkenler zaman içinde değişebilir. Örneğin, bir hastanın tedavi sürecinde ilaç dozunun değiştirilmesi veya bir öğrencinin dönemler arası burs durumunun değişmesi. Cox modeli, zamanla değişen kovaryatları (time-varying covariates) da dahil edebilecek biçimde genişletilebilir.

Parametrik Sağkalım Modelleri

Cox modeli yarı-parametrik olup temel hazard fonksiyonunun biçimini belirlemez. Parametrik modeller ise sağkalım süresinin belirli bir dağılıma uyduğunu varsayar:

Model	Hazard Fonksiyonu	Uygun Olduğu Durumlar
Üstel (Exponential)	Sabit hazard h(t) = λ	Risk zamanla değişmiyorsa (örneğin belirli arıza tipleri)
Weibull	Monoton artan veya azalan h(t) = λp(λt)^(p-1)	Risk zamanla sürekli artan veya azalan durumlarda
Log-normal	Önce artan sonra azalan	Risk belirli bir noktada zirve yapıp sonra azalıyorsa
Log-logistic	Önce artan sonra azalan	Log-normal'e benzer; orantılı odds modeli olarak yorumlanabilir
Gompertz	Üstel artış	Yaşlanma çalışmaları, mortalite modelleme

Cohen, Manion ve Morrison (2007), parametrik modellerin Cox modeline göre daha güçlü tahminler üretebileceğini ancak dağılım varsayımının doğru olması gerektiğini belirtir. Yanlış dağılım varsayımı, yanlı sonuçlara yol açar.

Tıp Dışı Uygulama Alanları

Sağkalım analizi "sağkalım" adına rağmen tıp dışında da geniş bir uygulama alanına sahiptir:

Eğitim Araştırmaları

Okul terk analizi: Öğrencilerin üniversiteden ayrılmasına kadar geçen süre. Kovaryatlar: Akademik başarı, sosyoekonomik düzey, burs durumu, kampüste yaşama
Mezuniyet süresi analizi: Lisansüstü öğrencilerin tez tamamlama süresini etkileyen faktörler
Öğretmen meslekten ayrılma: Öğretmenlerin mesleği bırakmasına kadar geçen yıl sayısı ve etkileyen faktörler

İşgücü Piyasası

İşsizlik süresi: Mezuniyetten istihdama kadar geçen süre ve etkileyen faktörler (bölüm, staj deneyimi, dil becerisi)
Çalışan devir hızı: Çalışanların işten ayrılma süreleri ve nedenleri

Müşteri Analitiği

Müşteri kaybı (churn): Abonelerin hizmetten çıkmasına kadar geçen süre ve risk faktörleri
Ürün yaşam döngüsü: Ürünlerin pazarda kalma süresi

Yöntem Karşılaştırma Tablosu

Özellik	Kaplan-Meier	Cox Regresyon	Parametrik Modeller
Yaklaşım	Non-parametrik	Yarı-parametrik	Tam parametrik
Kovaryat	Tek kategorik değişken	Çoklu kovaryat (sürekli ve kategorik)	Çoklu kovaryat
Varsayım	Minimal	Orantılı hazardlar	Dağılım varsayımı + PH veya AFT
Çıktı	Sağkalım eğrisi, medyan süre	Hazard oranları (HR)	HR veya zaman oranları, sağkalım tahminleri
Karşılaştırma	Log-rank testi	Wald testi, olabilirlik oranı	Wald testi, olabilirlik oranı
Esneklik	Düşük	Yüksek	Orta (dağılım uyumu önemli)
Güç	Düşük-Orta	Orta-Yüksek	Yüksek (varsayım doğruysa)

Yazılım Seçenekleri

SPSS: Analyze > Survival menüsünden Kaplan-Meier, log-rank testi ve Cox regresyonuna erişilebilir. Temel analizler için yeterlidir ancak ileri modeller (zamanla değişen kovaryatlar, parametrik modeller) için sınırlıdır
R survival paketi: Surv() ile sağkalım nesnesi oluşturma, survfit() ile KM tahmini, coxph() ile Cox regresyonu, survreg() ile parametrik modeller. survminer paketi ile profesyonel KM grafikleri oluşturulabilir
Stata: stset, stcox, streg komutları ile kapsamlı sağkalım analizi desteği. Zamanla değişen kovaryatlar ve rekabet eden riskler için de güçlü araçlar sunar
SAS: PROC LIFETEST (KM, log-rank), PROC PHREG (Cox) ve PROC LIFEREG (parametrik) prosedürleri ile endüstri standardı sağkalım analizi

Raporlama Formatı

Sağkalım analizi sonuçlarının raporlanmasında şu unsurlar yer almalıdır:

Örneklem tanımı: Toplam birey sayısı, olay yaşayan sayısı, sansürlenen sayısı ve takip süresi
Kaplan-Meier sonuçları: Sağkalım eğrisi grafiği, medyan sağkalım süreleri (%95 güven aralığıyla), belirli zaman noktalarındaki sağkalım olasılıkları
Grup karşılaştırması: Log-rank testi istatistiği, serbestlik derecesi ve p-değeri
Cox regresyon sonuçları: Hazard oranları (%95 güven aralığıyla), p-değerleri ve model uyum istatistikleri
Varsayım kontrolleri: Orantılı hazardlar varsayımı test sonuçları

Örnek raporlama cümlesi: "Toplam 450 öğrenciden 128'i (%28.4) üç yıllık takip süresinde üniversiteden ayrılmıştır. Kaplan-Meier analizi, medyan okul terk süresinin 18 ay (%95 GA: 15-22) olduğunu göstermiştir. Log-rank testi, burslu ve burssuz öğrencilerin sağkalım eğrileri arasında anlamlı bir fark olduğunu ortaya koymuştur (χ² = 12.34, sd = 1, p < .001). Cox regresyon sonuçlarına göre burs almak (HR = 0.55, %95 GA: 0.38-0.79, p = .001) ve yüksek not ortalaması (HR = 0.72 her 1 puanlık artış için, %95 GA: 0.58-0.89, p = .003) okul terk riskini anlamlı biçimde azaltmaktadır."

Sonuç

Sağkalım analizi, olaya kadar geçen süre verilerinin doğru ve kapsamlı analizi için vazgeçilmez bir yöntemler ailesidir. Cohen, Manion ve Morrison'un (2007) vurguladığı gibi, bu yöntemlerin gücü sansürlü verileri etkin biçimde kullanabilmesinden, zamanla değişen riskleri modelleyebilmesinden ve çoklu kovaryatların etkisini eş zamanlı olarak değerlendirebilmesinden kaynaklanır. Kaplan-Meier tahmincisi betimleyici bir başlangıç noktası olarak, log-rank testi grup karşılaştırmaları için, Cox orantılı hazardlar regresyonu ise çok değişkenli analiz için temel araçlardır. Parametrik modeller ise dağılım varsayımlarının karşılandığı durumlarda daha güçlü tahminler sunar. Jackson'ın (2015) belirttiği gibi, sağkalım analizi yalnızca tıbbi araştırmalara özgü bir teknik değildir; eğitimde okul terk, işgücü piyasasında istihdam süresi ve iş dünyasında müşteri kaybı gibi çok çeşitli alanlarda uygulanabilir. Araştırmacıların bu yöntem ailesini öğrenmesi ve uygun durumlarda kullanması, olaya kadar geçen süre verilerinden çok daha zengin ve doğru çıkarımlar yapılmasını sağlayacaktır.

Sağkalım Analizi: Olaya Kadar Geçen Sürenin Modellenmesi