Kaplan-Meier tahmincisi - Kaplan–Meier estimator
Kaplan-Meier tahmincisi olarak da bilinen, ürün limit tahmincisi , a, parametrik olmayan istatistik tahmin etmek için kullanılan hayatta kalma fonksiyonunu süresi verileri. Tıbbi araştırmalarda, genellikle tedaviden sonra belirli bir süre yaşayan hastaların oranını ölçmek için kullanılır. Diğer alanlarda, Kaplan-Meier tahmin edicileri, bir iş kaybından sonra insanların işsiz kaldıkları süreyi, makine parçalarının arızalanma süresini veya meyve yiyenler tarafından uzaklaştırılmadan önce etli meyvelerin bitkilerde ne kadar süre kaldığını ölçmek için kullanılabilir . Tahmincisi almıştır Edward L. Kaplan ve Paul Meier her benzer metin sunuldu, Amerikan İstatistik Derneği Dergisi . Dergi editörü John Tukey , çalışmalarını, yayınlandığı 1958'den bu yana neredeyse 61.000 kez atıf yapılan tek bir makalede birleştirmeye ikna etti.
Tahmincisi ve hayatta kalma işlevi (olasılık ömrü daha uzun olduğu ile verilmektedir):
ile en az bir etkinliğin oldu bir anda, d i etkinlik sayısının zamana rastlıyor (örn, ölümler) ve bilinen bireyler hayatta var kadar zaman (henüz bir olay olmadı ya sansüre) .
Temel konseptler
Kaplan-Meier tahmincisinin bir grafiği, yeterince büyük bir örneklem büyüklüğü ile, o popülasyon için gerçek hayatta kalma fonksiyonuna yaklaşan bir dizi azalan yatay adımdır. Ardışık farklı örneklenmiş gözlemler ("tıklamalar") arasındaki hayatta kalma fonksiyonunun değerinin sabit olduğu varsayılır.
Kaplan-Meier eğrisinin önemli bir avantajı, yöntemin bazı sansürlü veri türlerini , özellikle bir hasta bir çalışmadan çekilirse, takipten çıkarsa veya olaysız hayattaysa ortaya çıkan sağdan sansürlemeyi hesaba katabilmesidir. son takipte meydana gelen olay. Arsada, küçük dikey onay işaretleri, hayatta kalma süreleri sağdan sansürlenmiş bireysel hastaları belirtir. Kesme veya sansürleme olmadığında, Kaplan-Meier eğrisi ampirik dağılım fonksiyonunun tamamlayıcısıdır .
Olarak tıbbi istatistik , tipik bir uygulama Gene B profili ile gen bir profile sahip olan ve bu, örneğin, kategori halinde hasta gruplama içerebilir. Grafikte, Gen B'ye sahip hastalar, Gen A'ya sahip olanlardan çok daha hızlı ölürler. İki yıl sonra, Gen A hastalarının yaklaşık %80'i hayatta kalır, ancak Gen B'ye sahip hastaların yarısından azı hayatta kalır.
Bir Kaplan-Meier tahmincisi oluşturmak için, her hasta (veya her denek) için en az iki veri parçası gereklidir: son gözlemdeki durum (olay oluşumu veya sağdan sansürlenmiş) ve olaya kadar geçen süre (veya sansürleme zamanı) . İki veya daha fazla grup arasındaki hayatta kalma fonksiyonları karşılaştırılacaksa, üçüncü bir veri parçası gereklidir: her deneğin grup ataması.
Problem tanımı
İlgilenilen bir olay gerçekleşene kadar geçen süre olarak düşündüğümüz rastgele bir değişken olsun . Yukarıda belirtildiği gibi amaç, altında yatan hayatta kalma fonksiyonunu tahmin etmektir . Bu fonksiyonun şu şekilde tanımlandığını hatırlayın:
- , zaman nerede .
Izin bağımsız olması, aynı kimin ortak dağıtım ait olduğunu rasgele değişkenler, dağıtık : bazı olay rastgele bir zaman oldu. Tahmin için mevcut veriler değil , çiftlerin listesidir, burada için , sabit, deterministik bir tamsayı, olayın sansürleme zamanı ve . Özellikle, olayın zamanlaması hakkında mevcut olan bilgi, olayın sabit zamandan önce olup olmadığı ve öyleyse olayın gerçek zamanı da mevcuttur. Buradaki zorluk, bu verilere göre tahmin yapmaktır.
Kaplan-Meier tahmin edicisinin türetilmesi
Burada Kaplan-Meier tahmin edicisinin iki türevini gösteriyoruz. Her ikisi de hayatta kalma fonksiyonunun bazen tehlike veya ölüm oranları olarak adlandırılan terimlerle yeniden yazılmasına dayanır . Ancak, bunu yapmadan önce saf bir tahmin ediciyi düşünmekte fayda var.
Naif bir tahminci
Kaplan-Meier tahmincisinin gücünü anlamak için, önce hayatta kalma fonksiyonunun naif bir tahmin edicisini tanımlamaya değer.
Düzelt ve izin ver . Temel bir argüman, aşağıdaki önermenin geçerli olduğunu gösterir:
- Önerme 1: Olayın sansürlenme süresi ( )'yi aşarsa , ancak ve ancak .
Öyle olsun . Yukarıdaki önermeden anlaşılacağı
Sadece bunları , yani sonucu önceden sansürlenmemiş olayları ele alalım . içindeki eleman sayısı olsun . Kümenin rastgele olmadığına ve dolayısıyla ikisinin de rastgele olmadığına dikkat edin . Ayrıca, ortak parametreye sahip bağımsız, özdeş olarak dağıtılmış Bernoulli rasgele değişkenlerinin bir dizisidir . Varsayılırsa , bu tahmin etmek anlaşılacağı kullanarak
burada ikinci eşitlik, çünkü ima eder , son eşitlik ise sadece bir gösterim değişikliğidir.
Bu tahminin kalitesi, boyutuna göre belirlenir . Bu , küçük olduğunda sorunlu olabilir , ki bu tanım gereği birçok olay sansürlendiğinde gerçekleşir. Bu tahmincinin, belki de "en iyi" tahmin edici olmadığını öne süren özellikle hoş olmayan bir özelliği, sansürleme süresi önce gelen tüm gözlemleri yok saymasıdır . Sezgisel, bu gözlemler hala hakkında bilgi içerir : Örneğin, birçok etkinlikler için birlikte zaman , aynı zamanda tutan, biz anlaması ki olaylar sıklıkla ima hangi erken gerçekleşmesi yoluyla hangi, büyük olduğunu araçlarla küçük olmalıdır. Ancak, bu bilgi bu saf tahmin edici tarafından göz ardı edilir. O zaman soru, tüm verileri daha iyi kullanan bir tahmin edicinin olup olmadığıdır. Kaplan-Meier tahmincisinin başardığı şey budur. Sansür gerçekleşmediğinde saf tahmin edicinin geliştirilemeyeceğini unutmayın; bu nedenle, bir iyileştirmenin mümkün olup olmadığı kritik olarak sansürlemenin yerinde olup olmadığına bağlıdır.
Eklenti yaklaşımı
Temel hesaplamalarla,
tamsayı değerli olan ve son satır için kullandığımız son eşitlik nerede
Eşitliğin özyinelemeli bir genişlemesiyle , şunu elde ederiz:
Burada olduğunu unutmayın .
Kaplan-Meier tahmincisi, her birinin verilere dayalı olarak tahmin edildiği ve tahmin edicinin bu tahminlerin bir ürünü olarak elde edildiği bir "eklenebilir tahmin edici" olarak görülebilir .
Nasıl tahmin edileceğini belirtmek için kalır . Önerme 1 olarak, herhangi biri için böyle , ve her ikisi de beklemede. Dolayısıyla, böyle herhangi biri için ,
Yukarıdaki saf tahmin edicinin oluşturulmasına yol açan benzer bir akıl yürütme ile tahmin ediciye ulaşırız.
("Tehlike oranı" tanımında pay ve paydayı ayrı ayrı tahmin etmeyi düşünün ). Kaplan-Meier tahmincisi daha sonra şu şekilde verilir:
Makalenin başında belirtilen tahmin edicinin formu biraz daha cebir ile elde edilebilir. Bu, yazma için nerede, aktuarya terminoloji kullanarak, zamanında bilinen ölümlerin sayısı ise, zaman hayatta olan kişilerin sayısıdır .
Eğer unutmayın , . Bu, burada tüm bu terimleri tanımlayan üründen çıkarabileceğimiz anlamına gelir . Ardından, icar kat zaman , ve biz Kaplan-Meier şeklinde varmak tahmincisi makalenin başında verilen:
Naif tahmin edicinin aksine, bu tahmin edicinin mevcut bilgiyi daha etkin kullandığı görülebilir: Daha önce bahsedilen özel durumda, kaydedilen birçok erken olay olduğunda, tahmin edici birçok terimi birin altında bir değerle çarpacak ve böylece hayatta kalma olasılığının büyük olamayacağını hesaba katar.
Maksimum olabilirlik tahmincisi olarak türetme
Kaplan-Meier tahmincisi , tehlike fonksiyonunun maksimum olabilirlik tahmininden türetilebilir . Daha spesifik olarak, olay sayısı ve o andaki risk altındaki toplam birey sayısı olarak verilen ayrık tehlike oranı , bir bireyin o andaki bir olayla karşılaşma olasılığı olarak tanımlanabilir . Daha sonra hayatta kalma oranı şu şekilde tanımlanabilir:
ve zamana kadar tehlike fonksiyonu için olabilirlik fonksiyonu :
bu nedenle günlük olasılığı şöyle olacaktır:
verimlere göre maksimum log olasılığını bulma :
şapka maksimum olabilirlik tahminini belirtmek için kullanılır. Bu sonuca göre şunları yazabiliriz:
Faydalar ve sınırlamalar
Kaplan-Meier tahmincisi, hayatta kalma analizinde en sık kullanılan yöntemlerden biridir. Tahmin, iyileşme oranlarını, ölüm olasılığını ve tedavinin etkinliğini incelemek için faydalı olabilir. Ortak değişkenler için ayarlanmış sağkalımı tahmin etme yeteneği sınırlıdır ; parametrik hayatta kalma modelleri ve Cox orantılı tehlikeler modeli , ortak değişkene göre ayarlanmış hayatta kalma tahmininde faydalı olabilir.
İstatistiksel hususlar
Kaplan-Meier tahmincisi bir istatistiktir ve varyansını tahmin etmek için birkaç tahminci kullanılır . En yaygın tahmin edicilerden biri Greenwood'un formülüdür:
için vaka sayısı ve toplam gözlem sayısı nerede .
Greenwood'un formülü almanın olasılığı belirterek elde edilir başarısızlıkları dışarı durumlarda bir takip binom dağılımını başarısızlık olasılığı . Sonuç olarak elimizdeki maksimum olasılık tehlike oranı ve . Çarpımsal olasılıklarla uğraşmaktan kaçınmak için logaritmasının varyansını hesaplıyoruz ve onu orijinal varyansa geri dönüştürmek için delta yöntemini kullanacağız:
kullanılarak Martingal merkezi sınır teoremi , aşağıdaki denklemindeki toplam varyansının varyansları toplamına eşit olduğu gösterilebilir:
sonuç olarak şunu yazabiliriz:
delta yöntemini bir kez daha kullanarak:
istediğiniz gibi.
Bazı durumlarda, farklı Kaplan-Meier eğrilerini karşılaştırmak istenebilir. Bu, log rank testi ve Cox orantılı tehlike testi ile yapılabilir .
Bu tahmin edici ile kullanılabilecek diğer istatistikler, Hall-Wellner bandı ve eşit kesinlik bandıdır.
Yazılım
-
Mathematica : yerleşik işlev
SurvivalModelFit
hayatta kalma modelleri yaratır. -
SAS : Kaplan-Meier tahmincisi
proc lifetest
prosedürde uygulanmaktadır . -
R : Kaplan–Meier tahmincisi
survival
paketin bir parçası olarak mevcuttur . -
Stata : komut
sts
, Kaplan–Meier tahmin edicisini döndürür. -
Python :
lifelines
paket Kaplan-Meier tahmin edicisini içerir. -
MATLAB : argümanları olan
ecdf
fonksiyon'function','survivor'
Kaplan–Meier tahmincisini hesaplayabilir veya çizebilir. -
StatsDirect : Kaplan–Meier tahmincisi
Survival Analysis
menüde uygulanır. -
SPSS : Kaplan-Meier tahmincisi
Analyze > Survival > Kaplan-Meier...
menüde uygulanır. -
Julia :
Survival.jl
paket Kaplan-Meier tahmin edicisini içerir.
Ayrıca bakınız
Referanslar
daha fazla okuma
- Aalen, Tek; Borgan, Ornulf; Gjessing, Hakon (2008). Hayatta Kalma ve Olay Geçmişi Analizi: Bir Süreç Bakış Açısı . Springer. s. 90–104. ISBN'si 978-0-387-68560-1.
- Greene, William H. (2012). "Parametrik Olmayan ve Semiparametrik Yaklaşımlar" . Ekonometrik Analiz (Yedinci baskı). Prentice-Hall. s. 909-912. ISBN'si 978-0-273-75356-8.
- Jones, Andrew M.; Pirinç, Nigel; D'Uva, Teresa Bago; Balia, Silvia (2013). "Süre Verileri" . Uygulamalı Sağlık Ekonomisi . Londra: Routledge. s. 139-181. ISBN'si 978-0-415-67682-3.
- Şarkıcı, Judith B.; Willett, John B. (2003). Uygulamalı Boylamsal Veri Analizi: Değişimi ve Olay Oluşumunu Modelleme . New York: Oxford University Press. s. 483–487. ISBN'si 0-19-515296-4.
Dış bağlantılar
- Dunn, Steve (2002). "Hayatta Kalma Eğrileri: Tahakkuk ve Kaplan-Meier Tahmini" . Kanser Rehberi . İstatistik.
- Staub, Linda; Gekenidis, Alexandros (7 Mart 2011). "Kaplan-Meier Hayatta Kalma Eğrileri ve Günlük Sıralama Testi" (PDF) . Hayatta Kalma Analizi (PDF) . Bildiri ve sunum . İstatistik Semineri (SfS). Eidgenössische Technische Hochschule Zürich (ETH) [İsviçre Federal Teknoloji Enstitüsü Zürih].
- Üç gelişen Kaplan-Meier eğrileri üzerinde YouTube