İkili sınıflandırıcıların değerlendirilmesi - Evaluation of binary classifiers


Bir karışıklık matrisinden terminoloji ve türetmeler
durum pozitif (P)
verilerdeki gerçek pozitif vakaların sayısı
durum negatif (N)
verilerdeki gerçek olumsuz vakaların sayısı

gerçek pozitif (TP)
eqv. isabetli
doğru negatif (TN)
eqv. doğru ret ile
yanlış pozitif (FP)
eqv. ile yanlış alarm , tip I hata veya küçümsenmesi
yanlış negatif (FN)
eqv. eksik, tip II hata veya fazla tahmin ile

duyarlılık , geri çağırma , isabet oranı veya gerçek pozitif oran (TPR)
özgüllük , seçicilik veya gerçek negatif oran (TNR)
kesinlik veya pozitif tahmin değeri (PPV)
negatif tahmin değeri (NPV)
kaçırma oranı veya yanlış negatif oranı (FNR)
düşüş veya yanlış pozitif oranı (FPR)
yanlış keşif oranı (FDR)
yanlış ihmal oranı (FOR)
yaygınlık eşiği (PT)
tehdit puanı (TS) veya kritik başarı indeksi (CSI)

doğruluk (ACC)
dengeli doğruluk (BA)
F1 puanı
olan harmonik ortalaması ait hassas ve duyarlılık :
Matthews korelasyon katsayısı (MCC)
Fowlkes-Mallows indeksi (FM)
bilgili veya bahisçi bilgisi (BM)
belirginlik (MK) veya deltaP (Δp)

Kaynaklar: Fawcett (2006), Piryonesi ve El-Diraby (2020), Powers (2011), Ting (2011), CAWCR, D. Chicco & G. Jurman (2020, 2021) , Tharwat (2018).

Gönderen karışıklık matrisin dört temel önlemleri türetebilirsiniz

İkili sınıflandırıcıların değerlendirilmesi genellikle standart bir yöntemdir ve diğer araştırılmaktadır bunlardan biri bir ikili özelliği, atama için iki yöntem karşılaştırır. Bir sınıflandırıcının veya tahmin edicinin performansını ölçmek için kullanılabilecek birçok metrik vardır; farklı alanların, farklı hedefler nedeniyle belirli ölçümler için farklı tercihleri ​​vardır. Örneğin tıpta duyarlılık ve özgüllük sıklıkla kullanılırken, bilgisayar biliminde kesinlik ve hatırlama tercih edilir. Yaygınlıktan bağımsız olan metrikler (her kategorinin popülasyonda ne sıklıkta ortaya çıktığı) ile yaygınlığa bağlı olan metrikler arasında önemli bir ayrım vardır - her iki tür de yararlıdır, ancak çok farklı özelliklere sahiptirler.

Olasılık tablosu

Bir veri kümesi verildiğinde, bir sınıflandırma (bu kümedeki bir sınıflandırıcının çıktısı) iki sayı verir: kümenin toplam boyutunu oluşturan pozitiflerin sayısı ve negatiflerin sayısı. Bir sınıflandırıcıyı değerlendirmek için, bir kişi çıktısını başka bir referans sınıflandırmasıyla karşılaştırır - ideal olarak mükemmel bir sınıflandırma, ancak pratikte başka bir altın standart testin çıktısı - ve iki sınıflandırmayı karşılaştırarak verileri 2 × 2 olasılık tablosunda çapraz tablo haline getirir . Bir sonra sınıflandırıcı değerlendirir akrabası hesaplayarak altın standardına özet istatistikleri bu 4 sayı. Genel olarak, bu istatistikler ölçek değişmezi olacaktır (tüm sayıları aynı faktörle ölçeklendirmek çıktıyı değiştirmez), homojen fonksiyonların oranları kullanılarak elde edilen popülasyon büyüklüğünden bağımsız hale getirmek için , çoğu basitçe homojen doğrusal veya homojen karesel fonksiyonlar olacaktır.

Bazı insanları bir hastalığın varlığı açısından test ettiğimizi varsayalım. Bu insanlardan bazıları hastalığa sahip ve testimiz doğru bir şekilde onların pozitif olduğunu söylüyor. Gerçek pozitifler (TP) olarak adlandırılırlar . Bazılarında hastalık var, ancak test yanlış bir şekilde olmadığını iddia ediyor. Yanlış negatifler (FN) olarak adlandırılırlar . Bazılarının hastalığı yok ve test onların olmadığını söylüyor - gerçek negatifler (TN). Son olarak, test sonucu pozitif olan sağlıklı insanlar olabilir - yanlış pozitifler (FP). Bunlar , geleneksel olarak dikey eksendeki test sonucu ve yatay eksendeki gerçek durum ile 2 × 2 acil durum tablosu ( karışıklık matrisi ) şeklinde düzenlenebilir .

Bu sayılar daha sonra hem verimli, ulaştı edilebilir genel toplamı ve marjinal toplamları . Tüm tablonun toplamı, gerçek pozitiflerin, yanlış negatiflerin, gerçek negatiflerin ve yanlış pozitiflerin sayısı kümenin% 100'ünü oluşturur. Sütunların toplanması (dikey olarak eklenerek) gerçek pozitiflerin ve yanlış pozitiflerin sayısı, test pozitiflerinin% 100'üne kadar ve aynı şekilde negatifler için de eklenir. Satırların toplamı (yatay olarak ekleyerek), gerçek pozitiflerin ve yanlış negatiflerin sayısı koşul pozitiflerinin% 100'ünü oluşturur (tersine negatifler için). Temel marjinal oran istatistikleri, tablodaki 2 × 2 = 4 değerlerinin marjinal toplamlara (satırlar veya sütunlar) bölünmesiyle elde edilir ve toplam 8 oran için 2 yardımcı 2 × 2 tablo elde edilir. Bu oranlar, her bir çiftin toplamı 1 olan 4 tamamlayıcı çift halinde gelir ve bu nedenle bu türetilmiş 2 × 2 tabloların her biri, tamamlayıcıları ile birlikte bir çift 2 sayı olarak özetlenebilir. Bu oranların oranları, oranların oranları veya daha karmaşık fonksiyonlar alınarak daha fazla istatistik elde edilebilir.

Acil durum tablosu ve en yaygın türetilmiş oranlar aşağıda özetlenmiştir; ayrıntılar için devamı bakın.

Öngörülen durum
Toplam nüfus Öngörülen durum
pozitif
Öngörülen koşul
negatif
Doğruluk (ACC) = Σ Gerçek pozitif + Σ Gerçek negatif / Σ Toplam nüfus
Gerçek durum
Gerçek durum pozitif Gerçek pozitif Yanlış negatif ,
Tip II hatası
Gerçek pozitif oran (TPR), Geri Çağırma , Hassasiyet (SEN), algılama olasılığı, Güç = Σ Gerçek pozitif / Σ Gerçek pozitif Yanlış negatif oranı (FNR), Miss oranı = Σ Yanlış negatif / Σ Gerçek pozitif
Gerçek durum negatif Yanlış pozitif ,
Tip I hatası
Gerçek negatif Yanlış pozitif oranı (FPR), Düşüş , yanlış alarm olasılığı = Σ Yanlış pozitif / Σ Gerçek negatif Özgüllük (SPC), Seçicilik, Gerçek negatif oran (TNR) = Σ Gerçek negatif / Σ Gerçek negatif
Prevalans = Σ Gerçek pozitif / Σ Toplam nüfus Pozitif tahmin değeri (PPV), Kesinlik = Σ Gerçek pozitif / Σ Tahmini pozitif Yanlış ihmal oranı (FOR) = Σ Yanlış negatif / Σ Öngörülen negatif Pozitif olabilirlik oranı (LR +) = TPR / FPR Negatif olabilirlik oranı (LR−) = FNR / TNR
Teşhis olasılık oranı (DOR) = LR + / LR−
Yanlış keşif oranı (FDR) = Σ Yanlış pozitif / Σ Tahmini pozitif Negatif tahmin değeri (NPV) = Σ Gerçek negatif / Σ Öngörülen negatif Matthews korelasyon katsayısı (MCC) =
TPR · TNR · PPV · NPV - FNR · FPR · FOR · FDR
F 1 puanı = 2 · PPV · TPR / PPV + TPR = 2 · Hassaslık · Geri Çağırma / Hassas + Geri Çağırma

Renk kodlamasında belirtildiği gibi , satırların gerçekte pozitif veya negatif (veya altın standart tarafından bu şekilde sınıflandırılan) duruma karşılık geldiğine ve ilişkili istatistiklerin yaygınlıktan bağımsız olduğuna, sütunların ise testin pozitif olmasına karşılık geldiğine dikkat edin. veya negatif ve ilgili istatistikler yaygınlığa bağlıdır. Tahmin değerleri için benzer olasılık oranları vardır, ancak bunlar daha az yaygın olarak kullanılmaktadır ve yukarıda gösterilmemiştir.

Duyarlılık ve özgüllük

Yaygınlıktan bağımsız temel istatistikler duyarlılık ve özgüllüktür .

Hassasiyet ya Doğru Pozitif Puan olarak da bilinir (TPR), hatırlama , pozitif çıktı ve pozitif insanlar aslında pozitif olan tüm insanların (True Positive, TP) (Durumu Pozitif, CP = TP + FN) oranıdır. Hastanın hasta olduğu göz önüne alındığında testin pozitif çıkma olasılığı olarak görülebilir . Daha yüksek hassasiyetle, daha az gerçek hastalık vakası tespit edilmez (veya fabrika kalite kontrolü durumunda, daha az hatalı ürün pazara gider).

Özgüllük (SPC) veya Gerçek Negatif Oran (TNR), negatif olan ve negatif olan (Gerçek Negatif, TN) insanların gerçekte negatif olan tüm insanların (Koşul Negatif, CN = TN + FP) oranıdır. Duyarlılıkta olduğu gibi , hastanın hasta olmadığı göz önüne alındığında test sonucunun negatif olma olasılığı olarak bakılabilir . Daha yüksek özgüllükle, daha az sağlıklı insan hasta olarak etiketlenir (veya fabrika durumunda daha az sayıda iyi ürün atılır).

Duyarlılık ve özgüllük arasındaki ilişki ve sınıflandırıcının performansı, Alıcı Çalışma Karakteristiği (ROC) eğrisi kullanılarak görselleştirilebilir ve incelenebilir .

Teoride, duyarlılık ve özgüllük, her ikisinde de% 100'e ulaşmanın mümkün olması bakımından bağımsızdır (yukarıda verilen kırmızı / mavi top örneğinde olduğu gibi). Daha pratik, daha az yapmacık örneklerde, bununla birlikte, genellikle, birbirleriyle bir dereceye kadar ters orantılı olacak şekilde bir değiş tokuş vardır. Bunun nedeni, sınıflandırmak istediğimiz gerçek şeyi nadiren ölçmemizdir; daha ziyade, genellikle sınıflandırmak istediğimiz şeyin bir vekil belirteç olarak anılan bir göstergesini ölçüyoruz . Top örneğinde% 100'e ulaşılmasının nedeni, kızarıklık ve maviliğin doğrudan kızarıklık ve maviliği tespit ederek belirlenmesidir. Bununla birlikte, gösterge olmayan göstergeleri taklit ettiğinde veya göstergeler zamana bağlı olduğunda, ancak belirli bir gecikme süresinden sonra belirginleştiğinde, göstergeler bazen tehlikeye atılır. Aşağıdaki hamilelik testi örneği, böyle bir göstergeden yararlanacaktır.

Modern gebelik testleri yok hamilelik durumunu belirlemek için gebelik kendisi kullanmak; daha ziyade, bir kadının hamile olduğunu belirtmek için bir vekil belirteç olarak , insan koryonik gonadotropin veya gebe kadınların idrarında bulunan hCG kullanılır . HCG aynı zamanda bir tümör tarafından da üretilebildiğinden , modern gebelik testlerinin özgüllüğü% 100 olamaz (çünkü yanlış pozitifler mümkündür). Ayrıca, hCG, döllenme ve erken embriyojenezden sonra idrarda bu kadar küçük konsantrasyonlarda bulunduğundan, modern gebelik testlerinin duyarlılığı% 100 olamaz (çünkü yanlış negatifler mümkündür).

Olabilirlik oranları

Olumlu ve olumsuz tahmin değerleri

Duyarlılık ve özgüllüğe ek olarak, bir ikili sınıflandırma testinin performansı , aynı zamanda kesinlik ve negatif öngörü değeri (NPV) olarak da bilinen pozitif öngörü değeri (PPV) ile ölçülebilir . Pozitif tahmin değeri, "Test sonucu pozitifse , bu gerçek bir hastalığın varlığını ne kadar iyi tahmin eder?" Sorusuna cevap verir . TP / (TP + FP) olarak hesaplanır; yani, tüm olumlu sonuçların içindeki gerçek pozitiflerin oranıdır. Negatif tahmin değeri aynıdır, ancak doğal olarak negatifler için.

Prevalansın tahmin değerleri üzerindeki etkisi

Yaygınlığın tahmin değerleri üzerinde önemli bir etkisi vardır. Örnek olarak,% 99 duyarlılık ve% 99 özgüllük ile bir hastalık için bir test olduğunu varsayalım. 2000 kişi test edilir ve örneklemdeki prevalans% 50 ise 1000 kişi hasta, 1000 kişi sağlıklıdır. Dolayısıyla, 10 yanlış pozitif ve 10 yanlış negatif olmak üzere yaklaşık 990 gerçek pozitif ve 990 gerçek negatif olasıdır. Pozitif ve negatif tahmin değerleri% 99 olacaktır, bu nedenle sonuçta yüksek bir güven olabilir.

Bununla birlikte, yaygınlık sadece% 5 ise, bu nedenle 2000 kişiden sadece 100'ü gerçekten hastaysa, tahmin değerleri önemli ölçüde değişir. Muhtemel sonuç 99 gerçek pozitif, 1 yanlış negatif, 1881 gerçek negatif ve 19 yanlış pozitiftir. Test sonucu pozitif çıkan 19 + 99 kişiden sadece 99'unda gerçekten hastalık var - bu, sezgisel olarak, bir hastanın test sonucunun pozitif olduğu düşünüldüğünde, gerçekten hastalığa yakalanma olasılıklarının yalnızca% 84'ü olduğu anlamına geliyor. Öte yandan, hastanın test sonucunun negatif olduğu düşünülürse, test sonucuna rağmen hastanın hastalığa yakalanma olasılığı 1882'de sadece 1 veya% 0,05'dir.

Olabilirlik oranları

Hassasiyet ve geri çağırma

İlişkiler

Bu oranlar arasında çeşitli ilişkiler vardır.

Yaygınlık, duyarlılık ve özgüllük biliniyorsa, pozitif tahmin değeri aşağıdaki kimlikten elde edilebilir:

Yaygınlık, duyarlılık ve özgüllük biliniyorsa, negatif tahmin değeri aşağıdaki kimlikten elde edilebilir:

Tek ölçümler

Eşleştirilmiş metriklere ek olarak, testi değerlendirmek için tek bir sayı veren tek ölçümler de vardır.

Belki de en basit istatistik, doğru şekilde kategorize edilmiş tüm örneklerin fraksiyonunu ölçen doğruluk veya kesir doğrudur (FC); doğru sınıflandırma sayısının toplam doğru veya yanlış sınıflandırma sayısına oranıdır: (TP + TN) / toplam popülasyon = (TP + TN) / (TP + TN + FP + FN). Bu nedenle, test öncesi ve sonrası olasılık tahminlerini karşılaştırır . Bu ölçü yaygınlığa bağlıdır . COVID semptomları olan kişilerin% 90'ında COVID yoksa, önceki olasılık P (-) 0,9'dur ve basit kural "Tüm bu tür hastaları COVID içermeyen olarak sınıflandırın" şeklindedir. % 90 doğru olacaktır. Teşhis bundan daha iyi olmalı. En olası sonucu kullanarak basit bir kuralı geçmeyi umut eden bir tanı yöntemi için p0 max (priors) = max (P (-), P (+)) olarak bir "One-oranlı z-testi" oluşturulabilir. Burada, hipotezler "Ho: p ≤ 0,9'a karşı Ha: p> 0,9" şeklindedir ve büyük z değerleri için Ho reddedilir. Bir tanı kuralı, diğerinin doğruluğu biliniyorsa ve z istatistiğinin hesaplanmasında p0 ile ikame ediliyorsa, diğeriyle karşılaştırılabilir. Veriler bilinmiyorsa ve hesaplanmıyorsa, "Ho: p1 = p2 için havuzlanmış iki orantılı z testi" kullanılarak bir doğruluk karşılaştırma testi yapılabilir . Tamamlayıcı istatistik çok fazla kullanılmaz, fraksiyon yanlıştır (FiC): FC + FiC = 1 veya (FP + FN) / (TP + TN + FP + FN) - bu, antidiagonallerin toplamının bölü toplam nüfus. Hatalı maliyet ağırlıklı kesirler , farklı yöntemler için yanlış sınıflandırmanın beklenen maliyetlerini karşılaştırabilir .

Teşhis olasılık oranı (DOR) daha yararlı bir (TP x TN) doğrudan tanımlanabilir olan, metrik genel / (AP x FN) = (TP / FN) / (AP / TN) ya da dolaylı olarak bir şekilde oran olabilir oranların oranı (kendileri gerçek oranların veya tahmin değerlerinin oranları olan olasılık oranlarının oranı). Bunun bir olasılık oranı olarak faydalı bir yorumu vardır ve yaygınlıktan bağımsızdır. Olabilirlik oran genellikle yaygınlık bağımsız olarak kabul edilir ve kolayca çevirmek için çarpanı olarak yorumlanır önce olasılıkları içine arka olasılıklar . Bir başka kullanışlı tek ölçü, "ROC eğrisi altındaki alan", AUC'dir .

Alternatif ölçümler

Bir F-skoru bir kombinasyonudur hassas ve geri çağırma tek bir puan veren. Hassasiyet ve geri çağırmanın göreli ağırlıklarını belirleyen, β parametresine sahip tek parametreli bir istatistik ailesi vardır . Geleneksel veya dengeli F skoru ( F1 skoru ), hassasiyet ve geri çağırmanın harmonik ortalamasıdır :

.

F skorları, gerçek negatif oranı hesaba katmaz ve bu nedenle, gerçek negatiflerin sayısız olduğu bilgi alma ve bilgi çıkarma değerlendirmesine daha uygundur . Bunun yerine, bir ikili sınıflandırıcının performansını değerlendirmek için phi katsayısı , Matthews korelasyon katsayısı , bilgili olma veya Cohen'in kappa gibi ölçümler tercih edilebilir. Bir olarak korelasyon katsayısı , Matthews korelasyon katsayısı olan geometrik ortalaması ait regresyon katsayıları sorunu ve onun içinde ikili . Matthews korelasyon katsayısının bileşen regresyon katsayıları, belirginlik (deltap) ve bilgililiktir (Youden'in J istatistiği veya deltap ').

Ayrıca bakınız

Referanslar