Değerlendirme önlemleri (bilgi alma) - Evaluation measures (information retrieval)

Bir bilgi erişim sistemi için değerlendirme ölçüleri , arama sonuçlarının kullanıcının sorgu amacını ne kadar tatmin ettiğini değerlendirmek için kullanılır. Bu tür metrikler genellikle türlere ayrılır: çevrimiçi metrikler kullanıcıların arama sistemiyle olan etkileşimlerine bakar, çevrimdışı metrikler ise alaka düzeyini, diğer bir deyişle her bir sonucun veya bir bütün olarak arama motoru sonuç sayfası (SERP) sayfasının bir bütün olarak karşılama olasılığını ölçer. kullanıcının bilgi ihtiyaçları.

gösterim

Aşağıdaki formüllerde kullanılan matematiksel semboller şu anlama gelir:

${\görüntüleme stili X\baş Y}$ - Kavşak - bu durumda, hem X hem de Y kümelerindeki belgeleri belirtmek
${\görüntüleme stili |X|}$ - Kardinalite - bu durumda, X kümesindeki belge sayısı
${\görüntüleme stili \int }$ - İntegral
${\görüntüleme stili\toplam }$ - Toplama
${\görüntüleme stili\Delta }$ - Simetrik fark

Çevrimiçi metrikler

Çevrimiçi metrikler genellikle arama günlüklerinden oluşturulur. Metrikler genellikle bir A/B testinin başarısını belirlemek için kullanılır .

Oturumu terk etme oranı

Oturumu terk etme oranı, tıklamayla sonuçlanmayan arama oturumlarının oranıdır.

Tıklama oranı

Tıklama oranı (TO), belirli bir bağlantıyı tıklayan kullanıcıların bir sayfayı, e-postayı veya reklamı görüntüleyen toplam kullanıcı sayısına oranıdır. Belirli bir web sitesi için bir çevrimiçi reklam kampanyasının başarısının yanı sıra e-posta kampanyalarının etkinliğini ölçmek için yaygın olarak kullanılır .

Oturum başarı oranı

Oturum başarı oranı, başarıya götüren kullanıcı oturumlarının oranını ölçer. "Başarı"nın tanımlanması genellikle bağlama bağlıdır, ancak arama için başarılı bir sonuç genellikle bekleme süresi birincil faktör olarak ve ikincil kullanıcı etkileşimi kullanılarak ölçülür ; örneğin, sonuç URL'sini kopyalayan kullanıcı, kopya gibi başarılı bir sonuç olarak kabul edilir. /snippet'ten yapıştırma.

Sıfır sonuç oranı

Sıfır sonuç oranı ( ZRR ), sıfır sonuçla dönen SERP'lerin oranıdır. Metrik ya bir geri çağırma sorununu gösterir ya da aranan bilgi dizinde yoktur.

Çevrimdışı metrikler

Çevrimdışı metrikler genellikle, hakimlerin arama sonuçlarının kalitesini puanladığı alaka düzeyi değerlendirme oturumlarından oluşturulur. Bir sorguya yanıt olarak döndürülen her belgeyi puanlamak için hem ikili (ilgili/ilgisiz) hem de çok düzeyli (örn. 0'dan 5'e uygunluk) ölçekler kullanılabilir. Uygulamada, sorguları olabilir kötü poz verdi ve alaka farklı tonları olabilir. Örneğin, "mars" sorgusunda belirsizlik var: yargıç, kullanıcının Mars gezegenini mi , Mars çikolatasını mı yoksa şarkıcı Bruno Mars'ı mı aradığını bilmiyor .

Kesinlik

Kesinlik, alınan belgelerin kullanıcının bilgi ihtiyacıyla ilgili olan kısmıdır.

{\mbox{precision}}={\frac {|\{{\mbox{ilgili belgeler}}\}\cap \{{\mbox{alınan belgeler}}\}|}{|\{{\ mbox{alınan belgeler}}\}|}}

Gelen ikili sınıflandırma , hassas benzemektedir pozitif öngörü değeri . Precision, alınan tüm belgeleri dikkate alır. Precision@k kullanılarak sistem tarafından döndürülen yalnızca en üstteki sonuçlar dikkate alınarak da değerlendirilebilir .

Bilgi alma alanındaki "kesinlik" in anlamı ve kullanımının, diğer bilim ve istatistik dallarındaki doğruluk ve kesinlik tanımından farklı olduğuna dikkat edin .

Hatırlamak

Geri çağırma, sorguyla ilgili belgelerin başarıyla alınan kısmıdır.

{\mbox{geri çağırma}}={\frac {|\{{\mbox{ilgili belgeler}}\}\cap \{{\mbox{alınan belgeler}}\}|}{|\{{\ mbox{ilgili belgeler}}\}|}}

İkili sınıflandırmada hatırlamaya genellikle duyarlılık denir . Bu nedenle , sorgu tarafından ilgili bir belgenin alınması olasılığı olarak görülebilir .

Herhangi bir sorguya yanıt olarak tüm belgeleri döndürerek %100 geri çağırma elde etmek önemsizdir. Bu nedenle, tek başına geri çağırma yeterli değildir, ancak örneğin kesinliği hesaplayarak ilgili olmayan belgelerin sayısını da ölçmek gerekir.

Araları açılmak

Mevcut tüm ilgili olmayan belgeler içinde, alınan ilgili olmayan belgelerin oranı:

{\mbox{fall-out}}={\frac {|\{{\mbox{ilgisiz belgeler}}\}\cap \{{\mbox{alınan belgeler}}\}|}{| \{{\mbox{ilgisiz belgeler}}\}|}}

İkili sınıflandırmada, düşme, özgüllük ile yakından ilişkilidir ve eşittir . İlgili olmayan bir belgenin sorgu tarafından alınma olasılığı olarak görülebilir . ${\görüntüleme stili (1-{\mbox{özgüllük}})}$

Herhangi bir sorguya yanıt olarak sıfır belge döndürerek %0 düşüş elde etmek önemsizdir.

F puanı / F ölçüsü

Hassasiyet ve hatırlamanın ağırlıklı harmonik ortalaması , geleneksel F-ölçümü veya dengeli F-skoru:

F={\frac {2\cdot \mathrm {hassasiyet} \cdot \mathrm {hatırlatma} }{(\mathrm {kesinlik} +\mathrm {hatırlatma} )}}

Bu aynı zamanda ölçü olarak da bilinir , çünkü hatırlama ve kesinlik eşit ağırlıktadır. ${\görüntüleme stili F_{1}}$

Negatif olmayan gerçek için genel formül : ${\görüntüleme stili \beta }$

F_{\beta }={\frac {(1+\beta ^{2})\cdot (\mathrm {hassasiyet} \cdot \mathrm {hatırlama} )}{(\beta ^{2}\cdot \mathrm {hassasiyet} +\mathrm {hatırlama} )}}\,

Yaygın olarak kullanılan diğer iki F ölçüsü, ağırlıkların kesinlikten iki kat daha fazla geri çağıran ölçü ve kesinliği hatırlamadan iki kat daha fazla ağırlıklandıran ölçüdür. ${\ Displaystyle F_{2}}$ ${\ Displaystyle F_{0.5}}$

F-ölçüm, van Rijsbergen (1979) tarafından " hatırlamaya kesinlik kadar önem veren bir kullanıcıya göre geri almanın etkinliğini ölçmek" için türetilmiştir . Van Rijsbergen'in etkinlik ölçüsüne dayanmaktadır . Aralarındaki ilişki: ${\ Displaystyle F_{\beta }}$ ${\görüntüleme stili \beta }$ $E=1-{\frac {1}{{\frac {\alpha }{P}}+{\frac {1-\alpha }{R}}}}$

F_{\beta }=1-E

nerede

\alpha ={\frac {1}{1+\beta ^{2}}}

Kesinlik ve hatırlama ile karşılaştırıldığında F-ölçümü daha iyi bir tek metrik olabilir; hem kesinlik hem de geri çağırma, birleştirildiğinde birbirini tamamlayabilecek farklı bilgiler verir. Biri diğerinden daha üstünse, F-ölçü onu yansıtacaktır.

Ortalama hassasiyet

Kesinlik ve geri çağırma, sistem tarafından döndürülen belgelerin tam listesine dayanan tek değerli metriklerdir. Sıralanmış bir belge dizisi döndüren sistemler için, iade edilen belgelerin sunulduğu sıranın da dikkate alınması arzu edilir. Sıralanmış belge dizisindeki her konumda bir kesinlik ve geri çağırma hesaplayarak, bir hassas geri çağırma eğrisi çizilebilir, kesinlik geri çağırma fonksiyonu olarak çizilebilir . Ortalama hassas ortalama değerini hesaplar gelen aralık boyunca hiç : ${\görüntüleme stili p(r)}$ ${\görüntüleme stili r}$ ${\görüntüleme stili p(r)}$ ${\görüntüleme stili r=0}$ ${\görüntüleme stili r=1}$

\operatöradı {AveP} =\int _{0}^{1}p(r)dr

Bu, hassas hatırlama eğrisinin altındaki alandır. Bu integral uygulamada, sıralanmış belge dizisindeki her konum üzerinde sonlu bir toplamla değiştirilir:

\operatöradı {AveP} =\sum _{k=1}^{n}P(k)\Delta r(k)

nerede alınan belgelerin sırayla rütbe olduğunu ulaşılan doküman sayısı, bir cut-off değeri en hassas olduğu listede, ve öğeleri hatırlama değişimdir için . ${\görüntüleme stili k}$ ${\görüntüleme stili n}$ ${\görüntüleme stili P(k)}$ ${\görüntüleme stili k}$ ${\görüntüleme stili \Delta r(k)}$ ${\görüntüleme stili k-1}$ ${\görüntüleme stili k}$

Bu sonlu toplam şuna eşittir:

\operatöradı {AveP} ={\frac {\sum _{k=1}^{n}P(k)\times \operatöradı {rel} (k)}{\mbox{ilgili belge sayısı}} }\!

burada , sıradaki öğe ilgili bir belgeyse 1'e eşit bir gösterge işlevi , aksi takdirde sıfırdır. Ortalamanın tüm ilgili belgeler üzerinde olduğunu ve ilgili belgelerin alınmadığını unutmayın, kesinlik puanı sıfırdır. $\operatöradı {rel} (k)$ ${\görüntüleme stili k}$

Bazı yazarlar , eğrideki "kıpırdamaların" etkisini azaltmak için işlevi enterpolasyon yapmayı seçer . Örneğin, 2010 yılına kadar PASCAL Görsel Nesne Sınıfları sorgulaması (bilgisayarlı görü nesne tespiti için bir kıyaslama), ortalama kesinliği, bir dizi eşit aralıklı hatırlama düzeyi {0, 0.1, 0.2, ... 1.0} üzerinden kesinliğin ortalamasını alarak hesapladı: ${\görüntüleme stili p(r)}$

\operatöradı {AveP} ={\frac {1}{11}}\sum _{r\in \{0,0.1,\ldots ,1.0\}}p_{\operatöradı {interp} }(r)

tüm geri çağırmalar üzerinde maksimum hassasiyeti şu değerden daha büyük alan enterpolasyonlu bir kesinlik nerede : $p_{\operatöradı {interp} }(r)$ ${\görüntüleme stili r}$

p_{\operatöradı {interp} }(r)=\operatöradı {max} _{{\tilde {r}}:{\tilde {r}}\geq r}p({\tilde {r}} )

.

Bir alternatif, temel alınan karar değerleri için belirli bir parametrik dağılımı varsayarak bir analitik fonksiyon türetmektir . Örneğin, bir Gauss dağılımını takip etmek için her iki sınıftaki karar değerlerinin varsayılmasıyla bir binormal kesinlik-hatırlama eğrisi elde edilebilir. ${\görüntüleme stili p(r)}$

k'de hassasiyet

Modern (web ölçeğinde) bilgi alımı için, birçok sorgu binlerce ilgili belgeye sahip olduğundan ve çok az kullanıcı hepsini okumakla ilgileneceğinden, hatırlama artık anlamlı bir ölçüm değildir. Hassas k belgeleri (P @ k) hala yararlı bir ölçümdür (örneğin P @ 10 veya ilk 10 alınan belgeler arasında ilgili sonuçların sayısına karşılık gelir "at 10 Hassas"), ancak dikkate konumlarını almaması ilgili belgeler arasında ilk k. Diğer bir eksiklik, k'den daha az alakalı sonucu olan bir sorguda, mükemmel bir sistemin bile 1'den daha düşük bir puanı olacaktır. .

R-hassasiyeti

R-precision, bir sorguyla ilgili tüm belgelerin bilinmesini gerektirir. İlgili belgelerin sayısı, , hesaplama için sınır olarak kullanılır ve bu, sorgudan sorguya değişir. Örneğin, bir derlemde "kırmızı" ile ilgili 15 belge varsa (R=15), "kırmızı" için R-hassasiyeti döndürülen ilk 15 belgeye bakar, ilgili sayıları sayar ve bunu bir alaka kesrine dönüştürür: . ${\görüntüleme stili R}$ ${\görüntüleme stili r}$ ${\görüntüleme stili r/R=r/15}$

R-hassas görevden eşittir R ' inci pozisyon.

Ampirik olarak, bu ölçü genellikle ortalama kesinlik ile yüksek oranda ilişkilidir.

Ortalama ortalama hassasiyet

Bir sorgu kümesi için ortalama ortalama hassasiyet (MAP) , her sorgu için ortalama hassasiyet puanlarının ortalamasıdır .

\operatöradı {HARİTA} ={\frac {\sum _{q=1}^{Q}\operatöradı {AveP(q)} }{Q}}\!

burada Q , sorgu sayısıdır.

İndirimli kümülatif kazanç

Bir karışıklık matrisinden terminoloji ve türevler
durum pozitif (P) verilerdeki gerçek pozitif vakaların sayısı koşul negatif (N) verilerdeki gerçek olumsuz vakaların sayısı gerçek pozitif (TP) eşdeğer isabet ile gerçek negatif (TN) eşdeğer doğru reddetme ile yanlış pozitif (FP) eşdeğer ile yanlış alarm , tip I hata veya küçümsenmesi yanlış negatif (FN) eşdeğer özledim, tip II hata veya fazla tahmin ile duyarlılık , geri çağırma , isabet oranı veya gerçek pozitif oran (TPR) $\mathrm {TPR} ={\frac {\mathrm {TP} }{\mathrm {P} }}={\frac {\mathrm {TP} }{\mathrm {TP} +\mathrm {FN} }}=1-\mathrm {FNR}$ özgüllük , seçicilik veya gerçek negatif oran (TNR) $\mathrm {TNR} ={\frac {\mathrm {TN} }{\mathrm {N} }}={\frac {\mathrm {TN} }{\mathrm {TN} +\mathrm {FP} }}=1-\mathrm {FPR}$ kesinlik veya pozitif tahmin değeri (PPV) $\mathrm {PPV} ={\frac {\mathrm {TP} }{\mathrm {TP} +\mathrm {FP} }}=1-\mathrm {FDR}$ negatif tahmin değeri (NPV) $\mathrm {NPV} ={\frac {\mathrm {TN} }{\mathrm {TN} +\mathrm {FN}}}=1-\mathrm {FOR}$ kaçırma oranı veya yanlış negatif oran (FNR) $\mathrm {FNR} ={\frac {\mathrm {FN} }{\mathrm {P} }}={\frac {\mathrm {FN} }{\mathrm {FN} +\mathrm {TP} }}=1-\mathrm {TPR}$ düşüş veya yanlış pozitif oranı (FPR) $\mathrm {FPR} ={\frac {\mathrm {FP} }{\mathrm {N} }}={\frac {\mathrm {FP} }{\mathrm {FP} +\mathrm {TN} }}=1-\mathrm {TNR}$ yanlış keşif oranı (FDR) $\mathrm {FDR} ={\frac {\mathrm {FP} }{\mathrm {FP} +\mathrm {TP} }}=1-\mathrm {PPV}$ yanlış ihmal oranı (FOR) $\mathrm {FOR} ={\frac {\mathrm {FN} }{\mathrm {FN} +\mathrm {TN}}}=1-\mathrm {NPV}$ yaygınlık eşiği (PT) $\mathrm {PT} ={\frac {{\sqrt {\mathrm {TPR} (-\mathrm {TNR} +1)}}+\mathrm {TNR} -1}{(\mathrm {TPR} +\mathrm {TNR} -1)}}={\frac {\sqrt {\mathrm {FPR} }}{{\sqrt {\mathrm {TPR}}}+{\sqrt {\mathrm {FPR}}} }}$ tehdit puanı (TS) veya kritik başarı endeksi (CSI) $\mathrm {TS} ={\frac {\mathrm {TP} }{\mathrm {TP} +\mathrm {FN} +\mathrm {FP}}}$ doğruluk (ACC) $\mathrm {ACC} ={\frac {\mathrm {TP} +\mathrm {TN} }{\mathrm {P} +\mathrm {N}}}={\frac {\mathrm {TP} + \mathrm {TN} }{\mathrm {TP} +\mathrm {TN} +\mathrm {FP} +\mathrm {FN} }}$ dengeli doğruluk (BA) $\mathrm {BA} ={\frac {TPR+TNR}{2}}$ F1 puanı olan harmonik ortalaması ait hassas ve duyarlılık : $\mathrm {F} _{1}=2\times {\frac {\mathrm {PPV} \times \mathrm {TPR} }{\mathrm {PPV} +\mathrm {TPR}}}={\ frac {2\mathrm {TP} } {2\mathrm {TP} +\mathrm {FP} +\mathrm {FN} }}$ Matthews korelasyon katsayısı (MCC) $\mathrm {MCC} ={\frac {\mathrm {TP} \times \mathrm {TN} -\mathrm {FP} \times \mathrm {FN} }{\sqrt {(\mathrm {TP} + \mathrm {FP} )(\mathrm {TP} +\mathrm {FN} )(\mathrm {TN} +\mathrm {FP} )(\mathrm {TN} +\mathrm {FN} )}}}$ Fowlkes-Ebegümeci indeksi (FM) $\mathrm {FM} ={\sqrt {{\frac {TP}{TP+FP}}\times {\frac {TP}{TP+FN}}}}={\sqrt {PPV\times TPR }}$ bilgi veya bahisçi bilgi (BM) $\mathrm {BM} =\mathrm {TPR} +\mathrm {TNR} -1$ belirtililik (MK) ya da deltaP (Ap) $\mathrm {MK} =\mathrm {PPV} +\mathrm {NPV} -1$ Kaynaklar: Fawcett (2006), Piryonesi ve El-Diraby (2020), Powers (2011), Ting (2011), CAWCR, D. Chicco & G. Jurman (2020, 2021) , Tharwat (2018).

DCG, sonuç listesindeki konumuna göre bir belgenin yararlılığını veya kazancını değerlendirmek için sonuç kümesinden derecelendirilmiş bir uygunluk ölçeği kullanır. DCG'nin dayanağı, bir arama sonucu listesinde daha alt sıralarda görünen yüksek düzeyde alakalı dokümanların cezalandırılması gerektiğidir, çünkü derecelendirilmiş alaka düzeyi, sonucun konumuyla logaritmik olarak orantılı olarak düşürülür.

Belirli bir rütbe pozisyonunda biriken DCG şu şekilde tanımlanır: ${\görüntüleme stili p}$

\mathrm {DCG_{p}} =\sum _{i=1}^{p}{\frac {rel_{i}}{\log _{2}(i+1)}}.

Sonuç kümesi, farklı sorgular veya sistemler arasında boyut olarak değişebileceğinden, performansları karşılaştırmak için DCG'nin normalleştirilmiş sürümü ideal bir DCG kullanır. Bu amaçla, sonuç listesinin belgelerini alaka düzeyine göre sıralar ve p ( ) konumunda puanı normalleştiren ideal bir DCG üretir : $IDCG_{p}$

\mathrm {nDCG_{p}} ={\frac {DCG_{p}}{IDCG{p}}}.

Bir sıralama algoritmasının ortalama performansının bir ölçüsünü elde etmek için tüm sorgular için nDCG değerlerinin ortalaması alınabilir. Mükemmel bir sıralama algoritmasında, 1.0'lık bir nDCG üretmekle aynı olacağına dikkat edin . Tüm nDCG hesaplamaları daha sonra 0.0 ila 1.0 aralığındaki göreli değerlerdir ve bu nedenle çapraz sorgu karşılaştırılabilir. $DCG_{p}$ $IDCG_{p}$

Diğer önlemler

Ortalama karşılıklı sıralama
Spearman's rank korelasyon katsayısı
bpref - alakasız belgelerden önce kaç tane ilgili belgenin sıralandığına dair toplamaya dayalı bir ölçü
GMAP - (konu başına) ortalama kesinliğin geometrik ortalaması
Marjinal alaka düzeyine ve belge çeşitliliğine dayalı önlemler - bkz. Uygunluk (bilgi alımı) § Sorunlar ve alternatifler
Hem alaka düzeyi hem de güvenilirlik ölçütleri (arama sonuçlarındaki sahte haberler için)

görselleştirme

Bilgi alma performansının görselleştirmeleri şunları içerir:

Bir eksende kesinliği gösteren ve diğerinde geri çağıran grafikler
Çeşitli konularda ortalama hassasiyet histogramları
Alıcı çalışma karakteristiği (ROC eğrisi)
karışıklık matrisi

Metrik olmayan

En çok sorgulananlar listesi

En çok yapılan sorgular, belirli bir süre boyunca en yaygın sorguların not edilmesidir. En iyi sorgular listesi, kullanıcılar tarafından girilen sorguların stilini bilmeye yardımcı olur.

alakasız metrikler

Zaman başına sorgular

Arama sisteminde (ay/gün/saat/dakika/sn) başına kaç sorgu gerçekleştirildiğini ölçmek, arama sisteminin kullanımını izler. Sorgularda beklenmeyen bir artışı belirtmek için tanılama için veya sorgu gecikmesi gibi diğer metriklerle karşılaştırırken bir temel olarak kullanılabilir. Örneğin, sorgu trafiğindeki bir artış, sorgu gecikmesindeki bir artışı açıklamak için kullanılabilir.

Languages

In other projects