Değerlendirme önlemleri (bilgi alma) - Evaluation measures (information retrieval)

Bir bilgi erişim sistemi için değerlendirme ölçüleri , arama sonuçlarının kullanıcının sorgu amacını ne kadar tatmin ettiğini değerlendirmek için kullanılır. Bu tür metrikler genellikle türlere ayrılır: çevrimiçi metrikler kullanıcıların arama sistemiyle olan etkileşimlerine bakar, çevrimdışı metrikler ise alaka düzeyini, diğer bir deyişle her bir sonucun veya bir bütün olarak arama motoru sonuç sayfası (SERP) sayfasının bir bütün olarak karşılama olasılığını ölçer. kullanıcının bilgi ihtiyaçları.

gösterim

Aşağıdaki formüllerde kullanılan matematiksel semboller şu anlama gelir:

  • - Kavşak - bu durumda, hem X hem de Y kümelerindeki belgeleri belirtmek
  • - Kardinalite - bu durumda, X kümesindeki belge sayısı
  • - İntegral
  • - Toplama
  • - Simetrik fark

Çevrimiçi metrikler

Çevrimiçi metrikler genellikle arama günlüklerinden oluşturulur. Metrikler genellikle bir A/B testinin başarısını belirlemek için kullanılır .

Oturumu terk etme oranı

Oturumu terk etme oranı, tıklamayla sonuçlanmayan arama oturumlarının oranıdır.

Tıklama oranı

Tıklama oranı (TO), belirli bir bağlantıyı tıklayan kullanıcıların bir sayfayı, e-postayı veya reklamı görüntüleyen toplam kullanıcı sayısına oranıdır. Belirli bir web sitesi için bir çevrimiçi reklam kampanyasının başarısının yanı sıra e-posta kampanyalarının etkinliğini ölçmek için yaygın olarak kullanılır .

Oturum başarı oranı

Oturum başarı oranı, başarıya götüren kullanıcı oturumlarının oranını ölçer. "Başarı"nın tanımlanması genellikle bağlama bağlıdır, ancak arama için başarılı bir sonuç genellikle bekleme süresi birincil faktör olarak ve ikincil kullanıcı etkileşimi kullanılarak ölçülür ; örneğin, sonuç URL'sini kopyalayan kullanıcı, kopya gibi başarılı bir sonuç olarak kabul edilir. /snippet'ten yapıştırma.

Sıfır sonuç oranı

Sıfır sonuç oranı ( ZRR ), sıfır sonuçla dönen SERP'lerin oranıdır. Metrik ya bir geri çağırma sorununu gösterir ya da aranan bilgi dizinde yoktur.

Çevrimdışı metrikler

Çevrimdışı metrikler genellikle, hakimlerin arama sonuçlarının kalitesini puanladığı alaka düzeyi değerlendirme oturumlarından oluşturulur. Bir sorguya yanıt olarak döndürülen her belgeyi puanlamak için hem ikili (ilgili/ilgisiz) hem de çok düzeyli (örn. 0'dan 5'e uygunluk) ölçekler kullanılabilir. Uygulamada, sorguları olabilir kötü poz verdi ve alaka farklı tonları olabilir. Örneğin, "mars" sorgusunda belirsizlik var: yargıç, kullanıcının Mars gezegenini mi , Mars çikolatasını mı yoksa şarkıcı Bruno Mars'ı mı aradığını bilmiyor .

Kesinlik

Kesinlik, alınan belgelerin kullanıcının bilgi ihtiyacıyla ilgili olan kısmıdır.

Gelen ikili sınıflandırma , hassas benzemektedir pozitif öngörü değeri . Precision, alınan tüm belgeleri dikkate alır. Precision@k kullanılarak sistem tarafından döndürülen yalnızca en üstteki sonuçlar dikkate alınarak da değerlendirilebilir .

Bilgi alma alanındaki "kesinlik" in anlamı ve kullanımının, diğer bilim ve istatistik dallarındaki doğruluk ve kesinlik tanımından farklı olduğuna dikkat edin .

Hatırlamak

Geri çağırma, sorguyla ilgili belgelerin başarıyla alınan kısmıdır.

İkili sınıflandırmada hatırlamaya genellikle duyarlılık denir . Bu nedenle , sorgu tarafından ilgili bir belgenin alınması olasılığı olarak görülebilir .

Herhangi bir sorguya yanıt olarak tüm belgeleri döndürerek %100 geri çağırma elde etmek önemsizdir. Bu nedenle, tek başına geri çağırma yeterli değildir, ancak örneğin kesinliği hesaplayarak ilgili olmayan belgelerin sayısını da ölçmek gerekir.

Araları açılmak

Mevcut tüm ilgili olmayan belgeler içinde, alınan ilgili olmayan belgelerin oranı:

İkili sınıflandırmada, düşme, özgüllük ile yakından ilişkilidir ve eşittir . İlgili olmayan bir belgenin sorgu tarafından alınma olasılığı olarak görülebilir .

Herhangi bir sorguya yanıt olarak sıfır belge döndürerek %0 düşüş elde etmek önemsizdir.

F puanı / F ölçüsü

Hassasiyet ve hatırlamanın ağırlıklı harmonik ortalaması , geleneksel F-ölçümü veya dengeli F-skoru:

Bu aynı zamanda ölçü olarak da bilinir , çünkü hatırlama ve kesinlik eşit ağırlıktadır.

Negatif olmayan gerçek için genel formül :

Yaygın olarak kullanılan diğer iki F ölçüsü, ağırlıkların kesinlikten iki kat daha fazla geri çağıran ölçü ve kesinliği hatırlamadan iki kat daha fazla ağırlıklandıran ölçüdür.

F-ölçüm, van Rijsbergen (1979) tarafından " hatırlamaya kesinlik kadar önem veren bir kullanıcıya göre geri almanın etkinliğini ölçmek" için türetilmiştir . Van Rijsbergen'in etkinlik ölçüsüne dayanmaktadır . Aralarındaki ilişki:

nerede

Kesinlik ve hatırlama ile karşılaştırıldığında F-ölçümü daha iyi bir tek metrik olabilir; hem kesinlik hem de geri çağırma, birleştirildiğinde birbirini tamamlayabilecek farklı bilgiler verir. Biri diğerinden daha üstünse, F-ölçü onu yansıtacaktır.

Ortalama hassasiyet

Kesinlik ve geri çağırma, sistem tarafından döndürülen belgelerin tam listesine dayanan tek değerli metriklerdir. Sıralanmış bir belge dizisi döndüren sistemler için, iade edilen belgelerin sunulduğu sıranın da dikkate alınması arzu edilir. Sıralanmış belge dizisindeki her konumda bir kesinlik ve geri çağırma hesaplayarak, bir hassas geri çağırma eğrisi çizilebilir, kesinlik geri çağırma fonksiyonu olarak çizilebilir . Ortalama hassas ortalama değerini hesaplar gelen aralık boyunca hiç :

Bu, hassas hatırlama eğrisinin altındaki alandır. Bu integral uygulamada, sıralanmış belge dizisindeki her konum üzerinde sonlu bir toplamla değiştirilir:

nerede alınan belgelerin sırayla rütbe olduğunu ulaşılan doküman sayısı, bir cut-off değeri en hassas olduğu listede, ve öğeleri hatırlama değişimdir için .

Bu sonlu toplam şuna eşittir:

burada , sıradaki öğe ilgili bir belgeyse 1'e eşit bir gösterge işlevi , aksi takdirde sıfırdır. Ortalamanın tüm ilgili belgeler üzerinde olduğunu ve ilgili belgelerin alınmadığını unutmayın, kesinlik puanı sıfırdır.

Bazı yazarlar , eğrideki "kıpırdamaların" etkisini azaltmak için işlevi enterpolasyon yapmayı seçer . Örneğin, 2010 yılına kadar PASCAL Görsel Nesne Sınıfları sorgulaması (bilgisayarlı görü nesne tespiti için bir kıyaslama), ortalama kesinliği, bir dizi eşit aralıklı hatırlama düzeyi {0, 0.1, 0.2, ... 1.0} üzerinden kesinliğin ortalamasını alarak hesapladı:

tüm geri çağırmalar üzerinde maksimum hassasiyeti şu değerden daha büyük alan enterpolasyonlu bir kesinlik nerede :

.

Bir alternatif, temel alınan karar değerleri için belirli bir parametrik dağılımı varsayarak bir analitik fonksiyon türetmektir . Örneğin, bir Gauss dağılımını takip etmek için her iki sınıftaki karar değerlerinin varsayılmasıyla bir binormal kesinlik-hatırlama eğrisi elde edilebilir.

k'de hassasiyet

Modern (web ölçeğinde) bilgi alımı için, birçok sorgu binlerce ilgili belgeye sahip olduğundan ve çok az kullanıcı hepsini okumakla ilgileneceğinden, hatırlama artık anlamlı bir ölçüm değildir. Hassas k belgeleri (P @ k) hala yararlı bir ölçümdür (örneğin P @ 10 veya ilk 10 alınan belgeler arasında ilgili sonuçların sayısına karşılık gelir "at 10 Hassas"), ancak dikkate konumlarını almaması ilgili belgeler arasında ilk k. Diğer bir eksiklik, k'den daha az alakalı sonucu olan bir sorguda, mükemmel bir sistemin bile 1'den daha düşük bir puanı olacaktır. .

R-hassasiyeti

R-precision, bir sorguyla ilgili tüm belgelerin bilinmesini gerektirir. İlgili belgelerin sayısı, , hesaplama için sınır olarak kullanılır ve bu, sorgudan sorguya değişir. Örneğin, bir derlemde "kırmızı" ile ilgili 15 belge varsa (R=15), "kırmızı" için R-hassasiyeti döndürülen ilk 15 belgeye bakar, ilgili sayıları sayar ve bunu bir alaka kesrine dönüştürür: .

R-hassas görevden eşittir R ' inci pozisyon.

Ampirik olarak, bu ölçü genellikle ortalama kesinlik ile yüksek oranda ilişkilidir.

Ortalama ortalama hassasiyet

Bir sorgu kümesi için ortalama ortalama hassasiyet (MAP) , her sorgu için ortalama hassasiyet puanlarının ortalamasıdır .

burada Q , sorgu sayısıdır.

İndirimli kümülatif kazanç


Bir karışıklık matrisinden terminoloji ve türevler
durum pozitif (P)
verilerdeki gerçek pozitif vakaların sayısı
koşul negatif (N)
verilerdeki gerçek olumsuz vakaların sayısı

gerçek pozitif (TP)
eşdeğer isabet ile
gerçek negatif (TN)
eşdeğer doğru reddetme ile
yanlış pozitif (FP)
eşdeğer ile yanlış alarm , tip I hata veya küçümsenmesi
yanlış negatif (FN)
eşdeğer özledim, tip II hata veya fazla tahmin ile

duyarlılık , geri çağırma , isabet oranı veya gerçek pozitif oran (TPR)
özgüllük , seçicilik veya gerçek negatif oran (TNR)
kesinlik veya pozitif tahmin değeri (PPV)
negatif tahmin değeri (NPV)
kaçırma oranı veya yanlış negatif oran (FNR)
düşüş veya yanlış pozitif oranı (FPR)
yanlış keşif oranı (FDR)
yanlış ihmal oranı (FOR)
yaygınlık eşiği (PT)
tehdit puanı (TS) veya kritik başarı endeksi (CSI)

doğruluk (ACC)
dengeli doğruluk (BA)
F1 puanı
olan harmonik ortalaması ait hassas ve duyarlılık :
Matthews korelasyon katsayısı (MCC)
Fowlkes-Ebegümeci indeksi (FM)
bilgi veya bahisçi bilgi (BM)
belirtililik (MK) ya da deltaP (Ap)

Kaynaklar: Fawcett (2006), Piryonesi ve El-Diraby (2020), Powers (2011), Ting (2011), CAWCR, D. Chicco & G. Jurman (2020, 2021) , Tharwat (2018).

DCG, sonuç listesindeki konumuna göre bir belgenin yararlılığını veya kazancını değerlendirmek için sonuç kümesinden derecelendirilmiş bir uygunluk ölçeği kullanır. DCG'nin dayanağı, bir arama sonucu listesinde daha alt sıralarda görünen yüksek düzeyde alakalı dokümanların cezalandırılması gerektiğidir, çünkü derecelendirilmiş alaka düzeyi, sonucun konumuyla logaritmik olarak orantılı olarak düşürülür.

Belirli bir rütbe pozisyonunda biriken DCG şu şekilde tanımlanır:

Sonuç kümesi, farklı sorgular veya sistemler arasında boyut olarak değişebileceğinden, performansları karşılaştırmak için DCG'nin normalleştirilmiş sürümü ideal bir DCG kullanır. Bu amaçla, sonuç listesinin belgelerini alaka düzeyine göre sıralar ve p ( ) konumunda puanı normalleştiren ideal bir DCG üretir :

Bir sıralama algoritmasının ortalama performansının bir ölçüsünü elde etmek için tüm sorgular için nDCG değerlerinin ortalaması alınabilir. Mükemmel bir sıralama algoritmasında, 1.0'lık bir nDCG üretmekle aynı olacağına dikkat edin . Tüm nDCG hesaplamaları daha sonra 0.0 ila 1.0 aralığındaki göreli değerlerdir ve bu nedenle çapraz sorgu karşılaştırılabilir.

Diğer önlemler

görselleştirme

Bilgi alma performansının görselleştirmeleri şunları içerir:

Metrik olmayan

En çok sorgulananlar listesi

En çok yapılan sorgular, belirli bir süre boyunca en yaygın sorguların not edilmesidir. En iyi sorgular listesi, kullanıcılar tarafından girilen sorguların stilini bilmeye yardımcı olur.

alakasız metrikler

Zaman başına sorgular

Arama sisteminde (ay/gün/saat/dakika/sn) başına kaç sorgu gerçekleştirildiğini ölçmek, arama sisteminin kullanımını izler. Sorgularda beklenmeyen bir artışı belirtmek için tanılama için veya sorgu gecikmesi gibi diğer metriklerle karşılaştırırken bir temel olarak kullanılabilir. Örneğin, sorgu trafiğindeki bir artış, sorgu gecikmesindeki bir artışı açıklamak için kullanılabilir.

Ayrıca bakınız

Referanslar