Sorgu genişletme - Query expansion

Sorgu genişletme ( QE ) , özellikle sorgu anlama bağlamında, bilgi alma işlemlerinde alma performansını iyileştirmek için belirli bir sorguyu yeniden formüle etme sürecidir . Arama motorları bağlamında , sorgu genişletme, bir kullanıcının girdisini değerlendirmeyi (arama sorgu alanına hangi kelimelerin yazıldığını ve bazen diğer veri türlerini ) ve arama sorgusunu ek belgelerle eşleşecek şekilde genişletmeyi içerir. Sorgu genişletme, aşağıdaki gibi teknikleri içerir:

Sorgu genişletme, bilgisayar bilimi alanında , özellikle doğal dil işleme ve bilgi alma alanında çalışılan bir metodolojidir .

Hassasiyet ve geri çağırma takasları

Arama motorları, kullanıcı arama sonuçlarının kalitesini artırmak için sorgu genişletme işlemini başlatır. Kullanıcıların arama sorgularını her zaman en iyi terimleri kullanarak formüle etmediği varsayılır. Bu durumda en iyisi, veritabanının kullanıcı tarafından girilen terimleri içermemesi olabilir.

By kaynaklanan bir kullanıcının girdiği bir dönem için alternatif sözcük formları yanı eşleştirilir gibi bir kullanıcı tarafından girilen terim, daha dokümanlar toplam artan, eşleştirilir hatırlama . Bu, hassasiyeti azaltma pahasına gelir . Kullanıcı tarafından girilen bir terimin eşanlamlılarını aramak için bir arama sorgusunu genişleterek, kesinlik pahasına hatırlama da artırılır. Bu, kesinliğin nasıl hesaplandığına ilişkin denklemin doğasından kaynaklanmaktadır, çünkü hatırlama faktörlerinin paydanın bir parçası olduğu göz önüne alındığında, daha büyük bir hatırlama dolaylı olarak kesinlikte bir azalmaya neden olur. Ayrıca, birçok kullanıcının kesinlik ne olursa olsun daha fazla sonucun taranmasını istemediği göz önüne alındığında, daha büyük bir geri çağırmanın genel arama sonucu kalitesini olumsuz etkilediği sonucuna varılmıştır.

Bu bağlamda sorgu genişletmenin amacı, hatırlamayı artırarak, kesinlik potansiyel olarak artabilir (matematiksel olarak eşitlendiği gibi azalmak yerine), sonuç kümesine daha alakalı (daha yüksek kalitede) veya en azından eşit derecede alakalı sayfalar ekleyerek. Sonuç kümesine dahil edilmeyecek, kullanıcının istediği sorguyla daha alakalı olma potansiyeline sahip sayfalar dahil edilir ve alaka düzeyi ne olursa olsun sorgu genişletmesi olmadan olmaz. Aynı zamanda, mevcut ticari arama motorlarının çoğu, sıralamaya yardımcı olmak için kelime sıklığı ( tf-idf ) kullanır. Hem kullanıcının girdiği kelimelerin hem de eşanlamlıların ve alternatif morfolojik formların oluşumlarını sıralayarak, daha yüksek yoğunluğa (yüksek sıklık ve yakınlık) sahip belgeler arama sonuçlarında daha üst sıralara taşınma eğilimi gösterir ve bu da yakındaki arama sonuçlarının daha yüksek kalitede olmasına yol açar. daha büyük hatırlamaya rağmen sonuçların üstünde.

Sorgu genişletme yöntemleri

Sorgu genişletme için otomatik yöntemler 1960 yılında Maron ve Kuhns tarafından önerildi. Modern sorgu genişletme yöntemleri ya belge toplama analizini (global veya yerel) ima eder ya da sözlük veya ontoloji tabanlıdır. Belge koleksiyonunun genel analizi, terimler arasındaki ilişkileri aramak için uygulanır. Yerel analiz , Rocchio tarafından sunulan alaka düzeyi geri bildirimine atıfta bulunur . Rocchio, alınan belgelerin bazılarını manuel olarak değerlendirmeyi ve bu geri bildirim bilgilerini sorguyu genişletmek için kullanmayı önerdi. Kullanıcıların yargılarını toplamak zor olabileceğinden, yalnızca en çok alınan ilk belgeler ilgili olarak kabul edilir. Buna sözde alaka düzeyi geri bildirimi (PRF) denir . Sözde alaka düzeyi geri bildirimi ortalama olarak etkilidir ancak bazı sorgular, özellikle de en çok alınan belgeler muhtemelen alakasız olduğundan zor olanlar için sonuçlara zarar verebilir. Sözde ilgili belgeler, birçok sorgu terimiyle birlikte ortaya çıkan genişletme adayı terimlerini bulmak için kullanılır. Bu fikir, sözde-ilgili belgelerdeki sorgu terimlerine olan mesafeyi dikkate alan konumsal uygunluk ve yakınlık alaka modellerinde uygunluk dili modeli formalizmi içinde daha da geliştirildi . Sorgu genişletmede başka bir yön, sözcük yerleştirmelerinin uygulanmasıdır .

Sorgu genişletmeye bir alternatif, sorgu metni yerine aranan belgelerin metnini yeniden formüle eden belge genişletmedir .

Ayrıca bakınız

Yazılım kitaplıkları

  • QueryTermAnalyzer açık kaynak, C#. Sorgu genişletme için makine öğrenimi tabanlı sorgu terimi ağırlığı ve eşanlamlı çözümleyici.
  • LucQE - açık kaynak, Java. Apache Lucene kullanımıyla sorgu genişletmesi gerçekleştirmeye izin veren çeşitli uygulamalarla birlikte bir çerçeve sağlar .
  • Xapian , sorgu genişletme desteği içeren açık kaynaklı bir arama kitaplığıdır.
  • ReQue açık kaynak, Python. Denetimli sorgu genişletme yöntemlerini eğitmek ve değerlendirmek için yapılandırılabilir bir yazılım çerçevesi ve altın standart veri kümeleri koleksiyonu.

Referanslar

alıntılar

Kaynaklar

  • D. Abberley, D. Kirby, S. Renals ve T. Robinson, The THEL yayın haber alma sistemi. İn Proc. ESCA ETRW Çalıştayı Sözlü Seste Bilgiye Erişim , (Cambridge), s. 14–19, 1999. Sorgu Genişletme Bölümü - Kısa, matematiksel genel bakış.
  • R. Navigli, P. Velardi. Ontoloji Tabanlı Sorgu Genişletme Stratejilerinin Bir Analizi . Proc. Uyarlamalı Metin Çıkarma ve Madencilik Çalıştayı (ATEM 2003) , 14. Avrupa Makine Öğrenimi Konferansında (ECML 2003) , Cavtat-Dubrovnik, Hırvatistan, 22-26 Eylül 2003, s. 42-49 - Sorgu genişletme analizi referans ontolojisi olarak WordNet'e dayanan yöntemler.
  • Y. Qiu ve HP Frei. Kavram Tabanlı Sorgu Genişletme . In SIGIR-93 Tutanakları, Bilgi Edinme Araştırma ve Kalkınma 16 ACM Uluslararası Konferans , Pittsburgh, SIGIR Forum, ACM Press, Haziran 1993 - sorgu genişletmenin belirli yöntemine Akademik belge
  • Efthimis N. Efthimiadis. Sorgu Genişletme . In: Martha E. Williams (ed.), Annual Review of Information Systems and Technology (ARIST) , v31, pp 121-187, 1996 - Daha az teknik izleyiciler için bir giriş.