Bilgi alma - Information retrieval
Bilgi Bilimi |
---|
Genel yönler |
İlgili alanlar ve alt alanlar |
Bilgi alımı ( IR ), bu kaynakların bir koleksiyonundan bir bilgi ihtiyacıyla ilgili bilgi sistemi kaynaklarını elde etme sürecidir . Aramalar, tam metin veya diğer içerik tabanlı indekslemeye dayalı olabilir. Bilgi alma, bir belgede bilgi arama, belgelerin kendilerini arama ve ayrıca verileri tanımlayan üst verileri ve metin, görüntü veya ses veritabanlarını arama bilimidir .
Otomatik bilgi alma sistemleri, aşırı bilgi yüklemesi denen şeyi azaltmak için kullanılır . IR sistemi, kitaplara, dergilere ve diğer belgelere erişim sağlayan bir yazılım sistemidir; bu belgeleri saklar ve yönetir. Web arama motorları en görünür IR uygulamalarıdır.
genel bakış
Bir kullanıcı sisteme bir sorgu girdiğinde bir bilgi alma süreci başlar. Sorgular, örneğin web arama motorlarındaki arama dizeleri gibi bilgi ihtiyaçlarının resmi ifadeleridir. Bilgi alımında bir sorgu, koleksiyondaki tek bir nesneyi benzersiz şekilde tanımlamaz. Bunun yerine, birkaç nesne, belki de farklı alaka düzeyine sahip sorguyla eşleşebilir .
Nesne, bir içerik koleksiyonu veya veritabanındaki bilgilerle temsil edilen bir varlıktır . Kullanıcı sorguları, veritabanı bilgileriyle eşleştirilir. Ancak, bir veritabanının klasik SQL sorgularının aksine, bilgi alımında döndürülen sonuçlar sorguyla eşleşebilir veya eşleşmeyebilir, bu nedenle sonuçlar tipik olarak sıralanır. Sonuçların bu sıralaması , veri tabanı aramasına kıyasla bilgi alma aramasının önemli bir farkıdır.
Bağlı bir uygulama veri nesneleri olabilir örneğin, metin belgeleri, resim, ses, zihin haritaları veya videoları. Genellikle belgelerin kendileri doğrudan IR sisteminde tutulmaz veya saklanmaz, bunun yerine sistemde belge vekilleri veya meta verilerle temsil edilir .
Çoğu IR sistemi, veritabanındaki her nesnenin sorguyla ne kadar iyi eşleştiğine dair sayısal bir puan hesaplar ve nesneleri bu değere göre sıralar. En üst sıradaki nesneler daha sonra kullanıcıya gösterilir. Kullanıcı sorguyu hassaslaştırmak isterse, süreç daha sonra yinelenebilir.
Tarih
Univac adında bir makine var... harfler ve rakamlar uzun bir çelik bant üzerinde manyetik noktalar şeklinde kodlanıyor. Bu sayede bir belgenin metni, konu kodu simgesinin önüne geçerek kaydedilebilir ... makine ... dakikada 120 kelime hızında herhangi bir şekilde kodlanmış referansları otomatik olarak seçer ve yazar.
— JE Holmström, 1948
İlgili bilgi parçalarını aramak için bilgisayarları kullanma fikri, 1945'te Vannevar Bush'un Düşündüğümüz Gibi başlıklı makalesinde popüler hale getirildi. Görünüşe göre Bush, 1920'lerde Emanuel Goldberg tarafından dosyalanan bir 'istatistiksel makine' için patentlerden ilham aldı. ve 30'lar - filmde saklanan belgeleri arayanlar. Bilgi arayan bir bilgisayarın ilk tanımı, Holmstrom tarafından 1948'de, Univac bilgisayarından erken bir sözün ayrıntılarını vererek tanımlandı . Otomatik bilgi alma sistemleri 1950'lerde tanıtıldı: bunlardan biri 1957 romantik komedisi Desk Set'te bile yer aldı . 1960'larda, ilk büyük bilgi erişim araştırma grubu Cornell'de Gerard Salton tarafından kuruldu . 1970'lere gelindiğinde birkaç farklı geri alma tekniğinin Cranfield koleksiyonu (birkaç bin belge) gibi küçük metin külliyatları üzerinde iyi performans gösterdiği gösterilmişti . Lockheed Dialog sistemi gibi büyük ölçekli erişim sistemleri 1970'lerin başlarında kullanılmaya başlandı.
1992'de ABD Savunma Bakanlığı, Ulusal Standartlar ve Teknoloji Enstitüsü (NIST) ile birlikte TIPSTER metin programının bir parçası olarak Metin Alma Konferansı'na (TREC) ortak sponsor oldu. Bunun amacı, çok geniş bir metin koleksiyonunda metin erişim metodolojilerinin değerlendirilmesi için gerekli olan altyapıyı sağlayarak bilgi erişim topluluğuna bakmaktı. Bu , devasa korporalara ölçeklenen yöntemler üzerine araştırmayı hızlandırdı. Web arama motorlarının tanıtılması, çok büyük ölçekli erişim sistemlerine olan ihtiyacı daha da artırdı.
Uygulamalar
Bilgi alma tekniklerinin kullanıldığı alanlar şunları içerir (girişler her kategoride alfabetik olarak sıralanmıştır):
Genel uygulamalar
- Dijital kütüphaneler
- Bilgi filtreleme
- Medya arama
- Blog arama
- Görüntü alma
- 3D alma
- Müzik alımı
- Haber arama
- konuşma alma
- Video alma
- Arama motorları
Etki alanına özel uygulamalar
- Uzman arama bulgusu
- Genomik bilgi alma
- Coğrafi bilgi alma
- Kimyasal yapılar için bilgi alma
- Yazılım mühendisliğinde bilgi alma
- Yasal bilgi alma
- Dikey arama
Diğer alma yöntemleri
Bilgi alma tekniklerinin kullanıldığı Yöntemler/Teknikler şunları içerir:
- Düşmanca bilgi alma
- Otomatik özetleme
- Bileşik terim işleme
- Diller arası erişim
- Belge sınıflandırması
- spam filtreleme
- Soru cevaplama
Model türleri
IR stratejileriyle ilgili belgeleri etkin bir şekilde almak için, belgeler tipik olarak uygun bir temsile dönüştürülür. Her geri alma stratejisi, belge temsil amaçları için belirli bir modeli içerir. Sağdaki resim, bazı yaygın modellerin ilişkisini göstermektedir. Resimde modeller iki boyuta göre sınıflandırılmıştır: matematiksel temel ve modelin özellikleri.
Birinci boyut: matematiksel temel
- Küme-teorik modeller, belgeleri kelime veya deyim kümeleri olarak temsil eder . Benzerlikler genellikle bu kümeler üzerindeki küme-teorik işlemlerden türetilir. Yaygın modeller şunlardır:
- Cebirsel modeller , belgeleri ve sorguları genellikle vektörler, matrisler veya demetler olarak temsil eder. Sorgu vektörü ve belge vektörünün benzerliği, skaler bir değer olarak temsil edilir.
-
Olasılık modelleri , belge alma sürecini olasılıksal bir çıkarım olarak ele alır. Benzerlikler, bir belgenin belirli bir sorgu için alakalı olma olasılıkları olarak hesaplanır. Bayes teoremi gibi olasılık teoremleri bu modellerde sıklıkla kullanılır.
- İkili Bağımsızlık Modeli
- Okapi (BM25) uygunluk fonksiyonunun temel alındığı olasılıksal uygunluk modeli
- belirsiz çıkarım
- Dil modelleri
- Rastgelelikten sapma modeli
- Gizli Dirichlet tahsisi
- Özellik tabanlı alma modelleri, belgeleri özellik işlevlerinin (veya yalnızca özelliklerin ) değerlerinin vektörleri olarak görür ve tipik olarak yöntemleri sıralamayı öğrenerek bu özellikleri tek bir uygunluk puanıyla birleştirmenin en iyi yolunu arar . Özellik işlevleri, belge ve sorgunun isteğe bağlı işlevleridir ve bu nedenle, hemen hemen tüm diğer alma modellerini başka bir özellik olarak kolayca dahil edebilir.
İkinci boyut: modelin özellikleri
- Terim bağımlılığı olmayan modeller, farklı terimleri/kelimeleri bağımsız olarak ele alır. Bu gerçek genellikle vektör uzay modellerinde terim vektörlerinin ortogonallik varsayımıyla veya olasılık modellerinde terim değişkenleri için bir bağımsızlık varsayımıyla temsil edilir.
- İçkin terim karşılıklı bağımlılıkları olan modeller, terimler arasındaki karşılıklı bağımlılıkların bir temsiline izin verir. Bununla birlikte, iki terim arasındaki karşılıklı bağımlılığın derecesi, modelin kendisi tarafından tanımlanır. Genellikle doğrudan veya dolaylı olarak (örneğin boyut indirgeme yoluyla ) bu terimlerin tüm belgelerde birlikte bulunmasından türetilir .
- Aşkın terim karşılıklı bağımlılıkları olan modeller, terimler arasındaki karşılıklı bağımlılığın bir temsiline izin verir, ancak iki terim arasındaki karşılıklı bağımlılığın nasıl tanımlandığını iddia etmezler. İki terim arasındaki karşılıklı bağımlılık derecesi için bir dış kaynağa güvenirler. (Örneğin, bir insan veya karmaşık algoritmalar.)
Performans ve doğruluk ölçüleri
Bir bilgi erişim sisteminin değerlendirilmesi', bir sistemin kullanıcılarının bilgi ihtiyaçlarını ne kadar iyi karşıladığını değerlendirme sürecidir. Genel olarak ölçüm, aranacak bir belge koleksiyonunu ve bir arama sorgusunu dikkate alır. Boolean alımı veya birinci sınıf alımı için tasarlanmış geleneksel değerlendirme metrikleri, kesinlik ve geri çağırmayı içerir . Tüm ölçümler, temel bir uygunluk kavramı olduğunu varsayar : her belgenin belirli bir sorguyla ya alakalı olduğu ya da alakasız olduğu bilinmektedir. Uygulamada, sorguları olabilir kötü poz verdi ve alaka farklı tonları olabilir.
Zaman çizelgesi
- 1900'lerden önce
- 1801 : Joseph Marie Jacquard , bir dizi işlemi kontrol etmek için delikli kartları kullanan ilk makine olan Jakarlı dokuma tezgâhını icat etti .
- 1880'ler : Herman Hollerith , makine tarafından okunabilir bir ortam olarak delikli kartları kullanan bir elektro-mekanik veri
- 1890 Hollerith kartları , keypunches ve tabulators işlemek için kullanılan 1890 ABD Nüfus verileri.
-
1920'ler-1930'lar
- Emanuel Goldberg , mikrofilme alınmış belge rulolarındaki meta verileri aramak için fotoelektrik hücreler ve örüntü tanıma kullanan bir belge arama motoru olan "İstatistik Makinesi" için patentler sunar.
-
1940'lar – 1950'ler
-
1940'ların sonlarında : ABD ordusu, Almanlardan ele geçirilen savaş zamanı bilimsel araştırma belgelerinin indekslenmesi ve geri alınması sorunlarıyla karşı karşıya kaldı.
- 1945 : Vannevar Bush 's Biz sandığı gibi göründü Atlantic Monthly .
- 1947 : Hans Peter Luhn (1941'den beri IBM'de araştırma mühendisi) kimyasal bileşikleri aramak için mekanize bir delikli kart tabanlı sistem üzerinde çalışmaya başladı.
- 1950'ler : ABD'de SSCB ile bir "bilim boşluğu" için artan endişe motive oldu, finansmanı teşvik etti ve mekanize literatür tarama sistemleri ( Allen Kent ve diğerleri ) ve Eugene Garfield tarafından atıf indeksinin icadı için bir zemin sağladı .
- 1950 : "Bilgi erişimi" terimi Calvin Mooers tarafından icat edildi .
- 1951 : Philip Bagley , MIT'de bir yüksek lisans tezinde bilgisayarlı belge erişimiyle ilgili ilk deneyi gerçekleştirdi .
- 1955 : Allen Kent, Case Western Reserve Üniversitesi'ne katıldı ve sonunda Dokümantasyon ve İletişim Araştırmaları Merkezi'nin müdür yardımcısı oldu. Aynı yıl, Kent ve meslektaşları American Documentation'da kesinlik ve geri çağırma önlemlerini açıklayan bir makale yayınladılar ve ayrıca, geri alınmayan ilgili belgelerin sayısını belirlemek için istatistiksel örnekleme yöntemlerini içeren bir IR sistemini değerlendirmek için önerilen bir "çerçeveyi" detaylandırdılar.
- 1958 : Uluslararası Bilimsel Bilgi Konferansı Washington DC, IR sistemlerinin tespit edilen sorunlara bir çözüm olarak değerlendirilmesini içeriyordu. Bakınız: Proceedings of the International Conference on Scientific Information, 1958 (Ulusal Bilimler Akademisi, Washington, DC, 1959)
- 1959 : Hans Peter Luhn, "Bilgi almak için belgelerin otomatik olarak kodlanması" nı yayınladı.
-
1940'ların sonlarında : ABD ordusu, Almanlardan ele geçirilen savaş zamanı bilimsel araştırma belgelerinin indekslenmesi ve geri alınması sorunlarıyla karşı karşıya kaldı.
-
1960'lar :
- 1960'ların başı : Gerard Salton Harvard'da IR üzerinde çalışmaya başladı, daha sonra Cornell'e taşındı.
- 1960 : Melvin Earl Maron ve John Lary Kuhns, Journal of the ACM 7(3):216–244, Temmuz 1960'da "Uygunluk, olasılıksal indeksleme ve bilgi alımı üzerine" yayınladı.
-
1962 :
- Cyril W. Cleverdon , Cranfield çalışmalarının erken bulgularını yayınlayarak IR sistem değerlendirmesi için bir model geliştirdi. Bakınız: Cyril W. Cleverdon, "İndeksleme Sistemlerinin Karşılaştırmalı Verimliliğine İlişkin Bir Araştırmanın Test Edilmesi ve Analizi Üzerine Rapor". Cranfield Havacılık Koleksiyonu, Cranfield, İngiltere, 1962.
- Kent, Bilgi Analizi ve Erişimini yayınladı .
-
1963 :
- Weinberg'in "Bilim, Yönetim ve Enformasyon" başlıklı raporu, "bilimsel bilgi krizi" fikrinin tam bir ifadesini verdi. Rapor adını Dr. Alvin Weinberg'den almıştır .
- Joseph Becker ve Robert M. Hayes bilgi erişimi üzerine bir metin yayınladılar. Becker, Yusuf; Hayes, Robert Mayo. Bilgi depolama ve alma: araçlar, öğeler, teoriler . New York, Wiley (1963).
-
1964 :
- Karen Spärck Jones , Cambridge, Eşanlamlılık ve Semantik Sınıflandırma'da tezini tamamladı ve IR için geçerli olduğu için hesaplamalı dilbilim üzerinde çalışmaya devam etti .
- Ulusal Standartlar Bürosu başlıklı bir sempozyum sponsor "Mekanize Belgeler için İstatistiksel Yöntemler Derneği." G. Salton'un SMART sistemine ilk yayınlanmış referansı (inanıyoruz) dahil olmak üzere birçok önemli makale .
-
1960'ların ortası :
- Ulusal Tıp Kütüphanesi, makine tarafından okunabilen ilk büyük veri tabanı ve toplu erişim sistemi olan MEDLARS Tıbbi Literatür Analizi ve Erişim Sistemini geliştirdi .
- MIT'de Proje Intrex.
- 1965 : JCR Licklider , Geleceğin Kütüphaneleri'ni yayınladı .
- 1966 : Don Swanson , Chicago Üniversitesi'nde Gelecek Katalog Gereksinimleri üzerine çalışmalara katıldı.
-
1960'ların sonu : F. Wilfrid Lancaster , MEDLARS sisteminin değerlendirme çalışmalarını tamamladı ve bilgi erişimi üzerine metninin ilk baskısını yayınladı.
- 1968 :
- Gerard Salton Otomatik Bilgi Organizasyonu ve Erişimini yayınladı .
- John W. Sammon, Jr.'ın RADC Tech raporu "Some Mathematics of Information Storage and Retrival..." vektör modelini özetledi.
- 1969 : Sammon'un " Veri yapısı analizi için doğrusal olmayan bir haritalama " (Bilgisayarlarda IEEE İşlemleri), bir IR sistemine görselleştirme arayüzü için ilk öneriydi.
-
1970'ler
-
1970'lerin başı :
- İlk çevrimiçi sistemler—NLM'nin AIM-TWX, MEDLINE; Lockheed'in Diyaloğu; SDC'nin ORBIT'i.
- Theodor Nelson hipermetin kavramını tanıtıyor , Computer Lib/Dream Machines'i yayınladı .
- 1971 : Nicholas Jardine ve Cornelis J. van Rijsbergen , "küme hipotezini" açıklayan "Bilgi alımında hiyerarşik kümelemenin kullanımı"nı yayınladı .
- 1975 : Salton'un son derece etkili üç yayını, vektör işleme çerçevesini ve terim ayrımcılığı modelini tam olarak dile getirdi :
- 1978 : İlk ACM SIGIR konferansı.
- 1979 : CJ van Rijsbergen Bilgi Erişimi'ni (Butterworths) yayınladı . Olasılık modellerine yoğun vurgu.
- 1979 : Tamas Doszkocs , National Library of Medicine'de MEDLINE için CITE doğal dil kullanıcı arayüzünü uyguladı . CITE sistemi, serbest biçimli sorgu girişini, sıralanmış çıktıyı ve alaka düzeyi geri bildirimini destekledi.
-
1970'lerin başı :
-
1980'ler
- 1980 : Cambridge'deki British Computer Society IR grubu ile ortaklaşa ilk uluslararası ACM SIGIR konferansı.
- 1982 : Nicholas J. Belkin , Robert N. Oddy ve Helen M. Brooks, bilgi erişimi için ASK (Anormal Bilgi Durumu) bakış açısını önerdi. Bu önemli bir kavramdı, ancak otomatik analiz araçları sonuçta hayal kırıklığı yarattı.
- 1983 : Salton (ve Michael J. McGill) Modern Bilgi Erişimine Giriş'i (McGraw-Hill), vektör modellerine büyük önem vererek yayınladı.
- 1985 : David Blair ve Bill Maron yayınlıyor: Bir Tam Metin Belge Alma Sistemi için Erişim Etkinliğinin Değerlendirilmesi
-
1980'lerin ortası : Ticari IR sistemlerinin son kullanıcı versiyonlarını geliştirme çabaları.
- 1985–1993 : Görselleştirme arayüzleri için temel makaleler ve deneysel sistemler.
- Work Donald B. Crouch , Robert R. KORFHAGE Matthew Chalmers, Anselm Spörri ve diğerleri.
- 1989 : Birinci World Wide Web tarafından önerilerin Tim Berners-Lee de CERN'e .
-
1990'lar
- 1992 : İlk TREC konferansı.
- 1997 : Korfhage'nin Bilgi Depolama ve Geri Alma adlı kitabının görselleştirme ve çoklu referans noktası sistemlerine vurgu yapılarak yayınlanması.
- 1999 : Addison Wesley tarafından yazılan Ricardo Baeza-Yates ve Berthier Ribeiro-Neto'nun Modern Bilgi Erişimi'nin yayımlanması, tüm Uluslararası İlişkileri kapsamaya çalışan ilk kitap.
- 1990'ların sonu : Daha önce yalnızca deneysel IR sistemlerinde bulunan birçok özelliğin web arama motorları uygulaması. Arama motorları, IR modellerinin en yaygın ve belki de en iyi örneği haline gelir.
Başlıca konferanslar
- SIGIR: Bilgi Erişiminde Araştırma ve Geliştirme Konferansı
- ECIR: Avrupa Bilgi Erişimi Konferansı
- CIKM: Bilgi ve Bilgi Yönetimi Konferansı
- WWW: Uluslararası World Wide Web Konferansı
- WSDM: Web Araması ve Veri Madenciliği Konferansı
- ICTIR: Uluslararası Bilgi Erişim Teorisi Konferansı
Alandaki ödüller
Ayrıca bakınız
- Olumsuz bilgi alımı – Veri kümelerinde bilgi alma stratejileri
- Bilgisayar belleği - Bilgisayarda veri depolamak için kullanılan aygıt
- Kontrollü kelime dağarcığı
- Diller arası bilgi alma
- Veri madenciliği – Büyük veri kümelerindeki kalıpları çıkarma ve keşfetme süreci
- Bilgi Erişiminde Avrupa Yaz Okulu
- İnsan-bilgisayar bilgi alımı (HCIR)
- Bilgi çıkarma - İnsan dili metinleri gibi makine tarafından okunabilen yarı yapılandırılmış veya yarı yapılandırılmış belgelerden yapılandırılmış bilgilerin otomatik olarak çıkarılması
- Bilgi arama - Hem insan hem de teknolojik bağlamlarda bilgi elde etmeye çalışma süreci veya faaliyeti
- Bilgi Alma Tesisi
- Bilgi görselleştirme
- Multimedya bilgi alma
- Kişisel bilgi yönetimi
- Sorgu anlayışı
- Alaka düzeyi (bilgi alma)
- alaka geri bildirimi
- Rocchio sınıflandırması
- Arama motoru indeksleme
- Bilgi Edinme Özel İlgi Grubu
- Konu indeksleme
- Geçici bilgi alma
- tf–idf – bir bütüncedeki bir belge için bir kelimenin önemini yansıtan sayı
- XML alımı
- Web madenciliği
Referanslar
daha fazla okuma
- Ricardo Baeza-Yates, Berthier Ribeiro-Neto. Modern Bilgi Erişimi: Aramanın Arkasındaki Kavramlar ve Teknoloji (ikinci baskı) . Addison-Wesley, Birleşik Krallık, 2011.
- Stefan Büttcher, Charles LA Clarke ve Gordon V. Cormack. Bilgi Erişimi: Arama Motorlarını Uygulama ve Değerlendirme . MIT Press, Cambridge, Massachusetts, 2010.
- "Bilgi Alma Sistemi" . Kütüphane ve Bilgi Bilim Ağı . 24 Nisan 2015.
- Christopher D. Manning, Prabhakar Raghavan ve Hinrich Schütze. Bilgi Erişimine Giriş . Cambridge Üniversitesi Yayınları, 2008.
Dış bağlantılar
- ACM SIGIR: Bilgi Erişimi Özel İlgi Grubu
- BCS IRSG: İngiliz Bilgisayar Topluluğu - Bilgi Erişimi Uzman Grubu
- Metin Alma Konferansı (TREC)
- Bilgi Erişimi Değerlendirme Forumu (FIRE)
- Bilgi Erişimi (çevrimiçi kitap) CJ van Rijsbergen
- Bilgi Alma Wiki'si
- Bilgi Alma Tesisi
- Bilgi Alma @ DUTH
- Bilgi alma değerlendirme teknikleri hakkında TREC raporu
- eBay, arama alaka düzeyini nasıl ölçer?
- Bilgi alma performans değerlendirme aracı @ Athena Araştırma Merkezi