Bilgi alma - Information retrieval

Bilgi alımı ( IR ), bu kaynakların bir koleksiyonundan bir bilgi ihtiyacıyla ilgili bilgi sistemi kaynaklarını elde etme sürecidir . Aramalar, tam metin veya diğer içerik tabanlı indekslemeye dayalı olabilir. Bilgi alma, bir belgede bilgi arama, belgelerin kendilerini arama ve ayrıca verileri tanımlayan üst verileri ve metin, görüntü veya ses veritabanlarını arama bilimidir .

Otomatik bilgi alma sistemleri, aşırı bilgi yüklemesi denen şeyi azaltmak için kullanılır . IR sistemi, kitaplara, dergilere ve diğer belgelere erişim sağlayan bir yazılım sistemidir; bu belgeleri saklar ve yönetir. Web arama motorları en görünür IR uygulamalarıdır.

genel bakış

Bir kullanıcı sisteme bir sorgu girdiğinde bir bilgi alma süreci başlar. Sorgular, örneğin web arama motorlarındaki arama dizeleri gibi bilgi ihtiyaçlarının resmi ifadeleridir. Bilgi alımında bir sorgu, koleksiyondaki tek bir nesneyi benzersiz şekilde tanımlamaz. Bunun yerine, birkaç nesne, belki de farklı alaka düzeyine sahip sorguyla eşleşebilir .

Nesne, bir içerik koleksiyonu veya veritabanındaki bilgilerle temsil edilen bir varlıktır . Kullanıcı sorguları, veritabanı bilgileriyle eşleştirilir. Ancak, bir veritabanının klasik SQL sorgularının aksine, bilgi alımında döndürülen sonuçlar sorguyla eşleşebilir veya eşleşmeyebilir, bu nedenle sonuçlar tipik olarak sıralanır. Sonuçların bu sıralaması , veri tabanı aramasına kıyasla bilgi alma aramasının önemli bir farkıdır.

Bağlı bir uygulama veri nesneleri olabilir örneğin, metin belgeleri, resim, ses, zihin haritaları veya videoları. Genellikle belgelerin kendileri doğrudan IR sisteminde tutulmaz veya saklanmaz, bunun yerine sistemde belge vekilleri veya meta verilerle temsil edilir .

Çoğu IR sistemi, veritabanındaki her nesnenin sorguyla ne kadar iyi eşleştiğine dair sayısal bir puan hesaplar ve nesneleri bu değere göre sıralar. En üst sıradaki nesneler daha sonra kullanıcıya gösterilir. Kullanıcı sorguyu hassaslaştırmak isterse, süreç daha sonra yinelenebilir.

Tarih

Univac adında bir makine var... harfler ve rakamlar uzun bir çelik bant üzerinde manyetik noktalar şeklinde kodlanıyor. Bu sayede bir belgenin metni, konu kodu simgesinin önüne geçerek kaydedilebilir ... makine ... dakikada 120 kelime hızında herhangi bir şekilde kodlanmış referansları otomatik olarak seçer ve yazar.

—  JE Holmström, 1948

İlgili bilgi parçalarını aramak için bilgisayarları kullanma fikri, 1945'te Vannevar Bush'un Düşündüğümüz Gibi başlıklı makalesinde popüler hale getirildi. Görünüşe göre Bush, 1920'lerde Emanuel Goldberg tarafından dosyalanan bir 'istatistiksel makine' için patentlerden ilham aldı. ve 30'lar - filmde saklanan belgeleri arayanlar. Bilgi arayan bir bilgisayarın ilk tanımı, Holmstrom tarafından 1948'de, Univac bilgisayarından erken bir sözün ayrıntılarını vererek tanımlandı . Otomatik bilgi alma sistemleri 1950'lerde tanıtıldı: bunlardan biri 1957 romantik komedisi Desk Set'te bile yer aldı . 1960'larda, ilk büyük bilgi erişim araştırma grubu Cornell'de Gerard Salton tarafından kuruldu . 1970'lere gelindiğinde birkaç farklı geri alma tekniğinin Cranfield koleksiyonu (birkaç bin belge) gibi küçük metin külliyatları üzerinde iyi performans gösterdiği gösterilmişti . Lockheed Dialog sistemi gibi büyük ölçekli erişim sistemleri 1970'lerin başlarında kullanılmaya başlandı.

1992'de ABD Savunma Bakanlığı, Ulusal Standartlar ve Teknoloji Enstitüsü (NIST) ile birlikte TIPSTER metin programının bir parçası olarak Metin Alma Konferansı'na (TREC) ortak sponsor oldu. Bunun amacı, çok geniş bir metin koleksiyonunda metin erişim metodolojilerinin değerlendirilmesi için gerekli olan altyapıyı sağlayarak bilgi erişim topluluğuna bakmaktı. Bu , devasa korporalara ölçeklenen yöntemler üzerine araştırmayı hızlandırdı. Web arama motorlarının tanıtılması, çok büyük ölçekli erişim sistemlerine olan ihtiyacı daha da artırdı.

Uygulamalar

Bilgi alma tekniklerinin kullanıldığı alanlar şunları içerir (girişler her kategoride alfabetik olarak sıralanmıştır):

Genel uygulamalar

Etki alanına özel uygulamalar

Diğer alma yöntemleri

Bilgi alma tekniklerinin kullanıldığı Yöntemler/Teknikler şunları içerir:

Model türleri

IR modellerinin sınıflandırılması ( Almanca girişinden çevrilmiştir , orijinal kaynak Dominik Kuropka ).

IR stratejileriyle ilgili belgeleri etkin bir şekilde almak için, belgeler tipik olarak uygun bir temsile dönüştürülür. Her geri alma stratejisi, belge temsil amaçları için belirli bir modeli içerir. Sağdaki resim, bazı yaygın modellerin ilişkisini göstermektedir. Resimde modeller iki boyuta göre sınıflandırılmıştır: matematiksel temel ve modelin özellikleri.

Birinci boyut: matematiksel temel

İkinci boyut: modelin özellikleri

  • Terim bağımlılığı olmayan modeller, farklı terimleri/kelimeleri bağımsız olarak ele alır. Bu gerçek genellikle vektör uzay modellerinde terim vektörlerinin ortogonallik varsayımıyla veya olasılık modellerinde terim değişkenleri için bir bağımsızlık varsayımıyla temsil edilir.
  • İçkin terim karşılıklı bağımlılıkları olan modeller, terimler arasındaki karşılıklı bağımlılıkların bir temsiline izin verir. Bununla birlikte, iki terim arasındaki karşılıklı bağımlılığın derecesi, modelin kendisi tarafından tanımlanır. Genellikle doğrudan veya dolaylı olarak (örneğin boyut indirgeme yoluyla ) bu terimlerin tüm belgelerde birlikte bulunmasından türetilir .
  • Aşkın terim karşılıklı bağımlılıkları olan modeller, terimler arasındaki karşılıklı bağımlılığın bir temsiline izin verir, ancak iki terim arasındaki karşılıklı bağımlılığın nasıl tanımlandığını iddia etmezler. İki terim arasındaki karşılıklı bağımlılık derecesi için bir dış kaynağa güvenirler. (Örneğin, bir insan veya karmaşık algoritmalar.)

Performans ve doğruluk ölçüleri

Bir bilgi erişim sisteminin değerlendirilmesi', bir sistemin kullanıcılarının bilgi ihtiyaçlarını ne kadar iyi karşıladığını değerlendirme sürecidir. Genel olarak ölçüm, aranacak bir belge koleksiyonunu ve bir arama sorgusunu dikkate alır. Boolean alımı veya birinci sınıf alımı için tasarlanmış geleneksel değerlendirme metrikleri, kesinlik ve geri çağırmayı içerir . Tüm ölçümler, temel bir uygunluk kavramı olduğunu varsayar : her belgenin belirli bir sorguyla ya alakalı olduğu ya da alakasız olduğu bilinmektedir. Uygulamada, sorguları olabilir kötü poz verdi ve alaka farklı tonları olabilir.

Zaman çizelgesi

  • 1900'lerden önce
    1801 : Joseph Marie Jacquard , bir dizi işlemi kontrol etmek için delikli kartları kullanan ilk makine olan Jakarlı dokuma tezgâhını icat etti .
    1880'ler : Herman Hollerith , makine tarafından okunabilir bir ortam olarak delikli kartları kullanan bir elektro-mekanik veri
    tablolayıcı icat etti.
    1890 Hollerith kartları , keypunches ve tabulators işlemek için kullanılan 1890 ABD Nüfus verileri.
  • 1920'ler-1930'lar
    Emanuel Goldberg , mikrofilme alınmış belge rulolarındaki meta verileri aramak için fotoelektrik hücreler ve örüntü tanıma kullanan bir belge arama motoru olan "İstatistik Makinesi" için patentler sunar.
  • 1940'lar – 1950'ler
    1940'ların sonlarında : ABD ordusu, Almanlardan ele geçirilen savaş zamanı bilimsel araştırma belgelerinin indekslenmesi ve geri alınması sorunlarıyla karşı karşıya kaldı.
    1945 : Vannevar Bush 's Biz sandığı gibi göründü Atlantic Monthly .
    1947 : Hans Peter Luhn (1941'den beri IBM'de araştırma mühendisi) kimyasal bileşikleri aramak için mekanize bir delikli kart tabanlı sistem üzerinde çalışmaya başladı.
    1950'ler : ABD'de SSCB ile bir "bilim boşluğu" için artan endişe motive oldu, finansmanı teşvik etti ve mekanize literatür tarama sistemleri ( Allen Kent ve diğerleri ) ve Eugene Garfield tarafından atıf indeksinin icadı için bir zemin sağladı .
    1950 : "Bilgi erişimi" terimi Calvin Mooers tarafından icat edildi .
    1951 : Philip Bagley , MIT'de bir yüksek lisans tezinde bilgisayarlı belge erişimiyle ilgili ilk deneyi gerçekleştirdi .
    1955 : Allen Kent, Case Western Reserve Üniversitesi'ne katıldı ve sonunda Dokümantasyon ve İletişim Araştırmaları Merkezi'nin müdür yardımcısı oldu. Aynı yıl, Kent ve meslektaşları American Documentation'da kesinlik ve geri çağırma önlemlerini açıklayan bir makale yayınladılar ve ayrıca, geri alınmayan ilgili belgelerin sayısını belirlemek için istatistiksel örnekleme yöntemlerini içeren bir IR sistemini değerlendirmek için önerilen bir "çerçeveyi" detaylandırdılar.
    1958 : Uluslararası Bilimsel Bilgi Konferansı Washington DC, IR sistemlerinin tespit edilen sorunlara bir çözüm olarak değerlendirilmesini içeriyordu. Bakınız: Proceedings of the International Conference on Scientific Information, 1958 (Ulusal Bilimler Akademisi, Washington, DC, 1959)
    1959 : Hans Peter Luhn, "Bilgi almak için belgelerin otomatik olarak kodlanması" yayınladı.
  • 1960'lar :
    1960'ların başı : Gerard Salton Harvard'da IR üzerinde çalışmaya başladı, daha sonra Cornell'e taşındı.
    1960 : Melvin Earl Maron ve John Lary Kuhns, Journal of the ACM 7(3):216–244, Temmuz 1960'da "Uygunluk, olasılıksal indeksleme ve bilgi alımı üzerine" yayınladı.
    1962 :
    • Cyril W. Cleverdon , Cranfield çalışmalarının erken bulgularını yayınlayarak IR sistem değerlendirmesi için bir model geliştirdi. Bakınız: Cyril W. Cleverdon, "İndeksleme Sistemlerinin Karşılaştırmalı Verimliliğine İlişkin Bir Araştırmanın Test Edilmesi ve Analizi Üzerine Rapor". Cranfield Havacılık Koleksiyonu, Cranfield, İngiltere, 1962.
    • Kent, Bilgi Analizi ve Erişimini yayınladı .
    1963 :
    • Weinberg'in "Bilim, Yönetim ve Enformasyon" başlıklı raporu, "bilimsel bilgi krizi" fikrinin tam bir ifadesini verdi. Rapor adını Dr. Alvin Weinberg'den almıştır .
    • Joseph Becker ve Robert M. Hayes bilgi erişimi üzerine bir metin yayınladılar. Becker, Yusuf; Hayes, Robert Mayo. Bilgi depolama ve alma: araçlar, öğeler, teoriler . New York, Wiley (1963).
    1964 :
    • Karen Spärck Jones , Cambridge, Eşanlamlılık ve Semantik Sınıflandırma'da tezini tamamladı ve IR için geçerli olduğu için hesaplamalı dilbilim üzerinde çalışmaya devam etti .
    • Ulusal Standartlar Bürosu başlıklı bir sempozyum sponsor "Mekanize Belgeler için İstatistiksel Yöntemler Derneği." G. Salton'un SMART sistemine ilk yayınlanmış referansı (inanıyoruz) dahil olmak üzere birçok önemli makale .
    1960'ların ortası :
    • Ulusal Tıp Kütüphanesi, makine tarafından okunabilen ilk büyük veri tabanı ve toplu erişim sistemi olan MEDLARS Tıbbi Literatür Analizi ve Erişim Sistemini geliştirdi .
    • MIT'de Proje Intrex.
    1965 : JCR Licklider , Geleceğin Kütüphaneleri'ni yayınladı .
    1966 : Don Swanson , Chicago Üniversitesi'nde Gelecek Katalog Gereksinimleri üzerine çalışmalara katıldı.
    1960'ların sonu : F. Wilfrid Lancaster , MEDLARS sisteminin değerlendirme çalışmalarını tamamladı ve bilgi erişimi üzerine metninin ilk baskısını yayınladı.
    1968 :
    • Gerard Salton Otomatik Bilgi Organizasyonu ve Erişimini yayınladı .
    • John W. Sammon, Jr.'ın RADC Tech raporu "Some Mathematics of Information Storage and Retrival..." vektör modelini özetledi.
    1969 : Sammon'un " Veri yapısı analizi için doğrusal olmayan bir haritalama " (Bilgisayarlarda IEEE İşlemleri), bir IR sistemine görselleştirme arayüzü için ilk öneriydi.
  • 1970'ler
    1970'lerin başı :
    • İlk çevrimiçi sistemler—NLM'nin AIM-TWX, MEDLINE; Lockheed'in Diyaloğu; SDC'nin ORBIT'i.
    • Theodor Nelson hipermetin kavramını tanıtıyor , Computer Lib/Dream Machines'i yayınladı .
    1971 : Nicholas Jardine ve Cornelis J. van Rijsbergen , "küme hipotezini" açıklayan "Bilgi alımında hiyerarşik kümelemenin kullanımı"nı yayınladı .
    1975 : Salton'un son derece etkili üç yayını, vektör işleme çerçevesini ve terim ayrımcılığı modelini tam olarak dile getirdi :
    • Endeksleme Teorisi (Endüstriyel ve Uygulamalı Matematik Derneği)
    • Otomatik Metin Analizinde Terim Önemi Teorisi ( JASIS v. 26)
    • Otomatik İndeksleme İçin Bir Vektör Uzay Modeli ( CACM 18:11)
    1978 : İlk ACM SIGIR konferansı.
    1979 : CJ van Rijsbergen Bilgi Erişimi'ni (Butterworths) yayınladı . Olasılık modellerine yoğun vurgu.
    1979 : Tamas Doszkocs , National Library of Medicine'de MEDLINE için CITE doğal dil kullanıcı arayüzünü uyguladı . CITE sistemi, serbest biçimli sorgu girişini, sıralanmış çıktıyı ve alaka düzeyi geri bildirimini destekledi.
  • 1980'ler
    1980 : Cambridge'deki British Computer Society IR grubu ile ortaklaşa ilk uluslararası ACM SIGIR konferansı.
    1982 : Nicholas J. Belkin , Robert N. Oddy ve Helen M. Brooks, bilgi erişimi için ASK (Anormal Bilgi Durumu) bakış açısını önerdi. Bu önemli bir kavramdı, ancak otomatik analiz araçları sonuçta hayal kırıklığı yarattı.
    1983 : Salton (ve Michael J. McGill) Modern Bilgi Erişimine Giriş'i (McGraw-Hill), vektör modellerine büyük önem vererek yayınladı.
    1985 : David Blair ve Bill Maron yayınlıyor: Bir Tam Metin Belge Alma Sistemi için Erişim Etkinliğinin Değerlendirilmesi
    1980'lerin ortası : Ticari IR sistemlerinin son kullanıcı versiyonlarını geliştirme çabaları.
    1985–1993 : Görselleştirme arayüzleri için temel makaleler ve deneysel sistemler.
    Work Donald B. Crouch , Robert R. KORFHAGE Matthew Chalmers, Anselm Spörri ve diğerleri.
    1989 : Birinci World Wide Web tarafından önerilerin Tim Berners-Lee de CERN'e .
  • 1990'lar
    1992 : İlk TREC konferansı.
    1997 : Korfhage'nin Bilgi Depolama ve Geri Alma adlı kitabının görselleştirme ve çoklu referans noktası sistemlerine vurgu yapılarak yayınlanması.
    1999 : Addison Wesley tarafından yazılan Ricardo Baeza-Yates ve Berthier Ribeiro-Neto'nun Modern Bilgi Erişimi'nin yayımlanması, tüm Uluslararası İlişkileri kapsamaya çalışan ilk kitap.
    1990'ların sonu : Daha önce yalnızca deneysel IR sistemlerinde bulunan birçok özelliğin web arama motorları uygulaması. Arama motorları, IR modellerinin en yaygın ve belki de en iyi örneği haline gelir.

Başlıca konferanslar

Alandaki ödüller

Ayrıca bakınız

Referanslar

daha fazla okuma

Dış bağlantılar