Winograd şema mücadelesi - Winograd schema challenge

Winograd şema meydan ( WSC ) önerdiği makine zeka testidir Hector Levesque , bir bilgisayar bilim adamı Toronto Üniversitesi . Turing testinde bir iyileştirme olarak tasarlanmış, çok özel bir yapıya sahip soruları kullanan çoktan seçmeli bir testtir: bunlar Winograd şemaları olarak adlandırılan ve Stanford Üniversitesi'nde bilgisayar bilimi profesörü Terry Winograd'ın adını taşıyan örneklerdir .

Yüzeyde, Winograd şema soruları sadece anafora çözümünü gerektirir : makine bir ifadede belirsiz bir zamirin öncülünü tanımlamalıdır . Bu, onu doğal dil işleme görevi yapar , ancak Levesque, Winograd şemaları için görevin bilgi kullanımını ve sağduyulu akıl yürütmeyi gerektirdiğini savunuyor .

Nuance Communications , Temmuz 2014'te, insan performansıyla eşleşebilecek en iyi sistem için 25.000 dolarlık bir ödülle yıllık bir WSC yarışmasına sponsor olacağını duyurdu. Ancak, ödül artık sunulmuyor.

Arka plan

Winograd Schema Challenge, Turing testi ruhuyla önerildi . 1950 yılında Alan Turing tarafından önerilen Turing testi, yapay zeka felsefesinde merkezi bir rol oynamaktadır . Turing, bir makinenin düşünüp düşünemeyeceğini tartışmak yerine, yapay zeka biliminin test edilebilen akıllı davranışları sergilemekle ilgilenmesi gerektiğini öne sürdü. Ancak Turing'in önerdiği testin kesin doğası, özellikle Eugene Goostman adlı bir AI sohbet robotunun 2014'te testi geçtiğini iddia etmesinden bu yana inceleme altına alındı . Turing testiyle ilgili en büyük endişelerden biri, bir makinenin testi kaba kuvvetle kolayca geçebileceğidir. ve/veya gerçek zekadan ziyade hile.

Winograd şema meydan okuması, kısmen, testte iyi performans gösteren programların doğasıyla ortaya çıkan sorunları iyileştirmek için önerildi.

Turing'in orijinal önerisi, insan yargıçlar ve bilgisayar programları arasında salt metin kanalı (teletype gibi) üzerinden İngilizce olarak serbest akışlı, sınırsız konuşmaları içeren taklit oyunu dediği şeydi . Genel olarak, sorgulayıcılar beş dakikalık bir konuşmada onunla bir insan arasındaki farkı söyleyemezlerse, makine testi geçer.

Turing testinin zayıf yönleri

Eugene Goostman'ın performansı Turing testinin bazı problemlerini sergiledi. Levesque, aşağıdaki gibi özetlenen birkaç önemli konuyu tanımlar:

  • Aldatma: Makine, zekanın bir parçası olmayan sahte bir kimlik oluşturmaya zorlanır.
  • Sohbet: Pek çok etkileşim, akıllıca bir akıl yürütme gerektirmeden "meşru konuşma" olarak nitelendirilebilir (şakalar, zekice konuşmalar, düzen noktaları).
  • Değerlendirme: İnsanlar hata yapar ve yargıçlar genellikle sonuçlar üzerinde anlaşamazlar.

Winograd şemaları

WSC'deki kilit faktör, sorularının Winograd şemalarından türetilen özel formatıdır. Bu formun soruları, çeşitli alanlarda bilgi ve sağduyulu muhakeme gerektirecek şekilde uyarlanabilir. Ayrıca , cümledeki kelimelerle ilgili seçim kısıtlamaları veya istatistiksel bilgilerle cevaplarına ihanet etmemek için dikkatlice yazılmalıdırlar .

Menşei

Bir Winograd şemasının ilk alıntılanan örneği (ve adlarının nedeni) Terry Winograd'dan kaynaklanmaktadır :

Kent konseyi üyeleri, şiddetten [korktukları/savundukları] için göstericilere izin vermedi.

"Korkulan" ve "savunan" seçenekleri, şemayı iki örneğine dönüştürür:

Belediye meclis üyeleri, şiddetten korktukları için göstericilere izin vermedi.

Belediye meclis üyeleri, şiddeti savundukları için göstericilere izin vermedi.

Soru, "onlar" zamirinin belediye meclis üyelerini mi yoksa göstericileri mi ifade ettiği ve şemanın iki örneği arasında geçiş yapmak cevabı değiştiriyor. Cevap, bir insan okuyucu için hemen, ancak makinelerde taklit edilmesi zor. Levesque, bilginin bu problemlerde merkezi bir rol oynadığını savunuyor: bu şemaya verilecek cevap, meclis üyeleri ve göstericiler arasındaki tipik ilişkiler ve davranışları hakkındaki anlayışımızla ilgili.

Winograd şema mücadelesinin orijinal önerisinden bu yana, New York Üniversitesi'nde profesör olan Ernest Davis, Winograd şema mücadelesinde görünmesi gereken soru türlerinin örnekleri olarak çeşitli kaynaklardan 140'ın üzerinde Winograd şemasının bir listesini derlemiştir.

Resmi açıklama

Bir Winograd şema meydan okuma sorusu üç bölümden oluşur:

  1. Aşağıdakileri içeren bir cümle veya kısa söylem:
    • Aynı semantik sınıftan iki isim tamlaması (erkek, kadın, cansız veya nesne veya insan grubu),
    • Yukarıdaki isim öbeklerinden herhangi birine atıfta bulunabilecek belirsiz bir zamir ve
    • Özel bir kelime ve alternatif kelime, öyle ki özel kelime alternatif kelime ile değiştirilirse, zamirin doğal çözünürlüğü değişir.
  2. Belirsiz zamirin kimliğini soran bir soru ve
  3. Söz konusu isim tamlamalarına karşılık gelen iki cevap seçeneği.

Bir makineye problem, cevap seçeneklerini içeren standart bir biçimde verilecek ve böylece ikili karar problemi haline getirilecektir .

Avantajlar

Winograd şema mücadelesi aşağıdaki iddia edilen avantajlara sahiptir:

  • Bunları çözmek için bilgi ve sağduyulu akıl yürütme gereklidir.
  • Basit neden-sonuç ilişkilerinden karmaşık olay anlatılarına kadar her şeyi içeren, değişen zorluktaki Winograd şemaları tasarlanabilir.
  • Belirli alanlarda (örneğin, sosyal/psikolojik veya uzamsal akıl yürütme) akıl yürütme yeteneğini test etmek için yapılandırılabilirler.
  • İnsan yargıçlara gerek yok.

tuzaklar

Winograd şema meydan okumasıyla ilgili bir zorluk, soruların geliştirilmesidir. Çözmek için sağduyulu bir akıl yürütmeye ihtiyaç duymalarını sağlamak için dikkatlice uyarlanmaları gerekir. Örneğin, Levesque "çok kolay" Winograd şeması olarak adlandırılan aşağıdaki örneği verir:

Kadınlar [hamile/kanserojen] oldukları için hap almayı bıraktılar. Hangi bireyler [hamile/kanserojen] idi?

Bu sorunun cevabı, seçim kısıtlamaları temelinde belirlenebilir : her durumda, haplar hamile kalmaz, kadınlar yapar; kadınlar kanserojen olamaz, ancak haplar olabilir. Dolayısıyla bu cevap, muhakeme kullanılmadan veya cümlelerin anlamının herhangi bir şekilde anlaşılmasından elde edilebilir - gerekli olan tek şey, hamile ve kanserojenlerin seçim kısıtlamalarına ilişkin verilerdir .

Aktivite

2016 ve 2018'de, Nuance Communications bir yarışmaya sponsor oldu ve %90'ın üzerinde en çok gol atan oyuncuya 25.000 dolarlık büyük ödül verdi (karşılaştırma için, insanlar WSC sorularının %92-96'sına doğru yanıt veriyor). Ancak, 2016'da kimse ödülü kazanmaya yaklaşmadı ve 2018 yarışması umut eksikliği nedeniyle iptal edildi; ödül artık sunulmuyor.

Sağduyulu Akıl Yürütmenin Mantıksal Biçimlendirmeleri Üzerine On İkinci Uluslararası Sempozyum, 23-25 ​​Mart 2015'te Stanford Üniversitesi'ndeki AAAI Bahar Sempozyumu Serisinde Winograd şema mücadelesine özel olarak odaklanılarak gerçekleştirildi. Organizasyon komitesinde Leora Morgenstern ( Leidos ), Theodore Patkos (The Foundation for Research & Technology Hellas) ve Robert Sloan ( Chicago'daki Illinois Üniversitesi ) yer aldı.

2016 Winograd Schema Challenge, 11 Temmuz 2016'da IJCAI-16'da yapıldı. Dört yarışmacı vardı. Yarışmanın ilk turu, PDP'leri çözmekti - edebi kaynaklardan uyarlanmış, cümle çiftleri olarak oluşturulmamış zamir belirsizliğini giderme problemleri. Çin Bilim ve Teknoloji Üniversitesi'nden Quan Liu ve arkadaşları tarafından elde edilen en yüksek puan %58 doğruydu. Bu nedenle, bu mücadelenin kurallarına göre hiçbir ödül verilmedi ve mücadele ikinci tura devam etmedi. 2016'daki organizasyon komitesi Leora Morgenstern, Ernest Davis ve Charles Ortiz'di.

2017 yılında, sağduyulu bilgi edinimi için tasarlanmış bir sinirsel ilişkilendirme modeli , orijinal 273 Winograd şema veri setinden manuel olarak seçilen 70 problemde %70 doğruluk elde etti. Haziran 2018'de, tekrarlayan sinir ağı dil modelleri topluluğu kullanılarak tam veri kümesinde %63,7'lik bir doğruluk puanı elde edildi ve bu, sağduyu bilgisi elde etmek için bağımsız kurumlardan öğrenen derin sinir ağlarının ilk kullanımına işaret etti. 2019'da, sağduyulu akıl yürütmeyi öğrenmek zorunda kalmamak için BERT dil modelinin uygun WSC benzeri eğitim verileriyle ince ayarı yapılarak orijinal Winograd şema veri kümesinde %90,1'lik bir puan elde edildi . Genel dil modeli GPT-3 , 2020'de belirli bir ince ayar yapılmadan %88,3'lük bir puan elde etti.

2019'da 44.000 problemden oluşan daha zorlu, çekişmeli bir "Winogrande" veri seti tasarlandı. Bu veri seti, önceki veri setlerinin zamir formatının aksine, boşluk doldurma tarzı cümlelerden oluşuyor.

Winograd şema sorgulamasının bir versiyonu, otomatikleştirilmiş doğal dil anlamada GLUE ( Genel Dil Anlama Değerlendirmesi ) karşılaştırmalı testler koleksiyonunun bir parçasıdır .

Referanslar

Dış bağlantılar