Derin öğrenme - Deep learning

Derin öğrenme (ayrıca derin yapılandırılmış öğrenme olarak da bilinir ), temsili öğrenme ile yapay sinir ağlarına dayalı daha geniş bir makine öğrenimi yöntemleri ailesinin parçasıdır . Öğrenme denetimli , yarı denetimli veya denetimsiz olabilir .

Derin sinir ağları , derin inanç ağları , derin pekiştirmeli öğrenme , tekrarlayan sinir ağları ve evrişimli sinir ağları gibi derin öğrenme mimarileri , bilgisayar vizyonu , konuşma tanıma , doğal dil işleme , makine çevirisi , biyoinformatik , ilaç tasarımı , tıbbi gibi alanlara uygulanmıştır. insan uzman performansıyla karşılaştırılabilir ve bazı durumlarda onu aşan sonuçlar ürettikleri görüntü analizi , malzeme denetimi ve masa oyunu programları.

Yapay sinir ağları (YSA), biyolojik sistemlerdeki bilgi işleme ve dağıtılmış iletişim düğümlerinden esinlenmiştir . YSA'ların biyolojik beyinlerden çeşitli farklılıkları vardır . Spesifik olarak, yapay sinir ağları statik ve sembolik olma eğilimindeyken, çoğu canlı organizmanın biyolojik beyni dinamik (plastik) ve analogdur.

Derin öğrenmedeki "derin" sıfatı, ağda birden çok katmanın kullanımını ifade eder. İlk çalışmalar, lineer bir algılayıcının evrensel bir sınıflandırıcı olamayacağını, ancak sınırsız genişlikte bir gizli katmana sahip polinom olmayan aktivasyon fonksiyonuna sahip bir ağın yapabileceğini gösterdi. Derin öğrenme, ılımlı koşullar altında teorik evrenselliği korurken pratik uygulamaya ve optimize edilmiş uygulamaya izin veren sınırsız sayıda sınırlı sayıda katmanla ilgilenen modern bir varyasyondur. Derin öğrenmede, katmanların heterojen olmalarına ve biyolojik olarak bilgilendirilmiş bağlantıcı modellerden büyük ölçüde sapmalarına , verimlilik, eğitilebilirlik ve anlaşılabilirlik adına, "yapılandırılmış" kısımdan dolayı izin verilir.

Tanım

Derin Öğrenmede Görüntüleri Birden Çok Soyutlama Katmanında Temsil Etme
Derin Öğrenmede Görüntüleri Birden Çok Soyutlama Katmanında Temsil Etme

Derin öğrenme, ham girdiden aşamalı olarak daha yüksek seviyeli özellikler çıkarmak için birden çok katman kullanan bir makine öğrenimi algoritmaları sınıfıdır . Örneğin, görüntü işlemede , alt katmanlar kenarları tanımlayabilirken, daha yüksek katmanlar, rakamlar, harfler veya yüzler gibi bir insanla ilgili kavramları tanımlayabilir.

genel bakış

Modern derin öğrenme modellerinin çoğu yapay sinir ağlarına , özellikle evrişimli sinir ağlarına (CNN) dayanır , ancak derin inanç ağlarındaki ve derin Boltzmann'daki düğümler gibi derin üretici modellerde katman bazında düzenlenen önerme formüllerini veya gizli değişkenleri de içerebilirler. makineler .

Derin öğrenmede her seviye, girdi verilerini biraz daha soyut ve bileşik bir temsile dönüştürmeyi öğrenir. Bir görüntü tanıma uygulamasında, ham girdi bir piksel matrisi olabilir ; birinci temsili katman pikselleri soyutlayabilir ve kenarları kodlayabilir; ikinci katman, kenarların düzenlemelerini oluşturabilir ve kodlayabilir; üçüncü katman bir burnu ve gözleri kodlayabilir; ve dördüncü katman görüntünün bir yüz içerdiğini anlayabilir. Daha da önemlisi, bir derin öğrenme süreci, hangi özelliklerin hangi seviyeye en uygun şekilde yerleştirileceğini kendi başına öğrenebilir . Bu, elle ayarlama ihtiyacını tamamen ortadan kaldırmaz; örneğin, değişen sayıda katman ve katman boyutu, farklı derecelerde soyutlama sağlayabilir.

"Derin öğrenme"deki "derin" kelimesi, verilerin dönüştürüldüğü katman sayısını ifade eder. Daha doğrusu, derin öğrenme sistemleri önemli bir kredi atama yolu (CAP) derinliğine sahiptir. CAP, girdiden çıktıya dönüşümler zinciridir. CAP'ler, giriş ve çıkış arasındaki potansiyel nedensel bağlantıları tanımlar. Bir için yapay sinir ağı , BAP derinliği bu ağın ve (çıkış tabaka ayrıca parametre belirlenmiştir gibi) gizli katman sayısı artı bir tanesidir. İçin tekrarlayan sinir ağları bir sinyal bir kereden fazla katmana yayılması olabilecek olan, CAP derinliği potansiyel sınırsızdır. Evrensel olarak kabul edilmiş bir derinlik eşiği, sığ öğrenmeyi derin öğrenmeden ayırmaz, ancak çoğu araştırmacı, derin öğrenmenin 2'den daha yüksek CAP derinliğini içerdiği konusunda hemfikirdir. . Bunun ötesinde, daha fazla katman, ağın işlev tahmin etme yeteneğine katkıda bulunmaz. Derin modeller (CAP > 2), sığ modellerden daha iyi özellikler çıkarabilir ve bu nedenle ekstra katmanlar, özelliklerin etkili bir şekilde öğrenilmesine yardımcı olur.

Derin öğrenme mimarileri, açgözlü bir katman-katman yöntemiyle oluşturulabilir. Derin öğrenme, bu soyutlamaları çözmeye ve hangi özelliklerin performansı iyileştirdiğini belirlemeye yardımcı olur.

İçin denetimli öğrenme görevleri, derin öğrenme yöntemleri ortadan özelliği mühendisliği benzer yoğun ara temsiller veri çevirerek, temel bileşenler ve tabakalı yapıların elde temsilde kaldırma fazlalık olduğu.

Derin öğrenme algoritmaları, denetimsiz öğrenme görevlerine uygulanabilir. Bu önemli bir avantajdır çünkü etiketlenmemiş veriler etiketlenmiş verilerden daha fazladır. Denetimsiz bir şekilde eğitilebilen derin yapıların örnekleri, sinirsel geçmiş sıkıştırıcıları ve derin inanç ağlarıdır .

yorumlar

Derin sinir ağları genellikle evrensel yaklaşım teoremi veya olasılıksal çıkarım terimleriyle yorumlanır .

Klasik evrensel yaklaşım teoremi , sonlu boyutta tek bir gizli katmana sahip ileri beslemeli sinir ağlarının sürekli fonksiyonlara yaklaşma kapasitesi ile ilgilidir . 1989'da George Cybenko tarafından sigmoid aktivasyon fonksiyonları için ilk kanıt yayınlandı ve 1991'de Kurt Hornik tarafından ileri beslemeli çok katmanlı mimarilere genelleştirildi. Son çalışmalar, aynı zamanda, evrensel yaklaşımın, doğrultulmuş doğrusal birim gibi sınırsız aktivasyon fonksiyonları için de geçerli olduğunu göstermiştir.

Derin sinir ağları için evrensel yaklaşım teoremi , sınırlı genişliğe sahip ağların kapasitesiyle ilgilidir, ancak derinliğin büyümesine izin verilir. Lu et al. bir genişliği ise kanıtlamıştır derin sinir ağı ile relu aktivasyonu giriş boyutundan daha sıkı bir şekilde daha büyük olan, daha sonra ağ, herhangi yaklaşık olabilir Lebesgue integre fonksiyonu ; Genişlik, giriş boyutuna eşit veya daha küçükse, derin sinir ağı evrensel bir tahmin edici değildir.

Olasılık yorumlama alanında kaynaklanmaktadır makine öğrenme . Sırasıyla uydurma ve genelleme ile ilgili eğitim ve test optimizasyon kavramlarının yanı sıra çıkarımı da içerir . Daha spesifik olarak, olasılık yorumu, aktivasyon doğrusal olmayanlığını kümülatif bir dağılım fonksiyonu olarak kabul eder . Üretilmesini sağlamıştır olasılık yorumlama yarıda bırakılması olarak regularizer sinir ağlarında. Olasılık yorumu, Hopfield , Widrow ve Narendra gibi araştırmacılar tarafından tanıtıldı ve Bishop'unki gibi araştırmalarda popüler hale getirildi .

Tarih

Bazı kaynaklar, Frank Rosenblatt'ın günümüzün derin öğrenme sistemlerinin tüm temel bileşenlerini geliştirdiğine ve araştırdığına işaret ediyor. 1962'de Cornell Aeronautical Laboratory, Inc., Cornell Üniversitesi tarafından yayınlanan "Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms" adlı kitabında açıkladı.

Denetimli, derin, ileri beslemeli, çok katmanlı algılayıcılar için ilk genel, çalışan öğrenme algoritması 1967'de Alexey Ivakhnenko ve Lapa tarafından yayınlandı . 1971 tarihli bir makale, grup veri işleme yöntemiyle eğitilmiş sekiz katmanlı bir derin ağı tanımladı . Diğer derin öğrenme çalışma mimarileri, özellikle bilgisayar görüşü için oluşturulmuş olanlar , 1980 yılında Kunihiko Fukushima tarafından tanıtılan Neocognitron ile başladı .

Derin Öğrenme terimi , makine öğrenimi topluluğuna 1986 yılında Rina Dechter tarafından , yapay sinir ağlarına ise 2000 yılında Boolean eşik nöronları bağlamında Igor Aizenberg ve meslektaşları tarafından tanıtıldı .

1989'da Yann LeCun ve ark. 1970'den beri otomatik farklılaşmanın ters modu olarak kullanılan standart geri yayılım algoritmasını, postadaki el yazısı ZIP kodlarını tanımak amacıyla derin bir sinir ağına uyguladı . Algoritma çalışırken eğitim 3 gün sürdü.

1994 yılında, André de Carvalho, Mike Fairhurst ve David Bisset ile birlikte, ağırlıksız bir sinir ağı olarak da bilinen, 3 katmanlı kendi kendini organize eden özellik çıkarma sinir ağı modülünden oluşan çok katmanlı bir boole sinir ağının deneysel sonuçlarını yayınladı. SOFT), ardından bağımsız olarak eğitilmiş çok katmanlı bir sinir ağı modülü (GSN) tarafından takip edildi. Öznitelik çıkarma modülündeki her katman, bir önceki katmana göre artan karmaşıklıkla öznitelikleri çıkardı.

1995'te Brendan Frey , Peter Dayan ve Hinton ile birlikte geliştirilen uyanık uyku algoritmasını kullanarak altı tam bağlantılı katman ve birkaç yüz gizli birim içeren bir ağı eğitmenin (iki günde) mümkün olduğunu gösterdi . 1991'de Sepp Hochreiter tarafından analiz edilen kaybolan gradyan problemi de dahil olmak üzere birçok faktör yavaş hıza katkıda bulunur .

1997'den beri Sven Behnke, bağlamı kararlara esnek bir şekilde dahil etmek ve yerel belirsizlikleri yinelemeli olarak çözmek için Nöral Soyutlama Piramidindeki ileri beslemeli hiyerarşik evrişimsel yaklaşımı yanal ve geriye doğru bağlantılarla genişletti.

Gabor filtreleri ve destek vektör makineleri (SVM'ler) gibi göreve özel el yapımı özellikleri kullanan daha basit modeller , 1990'larda ve 2000'lerde yapay sinir ağlarının (YSA) hesaplama maliyeti ve bunların nasıl yapıldığının anlaşılmaması nedeniyle popüler bir seçimdi. beyin biyolojik ağlarını bağlar.

YSA'ların hem sığ hem de derin öğrenmesi (örneğin, tekrarlayan ağlar) uzun yıllardır araştırılmaktadır. Bu yöntemler , ayrımcı bir şekilde eğitilmiş üretken konuşma modellerine dayanan tek tip olmayan dahili el işçiliği Gauss karışım modeli / Gizli Markov modeli (GMM-HMM) teknolojisinden asla daha iyi performans göstermedi . Nöral tahmin modellerinde gradyan azalan ve zayıf zamansal korelasyon yapısı dahil olmak üzere temel zorluklar analiz edilmiştir. Ek zorluklar, eğitim verilerinin olmaması ve sınırlı bilgi işlem gücüydü.

Çoğu konuşma tanıma araştırmacısı, üretken modellemeyi sürdürmek için sinir ağlarından uzaklaştı. Bir istisna, 1990'ların sonlarında SRI International'daydı . ABD hükümetinin NSA ve DARPA'sı tarafından finanse edilen SRI, konuşma ve konuşmacı tanımada derin sinir ağları üzerinde çalıştı . Larry Heck liderliğindeki konuşmacı tanıma ekibi , 1998 Ulusal Standartlar ve Teknoloji Enstitüsü Konuşmacı Tanıma değerlendirmesinde konuşma işlemede derin sinir ağlarıyla önemli bir başarı bildirdi . SRI derin sinir ağı daha sonra derin öğrenmenin ilk büyük endüstriyel uygulamasını temsil eden Nuance Verifier'da konuşlandırıldı.

El yapımı optimizasyon üzerine "ham" özellikleri yükseltme ilkesi, ilk olarak 1990'ların sonlarında "ham" spektrogram veya lineer filtre bankası özellikleri üzerinde derin otomatik kodlayıcı mimarisinde başarılı bir şekilde keşfedildi ve Mel-Cepstral özelliklerine göre üstünlüğünü gösterdi. spektrogramlardan sabit dönüşüm aşamalarını içerir. Konuşmanın ham özellikleri, dalga biçimleri , daha sonra daha büyük ölçekli mükemmel sonuçlar üretti.

Konuşma tanımanın birçok yönü, Hochreiter ve Schmidhuber tarafından 1997'de yayınlanan tekrarlayan bir sinir ağı olan uzun kısa süreli bellek (LSTM) adı verilen bir derin öğrenme yöntemi tarafından ele geçirildi . LSTM RNN'leri kaybolan gradyan problemini önler ve "Çok Derin Öğrenme" öğrenebilir. Konuşma için önemli olan, binlerce ayrık zaman adımı öncesinde meydana gelen olayların anılarını gerektiren görevler. 2003 yılında LSTM, belirli görevlerde geleneksel konuşma tanıyıcılarla rekabet etmeye başladı. Daha sonra, LSTM RNN yığınlarında bağlantıcı zamansal sınıflandırma (CTC) ile birleştirildi. 2015 yılında, Google'ın konuşma tanıma özelliğinin, Google Sesli Arama aracılığıyla kullanıma sundukları CTC tarafından eğitilmiş LSTM aracılığıyla %49'luk çarpıcı bir performans artışı yaşadığı bildiriliyor .

2006 yılında, Geoff Hinton , Ruslan Salakhutdinov , Osindero ve Teh tarafından yapılan yayınlar , çok katmanlı ileri beslemeli bir sinir ağının , her seferinde bir katmana etkili bir şekilde önceden eğitilebileceğini, her katmanı sırayla denetlenmeyen sınırlı bir Boltzmann makinesi olarak ele alıp , daha sonra ince ayar yapılabileceğini gösterdi. denetimli geri yayılım kullanarak ayarlama . Makaleler , derin inanç ağları için öğrenmeye atıfta bulundu .

Derin öğrenme, başta bilgisayarla görme ve otomatik konuşma tanıma (ASR) olmak üzere çeşitli disiplinlerdeki en gelişmiş sistemlerin bir parçasıdır . Gibi yaygın olarak kullanılan bir değerlendirme setleri Sonuçlar TIMIT (ASR) ve MNIST ( görüntü sınıflandırma ) yanı sıra büyük kelime konuşma tanıma görevleri bir dizi sürekli iyileştirilmiştir. ASR için evrişimli sinir ağlarının (CNN'ler) yerini LSTM için CTC aldı. ancak bilgisayarla görmede daha başarılıdırlar.

Yann LeCun'a göre, endüstride derin öğrenmenin etkisi, CNN'lerin ABD'de yazılan tüm çeklerin tahmini %10 ila %20'sini zaten işleme koyduğu 2000'lerin başında başladı. Derin öğrenmenin büyük ölçekli konuşma tanımaya endüstriyel uygulamaları 2010 civarında başladı.

2009 NIPS Konuşma Tanıma için Derin Öğrenme Çalıştayı, derin üretken konuşma modellerinin sınırlamaları ve derin sinir ağlarının (DNN) pratik hale gelebileceği daha yetenekli donanım ve büyük ölçekli veri kümelerinin verilmesi olasılığı tarafından motive edildi. Derin inanç ağlarının (DBN) üretici modellerini kullanan ön eğitim DNN'lerinin, sinir ağlarının temel zorluklarının üstesinden geleceğine inanılıyordu. Bununla birlikte, büyük, bağlama bağlı çıktı katmanlarına sahip DNN'ler kullanılırken doğrudan geri yayılım için ön eğitimi büyük miktarlarda eğitim verileriyle değiştirmenin, o zamanki en son Gauss karışım modelinden (GMM) önemli ölçüde daha düşük hata oranları ürettiği keşfedildi. )/Gizli Markov Modeli (HMM) ve ayrıca daha gelişmiş üretici model tabanlı sistemler. İki tür sistem tarafından üretilen tanıma hatalarının doğası, karakteristik olarak farklıydı ve derin öğrenmenin tüm büyük konuşma tanıma sistemleri tarafından dağıtılan mevcut yüksek verimli, çalışma zamanı konuşma kod çözme sistemine nasıl entegre edileceğine dair teknik bilgiler sunuyordu. GMM (ve diğer üretken konuşma modelleri) ile DNN modellerini karşılaştıran 2009-2010 civarındaki analiz, konuşma tanıma için derin öğrenmeye erken endüstriyel yatırımı teşvik etti ve sonunda bu sektörde yaygın ve baskın kullanıma yol açtı. Bu analiz, ayırt edici DNN'ler ve üretken modeller arasında karşılaştırılabilir performansla (hata oranında %1,5'ten az) yapıldı.

2010'da araştırmacılar, karar ağaçları tarafından oluşturulan bağlama bağlı HMM durumlarına dayalı olarak DNN'nin büyük çıktı katmanlarını benimseyerek TIMIT'ten derin öğrenmeyi büyük sözcüklü konuşma tanımaya genişletti .

Donanımdaki ilerlemeler, derin öğrenmeye olan ilgiyi yeniden canlandırdı. 2009'da Nvidia , "derin öğrenme sinir ağları Nvidia grafik işleme birimleri (GPU'lar) ile eğitildiği için" derin öğrenmenin "büyük patlaması" olarak adlandırılan şeye dahil oldu . O yıl Andrew Ng , GPU'ların derin öğrenme sistemlerinin hızını yaklaşık 100 kat artırabileceğini belirledi. Özellikle GPU'lar, makine öğreniminde yer alan matris/vektör hesaplamaları için çok uygundur. GPU'lar, eğitim algoritmalarını büyüklük sıralarına göre hızlandırarak çalışma sürelerini haftalardan günlere indirir. Ayrıca, derin öğrenme modellerinin verimli işlenmesi için özel donanım ve algoritma optimizasyonları kullanılabilir.

Derin öğrenme devrimi

Derin öğrenme ne kadar makine öğreniminin bir alt kümesidir ve makine öğrenimi nasıl yapay zekanın (AI) bir alt kümesidir.

2012 yılında, George E. Dahl liderliğindeki bir ekip , bir ilacın biyomoleküler hedefini tahmin etmek için çok görevli derin sinir ağlarını kullanarak "Merck Molecular Activity Challenge"ı kazandı . 2014 yılında, Hochreiter'in grubu, çevresel kimyasalların besinlerdeki, ev ürünlerindeki ve ilaçlardaki hedef dışı ve toksik etkilerini tespit etmek için derin öğrenmeyi kullandı ve NIH , FDA ve NCATS'in "Tox21 Data Challenge"ını kazandı .

Görüntü veya nesne tanımada önemli ek etkiler 2011'den 2012'ye kadar hissedildi. Geri yayılımla eğitilmiş CNN'ler on yıllardır ve CNN'ler dahil NN'lerin GPU uygulamaları yıllardır olmasına rağmen , bilgisayarlı görmede ilerlemek için CNN'lerin GPU'larda hızlı uygulamalarına ihtiyaç vardı. . 2011'de bu yaklaşım, bir görsel örüntü tanıma yarışmasında ilk kez insanüstü performans elde etti. Yine 2011'de ICDAR Çin el yazısı yarışmasını ve Mayıs 2012'de ISBI görüntü segmentasyon yarışmasını kazandı. 2011 yılına kadar CNN'ler bilgisayarlı görü konferanslarında önemli bir rol oynamadı, ancak Haziran 2012'de Ciresan ve diğerleri tarafından bir makale yayınlandı. Önde gelen konferansta CVPR, GPU üzerinde maksimum havuzlama yapan CNN'lerin birçok vizyon kıyaslama kaydını nasıl önemli ölçüde iyileştirebileceğini gösterdi. Ekim 2012'de Krizhevsky ve ark. büyük ölçekli ImageNet yarışmasını sığ makine öğrenimi yöntemlerine göre önemli bir farkla kazandı. Kasım 2012'de Ciresan ve arkadaşlarının sistemi ayrıca kanser tespiti için büyük tıbbi görüntülerin analizine ilişkin ICPR yarışmasını ve sonraki yıl aynı konuda MICCAI Grand Challenge yarışmasını da kazandı. 2013 ve 2014'te, büyük ölçekli konuşma tanımada benzer bir eğilimin ardından derin öğrenme kullanan ImageNet görevindeki hata oranı daha da düşürüldü.

Görüntü sınıflandırması daha sonra , genellikle CNN'ler ve LSTM'lerin bir kombinasyonu olarak, görüntüler için açıklamalar (alt yazılar) oluşturma gibi daha zorlu bir göreve genişletildi .

Bazı araştırmacılar, Ekim 2012 ImageNet zaferinin, AI endüstrisini dönüştüren bir "derin öğrenme devriminin" başlangıcını demirlediğini belirtiyor.

Mart 2019'da Yoshua Bengio , Geoffrey Hinton ve Yann LeCun , derin sinir ağlarını bilgi işlemin kritik bir bileşeni haline getiren kavramsal ve mühendislik atılımları için Turing Ödülü'ne layık görüldü .

Nöral ağlar

Yapay sinir ağları

Yapay sinir ağları ( YSA ) veya bağlantıcı sistemler , hayvan beyinlerini oluşturan biyolojik sinir ağlarından ilham alan bilgi işlem sistemleridir . Bu tür sistemler, genellikle göreve özel programlama olmaksızın, örnekleri dikkate alarak görevleri yapmayı öğrenir (kademeli olarak yeteneklerini geliştirir). Örneğin, görüntü tanımada, manuel olarak "kedi" veya "kedi yok" olarak etiketlenmiş örnek görüntüleri analiz ederek ve diğer görüntülerdeki kedileri tanımlamak için analitik sonuçları kullanarak kedi içeren görüntüleri tanımlamayı öğrenebilirler . Kural tabanlı programlama kullanan geleneksel bir bilgisayar algoritması ile ifade edilmesi zor olan uygulamalarda en çok kullanımı bulmuşlardır .

Bir YSA, yapay nöronlar ( biyolojik beyindeki biyolojik nöronlara benzer) olarak adlandırılan bağlantılı birimler koleksiyonuna dayanır . Nöronlar arasındaki her bağlantı ( sinaps ), başka bir nörona bir sinyal iletebilir. Alıcı (postsinaptik) nöron sinyal(ler)i işleyebilir ve daha sonra ona bağlı olan aşağı akış nöronlarına sinyal gönderebilir. Nöronlar, genellikle gerçek sayılarla temsil edilen , tipik olarak 0 ile 1 arasında bir duruma sahip olabilir. Nöronlar ve sinapslar ayrıca, aşağı yönde gönderdiği sinyalin gücünü artırabilen veya azaltabilen, öğrenme ilerledikçe değişen bir ağırlığa sahip olabilir.

Tipik olarak, nöronlar katmanlar halinde düzenlenir. Farklı katmanlar, girdileri üzerinde farklı türde dönüşümler gerçekleştirebilir. Sinyaller, muhtemelen katmanları birden çok kez geçtikten sonra, ilk (giriş) katmanından son (çıkış) katmanına gider.

Sinir ağı yaklaşımının asıl amacı, problemleri bir insan beyninin çözeceği şekilde çözmekti. Zamanla, dikkat belirli zihinsel yetenekleri eşleştirmeye odaklandı, bu da geri yayılım gibi biyolojiden sapmalara veya bilgileri ters yönde iletme ve ağı bu bilgiyi yansıtacak şekilde ayarlamaya yol açtı.

Sinir ağları, bilgisayarla görme, konuşma tanıma , makine çevirisi , sosyal ağ filtreleme, tahta ve video oyunları oynama ve tıbbi teşhis gibi çeşitli görevlerde kullanılmıştır .

2017 itibariyle, sinir ağları tipik olarak birkaç bin ila birkaç milyon birime ve milyonlarca bağlantıya sahiptir. Bu sayı, bir insan beynindeki nöron sayısından birkaç kat daha az olmasına rağmen, bu ağlar, insanlarınkinden daha fazla bir düzeyde birçok görevi gerçekleştirebilir (örneğin, yüzleri tanıma, "Git" oynama).

Derin sinir ağları

Derin sinir ağı (DNN), giriş ve çıkış katmanları arasında çok katmanlı bir yapay sinir ağıdır (YSA). Farklı sinir ağları türleri vardır, ancak bunlar her zaman aynı bileşenlerden oluşur: nöronlar, sinapslar, ağırlıklar, önyargılar ve işlevler. İnsan beynine benzer şekilde çalışan bu bileşenler, diğer herhangi bir ML algoritması gibi eğitilebilir.

Örneğin, köpek ırklarını tanımak üzere eğitilmiş bir DNN, verilen görüntünün üzerinden geçecek ve görüntüdeki köpeğin belirli bir ırk olma olasılığını hesaplayacaktır. Kullanıcı sonuçları gözden geçirebilir ve ağın hangi olasılıkları (belirli bir eşiğin üzerinde, vb.) göstereceğini seçebilir ve önerilen etiketi döndürebilir. Her matematiksel işlem bir katman olarak kabul edilir ve karmaşık DNN'nin birçok katmanı vardır, bu nedenle "derin" ağlar adı verilir.

DNN'ler karmaşık doğrusal olmayan ilişkileri modelleyebilir. DNN mimarileri, nesnenin ilkellerin katmanlı bir bileşimi olarak ifade edildiği bileşim modelleri oluşturur . Ekstra katmanlar, benzer şekilde performans gösteren sığ bir ağdan daha az birim ile karmaşık verileri potansiyel olarak modelleyerek, alt katmanlardan özelliklerin birleştirilmesini sağlar. Örneğin, seyrek çok değişkenli polinomların DNN'lerle yaklaşmanın sığ ağlara göre katlanarak daha kolay olduğu kanıtlanmıştır .

Derin mimariler, birkaç temel yaklaşımın birçok çeşidini içerir. Her mimari belirli alanlarda başarı bulmuştur. Aynı veri kümeleri üzerinde değerlendirilmedikçe, birden çok mimarinin performansını karşılaştırmak her zaman mümkün değildir.

DNN'ler tipik olarak verilerin giriş katmanından çıkış katmanına geri dönmeden aktığı ileri beslemeli ağlardır. İlk başta, DNN sanal nöronların bir haritasını oluşturur ve aralarındaki bağlantılara rastgele sayısal değerler veya "ağırlıklar" atar. Ağırlıklar ve girdiler çarpılır ve 0 ile 1 arasında bir çıktı döndürür. Ağ belirli bir modeli doğru olarak tanımıyorsa, bir algoritma ağırlıkları ayarlar. Bu şekilde algoritma, verileri tam olarak işlemek için doğru matematiksel manipülasyonu belirleyene kadar belirli parametreleri daha etkili hale getirebilir.

Verilerin herhangi bir yönde akabildiği tekrarlayan sinir ağları (RNN'ler), dil modelleme gibi uygulamalar için kullanılır . Uzun kısa süreli bellek bu kullanım için özellikle etkilidir.

Bilgisayarlı görmede evrişimli derin sinir ağları (CNN'ler) kullanılır. CNN'ler ayrıca otomatik konuşma tanıma (ASR) için akustik modellemeye de uygulanmıştır .

Zorluklar

YSA'larda olduğu gibi, safça eğitilmiş DNN'lerde birçok sorun ortaya çıkabilir. İki yaygın sorun, fazla uydurma ve hesaplama süresidir.

DNN'ler, eğitim verilerindeki nadir bağımlılıkları modellemelerine izin veren eklenen soyutlama katmanları nedeniyle aşırı uyum sağlamaya eğilimlidir. Regülarizasyon örneğin Ivakhnenko en birim budama veya yöntemler ağırlık çürüme ( -regularization) ya da kıtlık ( -regularization) Savaş aşırı uyuma eğitim sırasında uygulanabilir. Alternatif olarak, bırakma düzenlemesi, eğitim sırasında birimleri gizli katmanlardan rastgele çıkarır. Bu, nadir bağımlılıkları dışlamaya yardımcı olur. Son olarak, veriler, kırpma ve döndürme gibi yöntemlerle artırılabilir, böylece daha küçük eğitim setleri, fazla takma olasılığını azaltmak için boyut olarak artırılabilir.

DNN'ler, boyut (katman sayısı ve katman başına birim sayısı), öğrenme oranı ve başlangıç ​​ağırlıkları gibi birçok eğitim parametresini dikkate almalıdır . Optimal parametreler için parametre uzayını taramak , zaman ve hesaplama kaynaklarındaki maliyet nedeniyle mümkün olmayabilir. Toplu işlem (bireysel örnekler yerine aynı anda birkaç eğitim örneğindeki gradyanı hesaplama) gibi çeşitli hileler, hesaplamayı hızlandırır. Çok çekirdekli mimarilerin (GPU'lar veya Intel Xeon Phi gibi) büyük işleme yetenekleri, matris ve vektör hesaplamaları için bu tür işleme mimarilerinin uygunluğu nedeniyle eğitimde önemli hızlanmalar sağlamıştır.

Alternatif olarak, mühendisler daha basit ve yakınsak eğitim algoritmalarına sahip diğer sinir ağları türlerini arayabilirler. CMAC ( serebellar model artikülasyon denetleyicisi ) bu tür bir sinir ağıdır. CMAC için öğrenme oranları veya rastgele başlangıç ​​ağırlıkları gerektirmez. Eğitim sürecinin yeni bir veri grubuyla tek adımda yakınsaması garanti edilebilir ve eğitim algoritmasının hesaplama karmaşıklığı, ilgili nöronların sayısına göre doğrusaldır.

Donanım

2010'lardan bu yana, hem makine öğrenimi algoritmalarındaki hem de bilgisayar donanımındaki gelişmeler, birçok doğrusal olmayan gizli birim katmanı ve çok büyük bir çıktı katmanı içeren derin sinir ağlarının eğitimi için daha verimli yöntemlere yol açmıştır. 2019'a gelindiğinde , genellikle yapay zekaya özgü geliştirmelere sahip grafik işleme birimleri ( GPU'lar ), büyük ölçekli ticari bulut yapay zekasının eğitiminde baskın yöntem olarak CPU'ların yerini aldı. OpenAI , AlexNet'ten (2012) AlphaZero'ya (2017) kadar en büyük derin öğrenme projelerinde kullanılan donanım hesaplamasını tahmin etti ve 3.4 aylık iki katına çıkma süresi trend çizgisi ile gerekli hesaplama miktarında 300.000 kat artış buldu.

Uygulamalar

Otomatik konuşma tanıma

Büyük ölçekli otomatik konuşma tanıma, derin öğrenmenin ilk ve en ikna edici başarılı örneğidir. LSTM RNN'ler, bir zaman adımının yaklaşık 10 ms'ye karşılık geldiği binlerce ayrık zaman adımıyla ayrılmış konuşma olaylarını içeren çok saniyelik aralıkları içeren "Çok Derin Öğrenme" görevlerini öğrenebilir. Unutma kapılı LSTM, belirli görevlerde geleneksel konuşma tanıyıcılarla rekabet eder.

Konuşma tanımadaki ilk başarı, TIMIT'e dayalı küçük ölçekli tanıma görevlerine dayanıyordu. Veri seti sekiz majör den 630 hoparlör içeren lehçelerin arasında Amerikan İngilizcesi her hoparlör 10 bulundu okur. Küçük boyutu, birçok konfigürasyonun denenmesine izin verir. Daha da önemlisi, TIMIT görevi, kelime dizisi tanımanın aksine, zayıf telefon bigram dil modellerine izin veren telefon dizisi tanıma ile ilgilidir . Bu, konuşma tanımanın akustik modelleme yönlerinin gücünün daha kolay analiz edilmesini sağlar. Bu erken sonuçlar da dahil olmak üzere aşağıda listelenen ve yüzde telefon hata oranları (PER) olarak ölçülen hata oranları 1991'den beri özetlenmiştir.

Yöntem Yüzde telefon
hata oranı (PER) (%)
Rastgele Başlatılan RNN 26.1
Bayes Triphone GMM-HMM 25.6
Gizli Yörünge (Üretici) Modeli 24.8
Monofon Rastgele Başlatılmış DNN 23.4
Monofon DBN-DNN 22.4
BMMI Eğitimi ile Triphone GMM-HMM 21.7
fbank'ta monofon DBN-DNN 20.7
Evrişimsel DNN 20.0
Evrişimsel DNN w. Heterojen Havuzlama 18.7
DNN/CNN/RNN Topluluğu 18.3
Çift yönlü LSTM 17.8
Hiyerarşik Evrişimli Derin Maxout Ağı 16.5

1990'ların sonlarında konuşmacı tanıma için DNN'lerin ve 2009-2011 civarında konuşma tanıma ve 2003-2007 civarında LSTM'nin piyasaya sürülmesi, sekiz ana alanda ilerlemeyi hızlandırdı:

  • Ölçek büyütme/genişletme ve hızlandırılmış DNN eğitimi ve kod çözme
  • Sıralı ayırt edici eğitim
  • Temel mekanizmaların sağlam bir şekilde anlaşılmasıyla derin modellerle özellik işleme
  • DNN'lerin ve ilgili derin modellerin uyarlanması
  • DNN'ler ve ilgili derin modeller tarafından çoklu görev ve aktarım öğrenimi
  • CNN'ler ve konuşma alanı bilgisinden en iyi şekilde yararlanmak için nasıl tasarlanırlar
  • RNN ve zengin LSTM varyantları
  • Tensör tabanlı modeller ve entegre derin üretici/ayırt edici modeller dahil olmak üzere diğer derin model türleri.

Tüm büyük ticari konuşma tanıma sistemleri (örneğin, Microsoft Cortana , Xbox , Skype Translator , Amazon Alexa , Google Now , Apple Siri , Baidu ve iFlyTek sesli arama ve çeşitli Nuance konuşma ürünleri vb.) derin öğrenmeye dayalıdır.

Görüntü tanıma

Görüntü sınıflandırması için ortak bir değerlendirme seti, MNIST veri tabanı veri setidir. MNIST, elle yazılmış rakamlardan oluşur ve 60.000 eğitim örneğini ve 10.000 test örneğini içerir. TIMIT'de olduğu gibi, küçük boyutu, kullanıcıların birden fazla konfigürasyonu test etmesine olanak tanır. Bu sette kapsamlı bir sonuç listesi mevcuttur.

Derin öğrenmeye dayalı görüntü tanıma, insan yarışmacılardan daha doğru sonuçlar üreten "insanüstü" hale geldi. Bu ilk olarak 2011'de trafik işaretlerinin tanınmasında ve 2014'te insan yüzlerinin tanınmasıyla gerçekleşti. İnsan Düzeyinde Yüz Tanıma Becerisini Aşmak

Derin öğrenme eğitimli araçlar artık 360° kamera görüntülerini yorumluyor. Başka bir örnek, geniş bir genetik sendrom veritabanına bağlı insan malformasyon vakalarını analiz etmek için kullanılan Yüz Dismorfolojisi Roman Analizi'dir (FDNA).

Görsel sanat işleme

Derin öğrenme tekniklerinin çeşitli görsel sanat görevlerine artan şekilde uygulanması, görüntü tanımada kaydedilen ilerlemeyle yakından ilişkilidir. DNN'ler, örneğin, a) belirli bir resmin stil dönemini tanımlama, b) Nöral Stil Aktarımı  - belirli bir sanat eserinin stilini yakalama ve onu görsel olarak hoş bir şekilde keyfi bir fotoğraf veya videoya uygulama konusunda kendilerini kanıtlamışlardır ve c) rastgele görsel girdi alanlarına dayalı çarpıcı görüntüler üretmek.

Doğal dil işleme

Sinir ağları, 2000'li yılların başından beri dil modellerini uygulamak için kullanılmıştır. LSTM, makine çevirisi ve dil modellemesinin geliştirilmesine yardımcı oldu.

Bu alandaki diğer önemli teknikler, negatif örnekleme ve kelime yerleştirmedir . Word2vec gibi sözcük yerleştirme, bir atomik sözcüğü, veri kümesindeki diğer sözcüklere göre sözcüğün konumsal bir temsiline dönüştüren bir derin öğrenme mimarisinde temsili bir katman olarak düşünülebilir; konum, bir vektör uzayında bir nokta olarak temsil edilir . Bir RNN giriş katmanı olarak sözcük yerleştirmeyi kullanmak, ağın etkili bir kompozisyon vektör dilbilgisi kullanarak cümleleri ve cümleleri ayrıştırmasına olanak tanır. Bir kompozisyon vektör dilbilgisi, bir RNN tarafından uygulanan olasılıksal bağlamdan bağımsız dilbilgisi (PCFG) olarak düşünülebilir . Kelime gömmelerinin üzerine inşa edilen özyinelemeli otomatik kodlayıcılar, cümle benzerliğini değerlendirebilir ve başka sözcüklerle ifade etmeyi algılayabilir. Derin sinir mimarileri, seçim bölgesi ayrıştırma , duygu analizi , bilgi alma, konuşulan dili anlama, makine çevirisi, bağlamsal varlık bağlama, yazı stili tanıma, Metin sınıflandırma ve diğerleri için en iyi sonuçları sağlar .

Son gelişmeler genelleme gömme sözcüğü için cümle katıştırma .

Google Çeviri (GT), büyük bir uçtan uca uzun kısa süreli bellek (LSTM) ağı kullanır. Google Sinirsel Makine Çevirisi (GNMT) , sistemin "milyonlarca örnekten öğrendiği", örnek tabanlı bir makine çevirisi yöntemi kullanır . "Parçalar yerine bütün cümleleri bir seferde çevirir. Google Çeviri yüzün üzerinde dili destekler. Ağ, "cümleden tümceye çevirileri ezberlemek yerine cümlenin anlamını" kodlar. GT, çoğu dil arasında bir aracı olarak İngilizce kullanır. dil çiftleri.

İlaç keşfi ve toksikoloji

Aday ilaçların büyük bir yüzdesi yasal onay alamamaktadır. Bu başarısızlıklara yetersiz etkinlik (hedef üzerindeki etki), istenmeyen etkileşimler (hedef dışı etkiler) veya beklenmeyen toksik etkiler neden olur . Araştırmalar, çevresel kimyasalların besinlerdeki, ev ürünlerindeki ve ilaçlardaki biyomoleküler hedefleri , hedef dışı ve toksik etkilerini tahmin etmek için derin öğrenmenin kullanımını araştırdı .

AtomNet, yapıya dayalı rasyonel ilaç tasarımı için bir derin öğrenme sistemidir . AtomNet, Ebola virüsü ve multipl skleroz gibi hastalık hedefleri için yeni aday biyomolekülleri tahmin etmek için kullanıldı .

2017'de , büyük bir toksikoloji veri setinde moleküllerin çeşitli özelliklerini tahmin etmek için ilk kez grafik sinir ağları kullanıldı. 2019'da, deneysel olarak doğrulanan molekülleri farelere kadar üretmek için üretici sinir ağları kullanıldı.

Müşteri ilişkileri yönetimi

Derin takviyeli öğrenme , RFM değişkenleri açısından tanımlanan olası doğrudan pazarlama eylemlerinin değerini tahmin etmek için kullanılmıştır . Tahmini değer fonksiyonunun, müşteri yaşam boyu değeri olarak doğal bir yoruma sahip olduğu gösterildi .

Öneri sistemleri

Öneri sistemleri, içerik tabanlı müzik ve dergi önerileri için bir gizli faktör modeli için anlamlı özellikler çıkarmak için derin öğrenmeyi kullandı. Kullanıcı tercihlerini birden çok alandan öğrenmek için çoklu görünüm derin öğrenme uygulanmıştır. Model, karma bir işbirliğine dayalı ve içerik tabanlı yaklaşım kullanır ve birden çok görevde önerileri geliştirir.

biyoinformatik

Biyoinformatikte , gen ontolojisi açıklamalarını ve gen-fonksiyon ilişkilerini tahmin etmek için bir otomatik kodlayıcı ANN kullanıldı .

Tıp bilişiminde, giyilebilir cihazlardan elde edilen verilere ve elektronik sağlık kaydı verilerinden sağlık komplikasyonlarının tahminlerine dayalı olarak uyku kalitesini tahmin etmek için derin öğrenme kullanıldı .

Tıbbi görüntü analizi

Derin öğrenmenin kanser hücresi sınıflandırması, lezyon tespiti, organ segmentasyonu ve görüntü iyileştirme gibi tıbbi uygulamalarda rekabetçi sonuçlar ürettiği gösterilmiştir.

Mobil reklamcılık

Bir hedef segment oluşturulmadan ve herhangi bir reklam sunucusu tarafından reklam sunumunda kullanılmadan önce birçok veri noktasının dikkate alınması ve analiz edilmesi gerektiğinden, mobil reklamcılık için uygun mobil kitleyi bulmak her zaman zordur. Derin öğrenme, büyük, çok boyutlu reklam veri kümelerini yorumlamak için kullanılmıştır. Talep/servis/tıklama internet reklamcılığı döngüsü sırasında birçok veri noktası toplanır. Bu bilgiler, reklam seçimini iyileştirmek için makine öğreniminin temelini oluşturabilir.

Görüntü restorasyonu

Derin öğrenme başarıyla uygulanmıştır ters problemler gibi denoising , süper çözünürlük , inpainting ve filmi renklendirme . Bu uygulamalar, bir görüntü veri kümesi üzerinde eğitim veren "Etkili Görüntü Restorasyonu için Shrinkage Fields" ve restorasyon gerektiren görüntü üzerinde eğitim veren Deep Image Prior gibi öğrenme yöntemlerini içerir .

Mali dolandırıcılık tespiti

Derin öğrenme, finansal dolandırıcılık tespiti , vergi kaçakçılığı tespiti ve kara para aklamanın önlenmesine başarıyla uygulanmaktadır .

Askeri

Amerika Birleşik Devletleri Savunma Bakanlığı, gözlem yoluyla robotları yeni görevlerde eğitmek için derin öğrenmeyi uyguladı.

Kısmi diferansiyel denklemler

Fizik bilgili sinir ağları, hem ileri hem de ters problemlerde kısmi diferansiyel denklemleri veri odaklı bir şekilde çözmek için kullanılmıştır . Bir örnek, Navier-Stokes denklemleri tarafından yönetilen yeniden yapılandırıcı sıvı akışıdır . Fizik bilgili sinir ağlarının kullanılması, geleneksel CFD yöntemlerinin dayandığı , genellikle pahalı ağ oluşturmayı gerektirmez .

İnsan bilişsel ve beyin gelişimi ile ilişkisi

Derin öğrenme, 1990'ların başında bilişsel sinirbilimciler tarafından önerilen bir beyin gelişimi teorisi (özellikle neokortikal gelişim) sınıfıyla yakından ilişkilidir . Bu gelişim teorileri, hesaplama modellerinde somutlaştırılarak onları derin öğrenme sistemlerinin öncülleri haline getirdi. Bu gelişim modelleri, beyinde önerilen çeşitli öğrenme dinamiklerinin (örneğin, bir sinir büyüme faktörü dalgası ) , derin öğrenme modellerinde kullanılan sinir ağlarına biraz benzer şekilde kendi kendine organizasyonu destekleme özelliğini paylaşır . Gibi neokortekste , sinir ağları, her bir tabakanın önceden tabaka (ya da işletim ortamı) bilgi düşündüğü tabakalı bir filtre hiyerarşi kullanır ve daha sonra diğer katmanlara, çıkışını (ve muhtemelen orijinal giriş) geçer. Bu süreç , çalışma ortamlarına iyi ayarlanmış, kendi kendini organize eden bir dönüştürücü yığını sağlar. 1995 tarihli bir tanımda, "...bebeğin beyni, sözde trofik faktörlerin dalgalarının etkisi altında kendini organize ediyor gibi görünüyor ... beynin farklı bölgeleri sırayla birbirine bağlanır, bir doku tabakası diğerinden önce olgunlaşır ve böylece tüm beyin olgunlaşana kadar."

Nörobiyolojik bir perspektiften derin öğrenme modellerinin akla yatkınlığını araştırmak için çeşitli yaklaşımlar kullanılmıştır. Bir yandan, işleme gerçekçiliğini artırmak için geri yayılım algoritmasının çeşitli varyantları önerilmiştir. Diğer araştırmacılar, hiyerarşik üretici modeller ve derin inanç ağlarına dayananlar gibi denetimsiz derin öğrenme biçimlerinin biyolojik gerçekliğe daha yakın olabileceğini savundu . Bu bağlamda, üretici sinir ağı modelleri, serebral kortekste örneklemeye dayalı işleme hakkında nörobiyolojik kanıtlarla ilişkilendirilmiştir.

İnsan beyni organizasyonu ile derin ağlardaki nöronal kodlama arasında sistematik bir karşılaştırma henüz kurulmamış olsa da, birkaç analoji rapor edilmiştir. Örneğin, derin öğrenme birimleri tarafından gerçekleştirilen hesaplamalar, gerçek nöronların ve nöral popülasyonların hesaplamalarına benzer olabilir. Benzer şekilde, derin öğrenme modelleri tarafından geliştirilen temsiller, hem tek birimde hem de popülasyon seviyelerinde primat görsel sisteminde ölçülenlere benzer.

Ticari aktivite

Facebook'un AI laboratuvarı, yüklenen resimleri içindeki kişilerin adlarıyla otomatik olarak etiketleme gibi görevleri gerçekleştirir .

Google'ın DeepMind Technologies , veri girişi olarak yalnızca pikselleri kullanarak Atari video oyunlarının nasıl oynanacağını öğrenebilen bir sistem geliştirdi . 2015'te Go oyununu profesyonel bir Go oyuncusunu yenecek kadar iyi öğrenen AlphaGo sistemlerini sergilediler . Google Çeviri , 100'den fazla dil arasında çeviri yapmak için bir sinir ağı kullanır.

2015 yılında Blippar , nesneleri gerçek zamanlı olarak tanımak için derin öğrenmeyi kullanan bir mobil artırılmış gerçeklik uygulamasını tanıttı .

2017 yılında, derin öğrenmeyi fabrikalara entegre etmeye odaklanan Covariant.ai kullanıma sunuldu.

2008 itibariyle, Austin'deki Texas Üniversitesi'ndeki (UT) araştırmacılar, Robotlar veya bilgisayar programları için etkileşim yoluyla görevleri nasıl gerçekleştireceklerini öğrenmek için yeni yöntemler öneren, Değerlendirmeli Güçlendirme yoluyla Manuel Olarak Bir Ajan Eğitimi veya TAMER adlı bir makine öğrenimi çerçevesi geliştirdiler. bir insan eğitmeni. İlk olarak TAMER olarak geliştirilen Deep TAMER adlı yeni bir algoritma daha sonra 2018 yılında ABD Ordusu Araştırma Laboratuvarı (ARL) ve UT araştırmacıları arasındaki işbirliği sırasında tanıtıldı . Deep TAMER, bir robota gözlem yoluyla yeni görevleri öğrenme yeteneği sağlamak için derin öğrenmeyi kullandı. Bir robot, Deep TAMER'i kullanarak, bir insan eğitmeniyle, video akışlarını izleyerek veya bir insanın bir görevi şahsen gerçekleştirmesini gözlemleyerek bir görevi öğrendi. Robot daha sonra, “iyi iş” ve “kötü iş” gibi geri bildirimler sağlayan eğitmenden bazı koçlukların yardımıyla görevi uyguladı.

Eleştiri ve yorum

Derin öğrenme, bazı durumlarda bilgisayar bilimi alanının dışından hem eleştiri hem de yorum çekmiştir.

teori

Ana eleştiri, bazı yöntemleri çevreleyen teori eksikliği ile ilgilidir. En yaygın derin mimarilerde öğrenme, iyi anlaşılmış gradyan inişi kullanılarak uygulanır. Bununla birlikte, karşılaştırmalı sapma gibi diğer algoritmaları çevreleyen teori daha az açıktır. (Örneğin, yakınsıyor mu? Varsa, ne kadar hızlı? Neye yaklaşıyor?) Derin öğrenme yöntemlerine genellikle bir kara kutu olarak bakılır ve çoğu doğrulama teorik olarak değil ampirik olarak yapılır.

Diğerleri, derin öğrenmeye her şeyi kapsayan bir çözüm olarak değil, güçlü yapay zekayı gerçekleştirmeye yönelik bir adım olarak bakılması gerektiğine işaret ediyor. Derin öğrenme yöntemlerinin gücüne rağmen, bu amacı tamamen gerçekleştirmek için gereken işlevsellikten hala yoksundurlar. Araştırma psikoloğu Gary Marcus şunları kaydetti:

"Gerçekçi, derin öğrenme akıllı makineler binanın büyük zorluk yalnızca bir parçasıdır. Bu teknikler temsil yollarını eksikliği nedensel ilişkileri (...) gerçekleştirme belirgin yolu vardır mantıksal çıkarımlar ve hala da soyut entegre uzun bir yol vardır böyle nesnelerin ne hakkında bilgi olarak bilgi, ne onlar içindir ve bunlar genellikle nasıl kullanılır. gibi en güçlü AI sistemleri Watson çok bütünüdür komplike (...) sadece bir unsuru olarak derin öğrenme gibi kullanım teknikleri bir istatistik tekniği kadar teknikleri, Bayes çıkarım için tümdengelim ."

Sanatsal duyarlılığın bilişsel hiyerarşinin nispeten düşük seviyelerinde bulunabileceği fikrine daha fazla atıfta bulunarak, derin (20-30 katman) sinir ağlarının iç durumlarının yayınlanmış bir dizi grafik temsili, esasen rastgele veriler içinde görüntüleri ayırt etmeye çalışır. bağlı oldukları görsel çekiciliği göstermek eğitilmiş: orijinal araştırma bildirimi aşkın 1,000 yorum aldı ve bir süre en sık erişilen makale ne konusuydu Guardian 'ın web sitesinde.

Hatalar

Bazı derin öğrenme mimarileri, tanınmayan görüntüleri, tanıdık bir sıradan görüntüler kategorisine ait olarak güvenle sınıflandırmak ve doğru sınıflandırılmış görüntülerin küçük düzensizliklerini yanlış sınıflandırmak gibi sorunlu davranışlar sergiler. Goertzel , bu davranışların iç temsillerindeki sınırlamalardan kaynaklandığını ve bu sınırlamaların heterojen çok bileşenli yapay genel zeka (AGI) mimarilerine entegrasyonu engelleyeceğini varsaydı . Bu sorunlar muhtemelen, gözlemlenen varlıkların ve olayların görüntü-dilbilgisi ayrıştırmalarına benzer durumları dahili olarak oluşturan derin öğrenme mimarileri tarafından ele alınabilir. Eğitim verilerinden bir dilbilgisi (görsel veya dilbilimsel) öğrenmek , sistemi , kavramlar üzerinde gramer üretim kuralları açısından işleyen ve hem insan dili ediniminin hem de yapay zekanın (AI) temel bir hedefi olan sağduyulu akıl yürütmeyle sınırlamaya eşdeğer olacaktır .

siber tehdit

Derin öğrenme laboratuvardan dünyaya taşınırken, araştırma ve deneyimler, yapay sinir ağlarının saldırılara ve aldatmaya karşı savunmasız olduğunu gösteriyor. Saldırganlar, bu sistemlerin çalışmak için kullandığı kalıpları belirleyerek, ANN'lere yapılan girdileri, ANN'nin insan gözlemcilerin tanıyamayacağı bir eşleşme bulacağı şekilde değiştirebilir. Örneğin, bir saldırgan, görüntü bir insana arama hedefi gibi görünmese bile, ANN'nin bir eşleşme bulmasını sağlayacak şekilde bir görüntüde ince değişiklikler yapabilir. Bu tür manipülasyona “düşman saldırısı” denir.

2016'da araştırmacılar, görüntüleri deneme yanılma yöntemiyle incelemek, diğerinin odak noktalarını belirlemek ve böylece onu aldatan görüntüler oluşturmak için bir YSA kullandı. Değiştirilen görüntüler insan gözlerinden farklı görünmüyordu. Başka bir grup, daha sonra fotoğraflanan üzerinde oynanmış görüntülerin çıktılarının bir görüntü sınıflandırma sistemini başarıyla kandırdığını gösterdi. Bir savunma, olası bir sahte görüntünün TinEye gibi bir siteye gönderildiği ve daha sonra bunun diğer örneklerini bulabilen ters görüntü aramasıdır . Bir ayrıntılandırma, o parçanın alınmış olabileceği görüntüleri belirlemek için görüntünün yalnızca parçalarını kullanarak arama yapmaktır .

Başka bir grup, belirli psychedelic gözlüklerin bir yüz tanıma sistemini sıradan insanların ünlü olduğunu düşünmesine ve potansiyel olarak bir kişinin diğerini taklit etmesine izin verebileceğini gösterdi . 2017'de araştırmacılar dur işaretleri için çıkartmalar eklediler ve bir YSA'nın bunları yanlış sınıflandırmasına neden oldu.

Bununla birlikte, YSA'lar, potansiyel olarak saldırganları ve savunucuları kötü amaçlı yazılım savunma endüstrisini tanımlayan türe benzer bir silahlanma yarışına sürükleyen aldatma girişimlerini tespit etmek için daha fazla eğitilebilir . YSA'lar , hedefe zarar verme yeteneğini korurken kötü amaçlı yazılımdan korumayı kandırana kadar genetik bir algoritma tarafından sürekli olarak değiştirilen kötü amaçlı yazılımla bir savunmaya tekrar tekrar saldırarak ANN tabanlı kötü amaçlı yazılımdan koruma yazılımını yenmek için eğitilmiştir .

Başka bir grup, belirli seslerin Google Asistan sesli komut sisteminin kötü amaçlı yazılım indirecek belirli bir web adresini açmasına neden olabileceğini gösterdi.

“Veri zehirlenmesinde”, ustalık kazanmasını önlemek için yanlış veriler sürekli olarak bir makine öğrenim sisteminin eğitim setine gizlice sokulur.

İnsan mikro çalışmasına güven

Çoğu Derin Öğrenme sistemi, insanlar tarafından oluşturulan ve/veya açıklama eklenen eğitim ve doğrulama verilerine dayanır. Da öne sürüldüğü medya felsefesi sadece düşük ücretli olduğunu ClickWork üzerinde (örn Amazon Mechanical Turk ), düzenli olarak bu amaç için konuşlanmıştır, aynı zamanda insan örtülü formları microwork çoğu zaman fark olmadığını. Filozof Rainer Mühlhoff, eğitim verileri oluşturmak için insan mikro çalışmasının beş tür "makineyle yakalanması"nı ayırt eder: (1) oyunlaştırma (bir oyunun akışına açıklama veya hesaplama görevlerinin yerleştirilmesi), (2) "bindirme ve izleme" (örn. CAPTCHA'ların veya görüntü tanıma için Google üzerinde izleme tıklayın arama sonuçları sayfalarında sosyal motivasyonların), (3) sömürü (örn yüzleri etiketleme üzerinde Facebook yüz görüntüleri etiketli olarak ulaşmak için), (4) bilgi madencilik yararlanarak (örn miktarı kendinden gibi cihazlar aktivite izleyiciler ) ve (5) tıklama işi .

Mühlhoff, Facebook'un yüz tanıma sistemi gibi Derin Öğrenmenin çoğu ticari son kullanıcı uygulamasında, bir YSA eğitildikten sonra eğitim verilerine duyulan ihtiyacın durmadığını savunuyor . Bunun yerine, YSA'yı sürekli olarak kalibre etmek ve güncellemek için insan tarafından oluşturulan doğrulama verilerine yönelik sürekli bir talep vardır. Bu amaçla Facebook, bir kullanıcı bir görüntüde otomatik olarak tanındığında bir bildirim alma özelliğini tanıttı. Resmin üzerinde herkese açık olarak etiketlenmekten hoşlanmamayı seçebilirler veya Facebook'a resimdekinin kendileri olmadığını söyleyebilirler. Bu kullanıcı arayüzü, ağı gerçek zamanlı olarak daha fazla eğitmek için "sürekli bir doğrulama verisi akışı" oluşturmaya yönelik bir mekanizmadır. Mühlhoff'un iddia ettiği gibi, eğitim ve doğrulama verilerinin üretilmesi için insan kullanıcıların katılımı, Derin Öğrenmenin ticari son kullanıcı uygulamalarının çoğu için o kadar tipiktir ki, bu tür sistemler "insan destekli yapay zeka" olarak adlandırılabilir.

Ayrıca bakınız

Referanslar

daha fazla okuma