Geri yayılım - Backpropagation

In makine öğrenimi , geri yayılım ( backprop , BP ) yaygın olarak kullanılan bir algoritma eğitim için ileri beslemeli sinir ağları . Geri yayılımın genellemeleri, diğer yapay sinir ağları (YSA'lar) ve genel olarak işlevler için mevcuttur. Bu algoritma sınıflarının tümü, genel olarak "geri yayılım" olarak adlandırılır. Gelen bir sinir ağı uydurma , geri yayılım hesaplar gradyanı bir kayıp fonksiyonu ile ilgili olarak ağırlık tek bir giriş-çıkış, örneğin ağ ve yapar verimli tek tek her ağırlığına göre degrade saf bir doğrudan hesaplama farklı olarak,. Bu verimlilik, çok katmanlı ağları eğitmek için gradyan yöntemlerini kullanmayı , kaybı en aza indirmek için ağırlıkları güncellemeyi mümkün kılar ; gradyan inişi veya stokastik gradyan inişi gibi varyantlar yaygın olarak kullanılır. Geri yayılım algoritması, zincir kuralı tarafından her ağırlığa göre kayıp fonksiyonunun gradyanını hesaplayarak, gradyanı her seferinde bir katman hesaplayarak, zincir kuralındaki ara terimlerin gereksiz hesaplamalarını önlemek için son katmandan geriye doğru yineleyerek çalışır ; bu bir dinamik programlama örneğidir .

Geri yayılım terimi, degradenin nasıl kullanıldığını değil, yalnızca degradeyi hesaplamak için kullanılan algoritmayı ifade eder; bununla birlikte, terim genellikle, stokastik gradyan inişi gibi gradyanın nasıl kullanıldığı da dahil olmak üzere, tüm öğrenme algoritmasına atıfta bulunmak için gevşek bir şekilde kullanılır. Geri yayılım, geri yayılımın tek katmanlı versiyonu olan delta kuralındaki gradyan hesaplamasını genelleştirir ve geri yayılımın özel bir ters birikim durumu olduğu (veya "ters mod") otomatik farklılaşma ile genelleştirilir . Geri yayılım terimi ve sinir ağlarındaki genel kullanımı Rumelhart, Hinton & Williams'da (1986a) duyurulmuş , daha sonra Rumelhart, Hinton & Williams'da (1986b) detaylandırılmış ve popüler hale getirilmiştir , ancak teknik birçok kez bağımsız olarak yeniden keşfedilmiştir ve birçok öncülleri tarihlenmektedir. 1960'lara; bkz. § Geçmiş . Goodfellow, Bengio & Courville (2016) tarafından hazırlanan derin öğrenme ders kitabında modern bir genel bakış sunulmaktadır .

genel bakış

Geriye yayılma hesaplar gradyanı içinde ağırlık alanı bir ile ilgili olarak, yapay sinir ağı kayıp fonksiyonu . Belirtmek:

${\görüntüleme stili x}$ : girdi (özellikler vektörü)
${\görüntüleme stili y}$ : hedef çıktı
Sınıflandırma için çıktı, sınıf olasılıklarının bir vektörü olacaktır (örneğin, ve hedef çıktı, one-hot / kukla değişken (örneğin, ) tarafından kodlanmış belirli bir sınıftır . ${\görüntüleme stili (0,1,0.7,0.2)}$ ${\görüntüleme stili (0,1,0)}$
${\görüntüleme stili C}$ : kayıp fonksiyonu veya "maliyet fonksiyonu"
Sınıflandırma için, bu genellikle çapraz entropidir (XC, log kaybı ), regresyon için ise genellikle kare hata kaybıdır (SEL).
${\görüntüleme stili L}$ : katman sayısı
$W^{l}=(w_{jk}^{l})$ : Tabaka arasında ağırlıkları ve , arasındaki ağırlık katmanda inci düğüm ve katmandaki inci düğüm ${\görüntüleme stili l-1}$ ${\görüntüleme stili l}$ $w_{jk}^{l}$ ${\görüntüleme stili k}$ ${\görüntüleme stili l-1}$ ${\görüntüleme stili j}$ ${\görüntüleme stili l}$
${\görüntüleme stili f^{l}}$ : katmandaki aktivasyon fonksiyonları ${\görüntüleme stili l}$
Sınıflandırma için son katman genellikle ikili sınıflandırma için lojistik fonksiyon ve çok sınıflı sınıflandırma için softmax (softargmax) iken, gizli katmanlar için bu geleneksel olarak her düğümde (koordinat) bir sigmoid fonksiyonu (lojistik fonksiyon veya diğerleri) idi, ancak günümüzde doğrultucu ( rampa , ReLU ) yaygın olmakla birlikte daha çeşitlidir .

Geri yayılımın türetilmesinde diğer ara miktarlar kullanılır; aşağıda gerektiği gibi tanıtılırlar. Sapma terimleri, 1'lik sabit bir girdiye sahip bir ağırlığa karşılık geldikleri için özel olarak ele alınmaz. Geri yayılım amacıyla, onlar ve türevleri verimli bir şekilde değerlendirilebildiği sürece, spesifik kayıp fonksiyonu ve aktivasyon fonksiyonları önemli değildir.

Genel ağ, işlev bileşimi ve matris çarpımının bir birleşimidir :

g(x):=f^{L}(W^{L}f^{L-1}(W^{L-1}\cdots f^{1}(W^{1}x) \cdots))

Bir eğitim seti için bir dizi girdi-çıktı çifti olacaktır, . Eğitim setindeki her girdi-çıktı çifti için, o çiftteki modelin kaybı, tahmin edilen çıktı ile hedef çıktı arasındaki farkın maliyetidir : $\sol\{(x_{i},y_{i})\sağ\}$ ${\görüntüleme stili (x_{i},y_{i})}$ ${\ Displaystyle g(x_{i})}$ ${\görüntüleme stili y_{i}}$

{\görüntüleme stili C(y_{i},g(x_{i}))}

Ayrıma dikkat edin: model değerlendirmesi sırasında, girdiler değişirken (ve hedef çıktı bilinmeyebilir) ağırlıklar sabitlenir ve ağ çıktı katmanıyla sona erer (kayıp fonksiyonunu içermez). Model eğitimi sırasında girdi-çıktı çifti sabitlenirken ağırlıklar değişir ve ağ kayıp fonksiyonu ile sona erer.

Geri yayılım , ağırlıkların değişebileceği sabit bir girdi-çıktı çifti için gradyanı hesaplar . Gradyanın her bir bileşeni zincir kuralı ile hesaplanabilir; ancak bunu her ağırlık için ayrı ayrı yapmak verimsizdir. Geri yayılım, her katmanın gradyanını - özellikle, her katmanın ağırlıklı girişinin gradyanı - arkadan öne doğru hesaplayarak, çift hesaplamalardan kaçınarak ve gereksiz ara değerleri hesaplamadan gradyanı verimli bir şekilde hesaplar . ${\görüntüleme stili (x_{i},y_{i})}$ $w_{jk}^{l}$ $\kısmi C/\kısmi w_{jk}^{l},$ ${\görüntüleme stili \delta ^{l}}$

Gayrı, kilit nokta tek yolu bir ağırlık beri olmasıdır etkileyen kaybı üzerindeki etkisi geçer sonraki katmana ve bunu yapar doğrusal , tek veri katmanında ağırlıkların geçişlerini hesaplamamız gerekir vardır , sonra ve önceki katmanı hesaplayabilir ve özyinelemeli olarak tekrarlayabilirsiniz. Bu, verimsizliği iki şekilde önler. İlk olarak, çoğaltmayı önler, çünkü katmandaki gradyanı hesaplarken, sonraki katmanlardaki tüm türevleri her seferinde yeniden hesaplamanız gerekmez . İkinci olarak, gereksiz ara hesaplamalardan kaçınır, çünkü her aşamada, ağırlıklardaki değişikliklere göre gizli katmanların değerlerinin türevlerini gereksiz yere hesaplamak yerine, nihai çıktıya (kayıp) göre ağırlıkların gradyanını doğrudan hesaplar . ${\görüntüleme stili W^{l}}$ ${\görüntüleme stili \delta ^{l}}$ ${\görüntüleme stili l}$ ${\görüntüleme stili \delta ^{l-1}}$ ${\görüntüleme stili l}$ $l+1,l+2,\ldots$ $\partial a_{j'}^{l'}/\partial w_{jk}^{l}$

Geri yayılım, basit ileri beslemeli ağlar için matris çarpımı veya daha genel olarak birleşik grafik cinsinden ifade edilebilir .

matris çarpımı

Her katmandaki düğümlerin yalnızca bir sonraki katmandaki düğümlere bağlı olduğu (herhangi bir katmanı atlamadan) ve nihai çıktı için bir skaler kaybı hesaplayan bir kayıp fonksiyonu olduğu bir ileri beslemeli ağ temel durumu için, geri yayılım şu şekilde olabilir: basitçe matris çarpımı ile anlaşılır. Esasen, geri yayılım, maliyet fonksiyonunun türevi ifadesini , sağdan sola her katman arasındaki türevlerin bir ürünü olarak değerlendirir - "geriye doğru" - her katman arasındaki ağırlıkların gradyanı kısmi ürünlerin basit bir modifikasyonudur (" geriye doğru yayılan hata").

Bir girdi-çıktı çifti verildiğinde kayıp: ${\görüntüleme stili (x,y)}$

C(y,f^{L}(W^{L}f^{L-1}(W^{L-1}\cdots f^{2}(W^{2}f^{1)) }(W^{1}x))\cdots ))))

Bunu hesaplamak için girişle başlar ve ileriye doğru ilerler; her katmanın ağırlıklı girdisini ve katmanın çıktısını aktivasyon olarak belirtin . Geri yayılım için, aktivasyonun yanı sıra türevler ( 'de değerlendirilir ) geriye doğru geçiş sırasında kullanılmak üzere önbelleğe alınmalıdır. ${\görüntüleme stili x}$ $z^{l}$ ${\görüntüleme stili l}$ ${\görüntüleme stili a^{l}}$ ${\görüntüleme stili a^{l}}$ ${\görüntüleme stili (f^{l})'}$ $z^{l}$

Kaybın girdiler cinsinden türevi zincir kuralı ile verilir; her terimin, girişteki ağın (her düğümde) değerine göre değerlendirilen toplam bir türev olduğuna dikkat edin : ${\görüntüleme stili x}$

{\frac {dC}{da^{L}}}\cdot {\frac {da^{L}}{dz^{L}}}\cdot {\frac {dz^{L}}{ da^{L-1}}}\cdot {\frac {da^{L-1}}{dz^{L-1}}}\cdot {\frac {dz^{L-1}}{da^ {L-2}}}\cdots {\frac {da^{1}}{dz^{1}}}\cdot {\frac {\partial z^{1}}{\partial x}}.

Bu terimler şunlardır: kayıp fonksiyonunun türevi; aktivasyon fonksiyonlarının türevleri; ve ağırlık matrisleri:

{\frac {dC}{da^{L}}}\cdot (f^{L})'\cdot W^{L}\cdot (f^{L-1})'\cdot W^ {L-1}\cdots (f^{1})'\cdot W^{1}.

Gradyan olan devrik matrisler transpoze ve çarpma sırası tersine, ancak girişler aynı olacak şekilde, giriş açısından çıkış türevinin: ${\görüntüleme stili\nabla }$

\nabla _{x}C=(W^{1})^{T}\cdot (f^{1})'\cdots \cdot (W^{L-1})^{T}\ cdot (f^{L-1})'\cdot (W^{L})^{T}\cdot (f^{L})'\cdot \nabla _{a^{L}}C.

Geri yayılım esas olarak bu ifadeyi sağdan sola değerlendirmekten (eşdeğer olarak, türev için önceki ifadeyi soldan sağa çarparak), yolda her katmandaki gradyanı hesaplamaktan oluşur; ek bir adım var, çünkü ağırlıkların gradyanı sadece bir alt ifade değil: fazladan bir çarpma var.

"Seviyede hata" olarak yorumlanan ve seviyedeki girdi değerlerinin gradyanı olarak tanımlanan kısmi ürünler (sağdan sola çarpılarak) için yardımcı niceliğin tanıtılması : ${\görüntüleme stili \delta ^{l}}$ ${\görüntüleme stili l}$ ${\görüntüleme stili l}$

\delta ^{l}:=(f^{l})'\cdot (W^{l+1})^{T}\cdots \cdot (W^{L-1})^{T }\cdot (f^{L-1})'\cdot (W^{L})^{T}\cdot (f^{L})'\cdot \nabla _{a^{L}}C.

Düzeydeki düğüm sayısına eşit uzunlukta bir vektör olduğuna dikkat edin ; her bileşen "o düğüme (değerine) atfedilebilen maliyet" olarak yorumlanır. ${\görüntüleme stili \delta ^{l}}$ ${\görüntüleme stili l}$

Katmandaki ağırlıkların gradyanı şu şekildedir: ${\görüntüleme stili l}$

\nabla _{W^{l}}C=\delta ^{l}(a^{l-1})^{T}.

Faktörü, seviye ile seviye arasındaki ağırlıkların seviyeyi girdilerle orantılı olarak etkilemesidir (aktivasyonlar): girdiler sabittir, ağırlıklar değişir. ${\görüntüleme stili a^{l-1}}$ ${\görüntüleme stili W^{l}}$ ${\görüntüleme stili l-1}$ ${\görüntüleme stili l}$ ${\görüntüleme stili l}$

Kolayca yinelemeli olarak hesaplanabilir: ${\görüntüleme stili \delta ^{l}}$

\delta ^{l-1}:=(f^{l-1})'\cdot (W^{l})^{T}\cdot \delta ^{l}.

Ağırlıkların gradyanları böylece her seviye için birkaç matris çarpımı kullanılarak hesaplanabilir; bu geri yayılımdır.

Saf bir şekilde ileriye dönük hesaplama ile karşılaştırıldığında ( resim için kullanılarak ): ${\görüntüleme stili \delta ^{l}}$

{\begin{aligned}\delta ^{1}&=(f^{1})'\cdot (W^{2})^{T}\cdot (f^{2})'\cdots \cdot (W^{L-1})^{T}\cdot (f^{L-1})'\cdot (W^{L})^{T}\cdot (f^{L})' \cdot \nabla _{a^{L}}C\\\delta ^{2}&=(f^{2})'\cdots \cdot (W^{L-1})^{T}\cdot (f^{L-1})'\cdot (W^{L})^{T}\cdot (f^{L})'\cdot \nabla _{a^{L}}C\\&\ vdots \\\delta ^{L-1}&=(f^{L-1})'\cdot (W^{L})^{T}\cdot (f^{L})'\cdot \nabla _{a^{L}}C\\\delta ^{L}&=(f^{L})'\cdot \nabla _{a^{L}}C,\end{hizalı}}

geri yayılım ile iki önemli fark vardır:

Açısından hesaplama , katmanların ve ötesinin bariz şekilde çoğaltılmasını önler . ${\görüntüleme stili \delta ^{l-1}}$ ${\görüntüleme stili \delta ^{l}}$ ${\görüntüleme stili l}$
Başlangıç noktasından çarpma – hatayı geriye doğru yayma – her adımın basitçe bir vektörü ( ) ağırlık matrisleri ve aktivasyonların türevleri ile çarpması anlamına gelir . Buna karşılık, daha önceki bir katmandaki değişikliklerden başlayarak ileriye doğru çarpma, her çarpmanın bir matris ile bir matris çarptığı anlamına gelir . Bu daha pahalı ve bir tabaka bir değişikliğin mümkün olan her türlü yolu izlemeye tekabül tabakasındaki değişimleri ileri (Çoğaltma tarafından gereksiz kadar ağırlığı orta miktarlarda hesaplar, etkinleştirme türevleri için ek çarpma ile) değişiklikler gizli düğümlerin değerlerini etkiler. $\nabla _{a^{L}}C$ ${\görüntüleme stili \delta ^{l}}$ ${\görüntüleme stili (W^{l})^{T}}$ ${\görüntüleme stili (f^{l-1})'}$ ${\görüntüleme stili l}$ ${\ Displaystyle l+2}$ ${\ Displaystyle W^{l+1}}$ ${\görüntüleme stili W^{l+2}}$

birleşik grafik

Daha genel grafikler ve diğer gelişmiş varyasyonlar için, geri yayılım otomatik farklılaşma açısından anlaşılabilir , burada geri yayılım ters birikimin özel bir durumudur (veya "ters mod").

Sezgi

Motivasyon

Herhangi bir denetimli öğrenme algoritmasının amacı, bir dizi girdiyi doğru çıktılarına en iyi şekilde eşleyen bir işlev bulmaktır. Geri yayılım için motivasyon, çok katmanlı bir sinir ağını, girdiden çıktıya herhangi bir keyfi eşlemeyi öğrenmesine izin vermek için uygun dahili temsilleri öğrenebilecek şekilde eğitmektir.

Bir optimizasyon problemi olarak öğrenme

Geri yayılım algoritmasının matematiksel türevini anlamak için, önce bir nöronun gerçek çıktısı ile belirli bir eğitim örneği için doğru çıktı arasındaki ilişki hakkında bazı sezgiler geliştirmeye yardımcı olur. İki giriş birimi, bir çıkış birimi ve gizli birimi olmayan ve her bir nöronun doğrusal bir çıkış kullandığı (girdilerden çıkışlara eşlemenin doğrusal olmadığı sinir ağlarındaki çoğu çalışmanın aksine) basit bir sinir ağı düşünün . girdisinin ağırlıklı toplamı.

İki giriş birimi (her biri tek girişli) ve bir çıkış birimi (iki girişli) olan basit bir sinir ağı

Başlangıçta, antrenmandan önce ağırlıklar rastgele ayarlanacaktır. Daha sonra gelen nöron öğrenir eğitim örnekleri , bu durumda bir dizi oluşur küpe burada ve ağa giriş ve $t$ (eğitilmiş olan ağ girişlere verilen vermesi gerekmektedir çıkış) doğru çıktı. İlk ağ, verilen ve bir çıkış hesaplamak $y$ ile ilgili olası farklı olduğu $t$ (rastgele ağırlıkları verilen). Hedef çıktı $t$ ile hesaplanan çıktı $y$ arasındaki farkı ölçmek için bir kayıp fonksiyonu kullanılır . İçin regresyon analizi problemlerine kare hata, bir kayıp fonksiyonu olarak kullanılabilecek sınıflandırma kategorik crossentropy kullanılabilir. $(x_{1},x_{2},t)$ ${\görüntüleme stili x_{1}}$ $x_{2}$ ${\görüntüleme stili x_{1}}$ $x_{2}$ ${\görüntüleme stili L(t,y)}$

Örnek olarak kare hatasını kayıp olarak kullanan bir regresyon problemini düşünün:

L(t,y)=(ty)^{2}=E,

burada $E$ tutarsızlık veya hatadır.

Ağı tek bir eğitim durumu üzerinde düşünün: . Böylece, giriş ve sırasıyla 1 ve 1'dir ve doğru çıkış, $t$ 0'dır. Şimdi, ağın yatay eksendeki çıkışı $y$ ile dikey eksendeki $E$ hatası arasındaki ilişki çizilirse , sonuç bir paraboldür. En az bir parabol çıkış tekabül $y$ hata minimize $E$ . Tek bir eğitim durumu için, minimum yatay eksene de dokunur, bu da hatanın sıfır olacağı ve ağın hedef çıktı $t ile$ tam olarak eşleşen bir çıktı $y$ üretebileceği anlamına gelir . Bu nedenle, girdileri çıktılara eşleme problemi , minimum hatayı üretecek bir fonksiyon bulma optimizasyon problemine indirgenebilir . ${\görüntüleme stili (1,1,0)}$ ${\görüntüleme stili x_{1}}$ $x_{2}$

Tek bir eğitim durumu için doğrusal bir nöronun hata yüzeyi

Bununla birlikte, bir nöronun çıktısı, tüm girdilerinin ağırlıklı toplamına bağlıdır:

y=x_{1}w_{1}+x_{2}w_{2},

giriş birimlerinden çıkış birimine bağlantıdaki ağırlıklar nerede ve bunlardır. Bu nedenle, hata aynı zamanda nörona gelen ağırlıklara da bağlıdır, bu da öğrenmeyi sağlamak için ağda nihayetinde değiştirilmesi gereken şeydir. ${\görüntüleme stili w_{1}}$ ${\ Displaystyle w_{2}}$

Bu örnekte, eğitim verilerinin enjekte edilmesi üzerine kayıp işlevi

$E=(ty)^{2}=y^{2}=(x_{1}w_{1}+x_{2}w_{2})^{2}=(w_{1}+w_ {2})^{2}.$

Daha sonra kayıp fonksiyonu , tabanı boyunca yönlendirilmiş bir parabolik silindir şeklini alır . Kayıp fonksiyonunu en aza indiren tüm ağırlık setleri, bu durumda benzersiz bir çözüme yakınsama için ek kısıtlamalar gereklidir. Ağırlıklara belirli koşullar ayarlanarak veya ek eğitim verileri enjekte edilerek ek kısıtlamalar oluşturulabilir. ${\görüntüleme stili E}$ $w_{1}=-w_{2}$ $w_{1}=-w_{2}$

Hatayı en aza indiren ağırlık kümesini bulmak için yaygın olarak kullanılan bir algoritma gradyan inişidir . Geri yayılım ile, mevcut sinaptik ağırlıklara karşı kayıp fonksiyonun en dik iniş yönü hesaplanır. Daha sonra ağırlıklar en dik iniş yönü boyunca değiştirilebilir ve hata verimli bir şekilde en aza indirilir.

türetme

Gradyan iniş yöntemi, ağın ağırlıklarına göre kayıp fonksiyonunun türevinin hesaplanmasını içerir. Bu normalde geri yayılım kullanılarak yapılır. Bir çıkış nöronu varsayarsak, karesi alınmış hata fonksiyonu

{\görüntüleme stili E=L(t,y)}

nerede

{\görüntüleme stili L}

çıktı ve hedef değer için kayıp ,

{\görüntüleme stili y}

{\görüntüleme stili t}

{\görüntüleme stili t}

bir eğitim örneği için hedef çıktıdır ve

{\görüntüleme stili y}

çıkış nöronunun gerçek çıktısıdır.

Her nöron için çıktısı şu şekilde tanımlanır: ${\görüntüleme stili j}$ ${\görüntüleme stili o_{j}}$

o_{j}=\varphi ({\text{net}}_{j})=\varphi \left(\sum _{k=1}^{n}w_{kj}o_{k}\ sağ),

burada aktivasyon fonksiyonu olan doğrusal olmayan ve türevlenebilir (relu bir noktada değil bile). Tarihsel olarak kullanılan bir etkinleştirme işlevi, lojistik işlevdir : ${\görüntüleme stili \varphi }$

\varphi (z)={\frac {1}{1+e^{-z}}}

uygun bir türevi olan:

{\frac {d\varphi (z)}{dz}}=\varphi (z)(1-\varphi (z))

Bir nöronun girdisi , önceki nöronların çıktılarının ağırlıklı toplamıdır . Eğer nöron girdi katmanından sonraki ilk katmandaysa , girdi katmanınınkiler sadece ağın girdileridir . Nörona giriş birimlerinin sayısı . Değişken , önceki katmanın nöronu ile mevcut katmanın nöronu arasındaki ağırlığı ifade eder . ${\text{net}}_{j}$ $o_{k}$ $o_{k}$ $x_{k}$ ${\görüntüleme stili n}$ $w_{kj}$ ${\görüntüleme stili k}$ ${\görüntüleme stili j}$

Hatanın türevini bulma

Burada kullanılan gösterimi gösteren bir yapay sinir ağı diyagramı

Hesaplama kısmi türevi bir ağırlığına göre hata kullanılarak yapılır zincir kuralı iki kez: $w_{ij}$

{\frac {\partial E}{\partial w_{ij}}}={\frac {\partial E}{\partial o_{j}}}{\frac {\partial o_{j}}{ \partial w_{ij}}}={\frac {\partial E}{\partial o_{j}}}{\frac {\partial o_{j}}{\partial {\text{net}}_{j }}}{\frac {\partial {\text{net}}_{j}}{\partial w_{ij}}}

( Denklem 1 )

Yukarıdakilerin sağ tarafının son faktöründe, toplamda yalnızca bir terim bağlıdır , yani ${\text{net}}_{j}$ $w_{ij}$

{\frac {\partial {\text{net}}_{j}}{\partial w_{ij}}}={\frac {\partial }{\partial w_{ij}}}\left( \sum _{k=1}^{n}w_{kj}o_{k}\sağ)={\frac {\partial }{\partial w_{ij}}}w_{ij}o_{i}=o_ {ben}.

( Denklem 2 )

Eğer nöron giriş katmanından sonraki ilk katmandaysa , sadece . $o_{i}$ $x_{i}$

Nöronun çıktısının girdisine göre türevi, aktivasyon fonksiyonunun kısmi türevidir: ${\görüntüleme stili j}$

{\frac {\partial o_{j}}{\partial {\text{net}}_{j}}}={\frac {\partial \varphi ({\text{net}}_{j) })}{\kısmi {\metin{net}}_{j}}}

( Denklem 3 )

bunun için lojistik aktivasyon fonksiyonu durumunda olduğu:

{\frac {\partial o_{j}}{\partial {\text{net}}_{j}}}={\frac {\partial }{\partial {\text{net}}_{ j}}}\varphi ({\text{net}}_{j})=\varphi ({\text{net}}_{j})(1-\varphi ({\text{net}}_{ j}))=o_{j}(1-o_{j})

Geri yayılımın aktivasyon fonksiyonunun türevlenebilir olmasını gerektirmesinin nedeni budur . (Yine de, 0'da türevlenemeyen ReLU aktivasyon fonksiyonu oldukça popüler hale geldi, örneğin AlexNet'te )

İlk faktör, nöronun çıktı katmanında olup olmadığını değerlendirmek için basittir, çünkü o zaman ve $o_{j}=y$

{\frac {\kısmi E}{\kısmi o_{j}}}={\frac {\kısmi E}{\kısmi y}}

( Denklem 4 )

Kare hatasının yarısı kayıp fonksiyonu olarak kullanılırsa, onu şu şekilde yeniden yazabiliriz:

{\frac {\kısmi E}{\kısmi o_{j}}}={\frac {\kısmi E}{\kısmi y}}={\frac {\kısmi }{\kısmi y}}{ \frac {1}{2}}(ty)^{2}=yt

Bununla birlikte, eğer bir türevini bulmak ağın bir rasgele, iç katmandaki olduğu göre daha az açıktır. ${\görüntüleme stili j}$ ${\görüntüleme stili E}$ ${\görüntüleme stili o_{j}}$

Girdilerin nörondan girdi alan tüm nöronlar olduğu bir fonksiyon olarak düşünüldüğünde , ${\görüntüleme stili E}$ $L=\{u,v,\dots ,w\}$ ${\görüntüleme stili j}$

{\frac {\partial E(o_{j})}{\partial o_{j}}}={\frac {\partial E(\mathrm {net} _{u},{\text{net) }}_{v},\dots ,\mathrm {net} _{w})}{\kısmi o_{j}}}

ve 'ye göre toplam türev alındığında, türev için özyinelemeli bir ifade elde edilir: ${\görüntüleme stili o_{j}}$

{\frac {\partial E}{\partial o_{j}}}=\sum _{\ell \in L}\left({\frac {\partial E}{\partial {\text{net) }}_{\ell }}}{\frac {\partial {\text{net}}_{\ell }}{\partial o_{j}}}\sağ)=\sum _{\ell \in L }\left({\frac {\partial E}{\partial o_{\ell }}}{\frac {\partial o_{\ell }}{\partial {\text{net}}_{\ell }} }{\frac {\partial {\text{net}}_{\ell }}{\partial o_{j}}}\right)=\sum _{\ell \in L}\left({\frac { \partial E}{\partial o_{\ell }}}{\frac {\partial o_{\ell }}{\partial {\text{net}}_{\ell }}}w_{j\ell }\ sağ)

( Denk. 5 )

Bu nedenle, bir sonraki katmanın çıktılarına göre tüm türevler – çıktı nöronuna daha yakın olanlar – biliniyorsa , türeve göre türev hesaplanabilir . [Not, kümedeki nöronlardan herhangi biri nörona bağlı olmasaydı, nöronlardan bağımsız olacaklardı ve toplama altındaki karşılık gelen kısmi türev 0'a kaybolacaktı.] ${\görüntüleme stili o_{j}}$ $o_{\ell }$ ${\görüntüleme stili L}$ ${\görüntüleme stili j}$ $w_{ij}$

Değiştirme Denklem 2 , Denk. 3 Denk.4 ve Denk. 5 yılında Denk. 1 elde ederiz:

{\frac {\partial E}{\partial w_{ij}}}={\frac {\partial E}{\partial o_{j}}}{\frac {\partial o_{j}}{ \partial {\text{net}}_{j}}}{\frac {\partial {\text{net}}_{j}}{\partial w_{ij}}}={\frac {\partial E }{\partial o_{j}}}{\frac {\partial o_{j}}{\partial {\text{net}}_{j}}}o_{i}

{\frac {\kısmi E}{\kısmi w_{ij}}}=o_{i}\delta _{j}

ile birlikte

\delta _{j}={\frac {\partial E}{\partial o_{j}}}{\frac {\partial o_{j}}{\partial {\text{net}}_{ j}}}={\begin{cases}{\frac {\partial L(o_{j},t)}{\partial o_{j}}}{\frac {d\varphi ({\text{net}) }_{j})}{d{\text{net}}_{j}}}&{\text{if }}j{\text{ bir çıkış nöronudur,}}\\(\sum _{\ ell \in L}w_{j\ell }\delta _{\ell }){\frac {d\varphi ({\text{net}}_{j})}{d{\text{net}}_ {j}}}&{\text{if }}j{\text{ bir iç nörondur.}}\end{durumlar}}

eğer lojistik fonksiyonudur ve hata kare hatadır: ${\görüntüleme stili \varphi }$

\delta _{j}={\frac {\partial E}{\partial o_{j}}}{\frac {\partial o_{j}}{\partial {\text{net}}_{ j}}}={\begin{cases}(o_{j}-t_{j})o_{j}(1-o_{j})&{\text{if }}j{\text{ bir çıktıdır nöron,}}\\(\sum _{\ell \in L}w_{j\ell }\delta _{\ell })o_{j}(1-o_{j})&{\text{if } }j{\text{ bir iç nörondur.}}\end{durumlar}}

Gradyan inişini kullanarak ağırlığı güncellemek için , bir öğrenme oranı seçilmelidir, . Ağırlıktaki değişimin , bir artış veya azalma üzerindeki etkisini yansıtması gerekir . Eğer , bir artış artar ; tersine, eğer , bir artış azalır . Yeni , eski ağırlığa eklenir ve öğrenme oranı ve gradyanın çarpımı , her zaman azalan bir şekilde değişen garantiler ile çarpılır . Başka bir deyişle, hemen aşağıdaki denklemde, her zaman azalan şekilde değişir : $w_{ij}$ ${\görüntüleme stili \eta >0}$ ${\görüntüleme stili E}$ $w_{ij}$ ${\frac {\kısmi E}{\kısmi w_{ij}}}>0$ $w_{ij}$ ${\görüntüleme stili E}$ ${\frac {\kısmi E}{\kısmi w_{ij}}}<0$ $w_{ij}$ ${\görüntüleme stili E}$ $\Delta w_{ij}$ ${\görüntüleme stili -1}$ $w_{ij}$ ${\görüntüleme stili E}$ $-\eta {\frac {\kısmi E}{\kısmi w_{ij}}}$ $w_{ij}$ ${\görüntüleme stili E}$

\Delta w_{ij}=-\eta {\frac {\kısmi E}{\kısmi w_{ij}}}=-\eta o_{i}\delta _{j}

kayıp fonksiyonu

Kayıp işlevi, bir veya daha fazla değişkenin değerlerini, bu değerlerle ilişkili bazı "maliyetleri" sezgisel olarak temsil eden gerçek bir sayı üzerine eşleyen bir işlevdir . Geri yayılım için, kayıp işlevi, bir eğitim örneğinin ağ üzerinden yayılmasından sonra, ağ çıkışı ile beklenen çıkışı arasındaki farkı hesaplar.

varsayımlar

Kayıp fonksiyonunun matematiksel ifadesi, muhtemelen geri yayılımda kullanılabilmesi için iki koşulu yerine getirmelidir. Birincisi , bireysel eğitim örnekleri için hata fonksiyonlarının ortalaması olarak yazılabilmesidir . Bu varsayımın nedeni, geri yayılım algoritmasının, genel hata fonksiyonuna genelleştirilmesi gereken tek bir eğitim örneği için hata fonksiyonunun gradyanını hesaplamasıdır. İkinci varsayım, sinir ağından gelen çıktıların bir fonksiyonu olarak yazılabileceğidir. ${\textstyle E={\frac {1}{n}}\sum _{x}E_{x}}$ ${\textstyle E_{x}}$ ${\metin stili n}$ ${\metin stili x}$

Örnek kayıp fonksiyonu

vektörleri olsun . ${\görüntüleme stili y,y'}$ $\mathbb {R} ^{n}$

İki çıkış arasındaki farkı ölçen bir hata fonksiyonu seçin . Standart seçim, vektörler arasındaki Öklid mesafesinin karesidir ve : ${\görüntüleme stili E(y,y')}$ ${\görüntüleme stili y}$ ${\görüntüleme stili y'}$

E(y,y')={\tfrac {1}{2}}\lVert y-y'\rVert ^{2}

Eğitim örnekleri üzerindeki hata fonksiyonu daha sonra bireysel örnekler üzerindeki kayıpların ortalaması olarak yazılabilir:

{\metin stili n}

E={\frac {1}{2n}}\sum _{x}\lVert (y(x)-y'(x))\rVert ^{2}

sınırlamalar

Gradyan inişi, global minimum yerine yerel bir minimum bulabilir.

Geri yayılımlı gradyan inişinin , hata fonksiyonunun global minimumunu bulması garanti edilmez , sadece yerel bir minimum bulunur; ayrıca, hata işlevi ortamında platoları geçmekte sorun yaşıyor . Sinir ağlarındaki hata fonksiyonlarının dışbükey olmamasından kaynaklanan bu sorunun uzun süredir büyük bir dezavantaj olduğu düşünülüyordu, ancak Yann LeCun ve ark. birçok pratik problemde öyle olmadığını iddia ediyor.
Geri yayılımlı öğrenme, girdi vektörlerinin normalleştirilmesini gerektirmez; ancak normalleştirme performansı iyileştirebilir.
Geri yayılım, aktivasyon fonksiyonlarının türevlerinin ağ tasarım zamanında bilinmesini gerektirir.

Tarih

Geri yayılım terimi ve sinir ağlarındaki genel kullanımı Rumelhart, Hinton & Williams'da (1986a) duyurulmuş , daha sonra Rumelhart, Hinton & Williams'da (1986b) detaylandırılmış ve popüler hale getirilmiştir , ancak teknik birçok kez bağımsız olarak yeniden keşfedilmiştir ve birçok öncülleri tarihlenmektedir. 1960'lara.

Sürekli geri yayılım temelleri çerçevesinde elde edilmiştir kontrol teorisi ile Henry J. Kelley 1960, tarafından Arthur E. Bryson Bunlar prensipleri kullanılır 1961 yılında dinamik programlama . 1962'de Stuart Dreyfus , yalnızca zincir kuralına dayanan daha basit bir türetme yayınladı . Bryson ve Ho , 1969'da bunu çok aşamalı bir dinamik sistem optimizasyon yöntemi olarak tanımladılar . Geri yayılım, 60'ların başında birden fazla araştırmacı tarafından türetildi ve 1970'lerde Seppo Linnainmaa tarafından bilgisayarlarda çalıştırılmak üzere uygulandı . Paul Werbos , 1974 tezinde derinlemesine analiz ettikten sonra sinir ağları için kullanılabileceğini öneren ABD'deki ilk kişiydi . Sinir ağlarına uygulanmamakla birlikte, 1970 yılında Linnainmaa, otomatik farklılaşma (AD) için genel yöntemi yayınladı . Çok tartışmalı olmasına rağmen, bazı bilim adamları bunun aslında bir geri yayılım algoritması geliştirmeye yönelik ilk adım olduğuna inanıyor. 1973'te Dreyfus , kontrolörlerin parametrelerini hata gradyanlarıyla orantılı olarak uyarlar . 1974'te Werbos, bu prensibi yapay sinir ağlarına uygulama olasılığından bahsetti ve 1982'de Linnainmaa'nın AD yöntemini doğrusal olmayan fonksiyonlara uyguladı.

Daha sonra Werbos yöntemi 1985'te Parker ve 1986'da Rumelhart , Hinton ve Williams tarafından yeniden keşfedildi ve tanımlandı . Rumelhart, Hinton ve Williams, deneysel olarak, bu yöntemin, sinir ağlarının gizli katmanlarında gelen verilerin kullanışlı iç temsillerini üretebileceğini gösterdi. Yann LeCun 1987'deki doktora tezinde sinir ağları için geri yayılımlı öğrenme algoritmasının modern biçimini önerdi. 1993'te Eric Wan, geri yayılım yoluyla uluslararası bir örüntü tanıma yarışmasını kazandı.

2000'lerde gözden düştü, ancak 2010'larda ucuz, güçlü GPU tabanlı bilgi işlem sistemlerinden yararlanarak geri döndü . Bu, özellikle konuşma tanıma , makine görme , doğal dil işleme ve dil yapısı öğrenme araştırmalarında (birinci ve ikinci dil öğrenimiyle ilgili çeşitli fenomenleri açıklamak için kullanılmıştır) böyle olmuştur.

N400 ve P600 gibi insan beyni ERP bileşenlerini açıklamak için hata geri yayılımı önerilmiştir .

Ayrıca bakınız

Notlar

Referanslar

daha fazla okuma

İyi arkadaş, Ian ; Bengio, Yoshua ; Courville, Aaron (2016). "6.5 Geri Yayılım ve Diğer Farklılaştırma Algoritmaları" . Derin Öğrenme . MİT Basın. s. 200–220. ISBN'si 9780262035613.
Nielsen, Michael A. (2015). "Geri yayılım algoritması nasıl çalışır" . Sinir Ağları ve Derin Öğrenme . Belirleme Basın.
McCaffrey, James (Ekim 2012). "Programcılar için Sinir Ağı Geri Yayılımı" . MSDN Dergisi .
Rojas, Raul (1996). "Geri Yayılım Algoritması" (PDF) . Sinir Ağları: Sistematik Bir Giriş . Berlin: Springer. ISBN'si 3-540-60505-3.

Dış bağlantılar

Wikiversity'de geri yayılım sinir ağı öğreticisi
Bernacki, Mariusz; Wlodarczyk, Przemysław (2004). "Geri yayılım kullanarak çok katmanlı sinir ağı eğitiminin ilkeleri" .
Karpathy, Andrej (2016). "Ders 4: Geri Yayılım, Sinir Ağları 1" . CS231n . Stanford Üniversitesi – YouTube aracılığıyla .
"Geri Yayılım Gerçekten Ne Yapıyor?" . 3Mavi1Kahverengi . 3 Kasım 2017 – YouTube üzerinden .

Languages

In other projects