Genelleme hatası - Generalization error

İçin denetimli öğrenme uygulamalar makine öğrenme ve istatistiksel öğrenme teorisi , genelleme hatası (aynı zamanda dışarı-of-the örnek hata ya da risk ) bir algoritma daha önce görülmemiş verileri için sonuç değerleri tahmin edebilir ne kadar doğru bir ölçüsüdür. Öğrenme algoritmaları sonlu örnekler üzerinde değerlendirildiğinden, bir öğrenme algoritmasının değerlendirilmesi örnekleme hatasına duyarlı olabilir . Sonuç olarak, mevcut veriler üzerindeki tahmin hatası ölçümleri, yeni veriler üzerinde tahmin yeteneği hakkında fazla bilgi sağlamayabilir. Öğrenme algoritmasına aşırı uymaktan kaçınarak genelleme hatası en aza indirilebilir . Bir makine öğrenimi algoritmasının performansı, öğrenme eğrileri adı verilen öğrenme süreci boyunca genelleme hatası tahminlerinin değerlerini gösteren grafiklerle görselleştirilir .

Tanım

Bir öğrenme probleminde amaç, her girdi verisi için çıktı değerlerini tahmin eden bir işlev geliştirmektir . Alt simge , işlevin bir veri noktası veri kümesine dayalı olarak geliştirildiğini belirtir . Genelleme hatası veya beklenen zarar veya risk , belirli bir fonksiyonun tüm olası değerleri üzerinden ve geçerli: ${\ displaystyle f_ {n} ({\ vec {x}})}$ ${\ displaystyle y}$ ${\ displaystyle {\ vec {x}}}$ ${\ displaystyle n}$ ${\ displaystyle f_ {n}}$ ${\ displaystyle n}$ ${\ displaystyle I [f]}$ ${\ displaystyle f}$ ${\ displaystyle {\ vec {x}}}$ ${\ displaystyle y}$

{\ displaystyle I [f] = \ int _ {X \ times Y} V (f ({\ vec {x}}), y) \ rho ({\ vec {x}}, y) d {\ vec { x}} dy,}

nerede bir belirtmektedir kayıp fonksiyonu ve bilinmeyen ortak olasılık dağılımı için ve . ${\ displaystyle V}$ ${\ displaystyle \ rho ({\ vec {x}}, y)}$ ${\ displaystyle {\ vec {x}}}$ ${\ displaystyle y}$

Ortak olasılık dağılımını bilmeden hesaplamak imkansızdır . Bunun yerine, deneysel hata (veya deneysel risk ) olarak adlandırılan örnek verilerdeki hatayı hesaplayabiliriz . Veri noktaları verildiğinde , bir aday fonksiyonun ampirik hatası şöyledir: ${\ displaystyle \ rho}$ ${\ displaystyle I [f]}$ ${\ displaystyle n}$ ${\ displaystyle f}$

{\ displaystyle I_ {n} [f] = {\ frac {1} {n}} \ toplam _ {i = 1} ^ {n} V (f ({\ vec {x}} _ {i}), y_ {i})}

Aşağıdaki durumlarda bir algoritmanın genelleme yaptığı söylenir:

{\ displaystyle \ lim _ {n \ sağ \ infty} I [f] -I_ {n} [f] = 0}

Örneğe dayalı bir öğrenme algoritması tarafından bulunan veriye bağımlı işlevin genelleme hatası özellikle önemlidir . Yine, bilinmeyen bir olasılık dağılımı için hesaplanamaz. Bunun yerine, istatistiksel öğrenme teorisindeki birçok problemin amacı, genelleme hatası ile olasılıktaki ampirik hata arasındaki farkı sınırlamak veya karakterize etmektir: ${\ displaystyle I [f_ {n}]}$ ${\ displaystyle f_ {n}}$ ${\ displaystyle I [f_ {n}]}$

{\ displaystyle P_ {G} = P (I [f_ {n}] - I_ {n} [f_ {n}] \ leq \ epsilon) \ geq 1- \ delta _ {n}}

Olduğunu, hedef olasılığını karakterize etmektir genelleme hatası ampirik hata artı bağlı bazı hata daha az olduğunu (genellikle bağımlı ve ). Birçok algoritma türü için, bir algoritmanın belirli kararlılık kriterlerini karşılıyorsa genelleme sınırlarına sahip olduğu gösterilmiştir . Spesifik olarak, bir algoritma simetrik ise (girdilerin sırası sonucu etkilemiyorsa), sınırlı kaybı varsa ve iki kararlılık koşulunu karşılıyorsa, genelleşecektir. Birinci kararlılık koşulu, birini dışarıda bırakma çapraz doğrulama kararlılığı, kararlı olması için, bir dışarıda bırakılan çapraz doğrulama kullanıldığında her veri noktası için tahmin hatasının sıfıra yakınsaması gerektiğini söyler . Birini dışarıda bırakması beklenen ikinci koşul ( normda çalışıyorsa hipotez kararlılığı olarak da bilinir ), tek bir veri noktası tek bir veri noktasından çıkarıldığında, bırakılan bir veri noktasındaki tahmin değişmezse karşılanır. eğitim veri kümesi. ${\ displaystyle 1- \ delta _ {n}}$ ${\ displaystyle \ epsilon}$ ${\ displaystyle \ delta}$ ${\ displaystyle n}$ ${\ displaystyle n \ rightarrow \ infty}$ ${\ displaystyle L_ {1}}$

Bu koşullar şu şekilde resmileştirilebilir:

Biri dışarıda bırakma çapraz doğrulama Kararlılığı

Her biri için bir ve böyle bir algoritma varsa , bir algoritmanın kararlılığı vardır : ${\ displaystyle L}$ ${\ displaystyle CVloo}$ ${\ displaystyle n}$ ${\ displaystyle \ beta _ {CV} ^ {(n)}}$ ${\ displaystyle \ delta _ {CV} ^ {(n)}}$

{\ displaystyle \ forall i \ {1, ..., n \}, \ mathbb {P} _ {S} \ {| V (f_ {S ^ {i}}, z_ {i}) - V (f_ {S}, z_ {i}) | \ leq \ beta _ {CV} ^ {(n)} \} \ geq 1- \ delta _ {CV} ^ {(n)}}

ve ve olarak sıfıra gitmek sonsuza gider. ${\ displaystyle \ beta _ {CV} ^ {(n)}}$ ${\ displaystyle \ delta _ {CV} ^ {(n)}}$ ${\ displaystyle n}$

Beklenen-biri-dışarıda bırakma hatası Kararlılık

Her biri için bir ve a varsa , bir algoritmanın kararlılığı vardır : ${\ displaystyle L}$ ${\ displaystyle Eloo_ {err}}$ ${\ displaystyle n}$ ${\ displaystyle \ beta _ {EL} ^ {m}}$ ${\ displaystyle \ delta _ {EL} ^ {m}}$

{\ displaystyle \ forall i \ {1, ..., n \}, \ mathbb {P} _ {S} \ sol \ {\ sol | ben [f_ {S}] - {\ frac {1} {n}} \ sum _ {i = 1} ^ {N} V \ left (f_ {S ^ {i}}, z_ {i} \ right) \ right | \ leq \ beta _ {EL} ^ {( n)} \ sağ \} \ geq 1- \ delta _ {EL} ^ {(n)}}

ile ve sıfıra gidiyor . ${\ displaystyle \ beta _ {EL} ^ {(n)}}$ ${\ displaystyle \ delta _ {EL} ^ {(n)}}$ ${\ displaystyle n \ rightarrow \ infty}$

Normdaki birini dışarıda bırakma kararlılığı için bu, hipotez kararlılığı ile aynıdır: ${\ displaystyle L_ {1}}$

{\ displaystyle \ mathbb {E} _ {S, z} [| V (f_ {S}, z) -V (f_ {S ^ {i}}, z) |] \ leq \ beta _ {H} ^ {(n)}}

ile sıfıra gitme gibi sonsuza gider. ${\ displaystyle \ beta _ {H} ^ {(n)}}$ ${\ displaystyle n}$

Kanıtlanmış kararlılığa sahip algoritmalar

Bir dizi algoritmanın kararlı olduğu ve sonuç olarak genelleme hatalarında sınırları olduğu kanıtlanmıştır. Bu algoritmaların bir listesi ve kararlılığı kanıtlayan makaleler burada mevcuttur .

Aşırı uyumla ilişkisi

Bu şekil, aşırı uydurma ile genelleme hatası I [ f _n ] - I _S [ f _n ] arasındaki ilişkiyi göstermektedir . Veri noktaları , y değerlerine eklenen beyaz gürültü ile y = x ilişkisinden üretildi . Sol sütunda, mavi renkte bir dizi eğitim noktası gösterilir. Eğitim verilerine yedinci dereceden bir polinom fonksiyonu uyduruldu. Sağ sütunda, fonksiyon, x ve y'nin temel ortak olasılık dağılımından örneklenen veriler üzerinde test edilir . En üst satırda, işlev, 10 veri noktasından oluşan örnek bir veri kümesine sığdırılır. Alt satırda, işlev 100 veri noktasından oluşan örnek bir veri kümesine sığdırılır. Gördüğümüz gibi, küçük örneklem büyüklükleri ve karmaşık işlevler için, eğitim setindeki hata küçüktür, ancak verilerin temelde yatan dağılımındaki hata büyüktür ve veriyi gereğinden fazla ayarladık. Sonuç olarak, genelleme hatası büyüktür. Örneklem noktalarının sayısı arttıkça, eğitim ve test verilerindeki tahmin hatası birleşir ve genelleme hatası 0'a gider.

Genelleme hatası ve aşırı uydurma kavramları yakından ilişkilidir. Aşırı uyum, öğrenilen işlev numunedeki gürültüye duyarlı hale geldiğinde meydana gelir. Sonuç olarak, fonksiyon eğitim setinde iyi bir performans sergileyecektir ama ortak olasılık dağılımı diğer veriler iyi performans ve . Bu nedenle, ne kadar fazla uyum olursa, genelleme hatası o kadar büyük olur. ${\ displaystyle f_ {S}}$ ${\ displaystyle x}$ ${\ displaystyle y}$

Aşırı uyum miktarı , numuneyi simüle edilmiş eğitim numunelerine ve test numunelerine bölen çapraz doğrulama yöntemleri kullanılarak test edilebilir . Model daha sonra bir eğitim numunesi üzerinde eğitilir ve test numunesi üzerinde değerlendirilir. Test numunesi algoritması tarafından daha önce görülmemiş ve böylece ortak olasılık dağılımından rastgele bir örneğini temsil eder ve . Bu test örneği, beklenen hatayı tahmin etmemize ve sonuç olarak genelleme hatasının belirli bir biçimine yaklaşmamıza izin verir. ${\ displaystyle x}$ ${\ displaystyle y}$

Fazla takmayı önlemek için birçok algoritma mevcuttur. Minimizasyon algoritması (Pyatnitskiy olarak bilinen daha karmaşık fonksiyonları ceza olabilir regularization ) veya hipotez alan ayrı bir şekilde fonksiyon olarak veya en aza indirgenmesi fonksiyonu (Ivanov regülarizasyonu) için sınırlamalar ekleyerek, kısıtlı olabilir.

Fazla uymayan bir işlevi bulma yaklaşımı, verilerin belirli özelliklerini yakalamak için yeterince karmaşık olan bir işlev bulma hedefi ile çelişmektedir. Bu, sapma-sapma değiş tokuşu olarak bilinir . Bir işlevi aşırı uydurmaktan kaçınmak için basit tutmak, sonuçta ortaya çıkan tahminlerde bir önyargı oluşturabilirken, daha karmaşık olmasına izin verirken, aşırı uyuma ve tahminlerde daha yüksek bir varyansa yol açar. İkisini de aynı anda küçültmek imkansızdır.

Referanslar

daha fazla okuma

Bousquet, O., S. Boucheron ve G. Lugosi. İstatistiksel Öğrenme Teorisine Giriş . Yapay Zeka 3176, 169-207'de Makine Öğrenimi Ders Notları Üzerine İleri Düzey Dersler. (Ed.) Bousquet, O., U. von Luxburg ve G. Ratsch, Springer, Heidelberg, Almanya (2004)
Bousquet, O. ve A. Elisseef (2002), Stability and Generalization, Journal of Machine Learning Research, 499-526.
Devroye L., L. Gyorfi ve G. Lugosi (1996). Olasılıksal Örüntü Tanıma Teorisi. Springer-Verlag. Mayıs ISBN 978-0387946184 .
Poggio T. ve S. Smale. Öğrenmenin Matematiği: Verilerle Başa Çıkmak . AMS'nin Bildirimleri, 2003
Vapnik, V. (2000). İstatistiksel öğrenme teorisinin doğası. Bilgi Bilimi ve İstatistik. Springer-Verlag. Mayıs ISBN 978-0-387-98780-4 .
Bishop, CM (1995), Neural Networks for Pattern Recognition , Oxford: Oxford University Press, özellikle bölüm 6.4.
Finke, M. ve Müller, K.-R. "(1994), stokastik ağ modelleri kullanılarak a-posteriori olasılıkları tahmin Mozer, Smolensky, Touretzky, Elman, & Weigend, ed,". 1993 bağlantıcı Modelleri Yaz Okulu Tutanakları , Hillsdale, NJ: Lawrence Erlbaum Associates, s. 324–331.
Geman, S., Bienenstock, E. ve Doursat, R. (1992), " Sinir Ağları ve Önyargı / Varyans İkilemi ", Sinirsel Hesaplama , 4, 1-58.
Husmeier, D. (1999), Koşullu Olasılık Tahmini için Sinir Ağları: Nokta Tahminlerinin Ötesinde Tahmin , Berlin: Springer Verlag, ISBN 1-85233-095-3 .
McCullagh, P. ve Nelder, JA (1989) Generalized Linear Models , 2. baskı, London: Chapman & Hall.
Mohri, M., Rostamizadeh A., Talwakar A., (2018) Foundations of Machine learning , 2. baskı, Boston: MIT Press.
Moody, JE (1992), " Etkili Parametre Sayısı: Doğrusal Olmayan Öğrenme Sistemlerinde Genelleme ve Düzenlemenin Analizi ", Moody, JE, Hanson, SJ ve Lippmann, RP, Sinirsel Bilgi İşleme Sistemlerinde Gelişmeler 4, 847- 854.
Ripley, BD (1996) Pattern Recognition and Neural Networks , Cambridge: Cambridge University Press.
Rohwer, R., ve van der Rest, JC (1996), " Minimum açıklama uzunluğu, düzenlileştirme ve çok modlu veriler ," Neural Computation , 8, 595-609.
Rojas, R. (1996), " Sınıflandırıcı sinir ağlarının posterior olasılık özelliğinin kısa bir kanıtı ," Neural Computation , 8, 41-43.
White, H. (1990), " Bağlantısal Parametrik Olmayan Regresyon: Çok Katmanlı İleri Beslemeli Ağlar Keyfi Haritalamaları Öğrenebilir ," Sinir Ağları , 3, 535-550. Beyaz olarak yeniden basıldı (1992).
White, H. (1992a), " Sinir Ağlarını Kullanarak Koşullu Kuantillerin Parametrik Olmayan Tahmini ", Sayfa, C. ve Le Page, R. (ed.), 23rd Sympsium on the Interface: Computing Science and Statistics , Alexandria , VA: American Statistical Association, s. 190–199. Beyaz olarak yeniden basılmıştır (1992b).
White, H. (1992b), Yapay Sinir Ağları: Yaklaşım ve Öğrenme Teorisi , Blackwell.

Languages

In other projects