Genelleme hatası - Generalization error

İçin denetimli öğrenme uygulamalar makine öğrenme ve istatistiksel öğrenme teorisi , genelleme hatası (aynı zamanda dışarı-of-the örnek hata ya da risk ) bir algoritma daha önce görülmemiş verileri için sonuç değerleri tahmin edebilir ne kadar doğru bir ölçüsüdür. Öğrenme algoritmaları sonlu örnekler üzerinde değerlendirildiğinden, bir öğrenme algoritmasının değerlendirilmesi örnekleme hatasına duyarlı olabilir . Sonuç olarak, mevcut veriler üzerindeki tahmin hatası ölçümleri, yeni veriler üzerinde tahmin yeteneği hakkında fazla bilgi sağlamayabilir. Öğrenme algoritmasına aşırı uymaktan kaçınarak genelleme hatası en aza indirilebilir . Bir makine öğrenimi algoritmasının performansı, öğrenme eğrileri adı verilen öğrenme süreci boyunca genelleme hatası tahminlerinin değerlerini gösteren grafiklerle görselleştirilir .

Tanım

Bir öğrenme probleminde amaç, her girdi verisi için çıktı değerlerini tahmin eden bir işlev geliştirmektir . Alt simge , işlevin bir veri noktası veri kümesine dayalı olarak geliştirildiğini belirtir . Genelleme hatası veya beklenen zarar veya risk , belirli bir fonksiyonun tüm olası değerleri üzerinden ve geçerli:

nerede bir belirtmektedir kayıp fonksiyonu ve bilinmeyen ortak olasılık dağılımı için ve .

Ortak olasılık dağılımını bilmeden hesaplamak imkansızdır . Bunun yerine, deneysel hata (veya deneysel risk ) olarak adlandırılan örnek verilerdeki hatayı hesaplayabiliriz . Veri noktaları verildiğinde , bir aday fonksiyonun ampirik hatası şöyledir:

Aşağıdaki durumlarda bir algoritmanın genelleme yaptığı söylenir:

Örneğe dayalı bir öğrenme algoritması tarafından bulunan veriye bağımlı işlevin genelleme hatası özellikle önemlidir . Yine, bilinmeyen bir olasılık dağılımı için hesaplanamaz. Bunun yerine, istatistiksel öğrenme teorisindeki birçok problemin amacı, genelleme hatası ile olasılıktaki ampirik hata arasındaki farkı sınırlamak veya karakterize etmektir:

Olduğunu, hedef olasılığını karakterize etmektir genelleme hatası ampirik hata artı bağlı bazı hata daha az olduğunu (genellikle bağımlı ve ). Birçok algoritma türü için, bir algoritmanın belirli kararlılık kriterlerini karşılıyorsa genelleme sınırlarına sahip olduğu gösterilmiştir . Spesifik olarak, bir algoritma simetrik ise (girdilerin sırası sonucu etkilemiyorsa), sınırlı kaybı varsa ve iki kararlılık koşulunu karşılıyorsa, genelleşecektir. Birinci kararlılık koşulu, birini dışarıda bırakma çapraz doğrulama kararlılığı, kararlı olması için, bir dışarıda bırakılan çapraz doğrulama kullanıldığında her veri noktası için tahmin hatasının sıfıra yakınsaması gerektiğini söyler . Birini dışarıda bırakması beklenen ikinci koşul ( normda çalışıyorsa hipotez kararlılığı olarak da bilinir ), tek bir veri noktası tek bir veri noktasından çıkarıldığında, bırakılan bir veri noktasındaki tahmin değişmezse karşılanır. eğitim veri kümesi.

Bu koşullar şu şekilde resmileştirilebilir:

Biri dışarıda bırakma çapraz doğrulama Kararlılığı

Her biri için bir ve böyle bir algoritma varsa , bir algoritmanın kararlılığı vardır :

ve ve olarak sıfıra gitmek sonsuza gider.

Beklenen-biri-dışarıda bırakma hatası Kararlılık

Her biri için bir ve a varsa , bir algoritmanın kararlılığı vardır :

ile ve sıfıra gidiyor .

Normdaki birini dışarıda bırakma kararlılığı için bu, hipotez kararlılığı ile aynıdır:

ile sıfıra gitme gibi sonsuza gider.

Kanıtlanmış kararlılığa sahip algoritmalar

Bir dizi algoritmanın kararlı olduğu ve sonuç olarak genelleme hatalarında sınırları olduğu kanıtlanmıştır. Bu algoritmaların bir listesi ve kararlılığı kanıtlayan makaleler burada mevcuttur .

Aşırı uyumla ilişkisi

Bu şekil, aşırı uydurma ile genelleme hatası I [ f n ] - I S [ f n ] arasındaki ilişkiyi göstermektedir . Veri noktaları , y değerlerine eklenen beyaz gürültü ile y = x ilişkisinden üretildi . Sol sütunda, mavi renkte bir dizi eğitim noktası gösterilir. Eğitim verilerine yedinci dereceden bir polinom fonksiyonu uyduruldu. Sağ sütunda, fonksiyon, x ve y'nin temel ortak olasılık dağılımından örneklenen veriler üzerinde test edilir . En üst satırda, işlev, 10 veri noktasından oluşan örnek bir veri kümesine sığdırılır. Alt satırda, işlev 100 veri noktasından oluşan örnek bir veri kümesine sığdırılır. Gördüğümüz gibi, küçük örneklem büyüklükleri ve karmaşık işlevler için, eğitim setindeki hata küçüktür, ancak verilerin temelde yatan dağılımındaki hata büyüktür ve veriyi gereğinden fazla ayarladık. Sonuç olarak, genelleme hatası büyüktür. Örneklem noktalarının sayısı arttıkça, eğitim ve test verilerindeki tahmin hatası birleşir ve genelleme hatası 0'a gider.

Genelleme hatası ve aşırı uydurma kavramları yakından ilişkilidir. Aşırı uyum, öğrenilen işlev numunedeki gürültüye duyarlı hale geldiğinde meydana gelir. Sonuç olarak, fonksiyon eğitim setinde iyi bir performans sergileyecektir ama ortak olasılık dağılımı diğer veriler iyi performans ve . Bu nedenle, ne kadar fazla uyum olursa, genelleme hatası o kadar büyük olur.

Aşırı uyum miktarı , numuneyi simüle edilmiş eğitim numunelerine ve test numunelerine bölen çapraz doğrulama yöntemleri kullanılarak test edilebilir . Model daha sonra bir eğitim numunesi üzerinde eğitilir ve test numunesi üzerinde değerlendirilir. Test numunesi algoritması tarafından daha önce görülmemiş ve böylece ortak olasılık dağılımından rastgele bir örneğini temsil eder ve . Bu test örneği, beklenen hatayı tahmin etmemize ve sonuç olarak genelleme hatasının belirli bir biçimine yaklaşmamıza izin verir.

Fazla takmayı önlemek için birçok algoritma mevcuttur. Minimizasyon algoritması (Pyatnitskiy olarak bilinen daha karmaşık fonksiyonları ceza olabilir regularization ) veya hipotez alan ayrı bir şekilde fonksiyon olarak veya en aza indirgenmesi fonksiyonu (Ivanov regülarizasyonu) için sınırlamalar ekleyerek, kısıtlı olabilir.

Fazla uymayan bir işlevi bulma yaklaşımı, verilerin belirli özelliklerini yakalamak için yeterince karmaşık olan bir işlev bulma hedefi ile çelişmektedir. Bu, sapma-sapma değiş tokuşu olarak bilinir . Bir işlevi aşırı uydurmaktan kaçınmak için basit tutmak, sonuçta ortaya çıkan tahminlerde bir önyargı oluşturabilirken, daha karmaşık olmasına izin verirken, aşırı uyuma ve tahminlerde daha yüksek bir varyansa yol açar. İkisini de aynı anda küçültmek imkansızdır.

Referanslar

daha fazla okuma