Düzenlileştirilmiş en küçük kareler - Regularized least squares

Düzenlileştirilmiş en küçük kareler ( RLS ), elde edilen çözümü daha fazla kısıtlamak için düzenlileştirmeyi kullanırken en küçük kareler problemini çözmek için bir yöntemler ailesidir .

RLS iki ana nedenden dolayı kullanılır. Birincisi, doğrusal sistemdeki değişken sayısı gözlem sayısını aştığında ortaya çıkar. Bu tür ayarlarda, sıradan en küçük kareler problemi kötü bir şekilde oluşturulmuştur ve bu nedenle, ilgili optimizasyon probleminin sonsuz sayıda çözümü olduğu için sığdırılması imkansızdır. RLS, çözümü benzersiz şekilde belirleyen başka kısıtlamaların getirilmesine izin verir.

RLS'nin kullanılmasının ikinci nedeni, değişken sayısı gözlem sayısını geçmediğinde ortaya çıkar, ancak öğrenilen model zayıf genellemeden muzdariptir . RLS, bu gibi durumlarda, modelin eğitim zamanında kısıtlanarak genellenebilirliğini artırmak için kullanılabilir. Bu kısıtlama ya çözümü bir şekilde "seyrek" olmaya zorlayabilir ya da özellikler arasındaki korelasyonlar hakkında bilgi gibi problemle ilgili diğer ön bilgileri yansıtmaya zorlayabilir. Bir Bayes Bu anlayış HBS yöntemleri genellikle eşdeğer olduğunu gösteren ulaşılabilir önsel en küçük kareler sorunun çözümü hakkında.

Genel formülasyon

Bir olasılık boşluk tarafından verilen bir öğrenme ayarını düşünün , . Izin bir eğitim seti göstermek çiftleri açısından IID . Izin bir kayıp fonksiyonu. Beklenen riske göre fonksiyonların alanı olarak tanımlayın :

iyi tanımlanmıştır. Ana amaç, beklenen riski en aza indirmektir:

Problem tam olarak çözülemeyeceğinden, çözümün kalitesinin nasıl ölçüleceğinin belirlenmesine ihtiyaç vardır. İyi bir öğrenme algoritması, küçük bir risk ile bir tahminci sağlamalıdır.

Ortak dağılım tipik olarak bilinmediğinden, ampirik risk alınır. Düzenlileştirilmiş en küçük kareler için kare kayıp fonksiyonu tanıtılır:

Bununla birlikte, işlevler, kare ile integrallenebilen işlevler kümesi gibi nispeten kısıtlanmamış bir uzaydan geliyorsa, bu yaklaşım eğitim verilerine fazla sığabilir ve zayıf genellemeye yol açabilir. Bu nedenle, işlevin karmaşıklığını bir şekilde kısıtlamalı veya cezalandırmalıdır . RLS'de bu, yeniden üreten bir çekirdek Hilbert uzayından (RKHS) işlevler seçilerek ve amaç işlevine işlevin normuyla orantılı olarak bir düzenlileştirme terimi eklenerek gerçekleştirilir :

çekirdek formülasyonu

RKHS'un tanımı

Bir RKHS , çoğaltma özelliğine sahip simetrik bir pozitif tanımlı çekirdek işlevi ile tanımlanabilir :

nerede . Bir çekirdeğin RKHS'si , tümünün gerçek sayılar olduğu : tarafından yayılan işlevler uzayının tamamlanmasından oluşur . Yaygın olarak kullanılan bazı çekirdekler, doğrusal işlevlerin uzayını indükleyen doğrusal çekirdeği içerir:

polinom çekirdeği, düzenin polinom fonksiyonlarının uzayını indükler :

ve Gauss çekirdeği:

Keyfi bir kayıp işlevi için , bu yaklaşımın Tikhonov düzenlileştirmesi adlı genel bir algoritma sınıfını tanımladığını unutmayın. Sözgelimi, menteşe kaybı yol açar destek vektör makinesi algoritması kullanılarak epsilon-duyarsız kaybı yol için vektör regresyon destek .

keyfi çekirdek

DANIŞMANI teoremi çözüm olarak yazılabilir garantiler:

bazıları için .

Minimizasyon problemi şu şekilde ifade edilebilir:

burada, bazı gösterimlerin kötüye kullanılmasıyla, çekirdek matrisinin girişi (çekirdek işlevinin aksine ) .

Böyle bir işlev için,

Aşağıdaki minimizasyon problemi elde edilebilir:

.

Konveks fonksiyonların toplamı dışbükey olarak, çözelti benzersizdir ve minimum gradyan wrt ayarlayarak bulunabilir için :

nerede

karmaşıklık

Eğitimin karmaşıklığı, temel olarak, çekirdek matrisini hesaplamanın maliyeti artı kabaca olan doğrusal sistemi çözmenin maliyetidir . Doğrusal veya çekirdek matris hesaplama Gauss çekirdek olup . Testin karmaşıklığı .

Tahmin

Yeni bir test noktasındaki tahmin :

Doğrusal çekirdek

Kolaylık sağlamak için bir vektör notasyonu tanıtıldı. Izin bir olmak satırlar giriş vektörleridir matris ve bir giriş çıkışları tekabül eden vektör. Vektörler açısından çekirdek matrisi olarak yazılabilir . Öğrenme fonksiyonu şu şekilde yazılabilir:

Burada tanımlıyoruz . Amaç fonksiyonu şu şekilde yeniden yazılabilir:

İlk terim, artık kareler toplamına karşılık gelen , sıradan en küçük kareler (OLS) regresyonundan amaç fonksiyonudur . İkinci terim, büyük değerleri cezalandıran OLS'de bulunmayan bir düzenleme terimidir . Düzgün sonlu boyutlu bir problem olarak kabul edilir ve standart kalkülüs araçlarını uygulamak mümkündür. Amaç fonksiyonunu minimize etmek için, gradyan şuna göre hesaplanır ve sıfıra ayarlanır:

Bu çözüm, fazladan bir terimle standart doğrusal regresyona çok benzer . OLS regresyonunun varsayımları geçerliyse , ile çözüm yansız bir tahmin edicidir ve Gauss-Markov teoremine göre minimum varyanslı doğrusal yansız tahmin edicidir . Bu nedenle terim , taraflı bir çözüme yol açar; ancak, aynı zamanda varyansı azaltma eğilimindedir. Bunu görmek kolaydır, çünkü -değerlerinin kovaryans matrisi ile orantılıdır ve bu nedenle büyük değerleri daha düşük varyansa yol açacaktır. Bu nedenle, manipüle etme, değiş tokuş önyargısına ve varyansa karşılık gelir. Göreceli olarak küçük veya ilişkili regresörlere sahip durumlar gibi yüksek varyanslı tahminlerle ilgili problemler için , optimum tahmin doğruluğu sıfırdan farklı bir değer kullanılarak ve böylece varyansı azaltmak için bir miktar önyargı getirilerek elde edilebilir . Ayrıca, nadir değildir makine öğrenimi durumlara sahip olmak bu durumda, bir rütbe -açıklı ve sıfırdan farklı bilgi işlem gereklidir .

karmaşıklık

Parametre , matrisin tersinirliğini kontrol eder . Çeşitli metotlar, yukarıda lineer sistem çözmek için kullanılabilir Choleskey ayrışma matriksi, çünkü muhtemelen tercih edilen bir yöntem olduğu bir simetrik ve kesin bir pozitif . Bu yöntemin karmaşıklığı eğitim ve test içindir. Maliyet esasen hesaplamanın maliyetidir , oysa ters hesaplama (veya daha doğrusu doğrusal sistemin çözümü) kabaca .

Özellik haritaları ve Mercer teoremi

Bu bölümde, RLS'nin herhangi bir tür çoğaltan K çekirdeğine nasıl genişletileceği gösterilecektir. Lineer çekirdek yerine, bazı Hilbert uzayları için , özellik uzayı olarak adlandırılan bir özellik haritası düşünülür . Matris: Bu durumda, çekirdek tanımlanır şimdi yeni veri matrisi ile değiştirilmiştir , burada , ya bir inci bileşeni .

Bu, belirli bir eğitim seti için olduğu anlamına gelir . Böylece amaç fonksiyonu şu şekilde yazılabilir:

Bu yaklaşım çekirdek hilesi olarak bilinir . Bu teknik, hesaplama işlemlerini önemli ölçüde basitleştirebilir. Eğer yüksek boyutlu, işlem oldukça yoğun olabilir. Çekirdek işlevinin açık biçimi biliniyorsa, çekirdek matrisini hesaplamamız ve saklamamız yeterlidir .

Aslında, Hilbert uzayının izomorfik olması gerekmez ve sonsuz boyutlu olabilir. Bu , sürekli, simetrik, pozitif tanımlı bir çekirdek fonksiyonunun şu şekilde ifade edilebileceğini belirten Mercer teoreminden çıkar .

burada bir formu ortonormal için ve . Özellik haritaları bileşenlerle tanımlanmışsa , bunu takip eder . Bu, herhangi bir çekirdeğin bir özellik haritası ile ilişkilendirilebileceğini ve RLS'nin genellikle bazı muhtemelen daha yüksek boyutlu özellik uzayında gerçekleştirilen doğrusal RLS'den oluştuğunu gösterir. Mercer'in teoremi, bir çekirdekle ilişkilendirilebilecek bir özellik haritasının nasıl olduğunu gösterirken, aslında birden çok özellik haritası, belirli bir çoğaltan çekirdek ile ilişkilendirilebilir. Örneğin, harita , keyfi bir çoğaltan çekirdeğin özelliğini karşılar .

Bayes yorumlaması

En küçük kareler, normal dağılmış artıklar varsayımı altında bir olabilirlik maksimizasyonu olarak görülebilir. Bunun nedeni, Gauss dağılımının üssünün verilerde ikinci dereceden olması ve en küçük kareler amaç fonksiyonunun da öyle olmasıdır. Bu çerçevede, RLS'nin düzenleme terimleri, üzerinde kodlama öncelikleri olarak anlaşılabilir . Örnek olarak, daha Pyatnitskiy regülarizasyonu karşılık bir normal olarak önceden dağıtılmış bu, hedef en küçük kareler ile orantılı olduğu ilk nota bakınız için 0 merkezlenmiş log olasılık örnek alınan her bir zaman fonksiyonu normalde yaklaşık dağıtılır . Ardından , 0 merkezli bir normal önceliğin , formun log-olasılığına sahip olduğunu gözlemleyin.

burada ve öncekinin varyansına bağlı olan ve 'den bağımsız olan sabitlerdir . Bu nedenle, olabilirliğin logaritmasını önceki ile en aza indirmek, OLS kayıp fonksiyonu ve ridge regresyon düzenleme teriminin toplamını en aza indirmeye eşdeğerdir.

Bu, Tikhonov düzenlileştirmesinin neden en küçük kareler sorununa benzersiz bir çözüm getirdiğine dair daha sezgisel bir yorum sağlar : verilerden elde edilen kısıtlamaları karşılayan sonsuz sayıda vektör vardır , ancak soruna normal olarak dağıtılmış bir önceki inançla geldiğimiz için orijin etrafında, bu kısıtlamayı göz önünde bulundurarak bir çözüm seçeceğiz.

Diğer düzenlileştirme yöntemleri, farklı önceliklere karşılık gelir. Daha fazla ayrıntı için aşağıdaki listeye bakın.

Özel örnekler

Sırt regresyonu (veya Tikhonov düzenlemesi)

Ceza işlevi için özellikle yaygın bir seçim , kare normdur , yani,

Bunun için en yaygın isimler Tikhonov düzenlemesi ve sırt regresyonu olarak adlandırılır . Şunlar için kapalı biçimli bir çözüm kabul eder :

Sırt regresyonu adı, terimin örnek kovaryans matrisinin köşegen "sırt" boyunca pozitif girişler eklediği gerçeğini ima eder .

Tüm durumunda, yani en küçük kareler , durum örnek neden kovaryans matrisi benzersiz bir çözelti elde etmek için ters olamaz tam dereceye sahip değildir ve bu yüzden. Bu nedenle sıradan en küçük kareler problemine sonsuz sayıda çözüm bulunabilir . Bununla birlikte, örneğin, ridge regresyon kullanıldığında, örnek kovaryans matrisine eklenmesi, tüm özdeğerlerinin kesinlikle 0'dan büyük olmasını sağlar. Başka bir deyişle, tersinir hale gelir ve çözüm benzersiz olur.

Sıradan en küçük kareler ile karşılaştırıldığında, sırt regresyonu tarafsız değildir. Varyansı ve ortalama kare hatasını azaltmak için çok az önyargıyı kabul eder ve tahmin doğruluğunu iyileştirmeye yardımcı olur. Bu nedenle, sırt tahmincisi, katsayıları küçülterek daha kararlı çözümler verir, ancak verilere duyarlılık eksikliğinden muzdariptir.

Kement gerilemesi

En az mutlak seçim ve küçülme (LASSO) yöntemi bir başka popüler seçimdir. Gelen kement regresyon , kement ceza fonksiyonu olan norm , yani

Kement ceza fonksiyonunun dışbükey olduğunu ancak kesinlikle dışbükey olmadığını unutmayın. Tikhonov düzenlileştirmesinden farklı olarak , bu şema uygun bir kapalı form çözümüne sahip değildir: bunun yerine, çözüm tipik olarak ikinci dereceden programlama veya daha genel dışbükey optimizasyon yöntemlerinin yanı sıra en küçük açılı regresyon algoritması gibi özel algoritmalar kullanılarak bulunur.

Kement regresyonu ile Tikhonov regresyonu arasındaki önemli bir fark, kement regresyonunun daha fazla girdiyi gerçekte 0'a eşit olmaya zorlamasıdır . Buna karşılık, Tikhonov düzenlileştirmesi, girişlerini küçük olmaya zorlarken , aksi takdirde olacağından daha fazlasını 0 olmaya zorlamaz. Bu nedenle, sıfır olmayan girdilerin sayısının küçük olmasını beklediğimiz durumlarda LASSO düzenlileştirmesi Tikhonov düzenlileştirmesinden daha uygundur ve girişlerinin genellikle küçük olacağını ancak mutlaka sıfır olmayacağını beklediğimizde Tikhonov düzenlileştirmesi daha uygundur . Bu rejimlerden hangisinin daha alakalı olduğu, eldeki belirli veri setine bağlıdır.

Yukarıda açıklanan özellik seçiminin yanı sıra LASSO'nun bazı sınırlamaları vardır. Sırt regresyonu, yüksek oranda ilişkili değişkenler durumunda daha iyi doğruluk sağlar . Başka bir durumda, LASSO en fazla değişkeni seçer . Ayrıca, LASSO, yüksek düzeyde ilişkili örnekler grubundan bazı keyfi değişkenler seçme eğilimindedir, bu nedenle gruplama etkisi yoktur.

0 Cezalandırma

Seyrekliği zorlamanın en uç yolu, katsayılarının gerçek büyüklüğünün önemli olmadığını söylemektir ; daha ziyade, karmaşıklığını belirleyen tek şey sıfır olmayan girişlerin sayısıdır. Ayarına Bu karşılık olarak norm arasında . Bu düzenlileştirme işlevi, garanti ettiği seyreklik için çekici olsa da, çözülmesi çok zordur, çünkü bunu yapmak, zayıf dışbükey bile olmayan bir işlevin optimizasyonunu gerektirir . Kement regresyonu, zayıf dışbükey bir optimizasyon problemi veren cezalandırmanın mümkün olan minimum gevşemesidir .

elastik ağ

Herhangi bir negatif olmayan ve amaç için aşağıdaki forma sahiptir:

Let , o zaman minimizasyon probleminin çözümü şu şekilde tanımlanır:

bazıları için .

Elastik Net ceza fonksiyonu olarak düşünün .

Ne zaman , elastik ağ sırt regresyonu olurken , Kement olur. Elastik Net penaltı fonksiyonu 0'dan birinci türevi yoktur ve kesinlikle dışbükey olduğu özelliklere hem alarak kement regresyon ve sırt regresyon .

Elastik Ağın temel özelliklerinden biri, ilişkili değişken gruplarını seçebilmesidir. Numunelerin ağırlık vektörleri arasındaki fark ve şu şekilde verilir:

, nerede .

Eğer ve yüksek korelasyonluysa ( ), ağırlık vektörleri çok yakındır. Negatif korelasyonlu numuneler olması durumunda ( ) numuneler alınabilir. Özetlemek gerekirse, yüksek korelasyonlu değişkenler için ağırlık vektörleri, negatif korelasyonlu değişkenler durumunda bir işarete eşit olma eğilimindedir.

RLS yöntemlerinin kısmi listesi

Aşağıda, düzenlileştirme işlevinin olası seçeneklerinin bir listesi, her birinin adı, basit bir tane varsa buna karşılık gelen önce ve sonuçta ortaya çıkan optimizasyon probleminin çözümünü hesaplama yolları yer almaktadır.

İsim Düzenlileştirme işlevi Karşılık gelen önceki Çözme yöntemleri
Tikhonov düzenlileştirme Normal Kapalı form
Kement gerilemesi Laplace Proksimal gradyan inişi , en küçük açı regresyonu
cezalandırma - İleriye doğru seçim , Geriye eleme , spike ve slab gibi önceliklerin kullanımı .
Elastik ağlar Normal ve Laplace karışımı Proksimal gradyan iniş
Toplam varyasyon düzenlemesi - Split-Bregman yöntemi , diğerleri arasında

Ayrıca bakınız

Referanslar

Dış bağlantılar