Kısmi en küçük kareler regresyonu - Partial least squares regression

Kısmi en küçük kareler regresyonu ( PLS regresyonu ), temel bileşenler regresyonu ile bazı ilişkileri olan istatistiksel bir yöntemdir ; yanıt ve bağımsız değişkenler arasında maksimum varyanslı hiperdüzlemler bulmak yerine , tahmin edilen değişkenleri ve gözlenebilir değişkenleri yeni bir uzaya yansıtarak doğrusal bir regresyon modeli bulur . Her iki nedeniyle X ve Y, veriler yeni alanlar tahmin edilmektedir, yöntem PLS ailesi çift doğrusal faktör model olarak bilinir. Kısmi en küçük kareler diskriminant analizi (PLS-DA), Y kategorik olduğunda kullanılan bir değişkendir.

PLS, iki matris ( X ve Y ) arasındaki temel ilişkileri bulmak için kullanılır , yani bu iki uzaydaki kovaryans yapılarını modellemeye yönelik gizli bir değişken yaklaşımı . Bir PLS modeli , Y uzayındaki maksimum çok boyutlu varyans yönünü açıklayan X uzayındaki çok boyutlu yönü bulmaya çalışacaktır . PLS regresyonu, tahmin edicilerin matrisi gözlemlerden daha fazla değişkene sahip olduğunda ve X değerleri arasında çoklu bağlantı olduğunda özellikle uygundur . Buna karşılık, standart regresyon bu durumlarda ( düzenlenmedikçe ) başarısız olacaktır .

Kısmi en küçük kareler , daha sonra oğlu Svante Wold ile birlikte geliştiren İsveçli istatistikçi Herman OA Wold tarafından tanıtıldı . PLS için alternatif bir terim (ve Svante Wold'a göre daha doğru) gizli yapılara izdüşümdür , ancak kısmi en küçük kareler terimi hala birçok alanda baskındır. Orijinal uygulamaları sosyal bilimlerde olmasına rağmen, PLS regresyonu günümüzde en yaygın olarak kemometri ve ilgili alanlarda kullanılmaktadır. Ayrıca biyoinformatik , sensometri , sinirbilim ve antropolojide de kullanılır .

Temel model

Çok değişkenli PLS'nin altında yatan genel model,

burada X, bir bir öngördürücülerin matrisi, Y'nin bir olan tepkilerin bir matris; T ve U olan matrisleri, sırasıyla, izdüşümleri X ( X skoru , bileşen veya etken matrisi) ve çıkıntılar Y ( Y puanları ); P ve Q sırasıyla ve ortogonal yükleme matrisleridir; ve E ve F matrisleri , bağımsız ve özdeş olarak dağıtılmış rastgele normal değişkenler olduğu varsayılan hata terimleridir. X ve Y'nin ayrıştırmaları, T ve U arasındaki kovaryansı maksimize edecek şekilde yapılır .

algoritmalar

Faktörü tahmin etmek ve T, U, P ve Q matrislerini yüklemek için bir dizi PLS varyantı mevcuttur . Çoğu arasındaki doğrusal regresyon toplam bilgi , X ve Y olarak . Bazı PLS algoritmaları yalnızca Y'nin bir sütun vektörü olduğu durum için uygundur , diğerleri ise Y matrisinin genel durumuyla ilgilenir . Algoritmalar ayrıca faktör matrisi T'yi ortogonal (yani ortonormal ) bir matris olarak tahmin edip etmemelerine göre de farklılık gösterir . Son tahmin, tüm bu PLS çeşitleri için aynı olacaktır, ancak bileşenler farklı olacaktır.

PLS1

PLS1, Y vektörü durumuna uygun, yaygın olarak kullanılan bir algoritmadır . T'yi bir ortonormal matris olarak tahmin eder. Sözde kodda aşağıda ifade edilir (büyük harfler matristir, küçük harfler üst simge ise vektör, alt simge ise skalerdir)

 1 function PLS1(X, y, l)
 2     
 3     , an initial estimate of w.
 4     for  to 
 5         
 6          (note this is a scalar)
 7         
 8         
 9          (note this is a scalar)
10         if 
11             , break the for loop
12         if 
13             
14             
15     end for
16     define W to be the matrix with columns .
       Do the same to form the P matrix and q vector.
17     
18     
19     return 

Algoritmanın bu formu, X ve Y girdilerinin merkezlenmesini gerektirmez , çünkü bu, algoritma tarafından örtük olarak gerçekleştirilmektedir. Bu algoritması sahiptir matris 'söndürme' X (çıkarma ), fakat vektörü söndürme y gerekli değildir gibi (o söndürülmesi kanıtlanabilirse, gerçekleştirilmez y deflating değil aynı sonucu verir). Kullanıcı tarafından sağlanan değişken l , regresyondaki gizli faktörlerin sayısı üzerindeki sınırdır; X matrisinin sırasına eşitse, algoritma B için en küçük kareler regresyon tahminlerini verecektir ve

Uzantılar

2002'de gizli yapılara ortogonal izdüşümler (OPLS) adı verilen yeni bir yöntem yayınlandı. OPLS'de sürekli değişken veriler, tahmine dayalı ve ilişkisiz bilgiler olarak ayrılır. Bu, gelişmiş tanılamanın yanı sıra daha kolay yorumlanan görselleştirmeye yol açar. Ancak bu değişiklikler, PLS modellerinin tahmin edilebilirliğini değil, yalnızca yorumlanabilirliğini geliştirir. L-PLS, PLS regresyonunu 3 bağlantılı veri bloğuna genişletir. Benzer şekilde, sınıflandırma ve biyobelirteç çalışmalarında olduğu gibi, ayrık değişkenlerle çalışırken OPLS-DA (Ayırıcı Analizi) uygulanabilir.

2015'te kısmi en küçük kareler, üç geçişli regresyon filtresi (3PRF) adı verilen bir prosedürle ilgiliydi. Gözlemlerin ve değişkenlerin sayısının büyük olduğunu varsayarsak, 3PRF (ve dolayısıyla PLS), doğrusal bir gizli faktör modeli tarafından ima edilen "en iyi" tahmin için asimptotik olarak normaldir. Hisse senedi piyasası verilerinde, PLS'nin, getiri ve nakit akışı büyümesine ilişkin örnek dışı doğru tahminler sağladığı gösterilmiştir.

Tekil değer ayrıştırmasına (SVD) dayalı bir PLS versiyonu , tüketici sınıfı donanımda görüntüleme genetiğindeki milyonlarca genetik işaretleyiciyi binlerce görüntüleme özelliğiyle ilişkilendirmek gibi yüksek boyutlu sorunları ele almak için kullanılabilen bellek açısından verimli bir uygulama sağlar.

PLS korelasyonu (PLSC), veri setleri arasındaki ilişkinin gücünü ölçmek için nörogörüntülemede ve daha yakın zamanda spor biliminde kullanılan PLS regresyonu ile ilgili başka bir metodolojidir. Tipik olarak, PLSC, verileri her biri bir veya daha fazla değişken içeren iki bloğa (alt gruplara) böler ve daha sonra aralarında var olabilecek herhangi bir ilişkinin gücünü (yani paylaşılan bilgi miktarını ) belirlemek için tekil değer ayrıştırmasını (SVD) kullanır . iki bileşenli alt grup. Bunu, söz konusu alt grupların kovaryans matrisinin ataletini (yani tekil değerlerin toplamını) belirlemek için SVD'yi kullanarak yapar.

Ayrıca bakınız

daha fazla okuma

  • Kramer, R. (1998). Kantitatif Analiz için Kemometrik Teknikler . Marcel-Dekker. ISBN'si 978-0-8247-0198-7.
  • Frank, Ildiko E.; Friedman, Jerome H. (1993). "Bazı Kemometri Regresyon Araçlarına İstatistiksel Bir Bakış". Teknometri . 35 (2): 109–148. doi : 10.1080/00401706.1993.10485033 .
  • Haenlein, Michael; Kaplan, Andreas M. (2004). "Kısmi En Küçük Kareler Analizi için Başlangıç ​​Kılavuzu". İstatistikleri Anlamak . 3 (4): 283–297. doi : 10.1207/s15328031us0304_4 .
  • Henseler, Joerg; Fassott, Georg (2005). "PLS Yolu Modellerinde Denetleme Etkilerinin Test Edilmesi. Mevcut Prosedürlerin Bir Resmi". Alıntı günlüğü gerektirir |journal=( yardım )
  • Lingjærde, Ole-Christian; Christophersen, Nils (2000). "Kısmi En Küçük Karelerin Büzülme Yapısı". İskandinav İstatistik Dergisi . 27 (3): 459-473. doi : 10.1111/1467-9469.00201 .
  • Tenenhaus, Michel (1998). La Regresyon PLS: Theorie ve Pratique. Paris: Technip .
  • Rosipal, Roma; Kramer, Nicole (2006). "Altuzay, Gizli Yapı ve Özellik Seçimi Tekniklerinde Kısmi En Küçük Karelerde Genel Bakış ve Son Gelişmeler": 34-51. Alıntı günlüğü gerektirir |journal=( yardım )
  • Helland, Inge S. (1990). "PLS regresyon ve istatistiksel modeller". İskandinav İstatistik Dergisi . 17 (2): 97–114. JSTOR  4616159 .
  • Wold, Herman (1966). "Temel bileşenlerin ve ilgili modellerin yinelemeli en küçük karelerle tahmini". Krishnaiaah'da, PR (ed.). Çok Değişkenli Analiz . New York: Akademik Basın. s. 391–420.
  • Wold, Herman (1981). Birbirine bağlı sistemlere sabit nokta yaklaşımı . Amsterdam: Kuzey Hollanda.
  • Wold, Herman (1985). "Kısmi en küçük kareler". Kotz'da, Samuel; Johnson, Norman L. (ed.). İstatistik bilimleri ansiklopedisi . 6 . New York: Wiley. s. 581–591.
  • Wold, Svante; Ruh, Axel; Wold, Herman; Dunn, WJ (1984). "Doğrusal regresyonda eşdoğrusallık sorunu. Genelleştirilmiş terslere kısmi en küçük kareler (PLS) yaklaşımı". SIAM Bilimsel ve İstatistiksel Hesaplama Dergisi . 5 (3): 735–743. doi : 10.1137/0905052 .
  • Garthwaite, Paul H. (1994). "Kısmi En Küçük Karelerin Yorumlanması". Amerikan İstatistik Derneği Dergisi . 89 (425): 122–7. doi : 10.1080/01621459.1994.10476452 . JSTOR  2291207 .
  • Wang, H., ed. (2010). Kısmi En Küçük Kareler El Kitabı . ISBN'si 978-3-540-32825-4.
  • Taş, M.; Brooks, RJ (1990). "Süreklilik Regresyonu: Sıradan En Küçük Kareleri, Kısmi En Küçük Kareleri ve Temel Bileşenler Regresyonunu kapsayan Çapraz Doğrulanmış Sıralı Olarak Oluşturulmuş Tahmin". Kraliyet İstatistik Kurumu Dergisi, B Serisi . 52 (2): 237–269. JSTOR  2345437 .

Referanslar

Dış bağlantılar