nicel regresyon - Quantile regression

Nicel regresyon , istatistik ve ekonometride kullanılan bir tür regresyon analizidir . Oysa en küçük kareler yöntemi koşullu tahmin ortalama belirleyici değişkenlerin değerleri arasında yanıt değişkenin, dilim regresyon koşullu tahmin medyan (ya da diğer miktarlarını yanıt değişkenin). Nicel regresyon, lineer regresyon koşulları karşılanmadığında kullanılan lineer regresyonun bir uzantısıdır.

Kuantil regresyon örneği

Avantajlar ve uygulamalar

Sıradan en küçük kareler regresyonuna göre kantil regresyonun bir avantajı, kantil regresyon tahminlerinin yanıt ölçümlerinde aykırı değerlere karşı daha sağlam olmasıdır. Bununla birlikte, nicel regresyonun ana cazibesi bunun ötesine geçer ve koşullu nicel fonksiyonlar söz konusu olduğunda avantajlıdır. Değişkenler arasındaki ilişkinin daha kapsamlı bir analizini elde etmek için farklı merkezi eğilim ve istatistiksel dağılım ölçüleri faydalı olabilir.

In ekoloji , dilim regresyon öne sürülmüştür ve hiçbir ilişki ya da bu tür değişkenler yardımıyla arasındaki tek zayıf bir ilişki olduğu durumlarda değişkenler arasındaki daha yararlı öngörü ilişkileri keşfetmek için bir yol olarak kullandı. Ekolojide nicel regresyon ihtiyacı ve başarısı, bir değişkenin farklı aralıkları için bir değişkenin eşit olmayan varyasyonuyla verilere yol açan farklı faktörler arasındaki etkileşimlerin karmaşıklığına atfedilmiştir .

Kuantil regresyonun bir başka uygulaması, anormal büyümeyi taramak için yüzdelik eğrilerin yaygın olarak kullanıldığı büyüme çizelgeleri alanlarındadır.

Tarih

Bir medyan regresyon eğimi tahmin etme fikri, mutlak sapmaların toplamını en aza indirmekle ilgili büyük bir teorem ve medyan regresyonu oluşturmak için bir geometrik algoritma , Dubrovnik'ten bir Cizvit Katolik rahibi olan Ruđer Josip Bošković tarafından 1760 yılında önerildi . Isaac Newton'un dönüşünün , kutuplarda buna karşılık gelen bir düzleşme ile ekvatorda şişmesine neden olabileceği yönündeki önerisini temel alarak, dünyanın eliptikliğiyle ilgileniyordu . Sonunda , bir yüzey özelliğinin üç gözleminden dönen bir gezegenin ekvatorunu belirlemek için ilk geometrik prosedürü üretti . Daha da önemlisi, kantil regresyon için, en az mutlak kriterin ilk kanıtını geliştirebildi ve Legendre tarafından 1805'te tanıtılan en küçük karelerden elli yıl önce geldi.

Diğer düşünürler , sözde "durum yöntemi"ni geliştiren Pierre-Simon Laplace gibi Bošković'in fikrini geliştirmeye başladılar . Bu, Francis Edgeworth'un çoğul medyanına (medyan regresyona geometrik bir yaklaşım) yol açtı ve simpleks yönteminin öncüsü olarak kabul edildi . Bošković, Laplace ve Edgeworth'ün çalışmaları, Roger Koenker'in kantil regresyona katkılarının bir başlangıcı olarak kabul edildi .

Daha büyük veri kümeleri için medyan regresyon hesaplamaları, en küçük kareler yöntemine kıyasla oldukça sıkıcıdır, bu nedenle, 20. yüzyılın ikinci yarısında bilgisayarların yaygın olarak benimsenmesine kadar, tarihsel olarak istatistikçiler arasında popülerlik eksikliği yaratmıştır.

miktarlar

Nicel regresyon, bir bağımlı değişkenin koşullu niceliklerini açıklayıcı değişkenlerin doğrusal bir fonksiyonu olarak ifade eder. Kuantil regresyonun pratikliği için çok önemli olan, bir sonraki bölümde koşullu nicelikleri tartışmadan önce bu bölümde göstereceğimiz gibi, niceliklerin bir minimizasyon probleminin çözümü olarak ifade edilebilmesidir.

Rastgele bir değişkenin niceliği

Kümülatif dağılım fonksiyonu ile gerçek değerli bir rastgele değişken olsun . Y inci quantile verilir ${\görüntüleme stili Y}$ $F_{Y}(y)=P(Y\leq y)$ ${\görüntüleme stili\tau }$

q_{Y}(\tau )=F_{Y}^{-1}(\tau )=\inf \sol\{y:F_{Y}(y)\geq \tau \sağ\}

nerede $\tau \in (0,1).$

Kayıp fonksiyonunu , bir gösterge fonksiyonu nerede olarak tanımlayın . $\rho _{\tau }(y)=y(\tau -\mathbb {I} _{(y<0)})$ $\mathbb {I}$

(pp. 5-6) ile ilgili olarak beklenen kaybı en aza indirerek belirli bir nicelik bulunabilir : ${\görüntüleme stili Yu}$ ${\görüntüleme stili u}$

q_{Y}(\tau )={\underset {u}{\mbox{arg min}}}E(\rho _{\tau }(Yu))={\underset {u}{\mbox {arg min}}}{\biggl \{}(\tau -1)\int _{-\infty }^{u}(yu)dF_{Y}(y)+\tau \int _{u}^ {\infty }(yu)dF_{Y}(y){\biggr \}}.

Bu, Leibniz integral kuralının bir uygulaması aracılığıyla beklenen kaybın türevinin hesaplanması, 0'a ayarlanması ve çözümünün olmasına izin verilmesiyle gösterilebilir. $q_{\tau }$

0=(1-\tau )\int _{-\infty }^{q_{\tau }}dF_{Y}(y)-\tau \int _{q_{\tau }}^{\ infty }dF_{Y}(y).

Bu denklem

0=F_{Y}(q_{\tau })-\tau ,

ve sonra

F_{Y}(q_{\tau })=\tau .

Çözüm benzersiz değilse, Y rastgele değişkeninin th niceliğini elde etmek için bu tür en küçük çözümü almamız gerekir . $q_{\tau }$ ${\görüntüleme stili\tau }$

Örnek

Eşit olasılıkla değerler alan ayrık bir rastgele değişken olsun . Görev, Y'nin medyanını bulmaktır ve bu nedenle değer seçilir. Sonra beklenen kaybı olduğunu ${\görüntüleme stili Y}$ $y_{i}=i$ ${\görüntüleme stili i=1,2,\noktalar ,9}$ ${\görüntüleme stili \tau =0.5}$ ${\görüntüleme stili Yu}$

L(u)=E(\rho _{\tau }(Yu))={\frac {(\tau -1)}{9}}\sum _{y_{i}<u}

{\görüntüleme stili (y_{i}-u)}

+{\frac {\tau }{9}}\sum _{y_{i}\geq u}

{\görüntüleme stili (y_{i}-u)}

={\frac {0.5}{9}}{\Bigl (}

{\görüntüleme stili -}

\sum _{y_{i}<u}

{\görüntüleme stili (y_{i}-u)}

+\sum _{y_{i}\geq u}

{\görüntüleme stili (y_{i}-u)}

{\görüntüleme stili {\Büyük )}.}

Yana sabit olduğuna göre, (bu durumunda doğrudur beklenen zarar fonksiyonunun dışına alınabilir ). O zaman, u =3'te, ${\görüntüleme stili {0.5/9}}$ ${\görüntüleme stili \tau =0.5}$

L(3)\propto \sum _ {i=1}^{2}

{\görüntüleme stili -(i-3)}

{\görüntüleme stili +\toplam _{i=3}^{9}}

{\görüntüleme stili (i-3)}

=[(2+1)+(0+1+2+...+6)]=24.

u'nun 1 birim arttığını varsayalım . Sonra beklenen kaybı ile değiştirilecektir değiştirme konusunda u 4. if e, u 5, beklenen kaybı = ${\görüntüleme stili (3)-(6)=-3}$

L(5)\propto \sum _{i=1}^{4}i+\sum _{i=0}^{4}i=20,

ve herhangi bir değişiklik u beklenen kaybı artacaktır. Böylece u =5 medyandır. Aşağıdaki Tablo , farklı u değerleri için beklenen kaybı (bölünerek ) göstermektedir . ${\görüntüleme stili {0.5/9}}$

sen	1	2	3	4	5	6	7	8	9
Beklenen kayıp	36	29	24	21	20	21	24	29	36

Sezgi

Düşünün ve q için bir başlangıç tahmini olsun . Değerlendirilmiştir beklenen zarar q olduğu ${\görüntüleme stili \tau =0.5}$ $q_{\tau }$

L(q)=-0.5\int _{-\infty }^{q}(yq)dF_{Y}(y)+0.5\int _{q}^{\infty }(yq)dF_{ Y}(y).

Beklenen kaybı en aza indirmek için, beklenen kaybın artıp artmayacağını görmek için q değerini biraz hareket ettiririz. q'yu 1 birim artırdığımızı varsayalım . O zaman beklenen kaybın değişimi

\int _{-\infty }^{q}1dF_{Y}(y)-\int _{q}^{\infty }1dF_{Y}(y).

Denklemin ilk terimi ve ikinci terimi ise . Bu nedenle, beklenen kayıp fonksiyonunun değişimi ancak ve ancak , yani yalnızca ve ancak q medyandan küçükse negatiftir . Benzer şekilde, q'yu 1 birim azaltırsak , beklenen kayıp fonksiyonunun değişimi, ancak ve ancak q medyandan büyükse negatif olur . ${\ Displaystyle F_{Y}(q)}$ $1-F_{Y}(q)$ $F_{Y}(q)<0.5$

Beklenen kayıp fonksiyonunu en aza indirgemek için, q medyandan daha küçük (büyük) ise, q medyana ulaşana kadar L'yi ( q ) arttırırız (azaltırız) ( azaltırız ) ( q ) . Minimizasyonu arkasındaki fikir daha büyük veya daha küçük olan (yoğunluğu ağırlıklı) noktalarının sayısını saymak mümkündür q ve daha sonra hareket q bir noktaya q, daha büyük olan noktaları%. ${\görüntüleme stili 100\tau }$

numune miktarı

Örnek quantile aşağıdaki optimizasyon problemi çözme ile elde edilebilir ${\görüntüleme stili\tau }$

{\hat {q}}_{\tau }={\underset {q\in \mathbb {R} }{\mbox{arg min}}}\sum _{i=1}^{n} \rho _{\tau }(y_{i}-q),

={\underset {q\in \mathbb {R} }{\mbox{arg min}}}\left[(\tau -1)\sum _{y_{i}<q}(y_{i }-q)+\tau \sum _{y_{i}\geq q}(y_{i}-q)\sağ]

,

burada fonksiyon eğik mutlak değer fonksiyonudur. Sezgi, nüfus niceliği ile aynıdır. $\rho _{\tau }$

Koşullu nicel ve nicel regresyon

İnci koşullu miktarsal arasında verilen bir inci miktarsal koşullu olasılık arasında verilen , ${\görüntüleme stili\tau }$ ${\görüntüleme stili Y}$ ${\görüntüleme stili X}$ ${\görüntüleme stili\tau }$ ${\görüntüleme stili Y}$ ${\görüntüleme stili X}$

Q_{Y|X}(\tau )=\inf \sol\{y:F_{Y|X}(y)\geq \tau \sağ\}

.

Rastgele bir değişken olduğunu belirtmek için koşullu niceliği belirtmek için bir sermaye kullanırız . ${\ ekran stili Q}$

th nicelik için nicel regresyonda , th koşullu niceliğin açıklayıcı değişkenlerin doğrusal bir fonksiyonu olarak verildiği varsayımını yaparız : ${\görüntüleme stili\tau }$ ${\görüntüleme stili\tau }$

Q_{Y|X}(\tau )=X\beta _{\tau }

.

Dağılım işlevi Verilen , çözme elde edilebilir ${\görüntüleme stili Y}$ ${\görüntüleme stili \beta _{\tau }}$

{\displaystyle \beta _{\tau }={\underset {\beta \in \mathbb {R} ^{k}}{\mbox{arg min}}}E(\rho _{\tau }(YX\ beta)))

Örnek analogu çözmek, tahmin ediciyi verir . ${\görüntüleme stili \beta }$

{\hat {\beta _{\tau }}}={\underset {\beta \in \mathbb {R} ^{k}}{\mbox{arg min}}}\sum _{i= 1}^{n}(\rho _{\tau }(Y_{i}-X_{i}\beta )).

Not bu durumun kayıp fonksiyonu mutlak değer fonksiyon ile orantılıdır ve bu nedenle ortalama regresyon ile lineer regresyon ile aynıdır az mutlak sapma . ${\görüntüleme stili \tau =0.5}$ $\rho _{\tau }$

Regresyon parametreleri için tahminlerin hesaplanması

Kuantil regresyondan kaynaklanan matematiksel formlar , en küçük kareler yönteminde ortaya çıkanlardan farklıdır . En küçük kareler yöntemi, alt uzaylara izdüşüm içeren bir iç çarpım uzayındaki problemlerin ele alınmasına yol açar ve böylece karesel hataların en aza indirilmesi problemi, sayısal lineer cebirdeki bir probleme indirgenebilir . Nicel regresyon bu yapıya sahip değildir ve bunun yerine minimizasyon problemi doğrusal programlama problemi olarak yeniden formüle edilebilir.

{\underset {\beta ,u^{+},u^{-}\in \mathbb {R} ^{k}\times \mathbb {R} _{+}^{2n}}{\ min }}\sol\{\tau 1_{n}^{'}u^{+}+(1-\tau )1_{n}^{'}u^{-}|X\beta +u^{ +}-u^{-}=Y\doğru\},

nerede

u_{j}^{+}=\max(u_{j},0)

,

u_{j}^{-}=-\min(u_{j},0).

Doğrusal programlama problemini çözmek için tek yönlü yöntemler veya iç nokta yöntemleri uygulanabilir.

asimptotik özellikler

İçin , bazı düzenlilik koşulları altında, olan asimptotik normaldir : ${\görüntüleme stili \tau \in (0,1)}$ ${\hat {\beta }}_{\tau }$

{\sqrt {n}}({\hat {\beta }}_{\tau }-\beta _{\tau }){\overset {d}{\rightarrow }}N(0,\tau (1-\tau )D^{-1}\Omega _{x}D^{-1}),

nerede

D=E(f_{Y}(X\beta )XX^{\prime })

ve

\Omega _{x}=E(X^{\prime }X).

Asimptotik varyans-kovaryans matrisinin doğrudan tahmini her zaman tatmin edici değildir. Kantil regresyon parametreleri için çıkarım, regresyon sıra-skor testleri veya önyükleme yöntemleri ile yapılabilir.

denklik

Değişmezlik hakkında arka plan için değişmez tahmin ediciye bakın veya eşdeğerliğe bakın .

Ölçek denkliği

herhangi biri için ve ${\görüntüleme stili a>0}$ $\tau \in[0,1]$

{\hat {\beta }}(\tau ;aY,X)=a{\hat {\beta }}(\tau ;Y,X),

{\hat {\beta }}(\tau ;-aY,X)=-a{\hat {\beta }}(1-\tau ;Y,X).

vardiya denkliği

herhangi biri için ve $\gamma \R^{k}$ $\tau \in[0,1]$

{\hat {\beta }}(\tau ;Y+X\gamma ,X)={\hat {\beta }}(\tau ;Y,X)+\gamma .

Tasarımın yeniden parametrelendirilmesine denklik

Izin herhangi biri tekil olmayan matris ve ${\görüntüleme stili A}$ ${\görüntüleme stili p\kez p}$ $\tau \in[0,1]$

{\hat {\beta }}(\tau ;Y,XA)=A^{-1}{\hat {\beta }}(\tau ;Y,X).

Monoton dönüşümlere değişmezlik

Eğer bir azalmayan fonksiyonudur aşağıdaki değişmezliği özelliği geçerlidir: ${\görüntüleme stili h}$ $\mathbb {R}$

h(Q_{Y|X}(\tau ))\eşdeğer Q_{h(Y)|X}(\tau )

Örnek 1):

Eğer ve , o zaman . Ortalama regresyon aynı özelliğe sahip değil çünkü ${\görüntüleme stili W=\exp(Y)}$ $Q_{Y|X}(\tau )=X\beta _{\tau }$ $Q_{W|X}(\tau )=\exp(X\beta _{\tau })$ $\operatöradı {E} (\ln(Y))\neq \ln(\operatöradı {E} (Y)).$

Kuantil regresyon için Bayes yöntemleri

Kuantil regresyon normalde Y|X'in koşullu dağılımları için parametrik bir olasılık varsaymadığı için, Bayes yöntemleri çalışan bir olasılıkla çalışır. Uygun bir seçim, asimetrik Laplacian olasılığıdır, çünkü düz bir önsel altında elde edilen posteriorun modu, olağan kantil regresyon tahminleridir. Bununla birlikte, posterior çıkarım dikkatle yorumlanmalıdır. Yang, Wang ve He, geçerli çıkarım için bir arka varyans ayarlaması sağladı. Ek olarak, Yang ve He, çalışma olasılığı ampirik olabilirlik olarak seçilirse, kişinin asimptotik olarak geçerli bir sonsal çıkarsa sahip olabileceğini gösterdi.

Kuantil regresyon için makine öğrenimi yöntemleri

Basit doğrusal regresyonun ötesinde, nicel regresyona genişletilebilecek birkaç makine öğrenimi yöntemi vardır. Kare hatasından eğimli mutlak değer kaybı işlevine geçiş, gradyan iniş tabanlı öğrenme algoritmalarının ortalama yerine belirli bir niceliği öğrenmesine olanak tanır. Bu, tüm sinir ağlarını ve derin öğrenme algoritmalarını nicel regresyona uygulayabileceğimiz anlamına gelir . Kuantil regresyon için ağaç tabanlı öğrenme algoritmaları da mevcuttur (örneğin, Rastgele Ormanların basit bir genellemesi olarak Kuantil Regresyon Ormanları'na bakın ).

Sansürlü kantil regresyon

Yanıt değişkeni sansürlemeye tabiyse, koşullu ortalama, ek dağıtım varsayımları olmadan tanımlanamaz, ancak koşullu nicelik genellikle tanımlanabilir. Sansürlü kantil regresyon üzerine son çalışmalar için bakınız: Portnoy ve Wang ve Wang

Örnek (2):

İzin ver ve . Sonra . Bu, sansürlü kantil regresyon modelidir: tahmini değerler, herhangi bir dağıtım varsayımı yapılmadan elde edilebilir, ancak hesaplama zorluğu pahasına, bunların bir kısmı, bir yaklaşım olarak basit bir üç adımlı sansürlü kantil regresyon prosedürü kullanılarak önlenebilir. ${\görüntüleme stili Y^{c}=\max(0,Y)}$ $Q_{Y|X}=X\beta _{\tau }$ $Q_{Y^{c}|X}(\tau )=\max(0,X\beta _{\tau })$

Yanıt değişkenleri üzerinde rastgele sansürleme için, Portnoy'un (2003) sansürlü niceliksel regresyonu, her sansürlenen noktanın uygun şekilde yeniden ağırlıklandırılmasına dayalı olarak tüm tanımlanabilir nicelik fonksiyonlarının tutarlı tahminlerini sağlar.

Uygulamalar

Sayısız istatistiksel yazılım paketi, nicel regresyon uygulamalarını içerir:

Matlab işleviquantreg
Eviews , sürüm 6'dan beri.
Gretl sahiptir quantregkomutu.
R teklifler en önemlisi, kuantil gerileme uygulamak birkaç paketleri quantregile Roger Koenker da ancak gbm, quantregForest, qrnnveqgam
Python , aracılığıyla Scikit-gardenvestatsmodels
SAS aracılığıyla proc quantreg(sürüm 9.2) ve proc quantselect(sürüm 9.3).
Stata , qregkomut aracılığıyla .
Vowpal Wabbit , aracılığıyla --loss_function quantile.
QuantileRegression.mGitHub'daki MathematicaForPrediction projesinde barındırılan Mathematica paketi .

Referanslar

daha fazla okuma

Angrist, Joshua D. ; Pischke, Jörn-Steffen (2009). "Kuantil Regresyon" . Çoğunlukla Zararsız Ekonometri: Bir Deneycinin Arkadaşı . Princeton Üniversitesi Yayınları. s. 269-291. ISBN'si 978-0-691-12034-8.
Koenker, Roger (2005). Nicel Regresyon . Cambridge Üniversitesi Yayınları. ISBN'si 978-0-521-60827-5.

Languages

In other projects