Öğrencileştirilmiş artık - Studentized residual

Olarak istatistik , bir studentized kalıntı bir bölünmesinden ortaya oranı olup kalıntı , bir tarafından tahmin barındırmayan standart sapma . Puanlar arasında değişen hata tahmini ile bir Student t- istatistik formudur .

Bu, aykırı değerlerin tespitinde önemli bir tekniktir . Öğrenci takma adıyla yazan William Sealey Gosset'in onuruna verilen birkaç isimden biridir . Bir istatistiğin örnek bir standart sapmaya bölünmesine , standartlaştırma ve normalleştirme ile analoji olarak öğrenci oluşturma denir .

Motivasyon

Studentizing için anahtar nedeni, bulunan regresyon analizi a değişkenli dağılım ait sapmalar artıklar arasında sapmalar bile farklı olabilir Farklı giriş değişken değerlerinde hatalar eşit bu farklı giriş değişken değerlerinde. Sorun, istatistikteki hatalar ve kalıntılar arasındaki fark , özellikle de regresyonlardaki kalıntıların davranışıdır.

Basit doğrusal regresyon modelini düşünün

Rastgele bir örnek verildiğinde ( X i Y i ), i  = 1, ...,  n , her çift ( X i Y i ) tatmin eder

nerede hatalar vardır bağımsız ve hepsi aynı varyansa sahip . Kalıntılar değil gerçek hataları, ama olan tahminler gözlemlenebilir verilere dayanarak,. Tahmin etmek için en küçük kareler yöntemi kullanıldığında ve ardından artıklar , hatalardan farklı olarak, iki kısıtlamayı karşıladıkları için bağımsız olamazlar.

ve

(Burada £ ı olan I inci hatası ve bir i inci kalıntı).

Hatalardan farklı olarak artıkların hepsi aynı varyansa sahip değildir: karşılık gelen x değeri ortalama x değerinden uzaklaştıkça varyans azalır . Bu, verinin kendisinin bir özelliği değil, alanın uçlarında daha iyi uyan değerler regresyonunun bir özelliğidir. Regresyon katsayıları üzerindeki çeşitli veri noktalarının etki fonksiyonlarında da yansıtılmıştır : son noktalar daha fazla etkiye sahiptir. Bu aynı zamanda görülebilir çünkü uç noktalardaki kalıntılar büyük ölçüde yerleştirilmiş bir çizginin eğimine bağlıyken, ortadaki kalıntılar eğime göreceli olarak duyarsızdır. Aslında artıkların varyansları, farklı olsa da herkesin eşit gerçek hataların sapmalar birbirine vardır başlıca nedeni studentization ihtiyacı için.

Bu sadece nüfus parametreleri (ortalama ve standart sapma) olmak bilinmeyen meselesi değil - ki regresyonlar verim farklı kalıntı dağılımları de , farklı veri noktaları aksine nokta tahmin edicilerin arasında tek değişkenli dağılımlar paylaştığını, ortak dağıtım artıklar için.

Arka fon

Bu basit model için tasarım matrisi şu şekildedir :

ve şapka matrisi H , tasarım matrisinin sütun uzayına dik izdüşümün matrisidir:

Kaldıraç h i olan I şapka matrisinde inci diyagonal girişi. İ. Artığın varyansı

Tasarım matrisi X'in yalnızca iki sütunu olması durumunda (yukarıdaki örnekte olduğu gibi), bu şuna eşittir:

Aritmetik ortalama durumunda , tasarım matrisi X'in yalnızca bir sütunu ( birlerin vektörü ) vardır ve bu basitçe:

Hesaplama

Yukarıdaki tanımlar göz önüne alındığında, Öğrencileştirilmiş kalıntı o zaman

burada h i olan kaldıraç , uygun bir tahmindir σ (aşağıya bakınız).

Ortalama olması durumunda, bu şuna eşittir:

İç ve dış öğrenci olma

Σ 2'nin olağan tahmini , dahili olarak öğrencileştirilmiş kalıntıdır

burada m , modeldeki parametre sayısıdır (örneğimizde 2).

Ama eğer ben  inci durum improbably büyük olduğundan şüpheleniliyor, o zaman da normal dağılıma sahip olamazdık. Nedenle hariç tutmak için ihtiyatlı i  bir göz önünde olup varyans tahmin işleminden inci gözlem i  inci durum, bir aykırı değer olabilir, ve bunun yerine kullanımı dışarıdan studentized olan bakiye

tüm artıklar dayalı hariç şüpheli i  kalıntı inci. İşte vurgulamaktır şüpheli için i ile hesaplanır i  inci durum hariç.

Tahmin ise σ 2 içerir i  inci durumda, o zaman adı dahili studentized , kalıntı (aynı zamanda standart kalıntı ). Tahmin ederse , bunun yerine kullanılır hariç i  inci dava, o zaman denir dışarıdan studentized , .

Dağıtım

Hataların bağımsız ve varsa normal dağılım ile beklenen değer 0 ve varyans σ 2 , daha sonra olasılık dağılımı arasında i dışarıdan kalıntı studentized Th a, Student t-dağılımı ile , n  -  m  - 1 serbestlik derecesi ve arasında olabilir için .

Öte yandan, içten öğrencileştirilmiş artıklar, ν = n  -  m , artık serbestlik derecelerinin sayısı olduğu aralıktadır . T i , dahili olarak öğrencileştirilmiş artığı temsil ediyorsa ve yine hataların bağımsız, aynı şekilde dağıtılmış Gauss değişkenleri olduğunu varsayarak, o zaman:

burada t , ν  - 1 serbestlik derecesine sahip Student t dağılımı olarak dağıtılan rastgele bir değişkendir . Aslında bu, t i 2 / ν'nin beta dağılımını B (1/2, ( ν  - 1) / 2) izlediğini gösterir . Yukarıdaki dağılım bazen tau dağılımı olarak anılır ; ilk olarak 1935'te Thompson tarafından türetildi.

Tüm ν 3 = içten studentized artıklar eşit dağılmış arasında ve . Yalnızca bir artık serbestlik derecesi varsa, dahili olarak öğrencileştirilmiş kalıntıların dağıtımı için yukarıdaki formül geçerli değildir. Bu durumda, t i , her biri için% 50 şansla +1 veya are1'dir.

İçten studentized artıkların dağılımın standart sapması her zaman 1'dir, ancak bu tüm standart sapması anlamına gelmez t i belli deney Örneğin 1'dir, geçiyor düz bir çizgi uydurma içten studentized artıklar ( 0, 0) ile (1, 4), (2, −1), (2, −1) noktaları ve bunların standart sapması 1 değil.

Herhangi bir öğrencileştirilmiş artık t i ve t j çifti (burada ) DEĞİLDİR Aynı dağılıma sahipler, ancak toplamları 0 olan ve tasarım matrisine ortogonal olmaları gereken kalıntılar üzerindeki kısıtlamalar nedeniyle bağımsız değillerdir. .

Yazılım uygulamaları

R , Python , vb. Gibi birçok program ve istatistik paketi Studentized kalıntı uygulamalarını içerir.

Dil / Program Fonksiyon Notlar
R rstandard(model, ...) dahili olarak öğrenci. Bkz. [2]
R rstudent(model, ...) dışarıdan öğrenci. Bkz. [3]


Ayrıca bakınız

Referanslar

daha fazla okuma