Öğrencileştirilmiş artık - Studentized residual
Bir serinin parçası |
Regresyon analizi |
---|
Modeller |
Tahmin |
Arka fon |
Olarak istatistik , bir studentized kalıntı bir bölünmesinden ortaya oranı olup kalıntı , bir tarafından tahmin barındırmayan standart sapma . Puanlar arasında değişen hata tahmini ile bir Student t- istatistik formudur .
Bu, aykırı değerlerin tespitinde önemli bir tekniktir . Öğrenci takma adıyla yazan William Sealey Gosset'in onuruna verilen birkaç isimden biridir . Bir istatistiğin örnek bir standart sapmaya bölünmesine , standartlaştırma ve normalleştirme ile analoji olarak öğrenci oluşturma denir .
Motivasyon
Studentizing için anahtar nedeni, bulunan regresyon analizi a değişkenli dağılım ait sapmalar artıklar arasında sapmalar bile farklı olabilir Farklı giriş değişken değerlerinde hatalar eşit bu farklı giriş değişken değerlerinde. Sorun, istatistikteki hatalar ve kalıntılar arasındaki fark , özellikle de regresyonlardaki kalıntıların davranışıdır.
Basit doğrusal regresyon modelini düşünün
Rastgele bir örnek verildiğinde ( X i , Y i ), i = 1, ..., n , her çift ( X i , Y i ) tatmin eder
nerede hatalar vardır bağımsız ve hepsi aynı varyansa sahip . Kalıntılar değil gerçek hataları, ama olan tahminler gözlemlenebilir verilere dayanarak,. Tahmin etmek için en küçük kareler yöntemi kullanıldığında ve ardından artıklar , hatalardan farklı olarak, iki kısıtlamayı karşıladıkları için bağımsız olamazlar.
ve
(Burada £ ı olan I inci hatası ve bir i inci kalıntı).
Hatalardan farklı olarak artıkların hepsi aynı varyansa sahip değildir: karşılık gelen x değeri ortalama x değerinden uzaklaştıkça varyans azalır . Bu, verinin kendisinin bir özelliği değil, alanın uçlarında daha iyi uyan değerler regresyonunun bir özelliğidir. Regresyon katsayıları üzerindeki çeşitli veri noktalarının etki fonksiyonlarında da yansıtılmıştır : son noktalar daha fazla etkiye sahiptir. Bu aynı zamanda görülebilir çünkü uç noktalardaki kalıntılar büyük ölçüde yerleştirilmiş bir çizginin eğimine bağlıyken, ortadaki kalıntılar eğime göreceli olarak duyarsızdır. Aslında artıkların varyansları, farklı olsa da herkesin eşit gerçek hataların sapmalar birbirine vardır başlıca nedeni studentization ihtiyacı için.
Bu sadece nüfus parametreleri (ortalama ve standart sapma) olmak bilinmeyen meselesi değil - ki regresyonlar verim farklı kalıntı dağılımları de , farklı veri noktaları aksine nokta tahmin edicilerin arasında tek değişkenli dağılımlar paylaştığını, ortak dağıtım artıklar için.
Arka fon
Bu basit model için tasarım matrisi şu şekildedir :
ve şapka matrisi H , tasarım matrisinin sütun uzayına dik izdüşümün matrisidir:
Kaldıraç h i olan I şapka matrisinde inci diyagonal girişi. İ. Artığın varyansı
Tasarım matrisi X'in yalnızca iki sütunu olması durumunda (yukarıdaki örnekte olduğu gibi), bu şuna eşittir:
Aritmetik ortalama durumunda , tasarım matrisi X'in yalnızca bir sütunu ( birlerin vektörü ) vardır ve bu basitçe:
Hesaplama
Yukarıdaki tanımlar göz önüne alındığında, Öğrencileştirilmiş kalıntı o zaman
burada h i olan kaldıraç , uygun bir tahmindir σ (aşağıya bakınız).
Ortalama olması durumunda, bu şuna eşittir:
İç ve dış öğrenci olma
Σ 2'nin olağan tahmini , dahili olarak öğrencileştirilmiş kalıntıdır
burada m , modeldeki parametre sayısıdır (örneğimizde 2).
Ama eğer ben inci durum improbably büyük olduğundan şüpheleniliyor, o zaman da normal dağılıma sahip olamazdık. Nedenle hariç tutmak için ihtiyatlı i bir göz önünde olup varyans tahmin işleminden inci gözlem i inci durum, bir aykırı değer olabilir, ve bunun yerine kullanımı dışarıdan studentized olan bakiye
tüm artıklar dayalı hariç şüpheli i kalıntı inci. İşte vurgulamaktır şüpheli için i ile hesaplanır i inci durum hariç.
Tahmin ise σ 2 içerir i inci durumda, o zaman adı dahili studentized , kalıntı (aynı zamanda standart kalıntı ). Tahmin ederse , bunun yerine kullanılır hariç i inci dava, o zaman denir dışarıdan studentized , .
Dağıtım
Hataların bağımsız ve varsa normal dağılım ile beklenen değer 0 ve varyans σ 2 , daha sonra olasılık dağılımı arasında i dışarıdan kalıntı studentized Th a, Student t-dağılımı ile , n - m - 1 serbestlik derecesi ve arasında olabilir için .
Öte yandan, içten öğrencileştirilmiş artıklar, ν = n - m , artık serbestlik derecelerinin sayısı olduğu aralıktadır . T i , dahili olarak öğrencileştirilmiş artığı temsil ediyorsa ve yine hataların bağımsız, aynı şekilde dağıtılmış Gauss değişkenleri olduğunu varsayarak, o zaman:
burada t , ν - 1 serbestlik derecesine sahip Student t dağılımı olarak dağıtılan rastgele bir değişkendir . Aslında bu, t i 2 / ν'nin beta dağılımını B (1/2, ( ν - 1) / 2) izlediğini gösterir . Yukarıdaki dağılım bazen tau dağılımı olarak anılır ; ilk olarak 1935'te Thompson tarafından türetildi.
Tüm ν 3 = içten studentized artıklar eşit dağılmış arasında ve . Yalnızca bir artık serbestlik derecesi varsa, dahili olarak öğrencileştirilmiş kalıntıların dağıtımı için yukarıdaki formül geçerli değildir. Bu durumda, t i , her biri için% 50 şansla +1 veya are1'dir.
İçten studentized artıkların dağılımın standart sapması her zaman 1'dir, ancak bu tüm standart sapması anlamına gelmez t i belli deney Örneğin 1'dir, geçiyor düz bir çizgi uydurma içten studentized artıklar ( 0, 0) ile (1, 4), (2, −1), (2, −1) noktaları ve bunların standart sapması 1 değil.
Herhangi bir öğrencileştirilmiş artık t i ve t j çifti (burada ) DEĞİLDİR Aynı dağılıma sahipler, ancak toplamları 0 olan ve tasarım matrisine ortogonal olmaları gereken kalıntılar üzerindeki kısıtlamalar nedeniyle bağımsız değillerdir. .
Yazılım uygulamaları
R , Python , vb. Gibi birçok program ve istatistik paketi Studentized kalıntı uygulamalarını içerir.
Dil / Program | Fonksiyon | Notlar |
---|---|---|
R | rstandard(model, ...) |
dahili olarak öğrenci. Bkz. [2] |
R | rstudent(model, ...) |
dışarıdan öğrenci. Bkz. [3] |
Ayrıca bakınız
- Cook'un mesafesi - bir gözlem silindiğinde regresyon katsayılarındaki değişikliklerin bir ölçüsü
- Grubbs testi
- Normalleştirme (istatistikler)
- Samuelson eşitsizliği
- Standart skor
- William Sealy Gosset
Referanslar
daha fazla okuma
- Cook, R. Dennis; Weisberg, Sanford (1982). Gerileme Kalıntıları ve Etkisi (Yeniden Baskı). New York: Chapman ve Hall . ISBN 041224280X . Erişim tarihi: 23 Şubat 2013 .