Hatalar ve artıklar - Errors and residuals

Olarak istatistik ve optimizasyonu , hatalar ve artıklar , iki yakın ilişkili ve kolay karışan tedbirler sapma , bir bir elemanının gözlemlenen değer istatistiksel örnek olarak "teorik değer" den. Hata (veya rahatsızlık gözlemlenen bir değer) (gözlemlenemeyen) den gözlenen değer sapmasıdır doğru ilgili bir miktar değerini (örneğin, bir popülasyon ortalama ) ve kalıntı gözlemlenen bir değer arasındaki farktır gözlenen değer ve ilgilenilen miktarın tahmini değeri (örneğin, bir örnek ortalama ). Bu ayrım, kavramların bazen regresyon hataları ve regresyon artıkları olarak adlandırıldığı ve bunların öğrenilmiş artıklar kavramına yol açtığı regresyon analizinde çok önemlidir .

Tanıtım

Tek değişkenli bir dağılımdan bir dizi gözlem olduğunu ve bu dağılımın ortalamasını ( konum modeli olarak adlandırılan ) tahmin etmek istediğimizi varsayalım . Bu durumda hatalar, gözlemlerin popülasyon ortalamasından sapmaları, kalıntılar ise gözlemlerin örnek ortalamasından sapmalarıdır.

Bir istatistik hatası (ya da rahatsızlık ) tutar olan tarafından gelen bir gözlem farklıdır beklenen değer , bütün göre ikincisinin nüfus istatistiksel birim rastgele seçilmiştir olan. Örneğin, 21 yaşındaki bir erkek popülasyonundaki ortalama boy 1,75 metre ise ve rastgele seçilen bir erkek 1,80 metre boyundaysa, "hata" 0,05 metredir; rastgele seçilen adam 1,70 metre boyundaysa, "hata" -0,05 metredir. Tüm popülasyonun ortalaması olan beklenen değer tipik olarak gözlemlenemez ve dolayısıyla istatistiksel hata da gözlemlenemez.

Bir kalıntı (ya da uygun sapma), diğer taraftan, bir gözlemlenebilir tahmin gözlemlenemeyen istatistiksel hata. Erkeklerin boyları ile ilgili önceki örneği ele alalım ve rastgele bir n kişi örneğimiz olduğunu varsayalım . Numune ortalama iyi bir tahmincisi olarak hizmet verebilir nüfus ortalama. O zaman elimizde:

  • Örneklemdeki her bir erkeğin boyu ile gözlemlenemeyen popülasyon ortalaması arasındaki fark istatistiksel bir hatadır , oysa
  • Örnekteki her bir adamın boyu ile gözlemlenebilir örnek ortalaması arasındaki fark artıktır .

Numune ortalamasının tanımı nedeniyle, rastgele bir numune içindeki artıkların toplamının mutlaka sıfır olduğuna ve dolayısıyla artıkların mutlaka bağımsız olmadığına dikkat edin . Öte yandan istatistiksel hatalar bağımsızdır ve rastgele örnek içindeki toplamları neredeyse kesinlikle sıfır değildir.

Bir (özellikle istatistiksel hatalarını standartlaştırabilirsiniz normal dağılım a) z-puanı , bir (ya da "standart puan") ve standartlaştırmak artıklarını t -statistic ya da daha genel artıkları studentized .

Tek değişkenli dağılımlarda

Ortalama μ ve standart sapma σ olan normal dağılımlı bir popülasyon varsayarsak ve bireyleri bağımsız olarak seçersek,

ve örnek ortalama

şöyle dağıtılmış bir rastgele değişkendir:

İstatistiksel hatalar daha sonra

ile beklenen ise sıfır değerleri, artıklar olan

σ 2'ye bölünen istatistiksel hataların karelerinin toplamı, n serbestlik dereceli bir ki-kare dağılımına sahiptir :

Ancak popülasyon ortalaması bilinmediği için bu miktar gözlemlenemez. Karelerinin toplamı artıkları , diğer taraftan, gözlemlenebilir. Bu toplamın σ 2'ye bölümü, yalnızca n  − 1 serbestlik dereceli bir ki-kare dağılımına sahiptir :

Arasındaki bu fark n ve n  özgürlük sonuçlarının 1 derece - Bessel düzeltme tahmini için örnek varyansı bilinmeyen ortalama ve bilinmeyen değişmesi olan nüfusun. Popülasyon ortalaması biliniyorsa düzeltme gerekmez.

Açıklama

Artıkların kareleri toplamının ve örnek ortalamasının, örneğin Basu teoremi kullanılarak birbirinden bağımsız olduğunun gösterilebilmesi dikkat çekicidir . Bu gerçek ve yukarıda verilen normal ve ki-kare dağılımları, t istatistiğini içeren hesaplamaların temelini oluşturur :

burada hataları temsil eder, n boyutunda ve bilinmeyen σ bir numune için numune standart sapmasını temsil eder ve payda terimi aşağıdakilere göre hataların standart sapmasını hesaplar:

Pay ve paydanın olasılık dağılımları ayrı ayrı gözlemlenemeyen popülasyon standart sapması σ değerine bağlıdır , ancak σ hem payda hem de paydada görünür ve iptal eder. Bu bir şans çünkü  σ'yı bilmesek de bu bölümün olasılık dağılımını biliyoruz: n  − 1 serbestlik dereceli bir Student t dağılımına sahip . Bu nedenle , μ için  bir güven aralığı bulmak için bu bölümü kullanabiliriz . Bu t istatistiği, "regresyon doğrusundan uzaktaki standart hataların sayısı" olarak yorumlanabilir.

Regresyonlar

In regresyon analizi arasındaki ayrım hataları ve artıklar ince ve önemlidir ve kavramına uçları studentized artıklar . Bağımsız değişkeni bağımlı değişkenle - örneğin bir çizgi - ilişkilendiren gözlemlenemeyen bir fonksiyon verildiğinde, bağımlı değişken gözlemlerinin bu fonksiyondan sapmaları gözlemlenemeyen hatalardır. Bazı veriler üzerinde bir regresyon çalıştırılırsa, bağımlı değişken gözlemlerinin uygun fonksiyondan sapmaları artıklardır. Doğrusal model uygulanabilirse, bağımsız değişkene karşı çizilen artıkların saçılım grafiği, artıklar için herhangi bir eğilim olmaksızın sıfır civarında rastgele olmalıdır. Veriler bir eğilim gösteriyorsa, regresyon modeli büyük olasılıkla yanlıştır; örneğin, gerçek fonksiyon ikinci dereceden veya daha yüksek dereceli bir polinom olabilir. Rastgelelerse veya eğilimleri yoksa, ancak "yavaşlıyorlarsa" - değişen varyans adı verilen bir fenomen sergilerler . Tüm artıklar eşitse veya yayılmıyorsa , homoskedastisite sergilerler .

Ancak, ortalama karesel hata (MSE) ifadesinde terminolojik bir farklılık ortaya çıkmaktadır . Bir regresyonun ortalama karesi alınmış hatası , gözlemlenemeyen hataların değil , hesaplanan artıkların karelerinin toplamından hesaplanan bir sayıdır . Bu kareler toplamı, gözlem sayısı olan n'ye bölünürse , sonuç karesi alınmış artıkların ortalamasıdır. Bu olduğu eğimli gözlenmemiş hataların varyans tahmini, önyargı kareleri artıkların toplamına bölünmesi ile çıkarılır df = N  -  p  1 - yerine n , df sayısıdır serbestlik derecesi ( n eksi parametre sayısı (kesme hariç) p tahmin edilen - 1). Bu, gözlemlenmeyen hataların varyansının yansız bir tahminini oluşturur ve ortalama karesel hata olarak adlandırılır.

ANOVA'da kullanılana benzer bir teknik kullanarak doğrusal regresyonun varyansını analiz ederken ortalama hata karesini hesaplamak için başka bir yöntem (ANOVA bir tür regresyon olduğu için aynıdır), artıkların karelerinin toplamı (aka karelerin toplamı) hatanın oranı) serbestlik derecesine bölünür (serbestlik derecelerinin n  −  p  − 1'e eşit olduğu yerde, burada p modelde tahmin edilen parametre sayısıdır (kesişme hariç regresyon denklemindeki her değişken için bir tane) ). Daha sonra, modelin karelerinin toplamından sadece parametre sayısı olan serbestlik derecesine bölünerek modelin ortalama karesi de hesaplanabilir. Ardından, modelin ortalama karesini hatanın ortalama karesine bölerek F değeri hesaplanabilir ve daha sonra anlamlılığı belirleyebiliriz (bu yüzden ortalama karelerin başlamasını istersiniz).

Bununla birlikte, regresyon sürecinin davranışı nedeniyle , hataların kendileri aynı şekilde dağılmış olsa bile , (giriş değişkeninin) farklı veri noktalarındaki artıkların dağılımları değişebilir . Somut olarak, hataların aynı şekilde dağıldığı doğrusal bir regresyonda , alanın ortasındaki girdi artıklarının değişkenliği, alanın uçlarındaki artıkların değişkenliğinden daha yüksek olacaktır : doğrusal regresyonlar, uç noktalara ortadan daha iyi uyar. Bu aynı zamanda çeşitli veri noktalarının regresyon katsayıları üzerindeki etki fonksiyonlarına da yansır : uç noktaların daha fazla etkisi vardır.

Böylece beklenen değişkenlikle artıklarını ayarlamak için, farklı girişler de bir ihtiyaç artıkları karşılaştırma artıkları olarak adlandırılır studentizing . Bu, söz konusu durumun bir veri kümesindeki diğerlerinden bir şekilde farklı olduğu aykırı değerlerin saptanması durumunda özellikle önemlidir . Örneğin, alanın ortasında büyük bir artık beklenebilir, ancak alanın sonunda bir aykırı değer olarak kabul edilebilir.

İstatistiklerde "hata" kelimesinin diğer kullanımları

Yukarıdaki bölümlerde tartışıldığı gibi "hata" teriminin kullanımı, bir değerin varsayımsal gözlemlenmemiş bir değerden sapması anlamındadır. İstatistiklerde, her ikisi de gözlemlenebilir tahmin hatalarına atıfta bulunan en az iki başka kullanım daha vardır:

Ortalama karesel hata (MSE) bir tahmincisi tarafından öngörülen değerler miktarları (tipik olarak modeli tahmin edildiği örnek dışında) tahmin edilmektedir farklılık hangi bir miktarı belirtmektedir. Kök ortalama kare hata (RMSE) MSE kare köküdür. Hataların kareleri toplamı (SSE) numune sayısı ile çarpılan MSE olup.

Artıkların kareleri toplamı (SSR), tahmin için kullanılan örnek içindeki gerçek değerlerin tahmin edilen değerlerden sapmalarının karelerinin toplamıdır. Bu,regresyon katsayılarının SSR minimum olacak şekilde (yani türevi sıfır olacak şekilde) seçildiği en küçük kareler tahmininintemelidir.

Benzer şekilde, mutlak hataların toplamı (SAE), regresyona en az mutlak sapma yaklaşımında minimize edilen artıkların mutlak değerlerinin toplamıdır .

Ortalama hata (ME) 'dir önyargı . En küçük kareler tahmin edicileri için ortalama kalıntı (MR) her zaman sıfırdır.

Ayrıca bakınız

Referanslar

Dış bağlantılar