Uygun olmayan kareler toplamı - Lack-of-fit sum of squares

Olarak istatistik , bir karelerinin toplamı bağlı uyum eksikliği veya daha fazla kısaca bir kareler olmaması-uyum toplamı , bir bölme bileşenlerinden biridir karelerinin toplamının bir in artanların varyans analizi kullanılmıştır, pay bir in F-testi ait boş hipotezinin bir önerilen modelin uyuyor iyi söylüyor. Diğer bileşen, karelerin saf hata toplamıdır .

Karelerin saf hata toplamı, bağımlı değişkenin her bir değerinin , bağımsız değişken değerlerini paylaşan tüm gözlemler üzerindeki ortalama değerden sapmalarının karelerinin toplamıdır . Bunlar, bağımsız değişken (ler) in değer (ler) inin bir fonksiyonu olarak bağımlı değişken için tahmin edilen bir değer atayan herhangi bir tahmin denklemi ile asla önlenemeyen hatalardır. Kalan kareler toplamının geri kalanı, bu hataları tamamen ortadan kaldırmak matematiksel olarak mümkün olacağından modelin uyum eksikliğine atfedilir.

Fikrin taslağı

Uyumsuz kareler toplamının, artıkların karelerinin toplamından farklı olması için , yordayıcı değişkenler kümesinin değerlerinden en az biri için yanıt değişkeninin birden fazla değerinin olması gerekir . Örneğin, bir çizgi eklemeyi düşünün

{\ displaystyle y = \ alpha x + \ beta \,}

en küçük kareler yöntemiyle . Biri , kalıntıların karelerinin toplamını en aza indiren değerleri, yani gözlenen y- değeri ile uydurulmuş y- değeri arasındaki farkların karelerinin toplamını , α ve β için tahmin olarak alır . Kalan karelerin toplamından farklı bir uyumsuz kareler toplamına sahip olmak için, x değerlerinin her biri için birden fazla y değeri gözlemlenmelidir . Biri daha sonra "hatadan kaynaklanan karelerin toplamını", yani artıkların karelerinin toplamını iki bileşene böler:

hatadan kaynaklanan karelerin toplamı = ("saf" hatadan kaynaklanan karelerin toplamı) + (uyum eksikliğinden kaynaklanan karelerin toplamı).

"Saf" hatadan kaynaklanan karelerin toplamı, gözlemlenen her y değeri ile aynı x değerine karşılık gelen tüm y değerlerinin ortalaması arasındaki farkların karelerinin toplamıdır .

Uyum eksikliğinden kaynaklanan karelerin toplamı , aynı x değerine karşılık gelen y değerlerinin her ortalaması ile karşılık gelen uydurulmuş y değeri arasındaki farkların ağırlıklı karelerinin toplamıdır; her durumda ağırlık, sadece gözlemlenen sayıdır. o x değeri için y değerleri . Bileşenleri "saf hatalar" olan vektör ile uyumsuz bileşenlerin vektörünün birbirine dik olması en küçük kareler regresyonunun bir özelliği olduğundan, aşağıdaki eşitlik geçerlidir:

{\ displaystyle {\ begin {align {align}} & \ sum ({\ text {gözlenen değer}} - {\ text {uygun değer}}) ^ {2} && {\ text {(hata)}} \\ & \ qquad = \ sum ({\ text {gözlemlenen değer}} - {\ text {yerel ortalama}}) ^ {2} && {\ text {(saf hata)}} \\ & \ qquad \ qquad {} + \ sum { \ text {ağırlık}} \ times ({\ text {yerel ortalama}} - {\ text {uygun değer}}) ^ {2} && {\ text {(uyumsuzluk)}} \ end {hizalı}}}

Dolayısıyla kalan kareler toplamı tamamen iki bileşene ayrıştırılmıştır.

Matematiksel ayrıntılar

Bir yordayıcı değişkenle bir çizgi uydurmayı düşünün. Tanımlama i bir her birinin indeksi olarak N belirgin X değerleri, j , belirli bir tepki için değişken gözlemlerin bir indeksi olarak X değeri ve n, _ı sayısı y ile ilişkili değerleri i ^inci X değeri. Her bir yanıt değişkeni gözleminin değeri şu şekilde temsil edilebilir:

{\ displaystyle Y_ {ij} = \ alpha x_ {i} + \ beta + \ varepsilon _ {ij}, \ qquad i = 1, \ dots, n, \ quad j = 1, \ dots, n_ {i}. }

İzin Vermek

{\ displaystyle {\ widehat {\ alpha}}, {\ widehat {\ beta}} \,}

olduğu en küçük kareler gözlemlenemeyen parametre tahminleri a ve P olan gözlenen değerlere göre x _i ve Y, _{I J} .

İzin Vermek

{\ displaystyle {\ widehat {Y}} _ {i} = {\ widehat {\ alpha}} x_ {i} + {\ widehat {\ beta}} \,}

yanıt değişkeninin uyan değerleri olabilir. Sonra

{\ displaystyle {\ widehat {\ varepsilon}} _ {ij} = Y_ {ij} - {\ widehat {Y}} _ {i} \,}

olan kalıntılar hata terimi gözlenemeyen değerlerinin gözlemlenebilir tahmindir, ε _ij . En küçük kareler yönteminin doğası gereği, artıkların tüm vektörü,

{\ displaystyle N = \ toplam _ {i = 1} ^ {n} n_ {i}}

skaler bileşenler, zorunlu olarak iki kısıtlamayı karşılar

{\ displaystyle \ toplamı _ {i = 1} ^ {n} \ toplamı _ {j = 1} ^ {n_ {i}} {\ widehat {\ varepsilon}} _ {ij} = 0 \,}

{\ displaystyle \ toplamı _ {i = 1} ^ {n} \ sol (x_ {i} \ toplamı _ {j = 1} ^ {n_ {i}} {\ widehat {\ varepsilon}} _ {ij} \ sağ) = 0. \,}

Bu nedenle , R ^N'nin ( N - 2) boyutlu bir alt uzayında yatmakla sınırlandırılmıştır , yani N - 2 " hata için serbestlik derecesi " vardır.

Şimdi izin ver

{\ displaystyle {\ overline {Y}} _ {i \ bullet} = {\ frac {1} {n_ {i}}} \ sum _ {j = 1} ^ {n_ {i}} Y_ {ij}}

i ^incix değeriyle ilişkili tüm Y değerlerinin ortalaması olabilir .

Hata nedeniyle karelerin toplamını iki bileşene böleriz:

{\ displaystyle {\ begin {align} & \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} {\ widehat {\ varepsilon}} _ {ij} ^ {\, ​​2} = \ toplam _ {i = 1} ^ {n} \ toplam _ {j = 1} ^ {n_ {i}} \ left (Y_ {ij} - {\ widehat {Y}} _ { i} \ right) ^ {2} \\ & = \ underbrace {\ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} \ left (Y_ {ij} - {\ overline {Y}} _ {i \ bullet} \ right) ^ {2}} _ {\ text {(saf hatadan kaynaklanan karelerin toplamı)}} + \ underbrace {\ sum _ {i = 1} ^ {n} n_ {i} \ left ({\ overline {Y}} _ {i \ bullet} - {\ widehat {Y}} _ {i} \ right) ^ {2}.} _ {\ text { (sığmama nedeniyle karelerin toplamı)}} \ end {hizalı}}}

Olasılık dağılımları

Karelerin toplamı

Varsayalım hata terimlerini ε _{i j} olan bağımsız ve normal dağılım ile beklenen değer 0 ve varyans σ ² . X _i'yi rastgele değil sabit olarak ele alıyoruz . O halde yanıt değişkenleri Y _{i j} rastgele olur çünkü ε _{i j} hataları rastgele olur.

Düz çizgi modeli doğruysa, hata nedeniyle kareler toplamının hata varyansına bölünmesiyle elde edilebileceği gösterilebilir.

{\ displaystyle {\ frac {1} {\ sigma ^ {2}}} \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} {\ widehat {\ varepsilon}} _ {ij} ^ {\, 2}}

Bir sahiptir ki-kare dağılımı ile N serbestlik 2 derece -.

Ayrıca, toplam gözlem sayısı N , bağımsız değişken n'nin düzey sayısı ve p modelindeki parametre sayısı göz önüne alındığında :

Σ ² hata varyansına bölünen saf hatadan kaynaklanan kareler toplamı, N - n serbestlik dereceli bir ki-kare dağılımına sahiptir ;
Σ ² hata varyansına bölünen uyum eksikliğinden kaynaklanan kareler toplamı, n - p serbestlik dereceli bir ki-kare dağılımına sahiptir (burada düz çizgi modelinde iki parametre olduğu için p = 2);
İki karenin toplamı olasılıksal olarak bağımsızdır.

Test istatistiği

Daha sonra istatistik şu anlama gelir:

{\ displaystyle {\ begin {align} F & = {\ frac {{\ text {karelerin uyumsuz toplamı}} / {\ text {serbestlik derecesi}}} {{\ text {saf hata toplamı kareler}} / {\ text {serbestlik derecesi}}}} \\ [8pt] & = {\ frac {\ left. \ sum _ {i = 1} ^ {n} n_ {i} \ left ({\ üst üste {Y}} _ {i \ bullet} - {\ widehat {Y}} _ {i} \ right) ^ {2} \ right / (np)} {\ left. \ sum _ {i = 1} ^ {n} \ sum _ {j = 1} ^ {n_ {i}} \ left (Y_ {ij} - {\ overline {Y}} _ {i \ bullet} \ right) ^ {2} \ right / ( Nn)}} \ end {hizalı}}}

modelin doğru olması koşuluyla, payda ve paydada karşılık gelen serbestlik derecelerine sahip bir F dağılımına sahiptir. Model yanlışsa, paydanın olasılık dağılımı hala yukarıda belirtildiği gibidir ve pay ve payda hala bağımsızdır. Ancak pay daha sonra merkezi olmayan bir ki-kare dağılımına sahiptir ve sonuç olarak bölüm bir bütün olarak merkezi olmayan bir F dağılımına sahiptir .

Doğrusal modelin doğru olduğuna dair sıfır hipotezini test etmek için bu F istatistiği kullanılır . Merkezi olmayan F dağılımı stokastik olarak (merkezi) F dağılımından daha büyük olduğundan, eğer F istatistiği kritik F değerinden daha büyükse sıfır hipotezi reddedilir. Kritik değer , F dağılımının kümülatif dağılım fonksiyonuna karşılık gelir ve x , istenen güven düzeyine eşittir ve serbestlik derecesi d ₁ = ( n - p ) ve d ₂ = ( N - n ).

Varsayımları normal dağılımın hataları ve bağımsızlığı bu olduğunu gerektirecektir gösterilebilir eksikliği-of-fit testi olan olabilirlik-oran testi Boş hipotezin.

Languages

In other projects

Uygun olmayan kareler toplamı - Lack-of-fit sum of squares

İçindekiler

Fikrin taslağı

Matematiksel ayrıntılar

Olasılık dağılımları

Karelerin toplamı

Test istatistiği

Ayrıca bakınız

Notlar