Toplam karelerin bölünmesi - Partition of sums of squares

Kareler toplamının bölüm o kadar ait sızarak bir kavramdır çıkarımsal istatistik ve açıklayıcı istatistikler . Daha doğrusu, karesel sapmaların veya hataların toplamlarının bölümlenmesidir . Matematiksel olarak, sapmaların karelerinin toplamı, ölçeklenmemiş veya ayarlanmamış bir dağılım ölçüsüdür ( değişkenlik olarak da adlandırılır ). Serbestlik derecesi sayısı için ölçeklendiğinde , ortalama değerleriyle ilgili gözlemlerin varyansını veya yayılımını tahmin eder . Sapmaların karelerinin toplamının çeşitli bileşenlere bölünmesi, bir veri kümesindeki genel değişkenliğin, her birinin göreceli önemi, toplam kareler toplamının her bir bileşeninin boyutuyla nicelendirilerek, farklı değişkenlik türlerine veya kaynaklarına atfedilmesine izin verir.

Arka plan

Bir veri koleksiyonundaki herhangi bir noktadan verinin ortalamasına olan uzaklık sapmadır. Bu , i. veri noktası nerede ve ortalamanın tahmini olarak yazılabilir . Tüm bu sapmaların karesi alınırsa, olduğu gibi toplanırsa , bu, bu veriler için "kareler toplamını" verir.

Koleksiyona daha fazla veri eklendiğinde, yeni verilerin ortalamaya eşit olması gibi olası durumlar dışında, karelerin toplamı artacaktır. Bu nedenle, genellikle, karelerin toplamı, veri toplamanın boyutuyla birlikte büyüyecektir. Bu, ölçeksiz olduğu gerçeğinin bir tezahürüdür.

Çoğu durumda, serbestlik derecesi sayısı, koleksiyondaki veri sayısı eksi birdir. Bunu n  − 1 olarak yazarız , burada n veri sayısıdır.

Ölçekleme (normalleştirme olarak da bilinir), veri toplamanın boyutu büyüdükçe büyümemesi için karelerin toplamını ayarlamak anlamına gelir. Bu, 100 kişilik bir numune ile 20 kişilik bir numune gibi farklı büyüklükteki numuneleri karşılaştırmak istediğimizde önemlidir. Karelerin toplamı normalleştirilmeseydi, değeri her zaman 100 kişilik örneklem için 20 kişilik örnekten daha büyük olurdu. Karelerin toplamını ölçeklendirmek için, onu serbestlik derecelerine böleriz, yani, serbestlik derecesi veya varyans başına karelerin toplamını hesaplarız. Standart sapma ise varyansın karekökü olur.

Yukarıda, betimleyici istatistiklerde kareler toplamının nasıl kullanıldığı açıklanmaktadır; Bu geniş ilkenin çıkarımsal istatistiklere uygulanması için toplam kareler toplamı hakkındaki makaleye bakın .

Doğrusal regresyonda karelerin toplamını bölme

Teorem. n gözlem içeren bir örneğe dayalı olarak bir sabit içeren doğrusal bir regresyon modeli verildiğinde , toplam kareler toplamı aşağıdaki gibi açıklanan kareler toplamı (ESS) ve kalan kareler toplamı (RSS) olarak bölünebilir :

bu denklem aşağıdaki formların her birine eşdeğerdir:

nerede regresyon hattı ile tahmini değer yaşıyor , , ..., tahmin olarak katsayılar .

Kanıt

Modelin bir sabit içermesi veya tasarım matrisinin birler sütunu içermesine eşdeğer olması şartı, bunu sağlar , yani .

İspat, vektör biçiminde de şu şekilde ifade edilebilir:

Son satırdaki terimlerin ortadan kaldırılması, şu gerçeği kullandı:

Daha fazla bölümleme

Kalan kareler toplamının, uygun olmayan kareler toplamı artı saf hata nedeniyle kareler toplamı olarak daha fazla bölünebileceğini unutmayın .

Ayrıca bakınız

Referanslar