Bessel'in düzeltmesi - Bessel's correction

Olarak istatistik , Bessel düzeltme kullanılmasıdır n  - 1 yerine n formül içinde örnek varyans ve numune standart sapma , burada n, bir gözlem sayısı örnek . Bu yöntem, popülasyon varyansının tahminindeki yanlılığı düzeltir. Ayrıca, popülasyon standart sapması tahminindeki yanlılığı kısmen düzeltir. Ancak, düzeltme genellikle bu tahminlerde ortalama karesel hatayı artırır . Bu teknik adını Friedrich Bessel'den almıştır .

Olarak tahmin nüfus varyans popülasyon ortalama bilinmediğinde bir numuneden, düzeltilmemiş örnek varyans ortalama (çarpımsal faktörü 1 / ile, yani örnek ortalamadan numune değerlerini sapmalarının kareleri n ). Bu durumda, örnek varyansı, popülasyon varyansının yanlı bir tahmincisidir .

Düzeltilmemiş örnek varyansını faktörle çarpma

popülasyon varyansının yansız bir tahmin edicisini verir . Bazı literatürde yukarıdaki faktöre Bessel düzeltmesi denir .

Bessel'in düzeltmesi , artık vektöründeki serbestlik dereceleri olarak anlaşılabilir (nüfus ortalaması bilinmediğinden hatalar değil, artıklar):

örnek ortalama nerede . Varken n numunede bağımsız gözlemler, sadece orada n  - 1 bağımsız kalıntılar, bunlar Bessel düzeltme ihtiyacının daha sezgisel bir açıklama için 0'a Özetle gördüğünüz gibi önyargı § Kaynağını .

Genellikle Bessel'in düzeltmesi, sonlu örneklem boyutundan kaynaklanan yanlılığı azaltmak için bir yaklaşımdır. Bu tür sonlu örnek yanlılığı düzeltmesi, çarpıklık ve basıklık gibi diğer tahminler için de gereklidir , ancak bunlarda yanlışlıklar genellikle önemli ölçüde daha büyüktür. Bu tür yanlılığı tamamen ortadan kaldırmak için daha karmaşık çok parametreli bir tahmin yapmak gerekir. Örneğin, standart sapma için doğru bir düzeltme basıklığa (normalleştirilmiş merkezi 4. moment) bağlıdır, ancak bu yine sonlu bir örnek yanlılığına sahiptir ve standart sapmaya bağlıdır, yani her iki tahminin birleştirilmesi gerekir.

uyarılar

Bessel'in düzeltmesiyle ilgili olarak dikkate alınması gereken üç uyarı vardır :

  1. Standart sapmanın yansız bir tahmincisi vermez .
  2. Düzeltilmiş tahmin edici, genellikle düzeltilmemiş tahmin ediciden daha yüksek bir ortalama karesel hataya (MSE) sahiptir. Ayrıca, MSE'yi en aza indirmek için her zaman farklı bir ölçek faktörü seçilebileceğinden, minimum MSE'ye sahip olduğu bir nüfus dağılımı yoktur.
  3. Yalnızca popülasyon ortalaması bilinmediğinde (ve örnek ortalama olarak tahmin edildiğinde) gereklidir. Uygulamada, bu genellikle olur.

İlk olarak, örnek varyansı (Bessel düzeltmesini kullanarak) popülasyon varyansının yansız bir tahmincisi iken, karekökü , örnek standart sapması, popülasyon standart sapmasının taraflı bir tahminidir; karekök içbükey bir fonksiyon olduğundan, önyargı Jensen eşitsizliğine göre aşağı doğrudur . Normal gibi belirli dağılımlar için düzeltme faktörleri olsa da, popülasyon standart sapmasının yansız bir tahmincisi için genel bir formül yoktur; bkz standart sapma tarafsız tahmin detayları için. Normal dağılım için tam düzeltme faktörü için bir yaklaşım  , formülde n − 1.5 kullanılarak verilir : önyargı ikinci dereceden azalır (düzeltilmemiş formda ve Bessel'in düzeltilmiş formunda olduğu gibi doğrusal olarak değil).

İkinci olarak, yansız tahmin edici ortalama karesel hatayı (MSE) en aza indirmez ve genellikle düzeltilmemiş tahmin ediciden daha kötü MSE'ye sahiptir (bu, fazla basıklığa göre değişir ). MSE, farklı bir faktör kullanılarak minimize edilebilir. Optimal değer, ortalama hata karesinde tartışıldığı gibi aşırı basıklığa bağlıdır : varyans ; normal dağılım için bu, n  + 1'e bölünerek optimize edilir ( n  − 1 veya n yerine ).

Üçüncüsü nüfus ortalama bilinmediğinde, Bessel düzeltme gereklidir ve bir tahmin edilmektedir hem nüfus ortalamasını ve nüfus ortalamasını tahmin etmek numune ortalamaları kullanılarak, belirli bir örnekten nüfus varyansı. Bu durumda , n noktadan oluşan bir örneklemde n serbestlik derecesi vardır ve eş zamanlı ortalama ve varyans tahmini, bir serbestlik derecesinin numune ortalamasına gittiği ve kalan n  − 1 serbestlik derecesinin ( artıklar ) örneğe gittiği anlamına gelir. varyans. Ancak, popülasyon ortalaması biliniyorsa, gözlemlerin popülasyon ortalamasından sapmaları n serbestlik derecesine sahiptir (çünkü ortalama tahmin edilmiyor – sapmalar artık değil hatalardır ) ve Bessel'in düzeltmesi uygulanamaz.

Önyargı kaynağı

En basitinden, düzeltilmesi gereken önyargıyı anlamak için uç bir durum düşünün. Nüfus ortalaması 2 ve nüfus varyansı 10 1/3 olan popülasyonun (0,0,0,1,2,9) olduğunu varsayalım. Bir n = 1 örneği çizilir ve bunun popülasyon ortalamasının en iyi tahmini olduğu ortaya çıkar. Ama varyansı tahmin etmek için formülü kullanırsak ne olur ? Varyansın tahmini sıfır olacaktır --- ve tahmin, herhangi bir popülasyon ve n = 1'lik herhangi bir örnek için sıfır olacaktır . Sorun şu ki, örnek ortalamasını tahmin ederken, süreç zaten bizim ortalama tahminimizi yaklaşık olarak yapmıştır. örneklediğimiz değer -- n = 1 için aynıdır . n = 1 durumunda, örnekte değişkenlik olmadığı için varyans tahmin edilemez.

Ancak n = 2'yi düşünün . Örneklemin (0, 2) olduğunu varsayalım. Sonra ve , ancak tarafsız bir tahmin olan Bessel düzeltmesi ile ( n = 2'nin tüm olası örnekleri alınır ve bu yöntem kullanılırsa, ortalama tahmin, Bessel düzeltmesi ile örnek varyansı ile aynı şekilde 12.4 olacaktır.)

Bunu daha ayrıntılı görmek için aşağıdaki örneği inceleyin. Tüm popülasyonun ortalamasının 2050 olduğunu varsayalım, ancak istatistikçi bunu bilmiyor ve popülasyondan rastgele seçilen bu küçük örneğe dayanarak tahmin etmesi gerekiyor:

Örnek ortalama hesaplanabilir:

Bu, 2050 olan gözlemlenemeyen nüfus ortalamasının gözlemlenebilir bir tahmini olarak hizmet edebilir. Şimdi, nüfus varyansını tahmin etme sorunuyla karşı karşıyayız. Bu, 2050'den sapmaların karelerinin ortalamasıdır. Nüfus ortalamasının 2050 olduğunu bilseydik, şöyle devam edebilirdik:

Ancak nüfus ortalamasına ilişkin tahminimiz, örnek ortalama 2052'dir. Gerçek ortalama 2050 bilinmemektedir. Bu nedenle örnek ortalaması 2052 kullanılmalıdır:

Fark şimdi çok daha küçük. Aşağıda kanıtlandığı gibi, popülasyon ortalamasına olan mesafelerin karelerinin toplamının kullanılmasına kıyasla, örnek ortalamaya olan uzaklıkların karelerinin toplamı kullanılarak hesaplandığında varyans hemen hemen her zaman daha küçük olacaktır. Bunun bir istisnası, örnek ortalamasının popülasyon ortalamasına eşit olduğu durumdur, bu durumda varyans da eşittir.

Bunun neden olduğunu görmek için cebirde basit bir özdeşlik kullanıyoruz :

İle örnek ortalamadan bağımsız bir numunenin sapmayı ifade eder, ve nüfusun ortalama örnek ortalamanın sapmayı ifade eder. Tek bir örneğin (bilinmeyen) popülasyon ortalamasından gerçek sapmasını iki bileşene ayırdığımızı unutmayın: tek örneğin hesaplayabildiğimiz örnek ortalamasından sapması ve örnek ortalamasının ek sapması. nüfus demek, ki biz yapamayız. Şimdi, bu özdeşliği popülasyon ortalamasından sapmaların karelerine uygularız:

Şimdi bunu beş gözlemin tümüne uygulayın ve belirli kalıpları gözlemleyin:

Orta sütundaki girişlerin toplamı sıfır olmalıdır çünkü a terimi 5 satırın tümüne eklenecektir ve bu da sıfıra eşit olmalıdır. Olmasıdır bir ilave zaman - - doğal olarak bu 5 rakam (2.052) 5 kat örnek ortalaması eklenmesiyle aynı toplama sahip 5 ayrı örnekleri (parantez içindeki sol taraf) içerir. Bu, bu iki toplamın çıkarılmasının sıfıra eşit olması gerektiği anlamına gelir. Orta sütundaki 2 faktörü ve b terimi tüm satırlar için eşittir, yani orta sütundaki tüm satırlar arasındaki göreli fark aynı kalır ve bu nedenle göz ardı edilebilir. Aşağıdaki ifadeler kalan sütunların anlamını açıklar:

  • İlk sütundaki ( a 2 ) girişlerin toplamı, numuneden numune ortalamasına olan mesafenin karelerinin toplamıdır;
  • Son sütundaki ( b 2 ) girişlerin toplamı, ölçülen örnek ortalaması ile doğru popülasyon ortalaması arasındaki mesafelerin karelerinin toplamıdır.
  • Her bir satırında artık çiftlerinden oluşur bir 2 (önyargılı, numune ortalamaları kullanıldığı için) ve b 2 (önyargı düzeltilmesi, bu "gerçek" nüfus ortalama ve dikkate yanlış örnek ortalaması arasındaki fark dikkate çünkü). Bu nedenle, ilk ve son sütunun tüm girişlerinin toplamı artık doğru varyansı temsil eder, yani artık örnekler ve popülasyon ortalaması arasındaki kare uzaklığın toplamı kullanılır.
  • Toplamı bir 2 -Kolon b 2 -Kolon ait girdileri içinde toplamından daha büyük olmalıdır bir 2 , -Kolon b içindeki tüm girişler beri 2 nüfus ortalama aynıdır hariç (pozitif -Kolon örnek ortalama olarak, bu durumda son sütundaki tüm sayılar 0 olacaktır).

Öyleyse:

  • Örneklerden popülasyon ortalamasına olan uzaklığın karelerinin toplamı, örnek ortalamasının popülasyon ortalaması ile aynı olduğu durumlar dışında , örnek ortalamasına olan mesafenin karelerinin toplamından her zaman daha büyük olacaktır. eşittir.

Bu nedenle, örnek ortalamasından sapmaların karelerinin toplamı , bu karelerin ortalaması bulunduğunda popülasyon varyansının yansız bir tahminini vermek için çok küçüktür. Örneklem büyüklüğü ne kadar küçükse, örnek varyansı ile popülasyon varyansı arasındaki fark o kadar büyük olur.

terminoloji

Bu düzeltme o kadar yaygındır ki, "örnek varyansı" ve "örnek standart sapması" terimleri sıklıkla n  − 1 kullanılarak düzeltilmiş tahmin edicileri (tarafsız örnek varyasyonu, daha az yanlı örnek standart sapması) ifade etmek için kullanılır . Ancak dikkatli olunması gerekir: bazı hesaplayıcılar. ve yazılım paketleri, her iki veya yalnızca daha olağandışı formülasyonu sağlayabilir. Bu makale aşağıdaki sembolleri ve tanımları kullanır:

  • μ popülasyon ortalamasıdır
  • örnek ortalama mı
  • σ 2 popülasyon varyansıdır
  • s n 2 , önyargılı örnek varyansıdır (yani Bessel düzeltmesi olmadan)
  • s 2 , tarafsız örnek varyansıdır (yani Bessel düzeltmesiyle)

Standart sapmalar daha sonra ilgili varyansların karekökleri olacaktır. Karekök yanlılık getirdiğinden, standart sapma tahmin edicileri için "düzeltilmemiş" ve "düzeltilmiş" terminolojisi tercih edilir:

  • s n , düzeltilmemiş numune standart sapmasıdır (yani Bessel düzeltmesi olmadan)
  • s , daha az taraflı, ancak yine de taraflı olan düzeltilmiş numune standart sapmasıdır (yani Bessel'in düzeltmesiyle).

formül

Örnek ortalama tarafından verilir

Önyargılı örnek varyansı daha sonra yazılır:

ve tarafsız örnek varyansı yazılır:

Doğruluk kanıtı

alternatif 1

Arka plan gerçeği olarak, standart sapma ve beklenti doğrusallığının tanımından çıkan özdeşliği kullanıyoruz .

Çok yararlı bir gözlem, herhangi bir dağılım için varyansın , o dağılımdan bağımsız bir örnek olduğunda beklenen değerin yarısına eşit olmasıdır. Bu gözlemi kanıtlamak için (bağımsız oldukları gerçeğinden kaynaklanan) ve beklentinin doğrusallığını kullanacağız :

Şimdi gözlem kanıtlandığına göre, örnek popülasyondan iki gözlemin beklenen karesi farkının, orijinal dağılımdan iki gözlemin beklenen karesi farkının çarpısına eşit olduğunu göstermek yeterlidir . Biz almak zaman, bu, not görmek ve üzerinden u , v tamsayılardır, 1'den, bağımsız bir şekilde ve eşit seçilir , n , bir fraksiyon Elimizdeki sürenin u  =  v ve bu nedenle örnek karesi alınmış farkı, orijinal dağılımının sıfır bağımsızdır. Kalan süre, değeri , orijinal dağılımdan iki bağımsız gözlem arasındaki beklenen kare farkıdır. Bu nedenle, numunenin beklenen karesi alınmış farkının 'ye bölünmesi veya eşdeğer olarak çarpılması , orijinal beklenen karesi alınmış farkın yansız bir tahminini verir.

alternatif 2

Varyans için bir kimliğin geri dönüştürülmesi ,

Bu yüzden

ve tanım gereği,

Not, bu yana x 1x 2 , ...,  x , n varyans ile bir dağılımdan oluşan gelişigüzel bir örnek vardır σ 2 , her biri için bu, aşağıdaki i  = 1, 2, ...,  n :

ve ayrıca

Bu, Bienaymé formülünden kaynaklanan, ilişkisiz değişkenlerin varyansının bir özelliğidir . Daha sonra bu iki formül yerine konularak istenen sonuç elde edilir:

alternatif 3

Önyargılı tahmin edici ile gerçek varyans arasındaki beklenen tutarsızlık,

Böylece, yanlı tahmin edicinin beklenen değeri

Bu nedenle, yansız bir tahmin edici tarafından verilmelidir

Sezgi

Önyargılı tahmincisi olarak, numuneyi kullanarak yerine gerçek ortalama Yani, her küçümseyen olan x i  -  ^ ı ile x  -  ^ ı . Bir toplamın varyansının, varyansların toplamı olduğunu biliyoruz (ilişkisiz değişkenler için). Bu nedenle, taraflı tahmin edici ile gerçek varyans arasındaki farkı bulmak için, sadece ( x  −  µ ) 2'nin beklenen değerini bulmamız gerekir .

Bu sadece σ 2 / n olan örnek ortalamasının varyansıdır . Yani, biz önyargılı tahmincisi hafife bekliyoruz σ 2 tarafından σ 2 / n (- 1/1 ve böylece önyargılı tahmincisi = n ) × tarafsız tahmincisi = ( n  - 1) / n × tarafsız tahmincisi.

Ayrıca bakınız

Notlar

Dış bağlantılar