Ki-kare dağılımı - Chi-squared distribution

ki-kare
Olasılık yoğunluk fonksiyonu
Ki-kare pdf.svg
Kümülatif dağılım fonksiyonu
Ki-kare cdf.svg
gösterim veya
parametreler ("serbestlik dereceleri" olarak bilinir)
Destek eğer aksi halde,
PDF
CDF
Anlamına gelmek
Medyan
mod
Varyans
çarpıklık
Eski. Basıklık
Entropi
MGF
CF
PGF

Gelen Olasılık teorisi ve istatistik , ki-kare dağılımı (aynı zamanda ki-kare veya χ 2 -Dağıtım ile) k serbestlik derecesi karelerinin toplamının dağılımı k bağımsız standart normal rastgele değişkenlerin. Ki-kare dağılımı, gama dağılımının özel bir durumudur ve çıkarımsal istatistiklerde , özellikle hipotez testlerinde ve güven aralıklarının oluşturulmasında en yaygın olarak kullanılan olasılık dağılımlarından biridir . Bu dağılım bazen merkezi ki-kare dağılımı olarak adlandırılır , daha genel merkezi olmayan ki-kare dağılımının özel bir durumudur .

Ki-kare dağılımı ortak kullanılan ki-kare testlerinde için uyum iyiliği teorik birine gözlemlenen bir dağılımın bağımsızlık sınıflandırılması iki kriter nitel veriler ve nüfus için güven aralığı tahmininde standart sapma a örnek bir standart sapmadan normal dağılım. Friedman'ın sıralara göre varyans analizi gibi diğer birçok istatistiksel test de bu dağılımı kullanır .

Tanımlar

Eğer Z 1 , ..., Z k olan bağımsız , standart normal rasgele değişkenler, onların kareler ardından toplamı,

k serbestlik dereceli ki-kare dağılımına göre dağıtılır . Bu genellikle şu şekilde gösterilir:

Pozitif bir tam sayı: ki-kare dağılımı bir parametre vardır k sayısını belirtir serbestlik derecesi (özetlenebilir olan rastgele değişkenlerin sayısı, Z ı s).

Tanıtım

Ki-kare dağılımı temel olarak hipotez testinde ve daha az ölçüde, altta yatan dağılım normal olduğunda popülasyon varyansı için güven aralıkları için kullanılır. Normal dağılım ve üstel dağılım gibi daha yaygın olarak bilinen dağılımların aksine , ki-kare dağılımı, doğal olayların doğrudan modellenmesinde o kadar sık ​​uygulanmaz. Diğerlerinin yanı sıra aşağıdaki hipotez testlerinde ortaya çıkar:

Aynı zamanda t-dağılımı ve t-testlerinde, varyans analizinde ve regresyon analizinde kullanılan F-dağılımı tanımının bir bileşenidir .

Hipotez testlerinde ki-kare dağılımının yaygın olarak kullanılmasının temel nedeni, normal dağılımla olan ilişkisidir. Birçok hipotez testi , bir t-testindeki t-istatistiği gibi bir test istatistiği kullanır . Bu hipotez testleri için, örneklem büyüklüğü n arttıkça, test istatistiğinin örnekleme dağılımı normal dağılıma yaklaşır ( merkezi limit teoremi ). Test istatistiği (t gibi) asimptotik olarak normal dağıldığından, örneklem boyutunun yeterince büyük olması koşuluyla, hipotez testi için kullanılan dağılım normal bir dağılımla yaklaşık olarak hesaplanabilir. Normal bir dağılım kullanarak hipotezleri test etmek iyi anlaşılmıştır ve nispeten kolaydır. En basit ki-kare dağılımı, standart bir normal dağılımın karesidir. Dolayısıyla, bir hipotez testi için normal bir dağılımın kullanılabildiği her yerde, bir ki-kare dağılımı kullanılabilir.

Bunun , ortalamanın ve varyansın : olduğu standart normal dağılımdan örneklenen rastgele bir değişken olduğunu varsayalım . Şimdi rastgele değişkeni düşünün . Rastgele değişkenin dağılımı, ki-kare dağılımının bir örneğidir: Alt simge 1, bu özel ki-kare dağılımının yalnızca 1 standart normal dağılımdan oluşturulduğunu gösterir. Tek bir standart normal dağılımın karesi alınarak oluşturulan ki-kare dağılımının 1 serbestlik derecesine sahip olduğu söylenir. Böylece, bir hipotez testi için örneklem büyüklüğü arttıkça, test istatistiğinin dağılımı normal bir dağılıma yaklaşır. Normal dağılımın uç değerlerinin düşük olasılığa sahip olması (ve küçük p değerleri vermesi) gibi, ki-kare dağılımının uç değerlerinin düşük olasılığı vardır.

Ki-kare dağılımının yaygın olarak kullanılmasının ek bir nedeni, genelleştirilmiş olabilirlik oranı testlerinin (LRT) geniş örnek dağılımı olarak ortaya çıkmasıdır. LRT'lerin arzu edilen birkaç özelliği vardır; özellikle, basit LRT'ler genellikle boş hipotezi reddetmek için en yüksek gücü sağlar ( Neyman-Pearson lemması ) ve bu da genelleştirilmiş LRT'lerin optimallik özelliklerine yol açar. Ancak, normal ve ki-kare yaklaşımları yalnızca asimptotik olarak geçerlidir. Bu nedenle, küçük bir örneklem boyutu için normal yaklaşım veya ki-kare yaklaşımı yerine t dağılımının kullanılması tercih edilir. Benzer şekilde, beklenmedik durum tablolarının analizlerinde, küçük bir örneklem boyutu için ki-kare yaklaşımı zayıf olacaktır ve Fisher'in kesin testinin kullanılması tercih edilir . Ramsey, kesin binom testinin her zaman normal yaklaşımdan daha güçlü olduğunu gösteriyor.

Lancaster, binom, normal ve ki-kare dağılımları arasındaki bağlantıları aşağıdaki gibi gösterir. De Moivre ve Laplace, bir binom dağılımına normal bir dağılımla yaklaşılabileceğini belirledi. Spesifik olarak rastgele değişkenin asimptotik normalliğini gösterdiler

burada başarılı sonuç gözlenen sayıdır başarı olasılığıdır çalışmalarda, ve .

Denklemin her iki tarafının karesi alınır

Kullanılması , ve bu denklem şu şekilde yazılabilir

Sağdaki ifade, Karl Pearson'ın forma genelleştireceği biçimdedir.

nerede

= Bir dağılıma asimptotik olarak yaklaşan Pearson'ın kümülatif test istatistiği .
= türün gözlem sayısı .
= popülasyondaki tür kesrinin sıfır hipotezi tarafından ileri sürülen beklenen (teorik) tür sıklığı
= tablodaki hücre sayısı.

İki terimli bir sonuç durumunda (bir yazı tura atma), iki terimli dağılıma normal bir dağılım (yeterince büyük için ) ile yaklaşılabilir . Standart bir normal dağılımın karesi, bir serbestlik dereceli ki-kare dağılımı olduğundan, 10 denemede 1 tura gibi bir sonucun olasılığı, ya doğrudan normal dağılım kullanılarak ya da ki-kare dağılımı kullanılarak yaklaşık olarak hesaplanabilir. gözlemlenen ve beklenen değer arasındaki normalleştirilmiş, karesi alınmış fark. Bununla birlikte, birçok problem, bir binomun iki olası sonucundan fazlasını içerir ve bunun yerine, çok terimli dağılıma yol açan 3 veya daha fazla kategori gerektirir. De Moivre ve Laplace'ın iki terimliye normal yaklaşımı arayıp bulmaları gibi, Pearson da çok terimli dağılıma yönelik dejenere çok değişkenli bir normal yaklaşım aradı ve buldu (her kategorideki sayılar, sabit kabul edilen toplam örneklem büyüklüğünü toplar) . Pearson, farklı kategorilerdeki gözlem sayıları arasındaki istatistiksel bağımlılığı (negatif korelasyonları) dikkatli bir şekilde hesaba katarak, ki-kare dağılımının çok terimli dağılıma çok değişkenli normal bir yaklaşımdan ortaya çıktığını gösterdi.

Olasılık yoğunluk fonksiyonu

Olasılık yoğunluk fonksiyonu Ki-kare dağılımının (pdf) 'dir

burada tamsayı için kapalı form değerlerine sahip gama işlevini belirtir .

Bir, iki ve serbestlik derecesi durumlarında pdf'nin türevleri için , bkz . Ki-kare dağılımı ile ilgili kanıtlar .

Kümülatif dağılım fonksiyonu

Chernoff , on serbestlik dereceli ( = 10) bir ki-kare rastgele değişkenin CDF'si ve kuyruğu (1-CDF) için bağlı

Onun kümülatif dağılım fonksiyonu geçerli:

burada bir düşük tamamlanmamış gama fonksiyonu ve bir düzgünleştirilmiş gamma fonksiyonu .

= 2'nin özel bir durumunda, bu fonksiyon basit forma sahiptir:

doğrudan entegre edilerek kolayca türetilebilir . Gama işlevinin tamsayı yinelemesi, diğer küçük, hatta .

Ki-kare kümülatif dağılım fonksiyonunun tabloları yaygın olarak mevcuttur ve fonksiyon birçok elektronik tabloya ve tüm istatistiksel paketlere dahil edilmiştir .

Bırakma , CDF'nin alt ve üst kuyruklarında Chernoff sınırları elde edilebilir. Aşağıdaki durumlar için (bu CDF'nin yarısından az olduğu tüm durumları içerir):

Benzer şekilde olduğu durumlar için kuyruk bağlı

Bir Gauss'un küpünden sonra modellenen CDF için başka bir yaklaşım için, Merkezi olmayan ki-kare dağılımı bölümüne bakın .

Özellikler

Bağımsız, aynı şekilde dağılmış normal rastgele değişkenlerin karelerinin toplamı eksi ortalamaları

Eğer Z 1 , ..., Z k olan bağımsız aynen dağılma (IID), standart normal rasgele değişkenler, daha sonra

nerede

toplanabilirlik

Ki-kare dağılımının tanımından, bağımsız ki-kare değişkenlerinin toplamının da ki-kare dağılımlı olduğu sonucu çıkar. Özellikle, bağımsız ki-kare ile değişkenlerdir , serbestlik derecesi sırasıyla ardından ki-kare ile dağıtılan bir serbestlik derecesine.

örnek ortalama

iid ki-kare derece değişkenlerinin örnek ortalaması, şekil ve ölçek parametreleriyle bir gama dağılımına göre dağıtılır :

Asimptotik olarak , sonsuza giden bir ölçek parametresi için, bir Gama dağılımının beklenti ve varyans ile normal bir dağılıma yakınsadığı göz önüne alındığında , örnek ortalaması şuna yakınsar:

Bunun yerine çağırarak aynı sonuç elde olurdu Not merkezi limit teoremi derecesi her bir ki-kare değişkeni için dikkat çekerek, bir beklenti , ve varyans (ve dolayısıyla örnek ortalaması varyans olma ).

Entropi

Diferansiyel entropi verilir

burada ψ ( x ) Digamma fonksiyonudur .

Ki-kare dağılımı, ve sabit olduğu rastgele bir değişken için maksimum entropi olasılık dağılımıdır . Ki-kare, gama dağılımları ailesinde olduğu için, bu , gamanın log momentinin Beklentisinde uygun değerler kullanılarak türetilebilir . Daha temel ilkelerden türetme için , yeterli istatistiğin moment üreten işlevindeki türetmeye bakın .

merkezi olmayan anlar

Serbestlik dereceli ki-kare dağılımının sıfıra yakın momentleri şu şekilde verilir:

kümülantlar

Kümülant kolaylıkla karakteristik fonksiyonunun logaritmasının bir (kayıtlı) güç serileri genişlemesi ile elde edilir:

konsantrasyon

Ki-kare dağılımı, ortalaması etrafında güçlü bir konsantrasyon sergiler. Standart Laurent-Massart sınırları:

asimptotik özellikler

Medyan için yaklaşık formül (Wilson-Hilferty dönüşümünden) sayısal nicelik ile karşılaştırıldığında (üstte); ve sayısal nicelik ve yaklaşık formül (altta) arasındaki fark (mavi) ve göreli fark (kırmızı). Ki-kare dağılımı için, sadece pozitif tam sayılar serbestlik derecesi (daireler) anlamlıdır.

By merkezi limit teoremi ki-kare dağılımı toplamı olduğu için, sonlu ortalama ve varyans ile bağımsız rasgele değişkenler, büyük bir normal dağılıma yakınsar . Birçok pratik amaç için , dağılım, farkın göz ardı edilmesi için normal dağılıma yeterince yakındır . Spesifik olarak, eğer , sonsuzluğa meylediyorsa, dağılımı standart bir normal dağılıma meyillidir . Ancak, yakınsama yavaş çarpıklık olduğunu ve aşırı basıklık olduğunu .

Örnekleme dağılımı çok daha hızlı örnekleme dağılımının daha normale yakınsak çok asimetri logaritma uzaklaşmaların olarak. Ki-kare dağılımının diğer işlevleri normal dağılıma daha hızlı yakınsar. Bazı örnekler:

  • Eğer daha sonra yaklaşık olarak normal ortalama ile dağıtılan tarafından birim varyans (1922, RA Fisher , (18.23), s. Johnson 426.
  • Eğer daha sonra yaklaşık olarak normal ortalama ile dağıtılır ve varyans Bu Wilson-Hilferty transformasyon olarak bilinir, s (18.24) bakınız. Johnson'ın 426.
    • Bu normalleştirme dönüşümü , normal dağılımın aynı zamanda medyanı olan ortalamadan geri dönüşüm yoluyla doğrudan yaygın olarak kullanılan medyan yaklaşımına yol açar .

İlgili dağılımlar

  • As , ( normal dağılım )
  • ( merkezi olmayan parametreli merkezi olmayan ki-kare dağılımı )
  • Eğer o zaman ki-kare dağılımına sahiptir
  • Özel bir durum olarak, o zaman ki-kare dağılımına sahipse
  • (Karesi normu ait k standart normal dağılım değişkenli bir ki-kare dağılımıdır k serbestlik derecesi )
  • Eğer ve , o zaman . ( gama dağılımı )
  • Eğer öyleyse ( chi dağılımı )
  • Eğer , o zaman bir olan üstel dağılım . (Daha fazlası için gama dağılımına bakın .)
  • Eğer , o zaman bir Erlang dağılımıdır .
  • eğer , o zaman
  • Eğer ( Rayleigh dağılımı sonra)
  • Eğer ( Maxwell dağılımı ) o zaman
  • Eğer öyleyse ( Ters-ki-kare dağılımı )
  • Ki-kare dağılımı, tip III Pearson dağılımının özel bir durumudur.
  • Eğer ve bağımsızlarsa ( beta dağılımı )
  • Eğer ( düzgün dağılım ) o zaman
  • eğer o zaman
  • Parametrelerle genelleştirilmiş normal dağılımı (versiyon 1) takip ediyorsa , o zaman
  • ki-kare dağılımı, Pareto dağılımının bir dönüşümüdür
  • Student t-dağılımı , ki-kare dağılımının bir dönüşümüdür
  • Student'ın t-dağılımı , ki-kare dağılımı ve normal dağılımdan elde edilebilir.
  • Merkezi olmayan beta dağılımı , ki-kare dağılımının ve Merkezi olmayan ki-kare dağılımının bir dönüşümü olarak elde edilebilir.
  • Merkezi olmayan t-dağılımı , normal dağılımdan ve ki-kare dağılımından elde edilebilir.

Serbestlik dereceli bir ki-kare değişkeni , bağımsız standart normal rastgele değişkenlerin karelerinin toplamı olarak tanımlanır .

Eğer bir olan ortalama vektörü ile boyutlu Gauss rastgele vektör ve rütbe kovaryans matrisinin sonra birlikte dağıtılan ki-kare olan serbestlik derecesine.

Ortalama sıfıra sahip olmayan istatistiksel olarak bağımsız birim varyans Gauss değişkenlerinin karelerinin toplamı , merkezi olmayan ki-kare dağılımı adı verilen ki-kare dağılımının bir genellemesini verir .

Eğer bir vektördür iid standart normal rastgele değişkenler ve a, simetrik , İdempotent matris ile sıralaması , daha sonra ikinci dereceden bir şekilde ki-kare ile dağıtılan bir serbestlik derecesi.

Eğer bir olduğu için, sonra kesinlikle olumlu diyagonal girişlerle kovaryans matrisi yarı kesin pozitif ve rastgele bir -vector bağımsız şekilde ve bu tutar

Ki-kare dağılımı doğal olarak Gauss'tan kaynaklanan diğer dağılımlarla da ilişkilidir. Özellikle,

  • olan F-dağıtılan , eğer nerede, ve istatistiksel bağımsızdır.
  • Eğer ve istatistiksel olarak bağımsızsa, o zaman . Eğer ve bağımsız değilse ki-kare dağılımı yoktur.

genellemeler

Ki-kare dağılımı, k tane bağımsız, sıfır ortalamalı, birim varyanslı Gauss rastgele değişkenlerinin karelerinin toplamı olarak elde edilir . Bu dağılımın genellemeleri, diğer Gauss rastgele değişken türlerinin karelerinin toplanmasıyla elde edilebilir. Bu tür birkaç dağıtım aşağıda açıklanmıştır.

Doğrusal kombinasyon

Eğer ki kare rasgele değişkenler ve ise , dağılımı için kapalı bir ifade bilinmemektedir. Bununla birlikte, ki-kare rasgele değişkenlerin karakteristik fonksiyonlarının özelliği kullanılarak verimli bir şekilde tahmin edilebilir .

Ki-kare dağılımları

Merkezi olmayan ki-kare dağılımı

Merkezi olmayan ki-kare dağılımı, birim varyansa ve sıfırdan farklı ortalamalara sahip bağımsız Gauss rastgele değişkenlerinin karelerinin toplamından elde edilir .

Genelleştirilmiş ki-kare dağılımı

Genelleştirilmiş ki-kare dağılımı, z'nin keyfi bir kovaryans matrisine sahip sıfır ortalamalı bir Gauss vektörü olduğu ve A'nın keyfi bir matris olduğu ikinci dereceden z'Az biçiminden elde edilir .

Gama, üstel ve ilgili dağılımlar

Ki-kare dağılımı özel bir durumu olan gamma dağılımı olması ile, gama dağıtım oranı parametrelendirmesini (veya burada gama dağılımının ölçek parametrelendirmesini kullanılarak) k bir tamsayıdır.

Çünkü üstel dağılım da gama dağılımının özel bir durum ise, biz de buna sahip , o zaman bir olan üstel dağılım .

Erlang dağılımı da gama dağılımının özel bir durumdur ve bu nedenle de, eğer varsa bile , o zaman Erlang şekil parametresi ile dağıtılır ve parametrede .

Oluşum ve uygulamalar

Ki-kare dağılımı, örneğin ki-kare testleri ve varyansları tahmin etme gibi çıkarımsal istatistiklerde çok sayıda uygulamaya sahiptir . Normal olarak dağılmış bir popülasyonun ortalamasını tahmin etme problemine ve Student t-dağılımındaki rolü aracılığıyla bir regresyon çizgisinin eğimini tahmin etme problemine girer . Her biri kendi serbestlik derecelerine bölünen iki bağımsız ki-kare rasgele değişkenin oranının dağılımı olan F dağılımındaki rolü aracılığıyla varyans problemlerinin tüm analizine girer .

Aşağıda, ki-kare dağılımının Gauss dağılımlı bir örnekten kaynaklandığı en yaygın durumlardan bazıları verilmiştir.

  • eğer edilir IID rastgele değişkenler , sonra nerede .
  • Aşağıdaki kutu , ki-kare dağılımıyla ilgili olasılık dağılımlarına sahip bağımsız rastgele değişkenlere dayalı bazı istatistikleri göstermektedir :
İsim istatistik
ki-kare dağılımı
merkezi olmayan ki-kare dağılımı
chi dağılımı
merkezi olmayan chi dağılımı

Ki-kare dağılımına manyetik rezonans görüntülemede de sıklıkla rastlanır .

hesaplama yöntemleri

χ 2 değerleri ve p değerleri tablosu

P -değeri , bir test istatistik gözlemleyerek olasılığıdır en az bir ki-kare dağılımında aşırı olarak. Buna göre, uygun serbestlik dereceleri (df) için kümülatif dağılım fonksiyonu (CDF), bu noktadan daha az uç bir değer elde etme olasılığını verdiğinden , CDF değerinin 1'den çıkarılması p- değerini verir . Düşük bir p değeri, seçilen anlamlılık seviyesinin altında, istatistiksel anlamlılığı , yani boş hipotezi reddetmek için yeterli kanıtı gösterir. 0,05 anlamlılık düzeyi, genellikle anlamlı ve anlamlı olmayan sonuçlar arasındaki kesme noktası olarak kullanılır.

Aşağıdaki tablo , ilk 10 serbestlik derecesiyle eşleşen bir dizi p -değeri vermektedir .

Serbestlik derecesi (df) değer
1 0.004 0.02 0.06 0.15 0.46 1.07 1.64 2.71 3.84 6.63 10.83
2 0.10 0.21 0.45 0.71 1.39 2.41 3.22 4.61 5,99 9.21 13.82
3 0.35 0,58 1.01 1.42 2.37 3.66 4.64 6.25 7.81 11.34 16.27
4 0.71 1.06 1.65 2.20 3.36 4.88 5,99 7.78 9.49 13.28 18.47
5 1.14 1.61 2.34 3.00 4.35 6.06 7.29 9.24 11.07 15.09 20.52
6 1,63 2.20 3.07 3.83 5.35 7.23 8.56 10.64 12.59 16.81 22.46
7 2.17 2.83 3.82 4.67 6.35 8.38 9.80 12.02 14.07 18.48 24.32
8 2.73 3.49 4.59 5.53 7.34 9.52 11.03 13.36 15.51 20.09 26.12
9 3.32 4.17 5.38 6.39 8.34 10.66 12.24 14.68 16.92 21.67 27.88
10 3.94 4.87 6.18 7.27 9.34 11.78 13.44 15.99 18.31 23.21 29.59
p- değeri (olasılık) 0.95 0.90 0.80 0.70 0,50 0.30 0.20 0.10 0.05 0.01 0.001

Bu değerler , ki-kare dağılımının nicelik fonksiyonunu ("ters CDF" veya "ICDF" olarak da bilinir) değerlendirerek hesaplanabilir ; örneğin, p = 0.05 ve df = 7 için χ 2 ICDF, yukarıdaki tabloda olduğu gibi 2,1673 ≈ 2,17 verir , 1 - p'nin tablodaki p - değeri olduğuna dikkat edin .

Tarih

Bu dağılım ilk olarak Alman istatistikçi Friedrich Robert Helmert tarafından 1875–6 tarihli makalelerinde tanımlandı ve burada normal bir popülasyonun örnek varyansının örnekleme dağılımını hesapladı. Böylece Almanca'da bu geleneksel olarak Helmert'sche ("Helmertian") veya "Helmert dağıtımı" olarak biliniyordu .

Dağılım, İngiliz matematikçi Karl Pearson tarafından, 1900'de yayınlanan Pearson'ın ki-kare testini geliştirdiği , uyumun iyiliği bağlamında bağımsız olarak yeniden keşfedildi , ( Elderton 1902 )'de yayınlanan hesaplanmış değerler tablosu ile ( Pearson'da toplandı). 1914 , s. xxxi–xxxiii, 26–28, Tablo XII) . Ad içinde üs için Pearson kestirme gelen "ki-kare" sonuçta türemiştir değişkenli normal dağılıma Yunan harfi ile Chi -½χ yazma 2 gibi modern gösterimde görünür ne -½ x T Σ -1 x (Σ olmak kovaryans matrisi ). Bununla birlikte, bir "ki-kare dağılımları" ailesi fikri, Pearson'a bağlı değil, 1920'lerde Fisher nedeniyle daha ileri bir gelişme olarak ortaya çıktı.

Ayrıca bakınız

Referanslar

daha fazla okuma

Dış bağlantılar