İstatistiksel model - Statistical model

Bir istatistiksel model a, matematiksel model bir dizi temsil istatistiksel varsayımlar ve üretimine ilişkin örnek veriler (daha büyük bir mesafede ve benzer verilere nüfus ). İstatistiksel bir model, genellikle önemli ölçüde idealleştirilmiş biçimde, veri üretme sürecini temsil eder.

İstatistiksel bir model genellikle bir veya daha fazla rastgele değişken ile diğer rastgele olmayan değişkenler arasındaki matematiksel bir ilişki olarak belirtilir . Bu itibarla , istatistiksel bir model "bir teorinin resmi bir temsilidir" ( Herman Adèr , Kenneth Bollen'den alıntı yapar ).

Tüm istatistiksel hipotez testleri ve tüm istatistiksel tahminciler , istatistiksel modeller aracılığıyla türetilir. Daha genel olarak, istatistiksel modeller, istatistiksel çıkarımın temelinin bir parçasıdır .

Tanıtım

Gayri resmi olarak, istatistiksel bir model, belirli bir özelliğe sahip istatistiksel bir varsayım (veya istatistiksel varsayımlar kümesi) olarak düşünülebilir : varsayım, herhangi bir olayın olasılığını hesaplamamıza izin verir . Örnek olarak, bir çift sıradan altı yüzlü zar düşünün . Zar hakkında iki farklı istatistiksel varsayımı inceleyeceğiz.

İlk istatistiksel varsayım şudur: Her bir zar için, her yüzün (1, 2, 3, 4, 5 ve 6) gelme olasılığı şudur: 1/6. Bu varsayımdan, her iki zarın da 5 gelme olasılığını hesaplayabiliriz:  1/6 × 1/6 =1/36. Daha genel olarak, herhangi bir olayın olasılığını hesaplayabiliriz: örneğin (1 ve 2) veya (3 ve 3) veya (5 ve 6).

Alternatif istatistiksel varsayım şudur: zarların her biri için, yüzün 5 gelme olasılığı 1/8(çünkü zarlar ağırlıklıdır ). Bu varsayımdan, her iki zarın da 5 gelme olasılığını hesaplayabiliriz:  1/8 × 1/8 =1/64. Bununla birlikte, diğer yüzlerin olasılıkları bilinmediğinden, diğer önemsiz olmayan herhangi bir olayın olasılığını hesaplayamayız.

İlk istatistiksel varsayım istatistiksel bir model oluşturur: çünkü yalnızca varsayımla herhangi bir olayın olasılığını hesaplayabiliriz. Alternatif istatistiksel varsayım yok değil istatistiksel bir model teşkil: Tek başına varsayımıyla, her olayın olasılığını hesaplamak olamaz çünkü.

Yukarıdaki örnekte, ilk varsayımla bir olayın olasılığını hesaplamak kolaydır. Ancak diğer bazı örneklerle, hesaplama zor, hatta pratik olmayabilir (örneğin, milyonlarca yıllık hesaplama gerektirebilir). Bir varsayımın istatistiksel bir model oluşturması için, böyle bir zorluk kabul edilebilir: hesaplamayı yapmanın pratik olması gerekmez, sadece teorik olarak mümkündür.

Resmi tanımlama

Matematiksel olarak, bir istatistiksel model, genellikle bir çift olarak düşünülür ( ), burada örneğin, mümkün olan gözlemlerin grubu, bir numune alanı ve bir dizi olasılık dağılımları ile .

Bu tanımın arkasındaki sezgi aşağıdaki gibidir. Gözlenen verileri üreten süreç tarafından indüklenen "doğru" bir olasılık dağılımının olduğu varsayılır. Gerçek dağılıma yeterince yaklaşan bir dağılım içeren bir dizi (dağılım) temsil etmeyi seçiyoruz .

Bunun gerçek dağılımı içermesini istemediğimizi ve pratikte nadiren böyle olduğunu unutmayın. Gerçekten de, Burnham & Anderson'ın belirttiği gibi, "Bir model, gerçekliğin bir basitleştirilmesi veya yaklaşıklaştırılmasıdır ve bu nedenle, tüm gerçekliği yansıtmaz" - " tüm modeller yanlıştır " sözü buradan gelmektedir .

Küme neredeyse her zaman parametrelendirilir: . Set , modelin parametrelerini tanımlar . Farklı dağılımlara yol açan farklı parametre değerlerine sahip olmak için genellikle bir parametreleştirme gereklidir, yani tutmalı (diğer bir deyişle, injektif olmalıdır ). Gereksinimi karşılayan bir parametreleştirmenin tanımlanabilir olduğu söylenir .

Bir örnek

Nüfusta çocukların yaşlarının eşit dağıldığı bir çocuk nüfusumuz olduğunu varsayalım . Bir çocuğun boyu , yaşla stokastik olarak ilişkili olacaktır : örneğin, bir çocuğun 7 yaşında olduğunu bildiğimizde, bu, çocuğun 1.5 metre boyunda olma şansını etkiler. Bu ilişkiyi bir lineer regresyon modelinde şöyle formüle edebiliriz : yükseklik i  = b 0  + b 1 yaş i  + ε i , burada b 0 kesişme noktasıdır, b 1 bir tahmin elde etmek için yaşın çarpıldığı bir parametredir. yükseklik, ε i hata terimidir ve i çocuğu tanımlar. Bu, yüksekliğin bazı hatalarla birlikte yaşa göre tahmin edildiği anlamına gelir.

Kabul edilebilir bir model, tüm veri noktalarıyla tutarlı olmalıdır. Bu nedenle, düz bir çizgi (yükseklik i  = b 0  + b 1 yaş i ) bir veri modelinin denklemi olamaz - tüm veri noktalarına tam olarak uymadıkça, yani tüm veri noktaları doğru üzerinde mükemmel bir şekilde yer almadıkça. Hata terimi, ε i , modelin tüm veri noktalarıyla tutarlı olması için denkleme dahil edilmelidir.

İstatistiksel çıkarım yapmak için önce ε i için bazı olasılık dağılımlarını varsaymamız gerekir . Örneğin, ε i dağılımlarının sıfır ortalama ile iid Gauss olduğunu varsayabiliriz . Bu durumda modelin 3 parametresi olacaktır: b 0 , b 1 ve Gauss dağılımının varyansı.

Modeli formel olarak ( ) şeklinde şu şekilde belirtebiliriz . Modelimizin örnek uzayı, , tüm olası çiftlerin (yaş, boy) kümesini içerir.  = ( b 0 , b 1 , σ 2 ) ' nin her olası değeri ; ile dağılımını belirtin . Eğer tüm olası değerlerin kümesi ise , o zaman . (Parametrelendirme tanımlanabilir ve kontrol edilmesi kolaydır.)

Bu örnekte, model (1) belirterek ve (2) ile ilgili bazı varsayımlar yaparak belirlenir . İki varsayım vardır: bu boy, yaşın doğrusal bir fonksiyonu ile yaklaşık olarak hesaplanabilir; yaklaşımdaki hataların iid Gaussian olarak dağıtıldığı. Varsayımlar -yapmaları gerektiği gibi- belirtmek için yeterlidir .

Genel açıklamalar

İstatistiksel model, matematiksel modelin özel bir sınıfıdır . İstatistiksel bir modeli diğer matematiksel modellerden ayıran şey, istatistiksel bir modelin deterministik olmamasıdır . Böylece matematiksel denklemlerle belirlenen istatistiksel bir modelde, değişkenlerin bir kısmı belirli değerlere sahip olmayıp bunun yerine olasılık dağılımlarına sahiptir; yani bazı değişkenler stokastiktir . Çocukların boylarının olduğu yukarıdaki örnekte, ε stokastik bir değişkendir; bu stokastik değişken olmadan, model deterministik olacaktır.

İstatistiksel modeller, modellenen veri oluşturma süreci deterministik olduğunda bile sıklıkla kullanılır. Örneğin, yazı tura atmak , prensipte deterministik bir süreçtir; yine de genellikle stokastik olarak modellenir ( Bernoulli süreci aracılığıyla ).

Belirli bir veri oluşturma sürecini temsil etmek için uygun bir istatistiksel model seçmek bazen son derece zordur ve hem süreç hem de ilgili istatistiksel analizler hakkında bilgi gerektirebilir. Bununla ilgili olarak, istatistikçi Sir David Cox , "Konu probleminden istatistiksel modele çevirinin nasıl yapıldığı genellikle bir analizin en kritik kısmıdır" dedi.

Konishi & Kitagawa'ya göre istatistiksel bir model için üç amaç vardır.

  • tahminler
  • Bilgi çıkarma
  • Stokastik yapıların tanımı

Bu üç amaç, esas olarak Friendly & Meyer tarafından belirtilen üç amaç ile aynıdır: tahmin, tahmin, açıklama. Üç amaç, üç tür mantıksal akıl yürütmeye karşılık gelir : tümdengelimli akıl yürütme , tümevarımsal akıl yürütme , kaçırmalı akıl yürütme .

Bir modelin boyutu

ile istatistiksel bir modelimiz ( ) olduğunu varsayalım . Modelin sonlu bir boyutu varsa parametrik olduğu söylenir . Notasyonda, burada k'nin pozitif bir tamsayı olduğunu yazıyoruz ( gerçek sayıları belirtir ; ilke olarak başka kümeler kullanılabilir). Burada k , modelin boyutu olarak adlandırılır .

Örnek olarak, verilerin tek değişkenli bir Gauss dağılımından kaynaklandığını varsayarsak, o zaman şunu varsayıyoruz:

.

Bu örnekte, k boyutu 2'ye eşittir.

Başka bir örnek olarak, verilerin iid Gauss artıkları olan (sıfır ortalamalı) düz bir çizgiye göre dağıtıldığını varsaydığımız noktalardan ( x , y ) oluştuğunu varsayalım: bu, çocukların yükseklikleri. İstatistiksel modelin boyutu 3'tür: doğrunun kesişimi, doğrunun eğimi ve artıkların dağılımının varyansı. (Geometride düz bir çizginin 1 boyutu olduğunu unutmayın .)

Biçimsel olarak k boyutuna sahip tek bir parametre olmasına rağmen , bazen k ayrı parametre içerdiği kabul edilir . Örneğin, tek değişkenli Gauss dağılımı ile, resmi olarak 2 boyutlu tek bir parametredir, ancak bazen 2 ayrı parametreyi (ortalama ve standart sapma) içerdiği kabul edilir.

İstatistiksel bir modeldir parametrik olmayan parametre seti ise boyutlu sonsuzdur. Bir istatistiksel model, hem sonlu boyutlu hem de sonsuz boyutlu parametrelere sahipse yarı parametriktir. Biçimsel olarak, eğer k boyutu ve n örnek sayısı ise, hem yarı parametrik hem de parametrik olmayan modellerde as vardır . Eğer olarak daha sonra model semiparametrik olduğu; aksi halde model parametrik değildir.

Parametrik modeller, açık farkla en yaygın kullanılan istatistiksel modellerdir. Yarı parametrik ve parametrik olmayan modellerle ilgili olarak, Sir David Cox , "Bunlar tipik olarak daha az yapı ve dağılım biçimi varsayımı içerir, ancak genellikle bağımsızlıklarla ilgili güçlü varsayımlar içerir" dedi.

iç içe modeller

İlk model, birinci modelin parametrelerine kısıtlamalar getirilerek ikinci modele dönüştürülebiliyorsa, iki istatistiksel model iç içe geçmiştir. Örnek olarak, tüm Gauss dağılımları kümesi, içinde sıfır ortalamalı Gauss dağılımları kümesine sahiptir: sıfır ortalamalı dağılımları elde etmek için tüm Gauss dağılımları kümesindeki ortalamayı kısıtlarız. İkinci bir örnek olarak, ikinci dereceden model

y  = b 0  + b 1 x  + b 2 x 2  + ε, ε ~ 𝒩(0, σ 2 )

içinde iç içe geçmiş doğrusal modele sahiptir.

y  = b 0  + b 1 x  + ε, ε ~ 𝒩(0, σ 2 )

—b 2 parametresini 0'a eşitle sınırlıyoruz .

Bu örneklerin her ikisinde de birinci model, ikinci modelden daha yüksek bir boyuta sahiptir (ilk örnek için sıfır ortalamalı modelin boyutu 1'dir). Çoğu zaman böyledir ama her zaman değil. Farklı bir örnek olarak, 2 boyutuna sahip pozitif ortalamalı Gauss dağılımları kümesi, tüm Gauss dağılımları kümesi içinde yuvalanmıştır.

modelleri karşılaştırma

İstatistiksel modellerin karşılaştırılması, istatistiksel çıkarımların çoğu için esastır . Nitekim, Konishi & Kitagawa (2008 , s. 75) şunu belirtmektedir: "İstatistiksel çıkarımdaki problemlerin çoğu istatistiksel modelleme ile ilgili problemler olarak düşünülebilir. Bunlar tipik olarak birkaç istatistiksel modelin karşılaştırmaları olarak formüle edilir."

Modelleri karşılaştırmak için ortak kriterler şunları içerir: R 2 , Bayes faktörü , Akaike bilgi kriteri ve genellemesi ile birlikte olabilirlik-oran testi , göreli olabilirlik .

Ayrıca bakınız

Notlar

Referanslar

  • Adèr, HJ (2008), "Modelling", Adèr, HJ'de; Mellenbergh, GJ (ed.), Danışmanlık Araştırma Yöntemleri: Bir danışmanın arkadaşı , Huizen, Hollanda: Johannes van Kessel Publishing, s. 271–304.
  • Burnham, KP; Anderson, DR (2002), Model Seçimi ve Çoklu Model Çıkarımı (2. baskı), Springer-Verlag.
  • Cox, DR (2006), İstatistiksel Çıkarımın İlkeleri , Cambridge University Press.
  • Dost, M .; Meyer, D. (2016), R , Chapman & Hall ile Ayrık Veri Analizi.
  • Konishi, S.; Kitagawa, G. (2008), Bilgi Kriterleri ve İstatistiksel Modelleme , Springer.
  • McCullagh, P. (2002), "İstatistiksel model nedir?" (PDF) , Annals of Statistics , 30 (5): 1225-1310, doi : 10.1214/aos/1035844977.

daha fazla okuma