Model seçimi - Model selection
Model seçimi , veri verilen bir dizi aday modelden istatistiksel bir model seçme görevidir . En basit durumlarda, önceden var olan bir veri kümesi dikkate alınır. Ancak, görev de içerebilir deneylerin tasarımı şekilde toplanan veriler modeli seçimi sorununa çok uygundur. Benzer tahmin veya açıklama gücüne sahip aday modeller verildiğinde, en basit modelin en iyi seçim olması muhtemeldir ( Occam'ın usturası ).
Konishi & Kitagawa (2008 , s. 75) " İstatistiksel çıkarımdaki problemlerin çoğunluğu istatistiksel modelleme ile ilgili problemler olarak kabul edilebilir" demektedir. Bununla ilgili olarak Cox (2006 , s. 197), "Konu probleminden istatistiksel modele çevirinin nasıl yapıldığı genellikle bir analizin en kritik kısmıdır" demiştir .
Model seçimi, belirsizlik altında karar verme veya optimizasyon amacıyla geniş bir hesaplamalı model kümesinden birkaç temsili model seçme sorununa da işaret edebilir .
Giriş
En temel biçimlerinde model seçimi, bilimsel araştırmanın temel görevlerinden biridir . Bir dizi gözlemi açıklayan ilkenin belirlenmesi, genellikle bu gözlemleri öngören matematiksel bir modelle doğrudan bağlantılıdır. Örneğin, Galileo onun gerçekleştirilen eğik düzlem deneyleri, o topları hareketi yaptığı model tarafından tahmin parabol donatılmış olduğunu göstermiştir.
Verileri üretebilecek sayısız olası mekanizma ve süreç arasından en iyi modeli seçmeye nasıl başlanabilir? Yaygın olarak benimsenen matematiksel yaklaşım, bir dizi aday model arasında karar verir; bu set araştırmacı tarafından seçilmelidir. Genellikle , en azından başlangıçta, polinomlar gibi basit modeller kullanılır. Burnham ve Anderson (2002) , kitaplarında, verilerin altında yatan fenomenolojik süreçlerin veya mekanizmaların (örneğin, kimyasal reaksiyonlar) anlaşılması gibi sağlam bilimsel ilkelere dayalı modeller seçmenin önemini vurgular.
Aday modeller bir kez seçildikten sonra, istatistiksel analiz bu modellerin en iyisini seçmemizi sağlar. En iyi ile kastedilen şey tartışmalıdır. İyi bir model seçim tekniği , uyumun iyiliği ile basitliği dengeleyecektir . Daha karmaşık modeller, şekillerini verilere uyacak şekilde daha iyi uyarlayabilecektir (örneğin, beşinci dereceden bir polinom altı noktaya tam olarak uyabilir), ancak ek parametreler yararlı hiçbir şeyi temsil etmeyebilir. (Belki de bu altı nokta bir düz çizgi etrafında gerçekten rastgele dağılmıştır.) Uyum iyiliği genellikle bir olabilirlik oranı yaklaşımı veya bunun bir tahmini kullanılarak belirlenir ve bir ki-kare testine yol açar . Karmaşıklık genellikle modeldeki parametre sayısı sayılarak ölçülür .
Model seçim teknikleri , verilen verileri üreten modelin olasılığı gibi bazı fiziksel niceliklerin tahmin edicileri olarak düşünülebilir . Önyargı ve varyans bu tahmincisi kalitesinin ikisi de önemli önlemlerdir; verimlilik de sıklıkla düşünülür.
Model seçimi standart bir örnek olmasıdır eğri uydurma noktaları ve diğer arka plan bilgisi bir dizi (örneğin, noktalar bir sonucudur verilen, IID örnekleri), biz noktaları oluşturulan bu işlevi tanımlayan bir eğri seçmek gerekir.
Model seçiminin iki yönü
Çıkarsama ve verilerden öğrenmede iki temel amaç vardır. Biri bilimsel keşif, temel veri üretme mekanizmasının anlaşılması ve verilerin doğasının yorumlanması içindir. Verilerden öğrenmenin bir başka amacı da gelecekteki veya görünmeyen gözlemleri tahmin etmektir. İkinci hedefte, veri bilimcisi, verilerin kesin bir olasılıksal açıklamasıyla ilgilenmez. Elbette her iki yöne de ilgi duyulabilir.
İki farklı amaç doğrultusunda, model seçiminin iki yönü de olabilir: çıkarım için model seçimi ve tahmin için model seçimi. İlk yön, tercihen bilimsel yorum için belirsizlik kaynaklarının güvenilir bir karakterizasyonunu sağlayacak olan veriler için en iyi modeli belirlemektir. Bu amaç için seçilen modelin örneklem büyüklüğüne çok duyarlı olmaması oldukça önemlidir. Buna göre, model seçimini değerlendirmek için uygun bir kavram, seçim tutarlılığıdır; bu, en sağlam adayın, yeterli sayıda veri örneği verildiğinde tutarlı bir şekilde seçileceği anlamına gelir .
İkinci yön, mükemmel tahmin performansı sunmak için makine olarak bir model seçmektir. Bununla birlikte, ikincisi için seçilen model birkaç yakın rakip arasında şanslı kazanan olabilir, ancak tahmine dayalı performans yine de mümkün olan en iyi olabilir. Eğer öyleyse, model seçimi ikinci hedef (tahmin) için iyidir, ancak seçilen modelin içgörü ve yorumlama için kullanılması ciddi şekilde güvenilmez ve yanıltıcı olabilir. Ayrıca, bu şekilde seçilen çok karmaşık modeller için, seçimin yapıldığı verilerden yalnızca biraz farklı olan veriler için tahminler bile mantıksız olabilir.
Aday modellerin seçilmesine yardımcı olacak yöntemler
Kriterler
Aşağıda model seçimi için kriterlerin bir listesi bulunmaktadır. En yaygın olarak kullanılan kriterler (i) Akaike bilgi kriteri ve (ii) Bayes faktörü ve/veya Bayes bilgi kriteridir (bir dereceye kadar Bayes faktörüne yaklaşır), inceleme için bakınız Stoica & Selen (2004) .
- Akaike bilgi kriteri (AIC), tahmini bir istatistiksel modelin uygunluk uygunluğunun bir ölçüsü
- Bayes faktörü
- Schwarz bilgi kriteri olarak da bilinen Bayes bilgi kriteri (BIC), model seçimi için istatistiksel bir kriter
- Köprü kriteri (BC), model spesifikasyonunun uygunluğuna rağmen AIC ve BIC'nin daha iyi performansını elde edebilen istatistiksel bir kriter.
- Çapraz doğrulama
- Sapma bilgisi kriteri (DIC), başka bir Bayes odaklı model seçim kriteri
- Yanlış keşif oranı
- Odaklanmış bilgi kriteri (FIC), belirli bir odak parametresi için etkinliklerine göre istatistiksel modelleri sıralayan bir seçim kriteri
- Hannan-Quinn bilgi kriteri , Akaike ve Bayes kriterlerine bir alternatif
- Kashyap bilgi kriteri (KIC), AIC ve BIC'ye güçlü bir alternatiftir, çünkü KIC Fisher bilgi matrisini kullanır
- Olasılık oranı testi
- Mallows'un C p
- Minimum açıklama uzunluğu
- Minimum mesaj uzunluğu (MML)
- BASIN istatistiği , aynı zamanda BASIN kriteri olarak da bilinir
- Yapısal risk minimizasyonu
- kademeli regresyon
- Watanabe-Akaike bilgi kriteri (WAIC), aynı zamanda yaygın olarak uygulanabilir bilgi kriteri olarak da adlandırılır.
- Genişletilmiş Bayes Bilgi Kriteri (EBIC), yüksek parametre boşluklu modeller için sıradan Bayes bilgi kriterinin (BIC) bir uzantısıdır .
- Genişletilmiş Fisher Bilgi Kriteri (EFIC), doğrusal regresyon modelleri için bir model seçim kriteridir.
Bu kriterler arasında çapraz doğrulama, denetimli öğrenme problemleri için tipik olarak en doğru ve hesaplama açısından en pahalı olanıdır.
Burnham & Anderson (2002 , §6.3) şunları söylüyor:
Çeşitli model seçim yöntemleri vardır. Ancak, bir yöntemin istatistiksel performansı ve kullanımının amaçlanan bağlamı açısından, yalnızca iki farklı yöntem sınıfı vardır: Bunlar verimli ve tutarlı olarak etiketlenmiştir . (...) Model seçimi için sık kullanılan paradigma altında, genellikle üç ana yaklaşım vardır: (I) bazı seçim kriterlerinin optimizasyonu, (II) hipotez testleri ve (III) geçici yöntemler.
Ayrıca bakınız
- Tüm modeller yanlış
- Rakip hipotezlerin analizi
- Otomatik makine öğrenimi (AutoML)
- Önyargı-varyans ikilemi
- Öznitelik Seçimi
- Freedman'ın paradoksu
- Izgara arama
- Tanımlanabilirlik Analizi
- Log-lineer analiz
- Model tanımlama
- Occam'ın usturası
- Optimal tasarım
- Parametre tanımlama sorunu
- Bilimsel modelleme
- İstatistiksel model doğrulama
- Stein'ın paradoksu
Notlar
Referanslar
- Ah tamam.; Derryberry, D.; Peterson, T. (2014), " Ekologlar için model seçimi: AIC ve BIC'nin dünya görüşleri", Ekoloji , 95 (3) : 631–636 , doi : 10.1890/13-1452.1 , PMID 24804445
- Akaike, H. (1994), "İstatistiksel bilimin gelişimine ilişkin bilgisel bakış açısının etkileri", içinde Bozdoğan, H. (ed.), Proceedings of the First US/JAPAN Conference on The Frontiers of Statistical Modeling: An Informational Yaklaşım—Cilt 3 , Kluwer Academic Publishers , s. 27–38
- Anderson, DR (2008), Yaşam Bilimlerinde Modele Dayalı Çıkarım , Springer, ISBN 9780387740751
- Ando, T. (2010), Bayes Model Seçimi ve İstatistiksel Modelleme , CRC Press , ISBN 9781439836156
- Breiman, L. (2001), "İstatistiksel modelleme: iki kültür", İstatistik Bilimi , 16 : 199–231, doi : 10.1214/ss/1009213726
- Burnham, KP; Anderson, DR (2002), Model Seçimi ve Çoklu Model Çıkarımı: Pratik Bir Bilgi-Teorik Yaklaşım (2. baskı), Springer-Verlag, ISBN 0-387-95364-7[bunun Google Akademik'te 38000'den fazla alıntısı var ]
- Chamberlin, TC (1890), "Çoklu çalışan hipotezlerin yöntemi", Science , 15 (366): 92–6, Bibcode : 1890Sci....15R..92. , doi : 10.1126/science.ns-15.366.92 , PMID 17782687(yeniden basılmıştır 1965, Science 148: 754–759 [1] doi : 10.1126/science.148.3671.754 )
- Claeskens, G. (2016), "İstatistiksel model seçimi" (PDF) , Yıllık İstatistik ve Uygulama İncelemesi , 3 (1): 233–256, Bibcode : 2016AnRSA...3..233C , doi : 10.1146/annurev -istatistik-041715-033413
- Claeskens, G.; Hjort, NL (2008), Model Seçimi ve Model Ortalaması , Cambridge University Press, ISBN 9781139471800
- Cox, DR (2006), İstatistiksel Çıkarım İlkeleri , Cambridge University Press
- Kashyap, RL (1982), "Otoregresif hareketli ortalama modellerinde AR ve MA parçalarının optimal seçimi", IEEE İşlemleri on Pattern Analysis and Machine Intelligence , IEEE, PAMI-4 (2): 99–104, doi : 10.1109/TPAMI. 1982.4767213 , PMID 21869012 , S2CID 18484243
- Konishi, S.; Kitagawa, G. (2008), Bilgi Kriterleri ve İstatistiksel Modelleme , Springer, Bibcode : 2007icsm.book.....K , ISBN 9780387718866
- Lahiri, P. (2001), Model Seçimi , Matematik İstatistik Enstitüsü
- Leeb, H.; Pötscher, BM (2009), "Model seçimi", Anderson, TG (ed.), Handbook of Financial Time Series , Springer, s. 889–925, doi : 10.1007/978-3-540-71297-8_39 , ISBN 978-3-540-71296-1
- Lukacs, PM; Thompson, WL; Kendall, WL; Gould, WR; Doherty, PF Jr.; Burnham, KP; Anderson, DR (2007), "Enformasyon teorisi ve hipotez testinin çoğulculuğu için bir çağrıya ilişkin endişeler", Journal of Applied Ecology , 44 (2): 456–460, doi : 10.1111/j.1365-2664.2006.01267.x
- McQuarrie, Allan DR; Tsai, Chih-Ling (1998), Regresyon ve Zaman Serisi Model Seçimi , Singapur: World Scientific, ISBN 981-02-3242-X
- Massart, P. (2007), Konsantrasyon Eşitsizlikleri ve Model Seçimi , Springer
- Massart, P. (2014), "Olasılık ve istatistikte asimptotik olmayan bir yürüyüş" , Lin, Xihong (ed.), İstatistik Biliminin Geçmişi, Bugünü ve Geleceği , Chapman & Hall , s. 309-321, ISBN 9781482204988
- Navarro, DJ (2019), "Between the Devil and the Deep Blue Sea: Tensions arasındaki bilimsel yargı ve istatistiksel model seçimi", Computational Brain & Behavior , 2 : 28–34, doi : 10.1007/s42113-018-0019-z
- Resende, Paulo Angelo Alves; Dorea, Chang Chung Yu (2016), "Etkin Belirleme Kriterini Kullanarak Model Tanımlama", Çok Değişkenli Analiz Dergisi , 150 : 229–244, arXiv : 1409.7441 , doi : 10.1016/j.jmva.2016.06.002 , S2CID 5469654
- Shmueli, G. (2010), "Açıklamak mı, tahmin etmek mi?" , İstatistik Bilimi , 25 (3): 289–310, arXiv : 1101.0891 , doi : 10.1214/10-STS330 , MR 2791669 , S2CID 15900983
- Stoika, P.; Selen, Y. (2004), "Model-sıra seçimi: bilgi kriter kurallarının gözden geçirilmesi" (PDF) , IEEE Signal Processing Magazine , 21 (4): 36–47
- Wit, E.; van den Heuvel, E.; Romeijn, J.-W. (2012), " ' Tüm modeller yanlış...': model belirsizliğine giriş" (PDF) , Statistica Neerlandica , 66 (3): 217–236, doi : 10.1111/j.1467-9574.2012.00530.x
- Wit, E.; McCullagh, P. (2001), Viana, MAG; Richards, D. St. P. (ed.), "İstatistiksel modellerin genişletilebilirliği", İstatistik ve Olasılıkta Cebirsel Yöntemler , s. 327–340
- Wojtowicz, Anna; Bigaj, Tomasz (2016), "Gerekçe, doğrulama ve birbirini dışlayan hipotezler sorunu", Kuźniar, Adrian'da; Odrowąż-Sypniewska Joanna (eds.), Ortaya çıkararak Bilgiler ve değerler , Brill Publishers , s. 122-143, DOI : 10,1163 / 9789004312654_009 , ISBN 9789004312654
- Ovrang, Arash; Jansson, Magnus (2018), "Yüksek Boyutlu Doğrusal Regresyon için Bir Model Seçim Kriteri" , Sinyal İşleme Üzerine IEEE İşlemleri , 66 (13): 3436–3446, Bibcode : 2018ITSP...66.3436O , doi : 10.1109/TSP. 2018.2821628 , ISSN 1941-0476 , S2CID 46931136