Maksimum entropi ilkesi - Principle of maximum entropy

Maksimum entropi ilkesi bu durumları olasılık dağılımı iyi bir sistem ile ilgili mevcut bilgileri temsil büyük bir kez olan entropi tam belirtilen önceki verileri bağlamında (örneğin, bir şekilde, bir öneri olduğunu ifade eder test edilebilir bilgileri ).

Bunu belirtmenin başka bir yolu: Bir olasılık dağılımı işlevi hakkında kesin olarak belirtilen önceki verileri veya test edilebilir bilgileri alın. Önceki verileri kodlayacak tüm deneme olasılık dağılımları kümesini düşünün. Bu prensibe göre, maksimum bilgi entropisi ile dağıtım en iyi seçimdir.

Maksimum entropi ile dağıtım, verilerin gerçek dağılımı hakkında en az varsayımı yapan dağıtım olduğundan, maksimum entropi ilkesi, Occam'ın usturasının bir uygulaması olarak görülebilir .

Tarih

İlke ilk olarak 1957'de ET Jaynes tarafından istatistiksel mekanik ve bilgi teorisi arasındaki doğal bir uyuşmayı vurguladığı iki makalede açıklandı . Jaynes, özellikle Gibbsian istatistiksel mekanik yönteminin neden işe yaradığına dair yeni ve çok genel bir mantık sundu. O savundu entropi istatistiksel mekanik ve bilgi entropi ait bilgiler teorisi temelde aynı şeydir. Sonuç olarak, istatistiksel mekanik , genel bir mantıksal çıkarım ve bilgi teorisi aracının özel bir uygulaması olarak görülmelidir .

Genel Bakış

Çoğu pratik durumda, belirtilen önceki veriler veya test edilebilir bilgiler, söz konusu olasılık dağılımıyla ilişkili bir dizi korunmuş büyüklük (bazı moment fonksiyonlarının ortalama değerleri) tarafından verilir . Bu, maksimum entropi ilkesinin istatistiksel termodinamikte en sık kullanıldığı yoldur . Diğer bir olasılık, olasılık dağılımının bazı simetrilerini belirlemektir. Korunan büyüklükler ve karşılık gelen simetri grupları arasındaki eşdeğerlik, maksimum entropi yönteminde test edilebilir bilgiyi belirtmenin bu iki yolu için benzer bir eşdeğerliği ifade eder.

Maksimum entropi ilkesi, özellikle farklı yöntemler, istatistiksel mekanik ve mantıksal çıkarımla elde edilen olasılık atamalarının benzersizliğini ve tutarlılığını garanti etmek için de gereklidir .

Maksimum entropi ilkesi, önceki verilerin farklı biçimlerini kullanma özgürlüğümüzü açık hale getirir . Özel bir durum olarak, tek tip bir önceki olasılık yoğunluğu (Laplace'ın bazen yetersiz neden ilkesi olarak adlandırılan kayıtsızlık ilkesi) benimsenebilir. Dolayısıyla, maksimum entropi ilkesi, klasik istatistiğin olağan çıkarım yöntemlerini görmenin yalnızca alternatif bir yolu değildir, aynı zamanda bu yöntemlerin önemli bir kavramsal genellemesini temsil eder.

Bununla birlikte, bu ifadeler, termodinamik sistemlerin, tedaviyi istatistiksel bir topluluk olarak haklı çıkarmak için ergodik olduğunun gösterilmesine gerek olmadığı anlamına gelmez .

Sıradan bir dilde, maksimum entropi ilkesinin epistemik alçakgönüllülük veya maksimum cehalet iddiasını ifade ettiği söylenebilir. Seçilen dağıtım, belirtilen önceki verilerin ötesinde bilgilendirilme iddiasında en az iddiada bulunan, yani belirtilen önceki verilerin ötesinde en cehaleti kabul eden dağıtımdır.

Test edilebilir bilgiler

Maksimum entropi ilkesi, yalnızca test edilebilir bilgilere uygulandığında açıkça yararlıdır . Test edilebilir bilgi, doğruluğu veya yanlışlığı iyi tanımlanmış bir olasılık dağılımı hakkında bir ifadedir. Örneğin, ifadeler

beklenti değişken 2.87 olduğunu

ve

( olayların olasılıkları nerede ve nerede ) test edilebilir bilgi beyanlarıdır.

Test edilebilir bilgi verildiğinde, maksimum entropi prosedürü, bilginin kısıtlamalarına tabi olarak bilgi entropisini maksimize eden olasılık dağılımını araştırmaktan oluşur . Bu kısıtlı optimizasyon problemi, genellikle Lagrange çarpanları yöntemi kullanılarak çözülür .

Test edilebilir bilgi olmadan entropi maksimizasyonu, olasılıkların toplamının bir olduğu evrensel "kısıtlamasına" saygı duyar. Bu kısıtlama altında, maksimum entropi ayrık olasılık dağılımı tekdüze dağılımdır ,

Başvurular

Maksimum entropi ilkesi genellikle çıkarımsal problemlere iki şekilde uygulanır:

Önceki olasılıklar

Maksimum entropi ilkesi genellikle Bayesci çıkarım için önceki olasılık dağılımlarını elde etmek için kullanılır . Jaynes, maksimum entropi dağılımının en az bilgilendirici dağılımı temsil ettiğini iddia ederek bu yaklaşımın güçlü bir savunucusuydu. Artık büyük miktarda literatür, maksimum entropi öncüllerinin ve kanal kodlamasıyla bağlantıların ortaya çıkarılmasına adanmıştır .

Arka olasılıklar

Maksimum entropi, radikal olasılık için yeterli bir güncelleme kuralıdır . Richard Jeffrey 'in olasılık kinematik Maksimum entropi Çıkarım özel bir durumudur. Bununla birlikte, maksimum entropi, tüm bu tür yeterli güncelleme kurallarının bir genellemesi değildir.

Maksimum entropi modelleri

Alternatif olarak, ilke genellikle model spesifikasyonu için çağrılır: bu durumda, gözlemlenen verinin kendisinin test edilebilir bilgi olduğu varsayılır. Bu tür modeller, doğal dil işlemede yaygın olarak kullanılmaktadır . Böyle bir modelin bir örneği, bağımsız gözlemler için maksimum entropi sınıflandırıcısına karşılık gelen lojistik regresyondur .

Olasılık yoğunluğu tahmini

Maksimum entropi ilkesinin ana uygulamalarından biri, kesikli ve sürekli yoğunluk tahminidir . Destek vektör makinesi tahmin edicilerine benzer şekilde , maksimum entropi ilkesi, ikinci dereceden bir programlama probleminin çözümünü gerektirebilir ve bu nedenle, optimal yoğunluk tahmincisi olarak seyrek bir karışım modeli sağlayabilir. Yöntemin önemli bir avantajı, yoğunluk tahminine önceki bilgileri dahil etme kabiliyetidir.

Doğrusal kısıtlamalarla maksimum entropi dağılımı için genel çözüm

Ayrık durum

Bazı test edilebilir bilgiler Ben bir miktar yaklaşık x {değerleri alarak x 1 , x 2 , ..., x n }. Bu bilginin f k fonksiyonlarının beklentileri üzerinde m kısıtlamaları şeklinde olduğunu varsayıyoruz ; yani, olasılık dağılımımızın eşitsizlik / eşitlik anı kısıtlamalarını karşılamasını istiyoruz:

gözlemlenebilirler nerede . Ayrıca, olasılık yoğunluğunun, özdeşlik işlevi üzerinde ilkel bir kısıtlama olarak görülebilecek ve kısıtlamayı veren 1'e eşit bir gözlemlenebilir olanı bire toplamasını istiyoruz.

Bu eşitsizlik / eşitlik kısıtlamalarına tabi maksimum bilgi entropisine sahip olasılık dağılımı şu şekildedir:

bazıları için . Bazen Gibbs dağılımı olarak adlandırılır . Normalleştirme sabiti şu şekilde belirlenir:

ve geleneksel olarak bölüm işlevi olarak adlandırılır . ( Pitman-Koopman teoremi , bir örnekleme dağılımının sınırlı boyutun yeterli istatistiğini kabul etmesi için gerekli ve yeterli koşulun, maksimum entropi dağılımının genel formuna sahip olması olduğunu belirtir.)

Λ k parametreleri Lagrange çarpanlarıdır. Eşitlik kısıtlamaları durumunda, değerleri doğrusal olmayan denklemlerin çözümünden belirlenir.

Eşitsizlik kısıtlamaları durumunda, Lagrange çarpanları, doğrusal kısıtlamalara sahip bir dışbükey optimizasyon programının çözümünden belirlenir . Her iki durumda da kapalı form çözümü yoktur ve Lagrange çarpanlarının hesaplanması genellikle sayısal yöntemler gerektirir .

Sürekli durum

İçin sürekli dağılımları , sadece kesikli olasılık alanları için tanımlandığı gibi olduğu, Shannon entropi kullanılamaz. Bunun yerine Edwin Jaynes (1963, 1968, 2003) göreceli entropi ile yakından ilgili olan aşağıdaki formülü verdi (ayrıca bkz . Diferansiyel entropi ).

burada q, ( x Jaynes "değişmez ölçü" olarak da adlandırılır), orantılı olan ayrık noktalar sınırlayıcı yoğunluğu . Şimdilik q'nun bilindiğini varsayacağız ; çözüm denklemleri verildikten sonra daha fazla tartışacağız.

Yakından ilgili miktarı, bağıl entropi genellikle gibi tanımlanmıştır Kullback-Leibler farklılık arasında p gelen q (bazen her ne kadar, şaşırtıcı, bu negatif olarak tanımlanır). Kullback'e bağlı olarak bunu en aza indirmeye yönelik çıkarım ilkesi , Minimum Ayrımcılık Bilgisi İlkesi olarak bilinir .

Bazı test edilebilir bilgiler var ben bir miktar yaklaşık x bazı değerleri alır aralığının içinde gerçek sayılar (Aşağıdaki tüm integraller Bu süre bitti). Bu bilginin, f k fonksiyonlarının beklentileri üzerinde m kısıtlamaları şeklinde olduğunu varsayıyoruz , yani olasılık yoğunluğu fonksiyonumuzun eşitsizlik (veya tamamen eşitlik) moment kısıtlamalarını karşılamasını istiyoruz:

gözlemlenebilirler nerede . Ayrıca, olasılık yoğunluğunun, özdeşlik işlevi üzerinde ilkel bir kısıtlama olarak görülebilecek ve kısıtlamayı veren 1'e eşit bir gözlemlenebilir olan bire entegre edilmesini de gerekli kılıyoruz.

Bu kısıtlamalara tabi olan maksimum H c ile olasılık yoğunluk fonksiyonu :

ile bölme fonksiyonu ile belirlenir

Ayrık durumda olduğu gibi, tüm moment kısıtlamalarının eşitlik olduğu durumda, parametrelerin değerleri doğrusal olmayan denklemler sistemi tarafından belirlenir:

Eşitsizlik moment kısıtlamaları durumunda, Lagrange çarpanları bir dışbükey optimizasyon programının çözümünden belirlenir .

Değişmez ölçüm fonksiyonu q ( x ), x'in yalnızca sınırlı aralıkta ( a , b ) değer aldığının bilindiğini ve başka hiçbir bilginin verilmediğini varsayarak en iyi şekilde anlaşılabilir . Daha sonra maksimum entropi olasılık yoğunluk işlevi

burada A bir normalizasyon sabiti. Değişmez ölçüm işlevi, aslında "ilgili bilgi eksikliği" ni kodlayan önceki yoğunluk işlevidir. Maksimum entropi ilkesiyle belirlenemez ve dönüşüm grupları ilkesi veya marjinalleştirme teorisi gibi başka bir mantıksal yöntemle belirlenmelidir .

Örnekler

Maksimum entropi dağılımlarının birkaç örneği için, maksimum entropi olasılık dağılımları hakkındaki makaleye bakın .

Maksimum entropi ilkesinin gerekçeleri

Maksimum entropi ilkesinin savunucuları, olasılıkları atamada kullanımını, aşağıdaki iki argüman dahil olmak üzere çeşitli şekillerde haklı çıkarırlar. Bu argümanlar, Bayes olasılığının kullanımını verildiği gibi alır ve bu nedenle aynı varsayımlara tabidir.

'Bilgisizliğin' bir ölçüsü olarak bilgi entropisi

Birbirini dışlayan önermeler arasında ayrı bir olasılık dağılımını düşünün . En bilgilendirici dağılım, önermelerden birinin doğru olduğu bilindiğinde gerçekleşecekti. Bu durumda bilgi entropisi sıfıra eşit olacaktır. En az bilgilendirici dağıtım, önermelerden herhangi birini diğerlerine tercih etmek için hiçbir neden olmadığında gerçekleşir. Bu durumda, tek makul olasılık dağılımı tek tip olacaktır ve daha sonra bilgi entropisi olası maksimum değerine eşit olacaktır . Bu nedenle bilgi entropisi, belirli bir olasılık dağılımının ne kadar bilgisiz olduğunu açıklayan sayısal bir ölçü olarak görülebilir, sıfırdan (tamamen bilgilendirici) ile (tamamen bilgilendirici) arasında değişir .

Dağıtımı bilgimizin izin verdiği maksimum entropi ile kullanmayı seçerek, mümkün olan en bilgisiz dağıtımı seçiyoruz. Daha düşük entropiye sahip bir dağıtım seçmek, sahip olmadığımız bilgileri varsaymak olacaktır. Dolayısıyla, maksimum entropi dağılımı tek makul dağılımdır. Çözümün bağımlılığı ile temsil hakim önlem üzerinde bu hakim önlemi aslında İsteğe bağlı olmak içinde olduğundan ancak yaklaşımın eleştirilerden kaynağıdır.

Wallis türevi

Aşağıdaki tartışma ile yapılan bir öneri sonucudur Graham Wallis Aslında için kullanılan matematiksel bir argümandır 1962 ET Jaynes için Maxwell-Boltzmann istatistik olarak istatistiksel mekanik kavramsal vurgu oldukça farklı olmasına rağmen,. Doğası gereği katı bir şekilde kombinatoryal olma avantajına sahiptir, 'belirsizlik', 'bilgisizlik' ölçüsü olarak bilgi entropisine veya kesin olarak tanımlanmamış diğer herhangi bir kavram olarak referans vermez. Bilgi entropi işlevi a priori varsayılmaz , aksine argüman sırasında bulunur; ve argüman doğal olarak bilgi entropisini başka bir şekilde ele almaktan ziyade maksimize etme prosedürüne götürür.

Bir bireyin, birbirini dışlayan önermeler arasında bir olasılık tahsisi yapmak istediğini varsayalım . Bazı test edilebilir bilgilere sahip, ancak bu bilgiyi olasılık değerlendirmesine nasıl dahil edeceğinden emin değil. Bu nedenle, aşağıdaki rastgele deneyi tasarlıyor. Olasılık miktarlarını (her bir değeri ) olasılıklar arasında rastgele dağıtacaktır . ( Gözleri bağlıyken topları kovalara atacağını düşünebiliriz . Mümkün olduğunca adil olmak için, her atış diğerinden bağımsız olmalı ve her kova aynı boyutta olmalıdır.) Deney bittiğinde, bu şekilde elde edilen olasılık tahsisinin bilgileriyle tutarlı olup olmadığını kontrol edecektir. (Bu adımın başarılı olması için bilginin, olasılık ölçüleri uzayında açık bir küme tarafından verilen bir kısıtlama olması gerekir). Tutarsızsa, reddedecek ve tekrar deneyecektir. Tutarlıysa, değerlendirmesi olacaktır

burada th önermenin olasılığı, n i ise th önermeye atanan quanta sayısıdır (yani kovaya giren topların sayısı ).

Şimdi, olasılık tahsisinin 'tanecikliğini' azaltmak için, oldukça büyük sayıda olasılık kuantumu kullanmak gerekli olacaktır. Uzun rastgele deneyi fiilen yürütmek ve muhtemelen tekrarlamak zorunda kalmak yerine, baş kahraman, en olası sonucu basitçe hesaplamaya ve kullanmaya karar verir. Herhangi bir özel sonucun olasılığı, multinom dağılımdır ,

nerede

bazen sonucun çokluğu olarak bilinir.

En olası sonuç, çokluğu maksimize eden sonuçtur . Direkt olarak maksimize etmek yerine , baş karakter, herhangi bir monoton artan işlevini eşit olarak maksimize edebilir . Maksimize etmeye karar verir

Bu noktada, ifadeyi basitleştirmek için, kahraman limiti alır , yani olasılık seviyeleri grenli ayrık değerlerden pürüzsüz sürekli değerlere giderken. Stirling'in yaklaşımını kullanarak şunu bulur:

Kahramanın yapması gereken tek şey, test edilebilir bilgilerinin kısıtlamaları altında entropiyi maksimize etmektir. Olasılık seviyeleri ayrıktan sürekliliğe giderken, sınırda, maksimum entropi dağılımının tüm "adil" rastgele dağılımların en olası olduğunu bulmuştur.

Bayes teoremi ile uyumluluk

Giffin ve Caticha (2007), Bayes teoremi ve maksimum entropi ilkesinin tamamen uyumlu olduğunu ve "maksimum bağıl entropi yönteminin" özel durumları olarak görülebileceğini belirtmektedir . Bu yöntemin ortodoks Bayesci çıkarım yöntemlerinin her yönünü yeniden ürettiğini belirtiyorlar. Buna ek olarak, bu yeni yöntem, ne maksimal entropi ilkesi ne de ortodoks Bayesci yöntemlerle ayrı ayrı ele alınamayan sorunların üstesinden gelmenin kapısını açmaktadır. Dahası, son zamanlarda yapılan katkılar (Lazar 2003 ve Schennach 2005), sıklıkçı göreceli-entropi temelli çıkarım yaklaşımlarının ( deneysel olasılık ve üssel olarak eğimli deneysel olasılık gibi - bkz.Örneğin, Owen 2001 ve Kitamura 2006) Bayesian'ı gerçekleştirmek için önceki bilgilerle birleştirilebileceğini göstermektedir. posterior analiz.

Jaynes, Bayes teoreminin bir olasılığı hesaplamanın bir yolu olduğunu, maksimum entropinin ise önceki bir olasılık dağılımını atamanın bir yolu olduğunu belirtti.

Bununla birlikte, kavramsal olarak , minimum çapraz entropi ilkesini kullanarak (veya Maksimum Entropi Prensibi, daha önce verildiği gibi tekdüze bir dağılımın kullanılmasının özel bir durumudur ), aşağıdakilerden bağımsız olarak, doğrudan belirtilen bir önceki dağıtımdan sonraki bir dağıtım için çözmek mümkündür . Sorunu biçimsel olarak kısıtlanmış bir optimizasyon problemi olarak ele alan herhangi bir Bayesci değerlendirme, Entropy işlevi nesnel işlevdir. Test edilebilir bilgi olarak verilen ortalama değerler durumunda (olasılık dağılımından sonra aranan ortalama değerlerin ortalaması), aranan dağılım resmi olarak Gibbs (veya Boltzmann) dağılımıdır ve minimum çapraz entropiyi elde etmek ve tatmin etmek için parametreleri çözülmesi gerekir. verilen test edilebilir bilgiler.

Fizik ile alaka

Maksimum entropi ilkesi, moleküler kaos veya Stosszahlansatz olarak bilinen gazların kinetik teorisinin temel varsayımıyla ilişkilidir . Bu, bir çarpışmaya giren parçacıkları karakterize eden dağılım fonksiyonunun çarpanlara ayrılabileceğini ileri sürer. Bu ifade kesinlikle fiziksel bir hipotez olarak anlaşılsa da, çarpışmadan önce parçacıkların en olası konfigürasyonuna ilişkin sezgisel bir hipotez olarak da yorumlanabilir.

Ayrıca bakınız

Notlar

Referanslar

daha fazla okuma