Gizli Markov modeli - Hidden Markov model

Gizli Markov Modeli ( HMM ), modellenen sistemin gözlemlenemeyen (" gizli ") durumları olan bir Markov süreci gibi davrandığının varsayıldığı istatistiksel bir Markov modelidir . Tanımın bir parçası olarak, HMM , davranışı bilinen bir şekilde "etkilenen" gözlemlenebilir bir süreç olduğunu varsayar . Amaç gözlemleyerek öğrenmektir . HMM, her zaman örneğinin sonucunun, yalnızca ve geçmişlerinin ve önceki sonuçların sonuçlarından "etkilenmesini" gerektirir . ${\görüntüleme stili Y_{n}}$ ${\görüntüleme stili X}$ ${\görüntüleme stili X}$ ${\görüntüleme stili Y}$ ${\görüntüleme stili t=n_{0},}$ $Y_{n_{0}}$ $X_{n_{0}},$ $\{X_{n}\}_{n<n_{0}}$ $\{Y_{n}\}_{n<n_{0}},$ $Y_{n_{0}}.$

Gizli Markov modelleri, termodinamik , istatistiksel mekanik , fizik , kimya , ekonomi , finans , sinyal işleme , bilgi teorisi , örüntü tanıma - konuşma , el yazısı , jest tanıma , konuşma parçası etiketleme , nota takibi gibi uygulamalarıyla bilinir. , kısmi deşarjlar ve biyoinformatik .

Tanım

Let ve ayrık zaman stokastik süreçler ve . Çift , eğer gizli bir Markov modeli ise $X_{n}$ ${\görüntüleme stili Y_{n}}$ $n\geq 1$ ${\görüntüleme stili (X_{n},Y_{n})}$

$X_{n}$ davranışı doğrudan gözlemlenemeyen ("gizli") bir Markov sürecidir ;
$\operatöradı {\mathbf {P} } {\bigl (}Y_{n}\in A\ {\bigl |}\ X_{1}=x_{1},\ldots ,X_{n}=x_ {n}{\bigr )}=\operatöradı {\mathbf {P} } {\bigl (}Y_{n}\in A\ {\bigl |}\ X_{n}=x_{n}{\bigr ) },$

Her için ve her Borel kümesi .

n\geq 1,

x_{1},\ldots ,x_{n},

{\görüntüleme stili A}

Sürekli-zamanlı stokastik süreçler olsun ve olsun . Çift , eğer gizli bir Markov modeli ise $X_{t}$ ${\görüntüleme stili Y_{t}}$ ${\görüntüleme stili (X_{t},Y_{t})}$

$X_{t}$ davranışı doğrudan gözlemlenemeyen ("gizli") bir Markov sürecidir;
$\operatöradı {\mathbf {P} } (Y_{t_{0}}\in A\mid \{X_{t}\in B_{t}\}_{t\leq t_{0}}) =\operatöradı {\mathbf {P} } (Y_{t_{0}}\in A\mid X_{t_{0}}\in B_{t_{0}})$ ,

Her için her Borel kümesi ve Borel kümeleri her aileden

{\görüntüleme stili t_{0},}

{\görüntüleme stili A,}

\{B_{t}\}_{t\leq t_{0}}.

terminoloji

Sürecin durumları (res. gizli durumlar olarak adlandırılır ve (res. , emisyon olasılığı veya çıktı olasılığı olarak adlandırılır) . $X_{n}$ $X_{t})$ $\operatöradı {\mathbf {P} } {\bigl (}Y_{n}\in A\mid X_{n}=x_{n}{\bigr )}$ $\operatöradı {\mathbf {P} } {\bigl (}Y_{t}\in A\mid X_{t}\inB_{t}{\bigr )})$

Örnekler

Gizli kavanozlardan top çekme

Şekil 1. Gizli bir Markov modelinin olasılık parametreleri (örnek)
X —
y durumları — olası gözlemler
a — durum geçiş olasılıkları
b — çıktı olasılıkları

Ayrık biçiminde, gizli bir Markov işlemi, urn probleminin değiştirme ile genelleştirilmesi olarak görselleştirilebilir (burada, urn'den gelen her bir öğe, bir sonraki adımdan önce orijinal urn'e döndürülür). Şu örneği ele alalım: Gözlemcinin göremediği bir odada bir cin vardır. Oda, her biri bilinen bir top karışımı içeren X1, X2, X3, ... kapları içerir, her top y1, y2, y3, ... olarak etiketlenir. Cin o odadaki bir kavanozu seçer ve rastgele o kavanozdan bir top çeker. Daha sonra, top, gözlemcinin topların sırasını gözlemleyebildiği ancak çekildikleri çömleğin sırasını göremediği bir taşıma bandına koyar. Cin çömleği seçmek için bazı prosedürlere sahiptir; için urn seçim n (-inci topu sadece rastgele bir sayı ve için urn seçimine bağlıdır n - 1) 'inci topu. urn seçimi, bu önceki urn'den önce seçilen urn'lere doğrudan bağlı değildir; bu nedenle buna Markov süreci denir . Şekil 1'in üst kısmı ile açıklanabilir.

Markov sürecinin kendisi gözlemlenemez, yalnızca etiketli topların dizisi gözlemlenir, bu nedenle bu düzenlemeye "gizli Markov süreci" denir. Bu, Şekil 1'de gösterilen diyagramın alt kısmı ile gösterilmektedir, burada y1, y2, y3, y4 toplarının her durumda çizilebileceği görülebilir. Gözlemci çömleğin bileşimini bilse ve taşıyıcı bant üzerinde örneğin y1, y2 ve y3 gibi üç bilye dizisini az önce gözlemlemiş olsa bile , gözlemci hala cin hangi kavanozu ( yani hangi durumda) çizdiğinden emin olamaz. gelen üçüncü top. Ancak gözlemci, üçüncü topun çömleğin her birinden gelme olasılığı gibi başka bilgileri de hesaplayabilir.

Hava tahmin oyunu

Birbirlerinden çok uzakta yaşayan ve o gün ne yaptıkları hakkında her gün telefonda konuşan iki arkadaşı, Alice ve Bob'u düşünün. Bob sadece üç etkinlikle ilgileniyor: parkta yürümek, alışveriş yapmak ve dairesini temizlemek. Ne yapacağınızın seçimi, yalnızca belirli bir gündeki hava durumuna göre belirlenir. Alice'in hava durumu hakkında kesin bir bilgisi yok ama genel eğilimleri biliyor. Alice, Bob'un her gün yaptığını söylediği şeye dayanarak havanın nasıl olduğunu tahmin etmeye çalışır.

Alice, havanın ayrı bir Markov zinciri olarak işlediğine inanıyor . "Yağmurlu" ve "Güneşli" olmak üzere iki durum vardır, ancak bunları doğrudan gözlemleyemez, yani ondan gizlenirler . Her gün, Bob'un hava durumuna bağlı olarak şu etkinliklerden birini gerçekleştirmesi için belirli bir şans vardır: "yürümek", "alışveriş yapmak" veya "temizlemek". Bob, Alice'e faaliyetlerini anlattığına göre, bunlar gözlemlerdir . Tüm sistem, gizli bir Markov modelinin (HMM) sistemidir.

Alice, bölgedeki genel hava durumunu ve Bob'un ortalama olarak ne yapmaktan hoşlandığını biliyor. Başka bir deyişle, HMM'nin parametreleri bilinmektedir. Python'da aşağıdaki gibi temsil edilebilirler :

states = ('Rainy', 'Sunny')
 
observations = ('walk', 'shop', 'clean')
 
start_probability = {'Rainy': 0.6, 'Sunny': 0.4}
 
transition_probability = {
   'Rainy' : {'Rainy': 0.7, 'Sunny': 0.3},
   'Sunny' : {'Rainy': 0.4, 'Sunny': 0.6},
   }
 
emission_probability = {
   'Rainy' : {'walk': 0.1, 'shop': 0.4, 'clean': 0.5},
   'Sunny' : {'walk': 0.6, 'shop': 0.3, 'clean': 0.1},
   }

Bu kod parçasında, start_probabilityAlice'in, Bob onu ilk aradığında HMM'nin hangi durumda olduğuna dair inancını temsil eder (tek bildiği, ortalama olarak yağmurlu olma eğiliminde olduğudur). Burada kullanılan belirli olasılık dağılımı, yaklaşık olarak (geçiş olasılıkları göz önüne alındığında) olan denge değildir {'Rainy': 0.57, 'Sunny': 0.43}. transition_probabilityAltta yatan Markov zincirinde hava değişimi temsil etmektedir. Bu örnekte, bugün yağmurluysa yarının güneşli olma olasılığı yalnızca %30'dur. emission_probabilityBob, her gün belirli bir aktiviteyi gerçekleştirmek etme ihtimalini temsil eder. Hava yağmurluysa dairesini temizliyor olma olasılığı %50'dir; hava güneşliyse, yürüyüşe çıkmış olma olasılığı %60'tır.

Benzer bir örnek, Viterbi algoritması sayfasında daha ayrıntılı olarak açıklanmıştır .

yapısal mimari

Aşağıdaki şema, somutlaştırılmış bir HMM'nin genel mimarisini göstermektedir. Her oval şekil, bir dizi değerden herhangi birini benimseyen rastgele bir değişkeni temsil eder. Rastgele değişken x ( t ), $t$ zamanındaki gizli durumdur (yukarıdaki diyagramdaki modelle, x ( t ) ∈ { x ₁ , x ₂ , x ₃ }). Rastgele değişken y ( t ), $t$ zamanındaki gözlemdir ( y ( t ) ∈ { y ₁ , y ₂ , y ₃ , y ₄ } ile). Diyagramdaki oklar (genellikle kafes diyagramı olarak adlandırılır ) koşullu bağımlılıkları gösterir.

Diyagramdan, açık koşullu olasılık gizli değişken bölgesinin x ( t süresi en) $t$ gizli değişken değerlerini göz önüne alındığında, $x$ her zaman, bağlı sadece gizli değişken değerine x ( t - 1 ); t − 2 zamanındaki ve öncesindeki değerlerin hiçbir etkisi yoktur. Buna Markov özelliği denir . Benzer şekilde, gözlenen değişken y ( t )'nin değeri yalnızca gizli değişken x ( t ) 'nin değerine bağlıdır (her ikisi de $t$ zamanında ).

Burada ele alınan standart tip gizli Markov modelinde, gizli değişkenlerin durum uzayı ayrıktır, gözlemlerin kendileri de ayrık (tipik olarak kategorik bir dağılımdan üretilir ) veya sürekli (tipik olarak bir Gauss dağılımından ) olabilir. Gizli bir Markov modelinin parametreleri iki tiptir, geçiş olasılıkları ve emisyon olasılıkları ( çıktı olasılıkları olarak da bilinir ). Geçiş olasılıkları, $t$ zamanındaki gizli durumun nasıl seçildiğini kontrol eder . ${\görüntüleme stili t-1}$

Gizli durum uzayının, kategorik bir dağılım olarak modellenen $N$ olası değerden birinden oluştuğu varsayılır . Böylece (diğer olasılıklarla uzantılar aşağıda bölüme bakınız.) Her biri için bu araçlar $, N$ olası durumları süre içinde gizli bir değişken olduğunu $t$ olabilir, bu durumda bir geçiş olasılığı her orada $, N$ olası durumları toplam geçiş olasılıkları için zamandaki gizli değişken . Herhangi bir verili durumdan geçişler için geçiş olasılıkları kümesinin toplamının 1 olması gerektiğine dikkat edin. Bu nedenle, geçiş olasılıkları matrisi bir Markov matrisidir . Herhangi bir geçiş olasılığı, diğerleri bilindiğinde belirlenebildiğinden, toplam geçiş parametreleri vardır. ${\ Displaystyle t+1}$ ${\ Displaystyle N^{2}}$ ${\görüntüleme stili N\kez N}$ ${\görüntüleme stili N(N-1)}$

Ek olarak, $N$ olası durumun her biri için , o andaki gizli değişkenin durumu verilen belirli bir zamanda gözlenen değişkenin dağılımını yöneten bir dizi emisyon olasılığı vardır. Bu kümenin boyutu, gözlenen değişkenin doğasına bağlıdır. Örneğin, gözlenen değişken, kategorik bir dağılım tarafından yönetilen $M$ olası değerlere sahip ayrık ise , tüm gizli durumlar üzerinde toplam emisyon parametreleri için ayrı parametreler olacaktır . Gözlenen değişken bir bir Diğer yandan, $E$ isteğe bağlı bir e göre dağıtılmış boyutlu vektör değişkenli Gauss dağılımı , olacak $E$ kontrol eden parametreler vasıtası ile kontrol parametrelerini kovaryans matrisi bir toplam, emisyon parametreleri. (Böyle bir durumda, $M'nin$ değeri küçük olmadığı sürece, gözlem vektörünün bireysel elemanları arasındaki kovaryansların doğasını kısıtlamak, örneğin elemanların birbirinden bağımsız olduğunu varsayarak veya daha az kısıtlayıcı bir şekilde, daha pratik olabilir, sabit sayıda bitişik öğe dışında hepsinden bağımsızdır.) ${\görüntüleme stili M-1}$ ${\görüntüleme stili N(M-1)}$ ${\frac {M(M+1)}{2}}$ $N\sol(M+{\frac {M(M+1)}{2}}\sağ)={\frac {NM(M+3)}{2}}=O(NM^{2} )$

çıkarım

Bir HMM'nin durum geçişi ve çıkış olasılıkları, diyagramın üst kısmındaki çizgi opaklığı ile gösterilir. Diyagramın alt kısmındaki çıktı dizisini gözlemlediğimize göre, onu üretmiş olabilecek en olası durum dizisiyle ilgilenebiliriz. Diyagramda bulunan oklara dayanarak, aşağıdaki durum dizileri adaydır:
5 3 2 5 3 2
4 3 2 5 3 2
3 1 2 5 3 2
Her ikisinin ortak olasılığını değerlendirerek en olası diziyi bulabiliriz. durum dizisi ve her bir durum için gözlemler (sadece burada ilgili okların opaklıklarına karşılık gelen olasılık değerlerinin çarpılmasıyla). Genel olarak, bu tür bir problem (yani bir gözlem dizisi için en olası açıklamanın bulunması), Viterbi algoritması kullanılarak verimli bir şekilde çözülebilir .

Aşağıda özetlendiği gibi, birkaç çıkarım problemi, gizli Markov modelleriyle ilişkilidir.

Gözlenen bir dizinin olasılığı

Görev, modelin parametreleri göz önüne alındığında, belirli bir çıktı dizisinin olasılığını en iyi şekilde hesaplamaktır. Bu, tüm olası durum dizileri üzerinde toplama gerektirir:

Bir dizi gözlemleme olasılığı

{\görüntüleme stili Y=y(0),y(1),\noktalar ,y(L-1)\,}

uzunluk L ile verilir

P(Y)=\sum _{X}P(Y\orta X)P(X),\,

toplamın tüm olası gizli düğüm dizileri üzerinde çalıştığı yer

{\görüntüleme stili X=x(0),x(1),\dots ,x(L-1).\,}

Dinamik programlama ilkesini uygulayarak , bu problem de ileri algoritma kullanılarak verimli bir şekilde ele alınabilir .

Gizli değişkenlerin olasılığı

Bir dizi ilgili görev, modelin parametreleri ve bir dizi gözlem göz önüne alındığında, bir veya daha fazla gizli değişkenin olasılığını sorar. ${\görüntüleme stili y(1),\noktalar,y(t).}$

filtreleme

Görev, modelin parametreleri ve bir dizi gözlem verildiğinde, dizinin sonundaki son gizli değişkenin gizli durumları üzerindeki dağılımı hesaplamak, yani hesaplamaktır . Bu görev, normalde, gizli değişkenler dizisinin, bir sürecin bir dizi zaman noktasında hareket ettiği ve zaman içindeki her bir noktada karşılık gelen gözlemlerle birlikte hareket ettiği temel durumlar olarak düşünüldüğünde kullanılır. O zaman, sürecin sonundaki durumunu sormak doğaldır. ${\görüntüleme stili P(x(t)\ |\ y(1),\noktalar,y(t))}$

Bu sorun, ileri algoritma kullanılarak verimli bir şekilde ele alınabilir .

yumuşatma

Bu, filtrelemeye benzer, ancak bir dizinin ortasında bir yerde gizli bir değişkenin dağılımını sorar, yani bazıları için hesaplamak için . Yukarıda açıklanan perspektiften, bu, t zamanına göre geçmişte k zamanındaki bir nokta için gizli durumlar üzerindeki olasılık dağılımı olarak düşünülebilir . ${\görüntüleme stili P(x(k)\ |\ y(1),\noktalar,y(t))}$ ${\görüntüleme stili k<t}$

İleri-geri algoritması tüm gizli durum değişkenleri için düzeltilmiş değerlerinin hesaplanması için iyi bir yöntem.

Büyük olasılıkla açıklama

Görev, önceki ikisinin aksine sorar ortak olasılık ait tüm (sağda resme bakın) gözlemlerin belirli dizisi oluşturulan gizli devletlerin dizisi. Bu görev, genellikle HMM'ler, filtreleme ve yumuşatma görevlerinin uygulanabilir olduğu problemlerden farklı türdeki problemlere uygulandığında uygulanabilir. Bir örnek, gizli durumların, gözlemlenen bir kelime dizisine karşılık gelen konuşmanın temel kısımlarını temsil ettiği konuşmanın bir kısmı etiketlemesidir . Bu durumda, süzgeçleme veya düzgünleştirmenin hesaplayacağı gibi, tek bir kelime için konuşmanın bir bölümünden ziyade, konuşma bölümlerinin tüm dizisi ilgi çekicidir.

Bu görev, tüm olası durum dizileri üzerinde bir maksimum bulmayı gerektirir ve Viterbi algoritması tarafından verimli bir şekilde çözülebilir .

İstatistiksel anlamlılık

Yukarıdaki sorunlardan bazıları için, istatistiksel anlamlılık hakkında soru sormak da ilginç olabilir . Bazı boş dağılımlardan çizilen bir dizinin bir HMM olasılığına (ileri algoritma durumunda) veya maksimum durum dizisi olasılığına (Viterbi algoritması durumunda) en az belirli bir dizininki kadar büyük olma olasılığı nedir? çıkış sırası? Belirli bir çıktı dizisi için bir hipotezin uygunluğunu değerlendirmek için bir HMM kullanıldığında, istatistiksel anlamlılık , çıktı dizisi için hipotezin reddedilmemesiyle bağlantılı yanlış pozitif oranı gösterir .

Öğrenme

HMM'lerde parametre öğrenme görevi, bir çıktı dizisi veya bir dizi dizi verildiğinde, en iyi durum geçişi ve emisyon olasılıkları setini bulmaktır. Görev genellikle , çıktı dizileri kümesi verilen HMM parametrelerinin maksimum olabilirlik tahminini elde etmektir . Bu sorunu tam olarak çözmek için izlenebilir bir algoritma bilinmemektedir, ancak Baum-Welch algoritması veya Baldi-Chauvin algoritması kullanılarak yerel bir maksimum olabilirlik verimli bir şekilde türetilebilir . Baum-Welch algoritması özel bir durumdur beklenti-maksimizasyonu algoritması .

HMM'ler zaman serisi tahmini için kullanılıyorsa, Markov zinciri Monte Carlo (MCMC) örneklemesi gibi daha karmaşık Bayes çıkarım yöntemlerinin, hem doğruluk hem de kararlılık açısından tek bir maksimum olabilirlik modeli bulmaya göre elverişli olduğu kanıtlanmıştır. MCMC, önemli hesaplama yükü getirdiğinden, hesaplama ölçeklenebilirliğinin de ilgi çekici olduğu durumlarda, alternatif olarak Bayes çıkarımına varyasyonel yaklaşımlara başvurulabilir, örn. kesin MCMC tipi Bayes çıkarımından daha düşüktür.

Uygulamalar

Çoklu dizi hizalamasını modelleyen bir profil HMM

HMM'ler, amacın hemen gözlemlenemeyen bir veri dizisini kurtarmak olduğu (ancak diziye bağlı diğer verilerdir) birçok alanda uygulanabilir. Uygulamalar şunları içerir:

Tarih

Gizli Markov modelleri , 1960'ların ikinci yarısında Leonard E. Baum ve diğer yazarlar tarafından bir dizi istatistiksel makalede tanımlandı . HMM'lerin ilk uygulamalarından biri , 1970'lerin ortalarından başlayarak konuşma tanıma idi .

1980'lerin ikinci yarısında, HMM'ler biyolojik dizilerin, özellikle DNA'nın analizine uygulanmaya başlandı . O zamandan beri, biyoinformatik alanında her yerde bulunur hale geldiler .

Uzantılar

Yukarıda ele alınan gizli Markov modellerinde, gizli değişkenlerin durum uzayı ayrık iken, gözlemlerin kendileri ayrık (tipik olarak kategorik bir dağılımdan üretilir ) veya sürekli (tipik olarak bir Gauss dağılımından ) olabilir. Gizli Markov modelleri, sürekli durum uzaylarına izin vermek için genelleştirilebilir. Bu tür modellere örnek olarak, gizli değişkenler üzerindeki Markov sürecinin , ilgili değişkenler arasında doğrusal bir ilişki ile doğrusal bir dinamik sistem olduğu ve tüm gizli ve gözlenen değişkenlerin Gauss dağılımını takip ettiği modeller verilebilir . Az önce bahsedilen doğrusal dinamik sistem gibi basit durumlarda, kesin çıkarım izlenebilirdir (bu durumda Kalman filtresi kullanılarak ); bununla birlikte, genel olarak, sürekli gizli değişkenlere sahip HMM'lerde kesin çıkarım yapmak mümkün değildir ve genişletilmiş Kalman filtresi veya parçacık filtresi gibi yaklaşık yöntemler kullanılmalıdır .

Gizli Markov modelleri generatif model içinde, ortak bir dağıtım eşdeğer gözlem ve gizli durumları, ya da her ikisi önceden dağılımı gizli durumlarının ( geçiş olasılıkları ) ve koşullu dağılım durumları (verilen gözlemler emisyon olasılıkları ), modellenmiştir. Yukarıdaki algoritmalar , geçiş olasılıkları üzerinde örtük olarak tek biçimli bir ön dağılım varsaymaktadır . Bununla birlikte, diğer ön dağıtım türleri ile gizli Markov modelleri oluşturmak da mümkündür. Geçiş olasılıklarının kategorik dağılımı göz önüne alındığında bariz bir aday, kategorik dağılımın eşlenik ön dağılımı olan Dirichlet dağılımıdır. Tipik olarak, hangi durumların doğası gereği diğerlerinden daha olası olduğu konusundaki bilgisizliği yansıtan simetrik bir Dirichlet dağılımı seçilir. Bu dağılımın tek parametresi ( konsantrasyon parametresi olarak adlandırılır ), elde edilen geçiş matrisinin göreli yoğunluğunu veya seyrekliğini kontrol eder. 1 seçimi, düzgün bir dağılım sağlar. 1'den büyük değerler, durum çiftleri arasındaki geçiş olasılıklarının neredeyse eşit olduğu yoğun bir matris üretir. 1'den küçük değerler, verilen her kaynak durum için yalnızca az sayıda hedef durumun ihmal edilemez geçiş olasılıklarına sahip olduğu seyrek bir matrisle sonuçlanır. Aynı zamanda, bir Dirichlet dağılımının (üst dağılım) başka bir Dirichlet dağılımının (alt dağılım) parametrelerini yönettiği ve dolayısıyla geçiş olasılıklarını yöneten iki seviyeli bir ön Dirichlet dağılımı kullanmak da mümkündür. Üst dağılım, durumların genel dağılımını yöneterek her bir durumun ne kadar olası olduğunu belirler; konsantrasyon parametresi durumların yoğunluğunu veya seyrekliğini belirler. Her iki konsantrasyon parametresinin de seyrek dağılımlar üretecek şekilde ayarlandığı böyle bir iki seviyeli ön dağılım, örneğin, konuşmanın bazı bölümlerinin diğerlerinden çok daha sık meydana geldiği denetimsiz konuşma parçası etiketlemede yararlı olabilir ; tek tip bir önsel dağılımı varsayan öğrenme algoritmaları genellikle bu görevde yetersiz performans gösterir. Düzgün olmayan ön dağılımlara sahip bu tür modellerin parametreleri, Gibbs örneklemesi veya beklenti-maksimizasyon algoritmasının genişletilmiş versiyonları kullanılarak öğrenilebilir .

Dirichlet öncelikleri ile daha önce açıklanan gizli Markov modellerinin bir uzantısı, bir Dirichlet dağıtımı yerine bir Dirichlet işlemi kullanır . Bu tür bir model, bilinmeyen ve potansiyel olarak sonsuz sayıda duruma izin verir. İki seviyeli Dirichlet dağılımına sahip daha önce açıklanan modele benzer şekilde iki seviyeli bir Dirichlet işlemi kullanmak yaygındır. Böyle bir modele hiyerarşik Dirichlet işlemi gizli Markov modeli veya kısaca HDP-HMM denir . Başlangıçta "Sonsuz Gizli Markov Modeli" adı altında tanımlandı ve daha da resmileştirildi.

Farklı bir uzantı türü , standart HMM'lerin üretici modeli yerine ayırt edici bir model kullanır . Bu tür bir model, ortak dağılımı modellemek yerine, gözlemler verilen gizli durumların koşullu dağılımını doğrudan modeller. Bu modelin bir örneği , durumların koşullu dağılımını lojistik regresyon (" maksimum entropi modeli" olarak da bilinir) kullanarak modelleyen maksimum entropi Markov modelidir (MEMM ). Bu tür bir modelin avantajı, gözlemlerin keyfi özelliklerinin (yani fonksiyonlarının) modellenebilmesi ve eldeki problemin alana özgü bilgisinin modele enjekte edilebilmesidir. Bu tür modeller, gizli bir durum ve bununla ilişkili gözlem arasındaki doğrudan bağımlılıkları modellemekle sınırlı değildir; daha ziyade, yakın gözlemlerin özellikleri, ilişkili gözlem ve yakın gözlemlerin kombinasyonlarının veya aslında belirli bir gizli durumdan herhangi bir mesafedeki keyfi gözlemlerin özellikleri, gizli bir durumun değerini belirlemek için kullanılan sürece dahil edilebilir. Ayrıca, bu özelliklerin üretici bir modelde kullanılması durumunda olduğu gibi, bu özelliklerin istatistiksel olarak birbirinden bağımsız olmasına gerek yoktur . Son olarak, basit geçiş olasılıkları yerine bitişik gizli durum çiftleri üzerindeki keyfi özellikler kullanılabilir. Bu tür modellerin dezavantajları şunlardır: (1) Gizli durumlara yerleştirilebilecek önceki dağıtım türleri ciddi şekilde sınırlıdır; (2) Rastgele bir gözlem görme olasılığını tahmin etmek mümkün değildir. Bu ikinci sınırlama, HMM'lerin birçok yaygın kullanımı bu tür tahmin olasılıkları gerektirmediğinden, uygulamada genellikle bir sorun değildir.

Daha önce açıklanan ayırt edici modelin bir varyantı, doğrusal zincir koşullu rastgele alandır . Bu , MEMM'lerin ve benzer modellerin yönlendirilmiş grafik modelleri yerine yönlendirilmemiş bir grafik modeli (aka Markov rastgele alanı ) kullanır . Bu tür bir modelin avantajı, MEMM'lerin etiket yanlılığı olarak adlandırılan probleminden etkilenmemesi ve dolayısıyla daha doğru tahminler yapabilmesidir. Dezavantajı, eğitimin MEMM'lerden daha yavaş olabilmesidir.

Yine başka bir varyant, tek bir Markov zinciri yerine bir dizi bağımsız Markov zincirinin karşılık gelen gizli değişkenleri üzerinde tek bir gözlemin koşullanmasına izin veren faktöriyel gizli Markov modelidir . Durumları olan ( her zincir için durumlar olduğu varsayılırsa) tek bir HMM'ye eşdeğerdir ve bu nedenle böyle bir modelde öğrenme zordur: bir uzunluk dizisi için basit bir Viterbi algoritmasının karmaşıklığı vardır . Kesin bir çözüm bulmak için bir bağlantı ağacı algoritması kullanılabilir, ancak bu bir karmaşıklıkla sonuçlanır . Uygulamada, varyasyonel yaklaşımlar gibi yaklaşık teknikler kullanılabilir. ${\görüntüleme stili K}$ ${\görüntüleme stili N^{K}}$ ${\görüntüleme stili N}$ ${\görüntüleme stili T}$ ${\görüntüleme stili O(N^{2K}\,T)}$ $O(N^{K+1}\,K\,T)$

Yukarıdaki modellerin tümü, gizli durumlar arasında daha uzak bağımlılıklara izin verecek şekilde genişletilebilir, örneğin belirli bir durumun tek bir önceki durumdan ziyade önceki iki veya üç duruma bağımlı olmasına izin verilmesi; yani geçiş olasılıkları, üç veya dört bitişik durumdan (veya genel olarak bitişik durumlardan) oluşan kümeleri kapsayacak şekilde genişletilir . Bu tür modellerin dezavantajı, onları eğitmek için dinamik programlama algoritmalarının bitişik durumlar ve toplam gözlemler (yani uzunluk- Markov zinciri) için bir çalışma süresine sahip olmasıdır . ${\görüntüleme stili K}$ ${\ Displaystyle O(N^{K}\,T)}$ ${\görüntüleme stili K}$ ${\görüntüleme stili T}$ ${\görüntüleme stili T}$

Son zamanlardaki diğer bir uzantı, bazı veri özelliklerini modellemek için yardımcı bir temel sürecin eklendiği üçlü Markov modelidir . Bu modelin birçok çeşidi önerilmiştir. Bir de arasında kurulmuştur ilginç bağlantıyı belirtmeliyim kanıt teorisi ve üçlü Markov modelleri Markov bağlamda ve durağan olmayan verileri modellemek için sigorta verilerine izin verir ve. Son literatürde alternatif çok akışlı veri birleştirme stratejilerinin de önerildiğini unutmayın, örn.

Son olarak, 2012'de, durağan olmayan verilerin gizli Markov modelleri aracılığıyla modellenmesi sorununun ele alınmasına yönelik farklı bir mantık önerildi. Zamansal dinamiklerin evrimini yakalamak için küçük bir tekrarlayan sinir ağının (RNN), özellikle bir rezervuar ağının kullanılmasından oluşur. gözlemlenen verilerde Yüksek boyutlu bir vektör biçiminde kodlanan bu bilgi, HMM durum geçiş olasılıklarının koşullandırma değişkeni olarak kullanılır. Böyle bir kurulum altında, sonunda, bazı gerçekçi olmayan geçici zamansal evrim modelinin aksine, verilerin kendisinden çıkarılan bir şekilde geçiş olasılıkları zaman içinde gelişen durağan olmayan bir HMM elde ederiz.

Boylamsal veriler bağlamında uygun olan model, gizli Markov modeli olarak adlandırılır. Bu modelin temel versiyonu, bireysel değişkenleri, rastgele etkileri içerecek ve çok düzeyli veriler gibi daha karmaşık veri yapılarını modelleyecek şekilde genişletilmiştir. Model varsayımlarına ve pratik kullanımlarına özel dikkat gösterilerek, gizli Markov modellerine tam bir genel bakış şurada verilmektedir:

Ayrıca bakınız

Andrey Markov
Baum-Welch algoritması
Bayes çıkarımı
Bayes programlama
Richard James Erkekler
koşullu rastgele alan
tahmin teorisi
HHpred / HHsearch ücretsiz sunucu ve protein dizisi arama yazılımı
HMMER , protein dizi analizi için ücretsiz bir gizli Markov model programı
Gizli Bernoulli modeli
Gizli yarı Markov modeli
Hiyerarşik gizli Markov modeli
Katmanlı gizli Markov modeli
Sıralı dinamik sistem
Stokastik bağlamdan bağımsız dilbilgisi
Zaman Serisi Analizi
Değişken sıralı Markov modeli
Viterbi algoritması

Referanslar

Dış bağlantılar

kavramlar

Teif, VB; Rippe, K. (2010). "Kromatinde protein-DNA bağlanması için istatistiksel-mekanik kafes modelleri". J. Phys.: Yoğunlar. önemli . 22 (41): 414105. arXiv : 1004.5514 . Bibcode : 2010JPCM...22O4105T . doi : 10.1088/0953-8984/22/41/414105 . PMID 21386588 . S2CID 103345 .
San Jose Eyalet Üniversitesi'nden Mark Stamp tarafından Gizli Markov Modellerine Açıklayıcı Bir Giriş .
HMM'lerin beklenti maksimizasyonu ile takılması – tam türetme
HMM'ler hakkında adım adım bir eğitim (Leeds Üniversitesi)
Gizli Markov Modelleri (temel matematik kullanan bir anlatım)
Gizli Markov Modelleri (tarafından Narada Warakagoda)
Gizli Markov Modelleri: Temeller ve Uygulamalar Bölüm 1 , Bölüm 2 (V. Petrushin tarafından)
Jason Eisner tarafından hazırlanan Elektronik Tabloda Anlatım, Video ve etkileşimli elektronik tablo

Languages

In other projects