İstatistiksel dernek futbol tahminleri - Statistical association football predictions

İstatistiksel Futbol tahmini , spor bahislerinde , istatistiksel araçlar vasıtasıyla futbol maçlarının sonucunu tahmin etmek için kullanılan bir yöntemdir . İstatistiksel maç tahmininin amacı , onları futbol maçlarının sonucuyla ilgili oranlar belirlemek için kullanan bahisçilerin tahminlerinden daha iyi performans göstermektir .

Tahmin için en yaygın kullanılan istatistiksel yaklaşım sıralamadır . Futbol sıralama sistemleri, her takıma geçmiş maç sonuçlarına göre bir sıralama atar, böylece en yüksek sıralama en güçlü takıma atanır. Maçın sonucu, rakiplerin sıralarını karşılaştırarak tahmin edilebilir. Birkaç farklı futbol sıralama sistemi mevcuttur, örneğin bazıları yaygın olarak bilinen FIFA Dünya Sıralaması veya Dünya Futbolu Elo Derecelendirmesidir .

Sıralama sistemlerine dayalı futbol maçı tahminlerinin üç ana dezavantajı vardır:

Takımlara atanan dereceler, onların hücum ve savunma güçleri arasında ayrım yapmaz.
Sıralamalar, futbol takımlarındaki beceri değişikliklerini hesaba katmayan birikmiş ortalamalardır.
Bir sıralama sisteminin temel amacı, futbol maçlarının sonuçlarını tahmin etmek değil, takımları ortalama güçlerine göre sıralamaktır.

Futbol tahminine başka bir yaklaşım, derecelendirme sistemleri olarak bilinir . Sıralama yalnızca takım sıralamasına atıfta bulunurken, derecelendirme sistemleri her takıma sürekli olarak ölçeklenen bir güç göstergesi atar. Ayrıca, derecelendirme sadece bir takıma değil, aynı zamanda hücum ve savunma kuvvetlerine, ev sahibi saha avantajına ve hatta her takım oyuncusunun becerilerine (Stern'e göre) atanabilir.

Tarih

Futbol öngörüleri için istatistiksel modelleri hakkında Yayınlar 90s görünmeye başladı, ancak ilk modeli çok daha erken onun analize göre 1956 yılında futbol maçı sonuçlarının ilk istatistiksel analiz yayınladı Moroney, hem tarafından önerilmiştir Poisson dağılımı ve negatif binom dağılımı sağlanır futbol oyunlarının sonuçlarına uygun bir uyum. Futbol maçları sırasında oyuncular arasında geçen top serisi, 1968'de Reep ve Benjamin tarafından negatif binom dağılımı kullanılarak başarılı bir şekilde analiz edildi. 1971'de bu yöntemi geliştirdiler ve 1974'te Hill, futbol maç sonuçlarının bir dereceye kadar tahmin edilebilir olduğunu ve sadece bir mesele olmadığını belirtti. şans eseri.

Farklı becerilere sahip takımlar arasındaki futbol maçlarının sonuçlarını tahmin eden ilk model, 1982 yılında Michael Maher tarafından önerildi. Modeline göre, rakiplerin oyun sırasında attığı goller Poisson dağılımından çiziliyor . Model parametreleri, hücum ve savunma becerileri arasındaki farkla tanımlanır ve ev sahibi avantajı faktörü ile ayarlanır. Ev sahibi avantajı faktörünü modelleme yöntemleri, 1992'de Caurneya ve Carron tarafından bir makalede özetlenmiştir. Takım güçlerinin zamana bağımlılığı 1999'da Knorr-Held tarafından analiz edilmiştir. Futbol takımlarını derecelendirmek için yinelemeli Bayes tahminini kullanmıştır : bu yöntem daha ortak ortalama istatistiklere dayalı futbol tahminine kıyasla gerçekçi.

Futbol Tahmin Yöntemleri

Tüm tahmin yöntemleri turnuva tipine, zamana bağlılığa ve regresyon algoritmasına göre kategorize edilebilir. Futbol tahmin yöntemleri Round-robin turnuvası ve Knockout yarışması arasında değişiklik gösterir . Knockout yarışmasının yöntemleri Diego Kuonen'in bir makalesinde özetlenmiştir.

Aşağıdaki tablo Round-robin turnuvası ile ilgili yöntemleri özetlemektedir .

#	kod	Tahmin Yöntemi	Regresyon Algoritması	Zamana Bağlılık	Verim
1.	TILS	Zamandan Bağımsız En Küçük Kareler Derecelendirmesi	Doğrusal En Küçük Kareler Regresyonu	Numara	Fakir
2.	TİPR	Zamandan Bağımsız Poisson Regresyonu	Maksimum Olasılık	Numara	Orta
3.	TISR	Zamandan Bağımsız Skellam Regresyonu	Maksimum Olasılık	Numara	Orta
4.	TDPR	Zamana Bağlı Poisson Regresyonu	Maksimum Olasılık	Zaman damping faktörü	Yüksek
5.	TDMC	Zamana Bağlı Markov Zinciri	Monte Carlo	Markov Zinciri modeli	Yüksek

Zamandan Bağımsız En Küçük Kareler Derecelendirmesi

Bu yöntem, turnuvadaki her takıma sürekli olarak ölçeklenen bir reyting değeri atamayı amaçlar, böylece en güçlü takım en yüksek reytinge sahip olur. Yöntem, rakip takımlara verilen reytingin her maçın sonucuyla orantılı olduğu varsayımına dayanmaktadır.

A, B, C ve D takımlarının bir turnuvada oynadığını ve maç sonuçlarının aşağıdaki gibi olduğunu varsayalım:

Kibrit #	Ev sahibi takım	Puan	Deplasman Takımı	Y
1	A	3 - 1	B	$y_{1}=3-1$
2	C	2 - 1	NS	$y_{2}=2-1$
3	NS	1 - 4	B	$y_{3}=1-4$
4	A	3 - 1	NS	$y_{4}=3-1$
5	B	2 - 0	C	$y_{5}=2-0$

Değerlendirmesi rağmen , , ve takımların A, B, C ve D sırasıyla bilinmemektedir, maçın 1. sonucunun ekipleri A ve B saflarına arasındaki fark ile orantılıdır farz edilebilir: . Bu sayede skor farkına tekabül eder ve gürültü gözlemidir. Turnuvadaki tüm maçlar için aynı varsayım yapılabilir: ${\görüntüleme stili r_{A}}$ ${\görüntüleme stili r_{B}}$ ${\görüntüleme stili r_{C}}$ ${\görüntüleme stili r_{D}}$ $y_{1}=r_{A}-r_{B}+\varepsilon _{1}$ ${\görüntüleme stili y_{1}}$ $\varepsilon _{1}$

{\begin{matrix}y_{1}=r_{A}-r_{B}+\varepsilon _{1}\\y_{2}=r_{C}-r_{D}+\varepsilon _ {2}\\...\\y_{5}=r_{B}-r_{C}+\varepsilon _{5}\\\end{matrix}}

Bir seçim matrisi X tanıtılarak, yukarıdaki denklemler kompakt bir biçimde yeniden yazılabilir:

\mathbf {y} =\mathbf {Xr} +\mathbf {e}

Seçim matrisinin girişleri, 1 ev sahibi takımlara ve -1 deplasman takımlarına karşılık gelen 1, 0 veya -1 olabilir:

{\begin{matrix}\mathbf {y} =\left[{\begin{matris}2\\1\\-3\\2\\2\\\end{matris}}\sağ], &\mathbf {X} =\left[{\begin{matris}1&-1&0&0\\0&0&1&-1\\0&-1&0&1\\1&0&0&-1\\0&1&-1&0\\\end{matris}}\sağ] ,&\mathbf {r} =\left[{\begin{matrix}r_{A}\\r_{B}\\r_{C}\\r_{D}\\\end{matris}}\sağ] ,&\mathbf {e} =\left[{\begin{matrix}\varepsilon _{1}\\\varepsilon _{2}\\\varepsilon _{3}\\\varepsilon _{4}\\\ varepsilon _{5}\\\end{matris}}\sağ]\\\end{matris}}

Matris tam ranklı ise sistemin cebirsel çözümü En Küçük kareler yöntemi ile bulunabilir: $\mathbf {X} ^{T}\mathbf {X}$

\mathbf {r} =\left(\mathbf {X} ^{T}\mathbf {X} \sağ)^{-1}\mathbf {X} ^{T}\mathbf {y}

Değilse, aşağıdakileri elde etmek için Moore-Penrose sözde tersini kullanabilir:

\mathbf {r} =\mathbf {X} ^{+}\mathbf {y}

Son reyting parametreleri: Bu durumda en güçlü takım en yüksek reytinge sahiptir. Standart sıralama sistemlerine kıyasla bu derecelendirme yönteminin avantajı, sayıların sürekli olarak ölçeklenmesi ve ekiplerin güçleri arasındaki kesin farkı tanımlamasıdır. $\mathbf {r} =[1.625,\ 0.75,\ -0.875,\ -1.5]^{T}.$

Zamandan Bağımsız Poisson Regresyonu

Bu modelde (Maher) 'a göre, eğer ve ekibi ı ardından takım j, karşı oynadığı maçta attı hedefler şunlardır: $X_{i,j}$ ${\görüntüleme stili Y_{i,j}}$

{\begin{aligned}X_{i,j}&\sim {\text{Poisson}}(\lambda )\\Y_{i,j}&\sim {\text{Poisson}}(\mu )\\\end{hizalanmış}}

$X_{i,j}$ ve araçlarla bağımsız rasgele değişkenlerdir ve . Böylece, ev sahibi takımın x gol atması ve deplasman takımının y gol atmasının ortak olasılığı, iki bağımsız olasılığın bir ürünüdür: ${\görüntüleme stili Y_{i,j}}$ ${\ Displaystyle \ lambda }$ ${\görüntüleme stili \mu }$

P\left(X_{i,j}=x,Y_{i,j}=y\sağ)={\frac {\lambda ^{x}\exp(-\lambda )}{x!} }{\frac {\mu ^{y}\exp(-\mu )}{y!}}

Kuonen ve Lee'ye göre ve için genelleştirilmiş log-lineer model şu şekilde tanımlanır: ve burada sırasıyla hücum ve savunma güçleri ve ev sahası avantajına atıfta bulunur. ve sezon boyunca ev sahibi ve deplasman takımları tarafından atılan gollerin ortalamasını temsil eden düzeltme faktörleridir. ${\ Displaystyle \ lambda }$ ${\görüntüleme stili \mu }$ $\log \left(\lambda \sağ)=c^{\lambda }+a_{i}-d_{j}+h$ $\log \left(\mu \sağ)=c^{\mu }+a_{j}-d_{i}$ $a_{i},d_{i},h>0$ ${\ Displaystyle c^{\lambda }}$ ${\görüntüleme stili c^{\mu }}$

C'nin bir sezona katılan takım sayısını ve N'nin şimdiye kadar oynanan maç sayısını temsil ettiğini varsayarsak, takım güçleri, ve ile ilgili olarak negatif log-olasılık fonksiyonunu en aza indirerek tahmin edilebilir : ${\ Displaystyle \ lambda }$ ${\görüntüleme stili \mu }$

{\begin{hizalanmış}&L(a_{i},d_{i},h;\ i=1,..C)=-\log \prod \limits _{n=1}^{N} {{\frac {\lambda _{n}^{x_{n}}\exp(-\lambda _{n})}{x_{n}!}}{\frac {\mu _{n}^{ y_{n}}\exp(-\mu _{n})}{y_{n}!}}}\\&=-\sum \limits _{n=1}^{N}{\log \left ({\frac {\lambda _{n}^{x_{n}}\exp(-\lambda _{n})}{x_{n}!}}{\frac {\mu _{n}^{ y_{n}}\exp(-\mu _{n})}{y_{n}!}}\sağ)}\\&=\sum \limits _{n=1}^{N}{\lambda _{n}}+\sum \limits _{n=1}^{N}{\mu _{n}}-\left(\sum \limits _{n=1}^{N}{x_{n }\log \left(\lambda _{n}\sağ)}\sağ)-\left(\sum \limits _{n=1}^{N}{y_{n}\log \left(\mu _ {n}\sağ)}\sağ)+\sum \limits _{n=1}^{N}{\log \left(x_{n}!\right)}+\sum \limits _{n=1 }^{N}{\log \sol(y_{n}!\sağ)}\\\end{hizalı}}

Buna göre ve biliniyorsa, negatif log olasılığını en aza indiren takımın hücum ve savunma güçleri ve ev sahibi avantajı Beklenti Maksimizasyonu ile tahmin edilebilir : $x_{n}$ ${\görüntüleme stili y_{n}}$ $\sol(a_{i},d_{i}\sağ)$ ${\görüntüleme stili \sol(h\sağ)}$

{\underset {a_{i},d_{i},h}{\mathop {\min } }}\,L(a_{i},d_{i},h,i=1,.. C)

Bu model için iyileştirmeler Mark Dixon (istatistikçi) ve Stuart Coles tarafından önerildi . Bağımsız Poisson modelinin tutmadığı düşük 0-0, 1-0, 0-1 ve 1-1 puanları için bir korelasyon faktörü icat ettiler. Dimitris Karlis ve Ioannis Ntzoufras, Zamandan Bağımsız bir Skellam dağıtım modeli oluşturdu. Puan dağılımına uyan Poisson modelinden farklı olarak Skellam modeli, ev sahibi ve deplasman puanları arasındaki farka uyar.

Zamana Bağlı Markov Zinciri Monte Carlo

Bir yandan, istatistiksel modeller, parametrelerinin doğru bir tahminini yapmak için çok sayıda gözlem gerektirir. Ve bir sezon boyunca yeterli gözlem olmadığında (genellikle durum olduğu gibi), ortalama istatistiklerle çalışmak mantıklıdır. Öte yandan, takım becerilerinin sezon boyunca değiştiği ve model parametrelerini zamana bağlı hale getirdiği iyi bilinmektedir. Mark Dixon (istatistikçi) ve Coles, en son maç sonuçlarına daha fazla ağırlık vererek bu takası çözmeye çalıştılar. Rue ve Salvesen, Markov Zinciri modelini kullanarak zamana bağlı yeni bir derecelendirme yöntemi tanıttı.

Yukarıdaki genelleştirilmiş doğrusal modeli ve için değiştirmeyi önerdiler : ${\ Displaystyle \ lambda }$ ${\görüntüleme stili \mu }$

{\begin{hizalanmış}&\log \sol(\lambda \sağ)=c^{\lambda }+a_{i}-d_{j}-\gamma \cdot \Delta _{i,j} \\&\log \left(\mu \sağ)=c^{\mu }+a_{j}-d_{i}+\gamma \cdot \Delta _{i,j}\\\end{hizalı} }

i ve j takımları arasındaki güç farkına karşılık gelen verilen Parametre daha sonra rakip takımların gücünün hafife alınmasından kaynaklanan psikolojik etkileri temsil eder. $\Delta _{i,j}={\frac {\sol(a_{i}-d_{j}\sağ)+\sol(d_{i}-a_{j}\sağ)}{2 }}$ ${\görüntüleme stili \gama >0}$

Modele göre, A takımının hücum gücü , zaman için Brownian hareketinin standart denklemleri ile tanımlanabilir : ${\görüntüleme stili \sol(a\sağ)}$ $B_{a,A}\sol(t\sağ)$ $t_{1}>t_{0}$

a_{A}^{t_{1}}=a_{A}^{t_{0}}+\left(B_{a,A}\left(t_{1}/\tau \sağ)- B_{a,A}\sol(t_{0}/\tau \sağ)\sağ)\cdot {\frac {\sigma _{a,A}}{\sqrt {1-\gamma \sol(1- {\gamma }/{2}\;\sağ)}}}

burada ve sırasıyla hafıza kaybı ve önceki saldırı varyansına atıfta bulunur. ${\görüntüleme stili\tau }$ $\sigma _{a,A}^{2}$

Bu model şu varsayıma dayanmaktadır:

{a_{A}^{t_{1}}}|{a_{A}^{t_{0}}}\;\sim N\left(a_{A}^{t_{0}}, \ {\frac {t_{1}-t_{0}}{\tau }}\sigma _{a,A}^{2}\sağ)

Turnuvada A, B ve C takımlarının oynadığını ve maçların aşağıdaki sırayla oynandığını varsayarsak: : AB; : AC; : BC, ortak olasılık yoğunluğu şu şekilde ifade edilebilir: ${\görüntüleme stili t_{0}}$ ${\görüntüleme stili t_{0}}$ ${\görüntüleme stili t_{1}}$

{\begin{hizalanmış}&P(a_{i},d_{i},\gamma ,\,\tau ;\ A,B,C)=P\left(\lambda _{A},t_{ 0}\sağ)\cdot P\left(\lambda _{B},t_{0}\sağ)\cdot P\left(\lambda _{C},t_{0}\sağ)\\&\times P\left(X_{A,B}=x,Y_{A,B}=y|\lambda _{A},\mu _{B},t_{0}\sağ)\cdot P\left(X_ {A,C}=x,Y_{A,C}=y|\lambda _{A},\mu _{C},t_{0}\sağ)\\&\times P\left(\lambda _ {A},t_{1}|\lambda _{A},t_{0}\sağ)\cdot P\left(\mu _{C},t_{1}|\mu _{C},t_{ 0}\sağ)\\\son{hizalı}}

Bu durumda parametrelerin analitik olarak tahmin edilmesi zor olduğundan, modelin parametrelerini tahmin etmek için Monte Carlo yöntemi uygulanmaktadır.

Diğer sporlar için kullanım

İçin kullanılan modeller ilişki futbol hedefleri (puan), yani aynı sayımı ile diğer spor için de kullanılabilir buz hokeyi , su topu , hokey , Floorball (1982, vb Marek Toupal ve Šedivá Maher araştırma (2014) inşa ), Dixon ve Coles (1997) ve dernek futbolu için modeller kullanan diğerleri . Buz hokeyi için dört model tanıttılar :

Double Poisson dağılım modeli (Maher (1982) ile aynı),
Rastgele değişkenler arasında negatif korelasyona izin veren iki değişkenli Poisson dağılımının genelleştirilmesini kullanan iki değişkenli Poisson dağılım modeli (bu dağılım Famoye (2010)'da tanıtıldı).
0:0, 1:1, 2:2, 3:3, 4:4 ve 5:5 bağlarının olasılıklarının ek parametrelerle modellendiği önceki iki modelin (Dixon ve Coles (1997) esinlenerek) çapraz şişirilmiş versiyonları .

Dört modelin tümünde tahmin sürecinde daha eski bilgiler (sonuçlar) iskonto edilir. Modeller 1999/2000 ve 2011/2012 sezonları arasında Çek Cumhuriyeti - Çek Extraliga'daki en üst düzey buz hokeyi liginde sergileniyor . Sonuçlar, bahisçilere karşı hayali bahislerde başarıyla kullanılır .

Languages

In other projects