Permütasyon testi - Permutation test

Bir permütasyon testi (aynı zamanda yeniden rasgele testi) bir olduğu kesin testi , bir tür istatistiksel anlamlılık testi altında test istatistiğinin dağılımı olan boş hipotezinin bütün olası değerleri hesaplanması ile elde edilir istatistiksel test tüm olası yeniden düzenlemeleri altında gözlemlenen veri noktaları Bu nedenle, permütasyon testi bir yeniden örnekleme şeklidir . Başka bir deyişle, deneysel bir tasarımda deneklere tedavilerin tahsis edildiği yöntem, bu tasarımın analizinde yansıtılır. Boş hipotez altında etiketler değiştirilebilir ise, o zaman ortaya çıkan testler kesin anlamlılık seviyeleri verir; ayrıca bkz . değiştirilebilirlik . Güven aralıkları daha sonra testlerden türetilebilir. Teori, 1930'larda Ronald Fisher ve EJG Pitman'ın çalışmalarından gelişti .

Permütasyon testleri randomize testler ile karıştırılmamalıdır .

Bir permütasyon testi temel fikir göstermek için, rastgele değişkenler toplamak varsayalım ve her iki gruptan birey için ve kimin örnek araçlardır ve ve biz olmadığını bilmek istiyorum ve aynı dağıtım gelmektedir. Let ve her gruptan toplanan örnek boyutta olması. Permütasyon test numunesi araçları arasında gözlenen farkın bir anlamlılık düzeyinde, reddetme yeterince büyük olup olmadığını belirlemek için tasarlanmıştır, boş hipotez Ho verileri alınan bu alınan verilere aynı dağılımdan .

Test aşağıdaki gibi ilerler. İlk olarak, iki numune arasındaki ortalama farkı hesaplanır: bu, test istatistiğinin gözlenen değeridir, .

Daha sonra, grupların gözlemleri toplanır ve birleştirilir ve örnek ortalamalarındaki fark, havuzlanan değerleri iki boyut grubuna ve (yani, A ve B grup etiketlerinin her permütasyonu için) bölmenin her olası yolu için hesaplanır ve kaydedilir . Hesaplanan bu farklar kümesi, grup etiketlerinin değiştirilebilir olduğu (yani rastgele atandığı) boş hipotezi altında olası farkların (bu örnek için) tam dağılımıdır.

Testin tek taraflı p değeri, ortalamalar arasındaki farkın 'den büyük olduğu örneklenmiş permütasyonların oranı olarak hesaplanır . Testin iki taraflı p değeri, mutlak farkın ' den büyük olduğu örneklenmiş permütasyonların oranı olarak hesaplanır .

Alternatif olarak, testin tek amacı boş hipotezi reddetmek veya reddetmemekse, kaydedilen farklılıklar sıralanabilir ve daha sonra bazı anlamlılık seviyeleri için bunların orta %'lik diliminde yer alıp almadığı gözlemlenebilir . Değilse, anlamlılık düzeyinde özdeş olasılık eğrileri hipotezini reddederiz .

Parametrik testlerle ilişkisi

Permütasyon testleri, parametrik olmayan istatistiklerin bir alt kümesidir . Deneysel verilerimizin iki tedavi grubundan ölçülen verilerden geldiğini varsayarsak, yöntem basitçe, iki grubun ölçülen değişken açısından farklı olmadığı varsayımı altında ortalama farkların dağılımını oluşturur. Bundan sonra, bu istatistiğin ne ölçüde özel olduğunu, yani tedavi etiketleri tedaviden sonra rastgele seçilmiş olsaydı, böyle bir değerin (veya daha büyük) büyüklüğünü gözlemleme olasılığını görmek için gözlemlenen istatistik ( yukarıda) kullanılır.

Permütasyon testlerinin aksine, bir çok popüler dağıtımları "klasik" istatistiksel gibi testler, t -testi , F -testi , z -testi ve χ 2 testi , teorik olasılık dağılımları elde edilir. Fisher'in kesin testi , iki ikili değişken arasındaki ilişkiyi değerlendirmek için yaygın olarak kullanılan bir permütasyon testinin bir örneğidir. Örnek boyutları çok büyük olduğunda Pearson'ın ki-kare testi doğru sonuçlar verecektir. Küçük örnekler için, ki-kare referans dağılımının, test istatistiğinin olasılık dağılımının doğru bir tanımını verdiği varsayılamaz ve bu durumda Fisher'in kesin testinin kullanılması daha uygun hale gelir.

Parametrik testlerin olmadığı birçok durumda permütasyon testleri mevcuttur (örneğin, kayıpların karesinden ziyade bir hatanın boyutuyla orantılı olduğu durumlarda optimal bir test türetirken). Tüm basit ve nispeten karmaşık parametrik testlerin tümü, parametrik testle aynı test istatistiği kullanılarak tanımlanan karşılık gelen bir permütasyon testi versiyonuna sahiptir, ancak p-değerini teorik değil, o istatistiğin örneğe özgü permütasyon dağılımından alır. parametrik varsayımdan türetilen dağılım. Örneğin, bir permütasyon oluşturmak için bu şekilde mümkündür t -testi , bir permütasyon ki-kare 2 testi dernek, varyansları karşılaştırılması ve böylece için Aly testinin bir permütasyon sürümü.

Permütasyon testlerinin en büyük dezavantajı,

  • Hesaplama açısından yoğun olabilir ve hesaplanması zor istatistikler için "özel" kod gerektirebilir. Bu her durum için yeniden yazılmalıdır.
  • Öncelikle bir p değeri sağlamak için kullanılır. Güven bölgeleri/aralıkları elde etmek için testin tersine çevrilmesi daha da fazla hesaplama gerektirir.

Avantajlar

Dağılımının bilinip bilinmediğine bakılmaksızın, herhangi bir test istatistiği için permütasyon testleri mevcuttur. Bu nedenle, hipotez ve alternatif arasında en iyi ayrımı yapan ve kayıpları en aza indiren istatistiği seçmekte her zaman özgürdür.

Permütasyon testleri, dengesiz tasarımları analiz etmek ve kategorik, sıralı ve metrik verilerin karışımları üzerindeki bağımlı testleri birleştirmek için kullanılabilir (Pesarin, 2001). Ayrıca nicelleştirilmiş (yani sayılara dönüştürülmüş) nitel verileri analiz etmek için de kullanılabilirler. Permütasyon testleri, geleneksel parametrik testlerin (örneğin, t-testleri, ANOVA) altında yatan istatistiksel varsayımları karşılamayan nicelleştirilmiş verileri analiz etmek için ideal olabilir.

1980'lerden önce, küçük örneklem boyutlarına sahip veri setleri dışında, referans dağılımı oluşturmanın yükü çok fazlaydı.

1980'lerden bu yana, nispeten ucuz hızlı bilgisayarların birleşmesi ve özel durumlarda uygulanabilir yeni karmaşık yol algoritmalarının geliştirilmesi, çok çeşitli problemler için permütasyon test yöntemlerinin uygulanmasını pratik hale getirdi. Ayrıca, ana istatistiksel yazılım paketlerinde kesin test seçeneklerinin eklenmesini ve çok çeşitli tek ve çok değişkenli kesin testler ve hesaplama testi tabanlı "kesin" güven aralıkları gerçekleştirmek için özel yazılımların görünümünü başlattı.

sınırlamalar

Bir permütasyon testinin arkasındaki önemli bir varsayım, gözlemlerin sıfır hipotezi altında değiştirilebilir olmasıdır. Bu varsayımın önemli bir sonucu, konumdaki farklılık testlerinin (bir permütasyon t-testi gibi) normallik varsayımı altında eşit varyans gerektirmesidir. Bu açıdan, permütasyon t-testi, klasik Student t-testi ( Behrens-Fisher problemi ) ile aynı zayıflığı paylaşır . Bu durumda üçüncü bir alternatif, önyükleme tabanlı bir test kullanmaktır. Good (2005), permütasyon testleri ile önyükleme testleri arasındaki farkı şu şekilde açıklar: "Permütasyonlar, dağılımlarla ilgili hipotezleri test eder; önyüklemeler, parametrelerle ilgili hipotezleri test eder. Sonuç olarak, önyükleme daha az katı varsayımlar gerektirir." Önyükleme testleri kesin değildir. Bazı durumlarda, uygun şekilde öğrencileştirilmiş bir istatistiğe dayalı bir permütasyon testi, değiştirilebilirlik varsayımı ihlal edildiğinde bile asimptotik olarak kesin olabilir.

Monte Carlo testi

Asimptotik olarak eşdeğer bir permütasyon testi, uygun bir şekilde tam numaralandırmaya izin vermek için verilerin çok fazla olası sıralaması olduğunda oluşturulabilir. Bu, olası kopyaların küçük bir (toplam permütasyon sayısına göre) rastgele örneğini alan Monte Carlo örneklemesi ile referans dağılımı üretilerek yapılır . Bunun herhangi bir veri setindeki herhangi bir permütasyon testine uygulanabileceğinin anlaşılması, uygulamalı istatistik alanında önemli bir atılımdı. Bu yaklaşıma bilinen en eski referanslar Eden ve Yates (1933) ve Dwass'tır (1957). Bu tip permütasyon testi çeşitli isimler altında bilinir: yaklaşık permütasyon testi , Monte Carlo permütasyon testleri veya rastgele permütasyon testleri .

Rastgele permütasyonlardan sonra , Binom dağılımına dayalı p değeri için bir güven aralığı elde etmek mümkündür. Örneğin, rastgele permütasyonlardan sonra p-değeri olarak tahmin edilirse, true (olası tüm permütasyonların denenmesi sonucunda ortaya çıkacak olan) için %99'luk bir güven aralığı olur .

Öte yandan, p-değerini tahmin etmenin amacı, çoğunlukla , sıfır hipotezinin (tipik olarak ) reddedileceği eşiğin nerede olduğuna karar vermektir . Yukarıdaki örnekte, güven aralığı bize yalnızca p-değerinin 0,05'ten küçük olma olasılığının kabaca %50 olduğunu söyler, yani sıfır hipotezinin bir düzeyde reddedilip reddedilmeyeceği tamamen belirsizdir .

Yalnızca belirli bir veri için olup olmadığını bilmek önemliyse , çok düşük bir hata olasılığıyla ifadenin doğru veya yanlış olduğu belirlenene kadar simülasyona devam etmek mantıklıdır . Kabul edilebilir hata olasılığına ( aslında veya tam tersi olduğunda bunu bulma olasılığı) bir sınır verildiğinde , kaç tane permütasyon üretileceği sorusu, sonuçlara dayalı olarak permütasyon üretmenin ne zaman durdurulacağı sorusu olarak görülebilir. Sonucun (ya da olan ) en az . ( tipik olarak son derece küçük olacak şekilde seçilecektir, örneğin 1/1000.) Bunu başarmak için minimum ek hesaplama maliyeti ile birleştirilebilen durdurma kuralları geliştirilmiştir. Aslında, gerçek temel p-değerine bağlı olarak, sanal kesinlikle bir karara varılmadan önce, gereken simülasyon sayısının oldukça küçük olduğu (örneğin, 5 kadar düşük ve genellikle 100'den büyük değil) sıklıkla bulunacaktır.

Ayrıca bakınız

Edebiyat

Orijinal referanslar:

  • Fisher, RA (1935) Deneylerin Tasarımı , New York: Hafner
  • Pitman, EJG (1937) "Herhangi bir popülasyondan alınan numunelere uygulanabilen önem testleri", Royal Statistical Society Supplement , 4:119-130 ve 225-32 (kısım I ve II). JSTOR  2984124 JSTOR  2983647
  • Pitman, EJG (1938). "Herhangi bir popülasyondan numunelere uygulanabilecek önem testleri. Bölüm III. Varyans testinin analizi". Biyometrik . 29 (3–4): 322–335. doi : 10.1093/biomet/29.3-4.322 .

Modern referanslar:

Hesaplamalı yöntemler:

Permütasyon testleri üzerine güncel araştırmalar

Referanslar

  1. ^ Onghena, Patrick (2017-10-30), Berger, Vance W. (ed.), "Randomization Tests or Permutation Tests? A Historical and Terminological Clarification" , Randomization, Masking, and Allocation Concealment (1 ed.), Boca Raton : Taylor & Francis, bir CRC unvanı, Taylor & Francis baskısının bir parçası, Taylor & Francis Group'un bir üyesi, T&F Informa plc'nin akademik bölümü, 2018.: Chapman and Hall/CRC, s. 209–228, doi : 10.1201/9781315305110-14 , ISBN 978-1-315-30511-0, alındı 2021-10-08CS1 bakımı: konum ( bağlantı )
  2. ^ "Davet Edilen Makaleler" (PDF) . Modern Uygulamalı İstatistiksel Yöntemler Dergisi . 1 (2): 202–522. Dan 2011. Arşivlenen'den Güz orijinal (PDF) 5 Mayıs 2003 tarihinde.
  3. ^ Collingridge, Dave S. (11 Eylül 2012). "Niceliklendirilmiş Veri Analizi ve Permütasyon Testi Üzerine Bir Primer". Karma Yöntem Araştırmaları Dergisi . 7 (1): 81–97. doi : 10.1177/1558689812454457 . S2CID  124618343 .
  4. ^ Chung, EY; Romano, JP (2013). "Tam ve asimptotik olarak sağlam permütasyon testleri" . İstatistik Annals . 41 (2): 487–507. arXiv : 1304.5939 . doi : 10.1214/13-AOS1090 .
  5. ^ Eden, T; Yates, F (1933). "Normal olmayan verilerin gerçek bir örneğine uygulandığında Fisher's z testinin geçerliliği hakkında. (Beş metin figürü ile.)" . Tarım Bilimleri Dergisi . 23 (1): 6–17. doi : 10.1017/S0021859600052862 . Erişim tarihi: 3 Haziran 2021 .
  6. ^ Dwass, Meyer (1957). "Parametrik Olmayan Hipotezler için Değiştirilmiş Randomizasyon Testleri" . Matematiksel İstatistik Annals . 28 (1): 181-187. doi : 10.1214/aoms/1177707045 . JSTOR  2237031 .
  7. ^ Thomas E. Nichols , Andrew P. Holmes (2001). "Fonksiyonel Nörogörüntüleme İçin Parametrik Olmayan Permütasyon Testleri: Örneklerle Bir Primer" (PDF) . İnsan Beyni Haritalama . 15 (1): 1–25. doi : 10.1002/hbm.1058 . hdl : 2027.42/35194 . PMC  6871862 . PMID  11747097 .
  8. ^ Gandy, Axel (2009). "Tekdüze sınırlı yeniden örnekleme riski ile Monte Carlo testlerinin sıralı uygulanması". Amerikan İstatistik Derneği Dergisi . 104 (488): 1504–1511. arXiv : matematik/0612488 . doi : 10.1198/jasa.2009.tm08368 . S2CID  15935787 .