Çoklu karşılaştırma sorunu - Multiple comparisons problem

Veri tarama ile üretilen bir tesadüf örneği (bir heceleme arısının kazanan kelimesindeki harf sayısı ile Amerika Birleşik Devletleri'nde zehirli örümcekler tarafından öldürülen insan sayısı arasındaki ilişkiyi gösteren). Aynı zaman periyodu için yeterince büyük bir değişken havuzu verildiğinde, nedensellik olmadan bir korelasyon gösteren bir çift grafik bulmak mümkündür .

Olarak istatistik , çoklu karşılaştırmalar , çokluğu ya da birden fazla test sorun biri bir dizi dikkate oluşan istatistiksel çıkarımlar aynı anda veya infers gözlenen değerlere göre seçilen parametrelerden bir alt kümesi. Bazı alanlarda başka yere bakma etkisi olarak bilinir .

Ne kadar çok çıkarım yapılırsa, hatalı çıkarımlar o kadar olası hale gelir. Bu sorunu çözmek için, tipik olarak, yapılan çıkarımların sayısını telafi etmek için bireysel karşılaştırmalar için daha katı bir anlamlılık eşiği gerektirerek çeşitli istatistiksel teknikler geliştirilmiştir.

Tarih

Çoklu karşılaştırma sorunu 1950'lerde Tukey ve Scheffé gibi istatistikçilerin çalışmalarıyla artan bir ilgi gördü . Takip eden on yıllar boyunca, sorunu çözmek için birçok prosedür geliştirildi. 1996'da, çoklu karşılaştırma prosedürleri üzerine ilk uluslararası konferans İsrail'de gerçekleşti ; genellikle farklı ev sahipliği yapan ülkelerde yaklaşık iki yılda bir gerçekleşir.

Tanım

Bir istatistiksel analiz, her biri bir "keşif" üretme potansiyeline sahip olan birden çok eşzamanlı istatistiksel testi içerdiğinde çoklu karşılaştırmalar ortaya çıkar. Belirtilen bir güven düzeyi genellikle yalnızca bireysel olarak değerlendirilen her test için geçerlidir, ancak çoğu zaman tüm eş zamanlı testler ailesi için bir güven düzeyine sahip olmak istenir. Aşağıdaki örneklerde gösterildiği gibi, çoklu karşılaştırmaların telafi edilmemesi, gerçek dünyada önemli sonuçlara yol açabilir:

  • Tedavinin öğrencilere yazmayı öğretmenin yeni bir yolu olduğunu ve kontrolün yazmayı öğretmenin standart yolu olduğunu varsayalım. İki gruptaki öğrenciler dil bilgisi, imla, organizasyon, içerik vb. açılardan karşılaştırılabilir. Daha fazla öznitelik karşılaştırıldıkça, tedavi ve kontrol gruplarının tek başına rastgele örnekleme hatası nedeniyle en az bir öznitelik üzerinde farklılık göstermesi giderek daha olası hale gelir .
  • Bir ilacın etkinliğini , bir dizi hastalık belirtisinden herhangi birinin azalması açısından ele aldığımızı varsayalım . Daha fazla semptom göz önüne alındığında, ilacın mevcut ilaçlara göre en az bir semptom açısından bir gelişme olarak görünmesi giderek daha olası hale gelmektedir.

Her iki örnekte de, karşılaştırma sayısı arttıkça, karşılaştırılan grupların en az bir nitelik açısından farklılık göstermesi daha olası hale gelir. Bir sonucun bağımsız verilere genelleneceğine dair güvenimiz, yalnızca tek bir karşılaştırma içeren bir analiz yerine birden çok karşılaştırma içeren bir analizin parçası olarak gözlemlenirse genellikle daha zayıf olmalıdır.

Örneğin, %5 düzeyinde bir test gerçekleştirilirse ve buna karşılık gelen sıfır hipotezi doğruysa, sıfır hipotezini yanlış reddetme olasılığı yalnızca %5'tir. Ancak, her biri %5 düzeyinde 100 test gerçekleştirilirse ve karşılık gelen tüm boş hipotezler doğruysa, beklenen yanlış reddetme sayısı (yanlış pozitifler veya Tip I hatalar olarak da bilinir ) 5'tir. Testler istatistiksel olarak birbirinden bağımsız ise. , en az bir yanlış reddetme olasılığı yaklaşık %99,4'tür.

Çoklu karşılaştırma sorunu, güven aralıkları için de geçerlidir . %95 kapsama olasılığı düzeyine sahip tek bir güven aralığı , örneklerin %95'inde parametrenin gerçek değerini içerecektir. Ancak, her biri %95 kapsama olasılığına sahip 100 güven aralığı aynı anda ele alınırsa, kapsamayan aralıkların beklenen sayısı 5'tir. Aralıklar istatistiksel olarak birbirinden bağımsız ise, en az bir aralığın popülasyonu içermeme olasılığı parametre %99.4'tür.

Birden fazla istatistiksel testle ortaya çıkan yanlış pozitif oranların ve kapsam dışı oranların şişmesini önlemek için teknikler geliştirilmiştir.

Çoklu hipotez testlerinin sınıflandırılması

Aşağıdaki tablo, birden çok boş hipotezi test ederken olası sonuçları tanımlar. Diyelim ki H 1H 2 , ...,  H m ile gösterilen m sayıda boş hipotezimiz var . İstatistiksel bir test kullanarak , test anlamlı olarak bildirilirse boş hipotezi reddederiz. Test anlamlı değilse boş hipotezi reddetmeyiz. Her tür sonucun tüm H i üzerinden toplanması   aşağıdaki rastgele değişkenleri verir:

Boş hipotez doğrudur (H 0 ) Alternatif hipotez doğrudur (H A ) Toplam
Testin önemli olduğu bildirildi V S r
Testin önemsiz olduğu bildirildi sen T
Toplam m

Gelen m olan hipotez testleri doğru boş hipotez vardır, R, gözlenebilir bir rastgele değişken ve S , T , U , ve V gözlemlenebilir olmadığı rastgele değişkenler .

Kontrol prosedürleri

m bağımsız karşılaştırma yapılırsa , aile bazında hata oranı (FWER), şu şekilde verilir:

Bu nedenle, testler tamamen pozitif olarak bağımlı olmadıkça (yani özdeş), karşılaştırma sayısı arttıkça artar. Karşılaştırmaların bağımsız olduğunu varsaymazsak, yine de şunu söyleyebiliriz:

Boole eşitsizliğinden çıkan sonuç . Örnek:

Aile bazında hata oranının en fazla olduğundan emin olmanın farklı yolları vardır . Bağımlılık ve dağılım varsayımları içermeyen en muhafazakar yöntem Bonferroni düzeltmesidir . için bağımsız karşılaştırmaların aile bazında hata oranı denklemini çözerek marjinal olarak daha az konservatif bir düzeltme elde edilebilir . Bu , Šidák düzeltmesi olarak bilinen verimdir . Diğer bir prosedür, en katı kritere karşı yalnızca en düşük p-değerini ( ) ve giderek daha az katı kriterlere karşı daha yüksek p-değerlerini ( ) test ederek, basit Bonferroni düzeltmesinden eşit olarak daha fazla güç sağlayan Holm-Bonferroni yöntemidir . .

Sürekli problemler için, önceki-arka hacim oranından hesaplamak için Bayes mantığı kullanılabilir . Bonferroni ve Šidák düzeltmesinin sürekli genellemeleri içinde sunulmuştur.

Çoklu test düzeltmesi

Çoklu test düzeltmesi , çoklu test sorununu ortadan kaldırmak için istatistiksel testleri daha sıkı hale getirmek anlamına gelir. Bu tür en iyi bilinen ayarlama Bonferroni düzeltmesidir , ancak başka yöntemler de geliştirilmiştir. Bu tür yöntemler, tipik olarak, aile bazında hata oranını veya yanlış keşif oranını kontrol etmek için tasarlanmıştır .

Büyük ölçekli çoklu test

Çoklu karşılaştırma ayarlamaları için geleneksel yöntemler, genellikle bir varyans analizinde , mütevazi sayıda karşılaştırmayı düzeltmeye odaklanır . Binlerce hatta daha fazla sayıda testin gerçekleştirildiği "büyük ölçekli çoklu testler" için farklı bir dizi teknik geliştirilmiştir. Örneğin, genomikte , mikrodiziler gibi teknolojiler kullanıldığında , on binlerce genin ifade seviyeleri ölçülebilir ve milyonlarca genetik belirteç için genotipler ölçülebilir. Özellikle genetik ilişki çalışmaları alanında, replikasyon yapılmamasıyla ilgili ciddi bir sorun var - bir çalışmada istatistiksel olarak güçlü bir şekilde anlamlı olan ancak bir takip çalışmasında tekrarlanamayan bir sonuç. Bu tür tekrarlamamanın birçok nedeni olabilir, ancak çoklu karşılaştırma yapmanın sonuçlarını tam olarak hesaba katmamanın sebeplerden biri olduğu yaygın olarak kabul edilir. Ölçüm ve bilgi teknolojisindeki ilerlemelerin, keşif analizi için büyük veri kümeleri oluşturmayı çok daha kolay hale getirdiği ve çoğu zaman hipotezlerin çoğunun doğru olmasını beklemek için önceden bir temel olmaksızın çok sayıda hipotezin test edilmesine yol açtığı iddia edilmiştir. Bu durumda, çoklu karşılaştırma düzeltmeleri yapılmadığı sürece çok yüksek yanlış pozitif oranları beklenir.

Amacın kesin sonuçlar elde etmek olduğu büyük ölçekli test problemlerinde , istatistiksel testlere anlamlılık düzeyleri atamak için aile bazında hata oranı en çok kabul edilen parametre olmaya devam etmektedir. Alternatif olarak, bir çalışma keşif amaçlı olarak görülüyorsa veya önemli sonuçlar bağımsız bir çalışmada kolayca yeniden test edilebiliyorsa, yanlış keşif oranının (FDR) kontrolü sıklıkla tercih edilir. Tüm önemli testler arasında yanlış pozitiflerin beklenen oranı olarak gevşek bir şekilde tanımlanan FDR, araştırmacıların bir takip çalışmasında daha titiz bir şekilde değerlendirilebilecek bir dizi "aday pozitif" tanımlamasına olanak tanır.

Önemli bir tane bulma umuduyla birçok düzeltilmemiş karşılaştırmayı deneme uygulaması, kasıtsız veya kasıtlı olarak uygulanmış, bilinen bir sorundur, bazen "p-hack" olarak adlandırılır.

Herhangi bir alternatif hipotezin doğru olup olmadığının değerlendirilmesi

Bir normal bir miktarsal arsa olarak standardize edilmiş bir test istatistik, bir simüle kümesi için Z-skoru geçersiz hipoteze göre. Dağılımın üst kuyruğunun köşegen boyunca beklenen eğilimden ayrılması, tüm boş hipotezlerin doğru olması durumunda beklenenden çok daha büyük test istatistik değerlerinin varlığından kaynaklanmaktadır. Kırmızı nokta, beklenen 2.06 değerine karşılık 3.13 olan dördüncü en büyük gözlemlenen test istatistiğine karşılık gelir. Mavi nokta, beklenen -1.96 değerine karşılık -1.75 olan en küçük beşinci test istatistiğine karşılık gelir. Grafik, tüm sıfır hipotezlerinin doğru olma olasılığının düşük olduğunu ve gerçek bir alternatif hipotezin çoğu veya tamamının pozitif yöndeki sapmalardan kaynaklandığını göstermektedir.

Çok sayıda test sonucunun analizinin başlangıcında karşılaşılan temel soru, alternatif hipotezlerden herhangi birinin doğru olduğuna dair kanıt olup olmadığıdır. Testlerin birbirinden bağımsız olduğu varsayıldığında uygulanabilecek basit bir meta-test, belirli bir α düzeyinde tüm boş hipotezler olduğunda bulunacak olan anlamlı sonuçların sayısı için bir model olarak Poisson dağılımını kullanmaktır. NS. Gözlemlenen pozitif sayısı beklenenden önemli ölçüde fazlaysa, bu, önemli sonuçlar arasında bazı gerçek pozitiflerin olma olasılığının yüksek olduğunu gösterir. Örneğin, her biri α = 0,05 düzeyinde 1000 bağımsız test yapılırsa, tüm boş hipotezler doğru olduğunda 0,05 × 1000 = 50 anlamlı testin gerçekleşmesini bekleriz. Ortalama 50 olan Poisson dağılımına dayanarak, 61'den fazla anlamlı test gözlemleme olasılığı 0,05'ten azdır, bu nedenle 61'den fazla anlamlı sonuç gözlemlenirse, bunlardan bazılarının alternatif hipotezin geçerli olduğu durumlara karşılık gelmesi çok olasıdır. Bu yaklaşımın bir dezavantajı, test istatistikleri pozitif ilişkili olduğunda, ki bu pratikte yaygın olarak meydana geldiğinde, alternatif hipotezlerden bazılarının doğru olduğuna dair kanıtları abartmasıdır. Poisson dağılımının anlamlı sonuçların sayısı için iyi bir yaklaşıklık sağladığı gösterilebildiği sürece test istatistikleri. Bu senaryo, örneğin, işlemsel veri kümelerinden önemli sıklıkta öğe kümeleri çıkarıldığında ortaya çıkar. Ayrıca, dikkatli bir iki aşamalı analiz, FDR'yi önceden belirlenmiş bir düzeyde sınırlayabilir.

Test istatistiklerinin Z-puanlarına standardize edilebildiği durumlarda kullanılabilecek diğer bir yaygın yaklaşım, test istatistiklerinin normal bir nicel grafiğini yapmaktır . Gözlenen nicelikler , normal niceliklerden belirgin şekilde daha fazla dağılmışsa , bu, bazı önemli sonuçların gerçek pozitif olabileceğini gösterir.

Ayrıca bakınız

Anahtar kavramlar
Çoklu karşılaştırmalar için genel alfa ayarlama yöntemleri
Ilgili kavramlar

Referanslar

daha fazla okuma

  • F. Betz, T. Hothorn, P. Westfall (2010), R Kullanan Çoklu Karşılaştırmalar , CRC Press
  • S. Dudoit ve MJ van der Laan (2008), Genomiğe Uygulamalı Çoklu Test Prosedürleri , Springer
  • Farcomeni, A. (2008). "Yanlış keşif oranına özellikle dikkat ederek, Modern Çoklu Hipotez Testinin Bir Gözden Geçirilmesi". Tıbbi Araştırmalarda İstatistiksel Yöntemler . 17 (4): 347-388. doi : 10.1177/0962280206079046 . PMID  17698936 . S2CID  12777404 .
  • Phipson, B.; Smyth, GK (2010). "Permütasyon P-değerleri Asla Sıfır Olmamalıdır: Permütasyonlar Rastgele Çizildiğinde Tam P-değerlerinin Hesaplanması". Genetik ve Moleküler Biyolojide İstatistiksel Uygulamalar . 9 : Madde39. arXiv : 1603.05766 . doi : 10.2202/1544-6115.1585 . PMID  21044043 . S2CID  10735784 .
  • PH Westfall ve SS Young (1993), Yeniden Örneklemeye Dayalı Çoklu Test: p-Değer Ayarlaması için Örnekler ve Yöntemler , Wiley
  • P. Westfall, R. Tobias, R. Wolfinger (2011) SAS kullanarak çoklu karşılaştırmalar ve çoklu testler , 2. baskı, SAS Enstitüsü
  • Veri taramasından kaynaklanan mantıksız korelasyon örnekleri galerisi