Bir testin gücü - Power of a test

İkili hipotez testinin istatistiksel gücü , belirli bir alternatif hipotez ( ) doğru olduğunda testin boş hipotezi ( ) doğru olarak reddetme olasılığıdır . Genellikle ile gösterilir ve tespit edilecek bir etkinin fiili varlığına bağlı "gerçek pozitif" tespit şansını temsil eder. İstatistiksel güç 0 ile 1 arasında değişir ve bir testin gücü arttıkça, boş hipotezi yanlış bir şekilde reddetmeyerek tip II hata yapma olasılığı azalır.

gösterim

Bu makale aşağıdaki gösterimi kullanır

  • β = "yanlış negatif" olarak bilinen Tip II hata olasılığı
  • 1-β = "gerçek pozitif" olasılığı, yani boş hipotezi doğru bir şekilde reddetme. "1-β", testin gücü olarak da bilinir.
  • α = "yanlış pozitif" olarak bilinen Tip I hata olasılığı
  • 1-α = "gerçek bir negatif" olasılığı, yani boş hipotezi doğru bir şekilde reddetmemek

Açıklama

Tip II hata olasılığı β için , karşılık gelen istatistiksel güç 1 -  β'dır . Örneğin, E deneyinin istatistiksel gücü 0,7 ve F deneyinin istatistiksel gücü 0,95 ise, E deneyinin F deneyinden daha yüksek bir II. tip hata olasılığı vardır. Bu, E deneyinin önemli etkileri saptama duyarlılığını azaltır. . Bununla birlikte, E deneyi, daha düşük bir tip I hata olasılığı nedeniyle, deney F'den daha güvenilirdir. Aynı şekilde , doğru olduğunda alternatif hipotezi ( ) kabul etme olasılığı olarak da düşünülebilir - yani, bir testin belirli bir etkiyi tespit etme yeteneği, eğer bu spesifik etki gerçekten mevcutsa. Böylece,

Eğer bir eşitlik değil, daha ziyade basitçe olumsuzlaması ise (örneğin, gözlemlenmemiş bazı popülasyon parametreleri için basitçe sahip olduğumuz için ), o zaman sıfır hipotezini ihlal eden parametrenin tüm olası değerleri için olasılıklar bilinmedikçe güç hesaplanamaz. Bu nedenle, genellikle belirli bir alternatif hipoteze karşı bir testin gücüne atıfta bulunulur .

Güç arttıkça, güç 1 − β'ya eşit olduğundan yanlış negatif oran ( β ) olarak  da adlandırılan II. tip hata olasılığı azalır . Benzer bir kavram, yanlış pozitif oranı veya sıfır hipotezi altındaki bir testin seviyesi olarak da adlandırılan tip I hata olasılığıdır .

İkili sınıflandırma bağlamında, bir testin gücüne, istatistiksel duyarlılığı , gerçek pozitif oranı veya saptama olasılığı denir .

Güç analizi

İlgili bir kavram "güç analizi" dir. Güç analizi, belirli bir boyutun etkisinin makul bir şekilde algılanabilmesi için gereken minimum örnek boyutunu hesaplamak için kullanılabilir . Örneğin: "Belirli bir miktarda hileli olduğu sonucuna varmak için bir parayı kaç kez atmam gerekiyor?" Güç analizi, belirli bir örneklem büyüklüğünü kullanan bir çalışmada tespit edilmesi muhtemel olan minimum etki büyüklüğünü hesaplamak için de kullanılabilir. Örneğin, bir ile: Buna ek olarak, güç kavramı farklı istatistiksel test prosedürleri arasında karşılaştırmalar yapmak için kullanılan parametrik testi ve bir non-parametrik testi aynı hipotez.

Arka plan

İstatistiksel testler , istatistiksel bir popülasyonu değerlendirmek veya hakkında çıkarımlarda bulunmak için örneklerden gelen verileri kullanır . İki örnekli karşılaştırmanın somut ortamında amaç, iki alt popülasyondaki bireyler için elde edilen bazı özelliklerin ortalama değerlerinin farklılık gösterip göstermediğini değerlendirmektir. Örneğin, bir testte kadın ve erkeklerin ortalama puanlarının farklı olmadığı sıfır hipotezini test etmek için kadın ve erkek örneklemleri çekilir, onlara test uygulanır ve bir grubun ortalama puanı o grubun ortalama puanı ile karşılaştırılır. örneğin, iki örnek olarak, istatistiksel test kullanılarak diğer grup z -testi . Testin gücü, bu iki popülasyon arasındaki gerçek farkın boyutunun bir fonksiyonu olarak, testin erkekler ve kadınlar arasında istatistiksel olarak anlamlı bir fark bulma olasılığıdır.

Gücü etkileyen faktörler

İstatistiksel güç bir dizi faktöre bağlı olabilir. Bazı faktörler belirli bir test durumuna özel olabilir, ancak en azından güç neredeyse her zaman aşağıdaki üç faktöre bağlıdır:

Bir anlamlılık kriter sıfır hipotezi reddedilir için hiçbir etkisi sıfır hipotezi, doğruysa olumlu sonuç, durumun ne kadar olası bir ifadedir. En sık kullanılan kriterler 0,05 (%5, 20'de 1), 0,01 (%1, 100'de 1) ve 0,001 (%0,1, 1000'de 1) olasılıklardır. Kriter 0,05 ise, sıfır hipotezi doğru olduğunda en az gözlenen etki kadar büyük bir etkiyi ima eden verinin olasılığı 0,05'ten küçük olmalıdır, çünkü hiçbir etkinin olmadığı sıfır hipotezinin reddedilebilmesi için. Bir testin gücünü artırmanın kolay bir yolu, örneğin 0,05 yerine 0,10 gibi daha büyük bir anlamlılık kriteri kullanarak daha az muhafazakar bir test yapmaktır. Bu, sıfır hipotezi yanlış olduğunda sıfır hipotezini reddetme (istatistiksel olarak anlamlı bir sonuç elde etme) şansını artırır; yani, tip II hata riskini azaltır (bir etkinin olup olmadığına ilişkin yanlış negatif). Ancak, sıfır hipotezi yanlış olmadığında istatistiksel olarak anlamlı bir sonuç elde etme (boş hipotezi reddetme) riskini de artırır; yani, tip I hata (yanlış pozitif) riskini artırır .

Etkinin büyüklüğü popülasyonunda ilgi açısından ölçülebilir etki boyutu daha büyük etkileri tespit etmek için daha fazla güç yoktur. Etki büyüklüğü, ilgilenilen miktarın doğrudan bir değeri olabilir veya popülasyondaki değişkenliği de hesaba katan standart bir ölçü olabilir. Örneğin, tedavi edilen ve kontrol edilen bir popülasyondaki sonuçları karşılaştıran bir analizde, sonuç araçlarının farkı , etki büyüklüğünün doğrudan bir tahmini olurken , tahmin edilen standartlaştırılmış etki büyüklüğü olur, burada sonuçların ortak standart sapması tedavi ve kontrol grupları. Uygun şekilde yapılandırılırsa, örnek boyutuyla birlikte standartlaştırılmış bir etki boyutu gücü tamamen belirleyecektir. Standartlaştırılmamış (doğrudan) bir etki büyüklüğü, ölçümlerdeki değişkenlik hakkında bilgi içermediğinden gücü belirlemek için nadiren yeterlidir.

Örnek boyutunun güç seviyelerini nasıl etkilediğine dair bir örnek

Numune boyutu miktarını belirler örnekleme hatası bir test sonucu doğasında. Diğer şeyler eşit olduğunda, daha küçük örneklerde etkilerin saptanması daha zordur. Örnek boyutunu artırmak genellikle bir testin istatistiksel gücünü artırmanın en kolay yoludur. Artan numune boyutunun nasıl daha yüksek güce dönüştüğü , testin verimliliğinin bir ölçüsüdür - örneğin, belirli bir güç için gereken numune boyutu.

Verilerin ölçüldüğü kesinlik de istatistiksel gücü etkiler. Sonuç olarak, verilerdeki ölçüm hatası azaltılarak güç genellikle iyileştirilebilir. İlgili bir kavram, değerlendirilmekte olan ölçümün "güvenilirliğini" geliştirmektir ( psikometrik güvenilirlikte olduğu gibi ).

Tasarım bir deney veya gözlemsel çalışmanın çoğu zaman güç etkiler. Örneğin, belirli bir toplam örneklem büyüklüğü n olan iki örnekli bir test durumunda, karşılaştırılmakta olan iki popülasyondan eşit sayıda gözleme sahip olmak optimaldir (iki popülasyondaki varyanslar aynı olduğu sürece). Regresyon analizi ve varyans analizinde , modeldeki bağımsız değişkenlerin değerlerini en uygun şekilde ayarlamaya dayalı gücü geliştirmek için kapsamlı teoriler ve pratik stratejiler vardır.

Tercüme

Güç için resmi standartlar olmamasına rağmen (bazen π olarak adlandırılır ), çoğu araştırmacı testlerinin gücünü  yeterlilik için bir standart olarak π = 0.80 kullanarak değerlendirir . Bu sözleşme, β -risk ve α -risk arasında dörtte bir takas anlamına gelir . ( β , tip II hatanın olasılığıdır ve α, tip I hatanın olasılığıdır; 0.2 ve 0.05, β ve α için geleneksel değerlerdir ). Ancak, bu 4'e 1 ağırlıklandırmanın uygun olmadığı zamanlar olacaktır. Örneğin tıpta testler genellikle hiçbir yanlış negatif (tip II hatalar) üretilmeyecek şekilde tasarlanır. Ancak bu kaçınılmaz olarak yanlış pozitif (bir tip I hata) alma riskini artırır. Bunun mantığı, hasta bir hastaya "her şey yolunda" demektense, sağlıklı bir hastaya "bir şey bulmuş olabiliriz - hadi daha fazla test edelim" demenin daha iyi olmasıdır.

Güç analizi, endişe yanlış bir sıfır hipotezinin doğru reddi ile ilgili olduğunda uygundur. Birçok bağlamda mesele, bir fark olup olmadığını belirlemekten çok , nüfus etki büyüklüğünün daha rafine bir tahminini elde etmekle ilgilidir . Örneğin, zeka ile iş performansı arasında 0,50 civarında bir popülasyon korelasyonu bekliyor olsaydık , 20'lik bir örneklem büyüklüğü bize  sıfır korelasyon sıfır hipotezini reddetmek için yaklaşık %80 güç ( α = 0.05, iki kuyruk) verecektir . Bununla birlikte, bu çalışmayı yaparken, muhtemelen korelasyonun 0.30 veya 0.60 veya 0.50 olup olmadığını bilmekle daha fazla ilgileniyoruz. Bu bağlamda, tahminimizin güven aralığını amaçlarımız için kabul edilebilir bir aralığa indirgemek için çok daha büyük bir örneklem büyüklüğüne ihtiyacımız olacaktır. Geleneksel güç analizinde kullanılanlara benzer teknikler, bir güven aralığının genişliğinin belirli bir değerden daha az olması için gereken örnek boyutunu belirlemek için kullanılabilir.

Birçok istatistiksel analiz, birkaç bilinmeyen miktarın tahminini içerir. Basit durumlarda, bu niceliklerden biri hariç tümü rahatsız edici parametrelerdir . Bu ortamda, ilgili tek güç, resmi istatistiksel çıkarsamaya tabi tutulacak tek nicelikle ilgilidir. Bazı ortamlarda, özellikle hedefler daha "keşif" ise, analizde bir dizi ilgi olabilir. Örneğin, bir çoklu regresyon analizinde , potansiyel olarak ilgilenilen birkaç ortak değişkeni dahil edebiliriz. Birkaç hipotezin incelendiği bu gibi durumlarda, farklı hipotezlerle ilişkili güçlerin farklı olması yaygındır. Örneğin, çoklu regresyon analizinde, belirli bir boyutun etkisini tespit etme gücü, ortak değişkenin varyansı ile ilgilidir. Farklı ortak değişkenler farklı varyanslara sahip olacağından, güçleri de farklı olacaktır.

Birden fazla hipotez içeren herhangi bir istatistiksel analiz, uygun önlemler alınmazsa, tip I hata oranının şişmesine tabidir. Bu tür önlemler, tipik olarak (yapılan çoklu karşılaştırmalar için telafi etmek amacıyla bir hipotez reddetme sertlik daha yüksek bir eşik tatbik edilmesini ihtiva örneğin olduğu gibi Bonferroni yöntemi ). Bu durumda, güç analizi, kullanılacak çoklu test yaklaşımını yansıtmalıdır. Bu nedenle, örneğin, belirli bir çalışma, yalnızca bir test yapılacaksa belirli bir etki büyüklüğünü saptamak için iyi bir güce sahip olabilir, ancak birkaç test yapılacaksa aynı etki büyüklüğü çok daha düşük güce sahip olabilir.

Sonuçlarını yorumlarken bir hipotez testinin istatistiksel gücünü dikkate almak da önemlidir. Bir testin gücü, yanlış olduğunda sıfır hipotezini doğru olarak reddetme olasılığıdır; Bir testin gücü, test için önem düzeyi seçiminden, ölçülen etkinin büyüklüğünden ve mevcut veri miktarından etkilenir. Bir hipotez testi, örneğin, bir t-testi ile karşılaştırılan iki popülasyon arasında gerçek bir fark varsa, ancak etki küçükse ve örneklem boyutu, etkiyi rastgele şanstan ayırt etmek için çok küçükse , boş değeri reddetmede başarısız olabilir . Örneğin pek çok klinik deney , tedavilerin yan etkilerindeki farklılıkları saptamak için düşük istatistiksel güce sahiptir , çünkü bu tür etkiler nadir olabilir ve etkilenen hasta sayısı az olabilir.

Önsel analize karşı post hoc analiz

Güç analizi, veriler toplanmadan önce ( önsel veya ileriye dönük güç analizi) veya sonra ( post hoc veya geriye dönük güç analizi) yapılabilir. Araştırma çalışmasından önce bir önsel güç analizi yapılır ve tipik olarak yeterli gücü elde etmek için yeterli örneklem büyüklüğünü tahmin etmede kullanılır . "Gözlemlenen gücün" post-hoc analizi, bir çalışma tamamlandıktan sonra gerçekleştirilir ve elde edilen örneklem büyüklüğünü ve etki büyüklüğünü, örneklemdeki etki büyüklüğünün etki büyüklüğüne eşit olduğu varsayılarak, çalışmada gücün ne olduğunu belirlemek için kullanır. nüfus içinde. Deneysel tasarımda ileriye dönük güç analizinin faydası evrensel olarak kabul edilirken, post hoc güç analizi temelde kusurludur. Gücü tahmin etmek için toplanan verilerin istatistiksel analizini kullanma cazibesine kapılmak, bilgi vermeyen ve yanıltıcı değerlerle sonuçlanacaktır. Özellikle, post-hoc "gözlemlenen güç"ün, elde edilen p- değerinin bire bir fonksiyonu olduğu gösterilmiştir . Bu, tüm post-hoc güç analizlerinin, "güç yaklaşımı paradoksu" (PAP) olarak adlandırılan şeyden muzdarip olduğunu göstermek için genişletildi ; burada, boş bir sonuca sahip bir çalışmanın , sıfır hipotezinin şu durumlarda gerçekten doğru olduğuna dair daha fazla kanıt gösterdiği düşünülür. gerçek bir etkiyi tespit etmek için görünen güç daha yüksek olacağından , p- değeri daha küçüktür. Aslında, daha küçük bir p- değeri, boş hipotezin doğru olma olasılığını nispeten daha düşük hale getirmek için uygun şekilde anlaşılır .

Başvuru

Finansman kuruluşları, etik kurullar ve araştırma inceleme panelleri, örneğin bir deneyin bilgilendirici olması için gereken minimum hayvan deneyi denek sayısını belirlemek için, bir araştırmacının bir güç analizi yapmasını sık sık talep eder. Gelen frequentist istatistik , bir güce çalışma biri istenilen anlamlılık düzeyinde hipotezler arasında seçim sağlamak için olası değildir. Gelen Bayes istatistik , klasik güç analizinde kullanılan tipte hipotez testi yapılmaz. Bayesian çerçevesinde, kişi belirli bir çalışmada elde edilen verileri kullanarak önceki inançlarını günceller. Prensipte, hipotez testi perspektifinden zayıf sayılacak bir çalışma, böyle bir güncelleme sürecinde hala kullanılabilir. Bununla birlikte, güç, belirli bir deney boyutunun kişinin inançlarını iyileştirmesinin ne kadar beklenebileceğinin yararlı bir ölçüsü olmaya devam etmektedir. Düşük güce sahip bir çalışmanın inançlarda büyük bir değişikliğe yol açması olası değildir.

Örnek

Aşağıda, rastgele bir deney için gücün nasıl hesaplanacağını gösteren bir örnek verilmiştir: Bir deneyin amacının, bir tedavinin bir miktar üzerindeki etkisini incelemek ve tedaviden önce ve sonra miktarı ölçerek araştırma konularını karşılaştırmak, analiz etmek ve analiz etmek olduğunu varsayalım. eşleştirilmiş bir t-testi kullanarak veriler . Let ve konuyla ilgili tedavi öncesi ve tedavi sonrası önlemleri belirtmek sırasıyla. İşlemin olası etkisi , tümü aynı beklenen ortalama değer ve varyansa sahip, bağımsız olarak dağıldığı varsayılan farklılıklarda görünür olmalıdır .

Tedavinin etkisi, tek taraflı bir t-testi kullanılarak analiz edilebilir. Herhangi bir etkinin boş hipotez ortalama fark sıfır, yani olacak olacak , bu durumda, alternatif hipotez tekabül eden bir pozitif etki bildiren test istatistiği olduğu:

nerede

n , örnek boyutudur ve standart hatadır. Sıfır hipotezi altındaki test istatistiği , verilerin aynı şekilde dağıldığına dair ek varsayımla birlikte bir Student t-dağılımını takip eder . Bundan başka, boş hipotez de reddedilecektir varsayalım anlamlılık seviyesi arasında yana , n büyüktür, bir normal dağılım ile t-dağılımını yaklaşık ve hesaplayabilir kritik değeri kullanılarak miktarsal fonksiyonu , tersini kümülatif dağılım fonksiyonu arasında normal dağılım. Bu durumda boş hipotezin reddedileceği ortaya çıkar.

Şimdi alternatif hipotezin doğru olduğunu ve . O zaman, güç

Büyük n için , alternatif hipotez doğru olduğunda yaklaşık olarak standart bir normal dağılımı takip eder , yaklaşık güç şu şekilde hesaplanabilir:

Bu formüle göre, güç, parametrenin değerleri ile artar. Örneklem büyüklüğü n artırılarak daha yüksek bir gücün belirli bir değeri elde edilebilir .

Tüm değerleri için yeterli bir büyük güce garanti etmek mümkün değildir olarak en az (çok yakın 0 olabilir infimum , güç) değeri, test güven seviyesinde eşittir Bu örnekte 0.05. Ancak, küçük pozitif değerler arasında ayrım yapmanın bir önemi yoktur . Yeterli güce sahip olmak isteniyorsa, örneğin en az 0.90, gerekli örnek büyüklüğünün değerlerini tespit etmek için yaklaşık olarak hesaplanabilir:

bunu takip eden

Bu nedenle, kuantil fonksiyonunu kullanarak

standart bir normal nicelik nerede ; ve z değerleri arasındaki ilişkinin açıklaması için Probit makalesine bakın .

Uzantı

Bayes gücü

Gelen frequentist ortamda, parametrelerin doğru olması pek mümkün değildir belirli bir değere sahip olduğu varsayılır. Bu sorun, parametrenin bir dağılımı olduğu varsayılarak giderilebilir. Ortaya çıkan güç bazen klinik deney tasarımında yaygın olarak kullanılan Bayes gücü olarak adlandırılır .

Tahmini başarı olasılığı

Hem sık kullanılan güç hem de Bayes gücü, başarı kriteri olarak istatistiksel anlamlılığı kullanır. Ancak, istatistiksel anlamlılık genellikle başarıyı tanımlamak için yeterli değildir. Bu konuyu ele almak için, güç kavramı , başarının tahmini olasılığı (PPOS) kavramına genişletilebilir . PPOS için başarı kriteri istatistiksel anlamlılıkla sınırlı değildir ve klinik araştırma tasarımlarında yaygın olarak kullanılır .

Güç ve numune boyutu hesaplamaları için yazılım

Güç ve örnek boyutu hesaplamaları yapmak için çok sayıda ücretsiz ve/veya açık kaynaklı program mevcuttur. Bunlar şunları içerir:

  • G*Power ( https://www.gpower.hhu.de/ )
  • WebPower Ücretsiz çevrimiçi istatistiksel güç analizi ( https://webpower.psychstat.org )
  • Ücretsiz ve açık kaynaklı çevrimiçi hesap makineleri ( https://powerandsamplesize.com )
  • Güçlendirin! çeşitli deneysel ve yarı deneysel tasarımlar için minimum saptanabilir etki boyutunu ve minimum gerekli örnek boyutunu belirlemek için uygun excel tabanlı işlevler sağlar.
  • PowerUpR, PowerUp'ın R paket versiyonudur! ve ayrıca bütçe kısıtlamaları olan veya olmayan çeşitli çok düzeyli randomize deneyler için örnek boyutunu belirleme işlevleri içerir.
  • R paketi gücü
  • R paketi WebPower
  • Python paketi istatistik modelleri ( https://www.statsmodels.org/ )

Ayrıca bakınız

Referanslar

Kaynaklar

Dış bağlantılar