Veri tarama - Data dredging

Scripps National Spelling Bee'nin kazanan kelimesindeki harf sayısı ile Amerika Birleşik Devletleri'nde zehirli örümcekler tarafından öldürülen insan sayısı arasındaki korelasyonu gösteren, veri tarama ile üretilen bir sonuç örneği .

Veri tarama (veya veri avlama , veri gözetleme , veri kasaplığı ), aynı zamanda anlamlılık takibi , anlamlılık araştırması , seçici çıkarım ve p- hack olarak da bilinir , veri analizinin istatistiksel olarak anlamlı olarak sunulabilecek verilerdeki kalıpları bulmak için kötüye kullanılmasıdır , bu nedenle yanlış pozitif riskini önemli ölçüde artırmak ve azaltmak. Bu, veriler üzerinde birçok istatistiksel test gerçekleştirerek ve yalnızca önemli sonuçlarla geri gelenleri rapor ederek yapılır.

Veri tarama süreci, belki bir korelasyon gösterebilecek değişken kombinasyonları için ve belki de ortalamalarında veya diğer bazılarına göre dağılımlarında farklılıklar gösteren vaka veya gözlem grupları için kapsamlı bir şekilde arama yaparak tek bir veri seti kullanarak birden fazla hipotezin test edilmesini içerir. değişken.

İstatistiksel anlamlılığa sahip geleneksel testler, yalnızca şans söz konusu olduğunda belirli bir sonucun ortaya çıkma olasılığına dayanır ve belirli bir türde hatalı sonuçlara ilişkin bazı riskleri (boş hipotezin hatalı reddedilmeleri) zorunlu olarak kabul eder. Bu risk düzeyine önem denir . Çok sayıda test yapıldığında, bazıları bu türden yanlış sonuçlar verir; bu nedenle rastgele seçilen hipotezlerin %5'inin (yanlışlıkla) %5 anlamlılık düzeyinde istatistiksel olarak anlamlı olduğu bildirilebilir, %1'inin (yanlışlıkla) %1 anlamlılık düzeyinde istatistiksel olarak anlamlı olduğu bildirilebilir, vb. . Yeterli hipotez test edildiğinde, herhangi bir rastgelelik derecesine sahip hemen hemen her veri kümesinin (örneğin) bazı sahte korelasyonlar içermesi muhtemel olduğundan, bazılarının istatistiksel olarak anlamlı olduğunun bildirileceği neredeyse kesindir (bu yanıltıcı olsa da) . Eğer tedbirli olmazlarsa, veri madenciliği tekniklerini kullanan araştırmacılar bu sonuçlarla kolayca yanıltılabilirler.

Veri tarama, çoklu karşılaştırma problemini göz ardı etmenin bir örneğidir . Bir form, alt grupların, incelenen alt grup karşılaştırmalarının toplam sayısı konusunda okuyucuyu uyarmadan karşılaştırıldığı zamandır.

Verilerden sonuç çıkarma

Geleneksel sıklık istatistiksel hipotez testi prosedürü, "daha yüksek sosyal sınıflardaki insanlar daha uzun yaşar" gibi bir araştırma hipotezi formüle etmek, ardından ilgili verileri toplamak ve ardından bu tür sonuçların şans eseri bulunma olasılığını görmek için istatistiksel bir anlamlılık testi yapmaktır. yalnız iş başındaydı. (Son adıma boş hipoteze karşı test denir .)

Uygun istatistiksel analizde kilit nokta, hipotezin oluşturulmasında kullanılmayan kanıtlarla (veriler) bir hipotezi test etmektir. Bu kritiktir, çünkü her veri seti tamamen şansa bağlı bazı modeller içerir. Hipotez, aynı istatistiksel popülasyondan farklı bir veri seti üzerinde test edilmezse, tek başına şansın bu tür kalıpları üretme olasılığını değerlendirmek imkansızdır. Veriler tarafından önerilen test hipotezlerine bakın .

İşte basit bir örnek. 2 tura ve 3 tura sonucu olarak beş kez bozuk para atmak, paranın 3/5 ila 2/5 oranında tura lehine olduğu varsayımına yol açabilir. Bu hipotez daha sonra mevcut veri seti üzerinde test edilirse doğrulanır, ancak doğrulama anlamsızdır. Uygun prosedür, önceden yazı olasılığının ne olduğuna dair bir hipotez oluşturmak ve daha sonra hipotezin reddedilip reddedilmediğini görmek için parayı birkaç kez atmak olurdu. Üç yazı ve iki tura gözlenirse, yazı olasılığının 3/5 olduğu başka bir hipotez oluşturulabilir, ancak bu yalnızca yeni bir yazı tura seti ile test edilebilir. Yanlış prosedür altındaki istatistiksel anlamlılığın tamamen sahte olduğunun farkına varmak önemlidir – anlamlılık testleri veri taramaya karşı koruma sağlamaz.

Temsili olmayan veriler tarafından önerilen hipotez

Rastgele bir insan örneğine ilişkin bir çalışmanın, doğum günü 7 Ağustos olan tam olarak iki kişiyi kapsadığını varsayalım: Mary ve John. Veri gözetlemeyle uğraşan biri, Mary ve John arasında ek benzerlikler bulmaya çalışabilir. İkisi arasında, her birinin doğru olma olasılığı düşük olan yüzlerce veya binlerce olası benzerlikten geçerek, neredeyse kesinlikle olağandışı bir benzerlik bulunabilir. Belki de John ve Mary, üniversitede üç kez reşit olmayanları değiştiren çalışmada sadece iki kişidir. Veri gözetlemesiyle önyargılı bir hipotez, "7 Ağustos'ta doğan insanların küçükleri üniversitede ikiden fazla değiştirme şansı çok daha yüksek" olabilir.

Bağlamdan çıkarılan verilerin kendisi, farklı doğum günü olan hiç kimse üniversitede üç kez reşit olmayanları değiştirmediği için, bu korelasyonu güçlü bir şekilde destekliyor gibi görülebilir. Ancak, (muhtemelen) bu sahte bir hipotez ise, bu sonuç büyük olasılıkla tekrarlanabilir olmayacaktır ; 7 Ağustos'ta doğum günü olan diğerlerinin benzer bir reşit olmayan çocuk değiştirme oranına sahip olup olmadığını kontrol etmeye yönelik herhangi bir girişim, büyük olasılıkla hemen hemen çelişkili sonuçlar alacaktır.

Ön yargı

Önyargı, analizde sistematik bir hatadır. Örneğin, doktorlar yüksek kardiyovasküler risk taşıyan HIV hastalarını belirli bir HIV tedavisine, abakavir'e ve düşük riskli hastaları diğer ilaçlara yönlendirerek, diğer tedavilere kıyasla abakavirin basit bir değerlendirmesini önlediler. Bu önyargıyı düzeltmeyen bir analiz, hastaları daha yüksek riskli olduğu için abakavir'i haksız yere cezalandırdı ve bu nedenle daha fazla kalp krizi geçirdi. Bu sorun, örneğin gözlemsel çalışmada çok ciddi olabilir .

Eksik faktörler, ölçülemeyen karıştırıcılar ve takip kaybı da önyargıya yol açabilir. Önemli bir p değerine sahip makaleler seçilerek , olumsuz çalışmalar -yayın yanlılığı olan- karşı seçilir . Bu aynı zamanda "dosya dolabı yanlılığı" olarak da bilinir, çünkü daha az anlamlı p- değeri sonuçları dosya dolabında bırakılır ve asla yayınlanmaz.

Çoklu modelleme

İstatistiksel testlerin veri bilgisi ile koşullandırılmasının bir başka yönü , veri sıklığını gözlemlemek için sistem veya makine analizi ve doğrusal regresyon kullanılırken görülebilir . . Süreçteki önemli bir adım, bir veya daha fazla değişkeni açıklayan bir ilişkiye hangi ortak değişkenlerin dahil edileceğine karar vermektir . Her iki istatistiksel (bkz vardır Kademeli regresyon diğerlerine kendi modellerinin bazılarını lehine yazarları kurşun) ve asli düşünceler ve istatistiki testler liberal kullanımı yoktur. Bununla birlikte, veriler temelinde açıklayıcı bir ilişkiden bir veya daha fazla değişkeni çıkarmak, hiçbir şey olmamış gibi ilişkide tutulan değişkenlere standart istatistiksel prosedürleri geçerli bir şekilde uygulayamayacağınız anlamına gelir. Durumun doğası gereği, tutulan değişkenler, atılan değişkenlerin başarısız olduğu bir tür ön testi (muhtemelen kesin olmayan sezgisel olanı) geçmek zorunda kalmıştır. 1966'da Selvin ve Stuart, modelde tutulan değişkenleri ağdan düşmeyen balıklarla karşılaştırdılar - etkilerinin ağın içinden düşenlerden daha büyük olması gerektiği anlamında. Bu, yalnızca tutulan açıklayıcı model üzerindeki sonraki tüm testlerin performansını değiştirmekle kalmaz, aynı zamanda sapmaya neden olabilir ve tahminde ortalama kare hatasını değiştirebilir .

Meteoroloji ve epidemiyolojiden örnekler

Olarak meteoroloji , hipotezler genellikle günümüze hava verileri kullanılarak formüle edilir ve gelecekteki hava verileri, daha bilinç, gelecekteki veri hipotezin formülasyonu etkilemeyebilecektir aktarımı sağlar karşı test edilmiştir. Elbette böyle bir disiplin, formüle edilmiş teorinin sıfır hipotezine karşı tahmin gücünü göstermek için yeni verilerin gelmesini beklemeyi gerektirir . Bu süreç , yaklaşan hava durumu henüz mevcut olmadığından , hiç kimsenin araştırmacıyı tahmine dayalı modeli eldeki verilere göre uyarlamakla suçlayamamasını sağlar .

Başka bir örnek olarak, gözlemcilerin belirli bir kasabanın bir kanser kümesine sahip gibi göründüğünü ancak bunun neden böyle olduğuna dair sağlam bir hipotezden yoksun olduğunu not ettiklerini varsayalım . Bununla birlikte, şehir ve çevresi hakkında, çoğunlukla ilişkisiz yüzlerce veya binlerce farklı değişkenin alanı için ölçümler içeren büyük miktarda demografik verilere erişimleri vardır . Tüm bu değişkenler kanser insidans oranından bağımsız olsa bile, en az bir değişkenin bölgedeki kanser oranıyla önemli ölçüde ilişkili olması kuvvetle muhtemeldir. Bu bir hipotez önerebilse de, doğrulamak için aynı değişkenleri kullanarak ancak farklı bir konumdan gelen verilerle daha fazla test yapılması gerekir. 0,01'lik bir p- değerinin , zamanın % 1'inde en azından o uç noktadaki bir sonucun şans eseri elde edileceğini gösterdiğine dikkat edin; yüzlerce veya binlerce hipotez (karşılıklı olarak göreceli olarak korelasyonsuz bağımsız değişkenlerle) test edilirse, çoğu boş hipotez için 0.01'den küçük bir p değeri elde edilmesi muhtemeldir .

çareler

Verilerde kalıp aramak meşrudur. Bir örüntünün ortaya çıktığı aynı verilere istatistiksel bir anlamlılık testi veya hipotez testi uygulamak yanlıştır. Veri taramasından kaçınırken hipotezler oluşturmanın bir yolu, rastgele örneklem dışı testler yapmaktır . Araştırmacı bir veri seti toplar, ardından onu rastgele A ve B olmak üzere iki altkümeye böler. Hipotez oluşturmak için sadece bir altküme (örneğin, A altkümesi) incelenir. Bir hipotez formüle edildikten sonra, hipotezi oluşturmak için kullanılmayan B alt kümesinde test edilmelidir. Sadece B'nin de böyle bir hipotezi desteklediği durumlarda, hipotezin geçerli olabileceğine inanmak mantıklıdır. (Bu, basit bir çapraz doğrulama türüdür ve genellikle eğitim testi veya yarı yarıya doğrulama olarak adlandırılır.)

Veri tarama için başka bir çözüm, çalışma sırasında gerçekleştirilen tüm anlamlılık testlerinin sayısını kaydetmek ve sadece birinin önem kriterini ("alfa") bu sayıya bölmek; bu Bonferroni düzeltmesidir . Ancak, bu çok muhafazakar bir ölçüdür. 1.000 anlamlılık testini hesaba katmak için bu şekilde 1.000'e bölünen 0,05'lik aile bazında bir alfa, 0,0005'lik çok katı bir hipotez başına alfa verir. Varyans analizinde ve temel fonksiyonları içeren regresyonlar için eşzamanlı güven bantlarının oluşturulmasında özellikle yararlı olan yöntemler, Scheffé yöntemi ve araştırmacının aklında yalnızca ikili karşılaştırmalar varsa, Tukey yöntemidir . Benjamini ve Hochberg'in yanlış keşif oranının kullanımı, çoklu hipotez testlerinin kontrolü için popüler bir yöntem haline gelen daha karmaşık bir yaklaşımdır.

Her iki yaklaşım da pratik olmadığında, doğrulayıcı olan veri analizleri ile keşfedici olan analizler arasında net bir ayrım yapılabilir . İstatistiksel çıkarım yalnızca birincisi için uygundur.

Sonuç olarak, bir testin istatistiksel önemi ve bir bulgunun istatistiksel güveni, verilerin ortak özellikleri ve verileri incelemek için kullanılan yöntemdir. Bu nedenle, birisi belirli bir olayın 20 üzerinden 19 kez %20 ± %2 olasılığı olduğunu söylerse, bu, olayın olasılığı %20 tahminini elde etmek için kullanılan yöntemle tahmin ediliyorsa, sonuç şu anlama gelir: %18 ve %22 olasılıkla 0.95. Verileri değerlendirmek için kullanılan yöntem dikkate alınmadan, yalnızca bakarak istatistiksel anlamlılık iddiasında bulunulamaz.

Akademik dergiler , teori test araştırmalarını çok güvenilmez hale getiren veri tarama ve HARKing gibi çok ciddi sorunlara karşı koymayı amaçlayan kayıtlı rapor formatına giderek daha fazla kayıyor : Örneğin, Nature Human Behavior kayıtlı rapor formatını benimsemiştir, çünkü “ vurguyu araştırma sonuçlarından araştırmaya rehberlik eden sorulara ve bunları yanıtlamak için kullanılan yöntemlere kaydırır”. Kişilik European Journal şöyle bu biçimi tanımlar: “tescilli raporda, yazarlar teorik ve ampirik arka plan, araştırma sorularını / hipotezleri ve pilot veriyi (varsa) içeren bir çalışma teklif oluşturuyoruz. Sunulduktan sonra, bu teklif veri toplamadan önce gözden geçirilecek ve kabul edilirse, bu hakemli prosedürden elde edilen makale, çalışma sonuçlarına bakılmaksızın yayınlanacaktır.

Açık bilim yaklaşımında olduğu gibi, yöntemler ve sonuçlar da kamuya açık hale getirilebilir , bu da veri taramanın gerçekleşmesini daha da zorlaştırır.

Ayrıca bakınız

Referanslar

daha fazla okuma

Dış bağlantılar