Doğrusal eğilim tahmini - Linear trend estimation

Doğrusal eğilim tahmini , verilerin yorumlanmasına yardımcı olan istatistiksel bir tekniktir. Bir sürecin bir dizi ölçümü örneğin bir zaman serisi olarak ele alındığında , ölçümleri meydana geldikleri zamanlarla ilişkilendirerek verilerdeki eğilimler hakkında açıklamalar yapmak ve bunları doğrulamak için eğilim tahmini kullanılabilir. Bu model daha sonra gözlemlenen verilerin davranışını açıklamadan açıklamak için kullanılabilir. Bu durumda doğrusal eğilim tahmini, verileri zamanın doğrusal bir fonksiyonu olarak ifade eder ve ayrıca kategorik bir faktörle bağlantılı bir veri kümesindeki farklılıkların önemini belirlemek için kullanılabilir. İkincisinin biyomedikal biliminden bir örneği, hafif, orta ve şiddetli gibi giderek kötüleşen hastalığı olan hastaların kanındaki veya dokularındaki bir molekülün seviyeleri olabilir. Bu, üç veya daha fazla bağımsız grup (örneğin kalp hastalığı, kanser, artrit) için ayrılmış bir ANOVA'nın aksinedir (aşağıya bakınız).

Özellikle, ölçümlerin rastgele davranıştan istatistiksel olarak ayırt edilen artan veya azalan bir eğilim gösterip göstermediğini belirlemek faydalı olabilir . Bazı örnekler, belirli bir yerde kıştan yaza günlük ortalama sıcaklıkların eğilimini belirlemek ve son 100 yıldaki küresel sıcaklık serisindeki eğilimi belirlemektir. İkinci durumda, homojenlik konuları önemlidir (örneğin, serinin uzunluğu boyunca eşit derecede güvenilir olup olmadığı hakkında).

Trend uydurma: en küçük kareler

Bir veri kümesi ve bu verilerin bir tür modelini üretme isteği göz önüne alındığında , uyum için seçilebilecek çeşitli işlevler vardır. Verilerin önceden anlaşılması yoksa, sığdırılacak en basit işlev, y ekseninde veri değerleri ve x ekseninde zaman ( t = 1, 2, 3, ...) olan bir düz çizgidir .

Düz bir çizgiye uymaya karar verildikten sonra, bunu yapmanın çeşitli yolları vardır, ancak en yaygın seçenek en küçük kareler uyumudur. Bu yöntem, y veri serisindeki karesi alınmış hataların toplamını en aza indirir .

Noktalarının belirli bir süre içinde göz önüne alındığında ve veri değerleri zaman içinde bu noktaya gözlemlenen, değerleri ve böylece seçilir

minimize edilir. İşte en + b toplamı böylece trend çizgisi vardır kare sapmaların eğilim çizgisinden minimize ediliyor budur. Bu, basit bir doğrusal regresyon durumu olduğundan, her zaman kapalı biçimde yapılabilir .

Bu makalenin geri kalanında, "eğilim", yaygın bir gelenek olduğu için en küçük kareler çizgisinin eğimi anlamına gelecektir.

Rastgele verilerdeki eğilimler

Gerçek verilerdeki eğilimleri dikkate almadan önce, rastgele verilerdeki eğilimleri anlamakta fayda var .

Kırmızı gölgeli değerler geri kalanın %99'undan fazladır; mavi, %95; yeşil, %90. Bu durumda metinde tartışılan (tek taraflı) %95 güven için V değerlerinin 0,2 olduğu görülmektedir.

Rastgele olduğu bilinen bir dizi analiz edilirse - adil zarlar düşer veya bilgisayar tarafından oluşturulan sözde rastgele sayılar - ve verilere bir eğilim çizgisi yerleştirilirse, tam olarak sıfır tahmin edilen bir eğilim şansı ihmal edilebilir. Ancak eğilimin küçük olması beklenir. İlgilenilen veri serimizin gözlemlenen varyansına ve belirli bir uzunluğa (örneğin, 100 puan) eşit olan belirli bir gürültü varyansını kullanan simülasyonlardan bireysel bir gözlem dizisi üretilirse, bu tür simüle edilmiş çok sayıda seri (örneğin, 100.000 serisi) oluşturulabilir. Bu 100.000 seri daha sonra her bir serideki tahmini eğilimleri hesaplamak için ayrı ayrı analiz edilebilir ve bu sonuçlar, bu tür rastgele verilerden beklenen tahmini eğilimlerin bir dağılımını oluşturur - şemaya bakın. Böyle bir dağılım, patolojik durumlar dışında , merkezi limit teoremine göre normal olacaktır . Artık bir istatistiksel kesinlik düzeyi olan S seçilebilir - %95 güven tipiktir; % 99 daha katı,% 90 daha gevşek olacak - ve şu soru sorulabilir: sınırda eğilim değeri nedir V yol açacağı S arasındaki olma eğilimleri% - V ve + V ?

Yukarıdaki prosedür bir permütasyon testi ile değiştirilebilir . Bunun için, oluşturulan 100.000 seriden oluşan set, gözlemlenen veri serilerinin rastgele karıştırılmasıyla oluşturulan 100.000 seri ile değiştirilecektir; açık bir şekilde, bu şekilde oluşturulmuş bir seri trendden bağımsız olacaktır, bu nedenle simüle edilmiş veri kullanma yaklaşımında olduğu gibi, bu seriler sınırda trend değerleri V ve − V oluşturmak için kullanılabilir .

Yukarıdaki tartışmada, eğilimlerin dağılımı, çok sayıda denemeden simülasyon yoluyla hesaplanmıştır. Basit durumlarda (normal olarak dağıtılan rastgele gürültü bir klasiktir) eğilimlerin dağılımı simülasyon olmadan tam olarak hesaplanabilir.

(− V , V ) aralığı , gerçek verilerden tahmin edilen bir trendin, gerçekten sıfır trendi olan bir veri serisinden gelme ihtimalinin olup olmadığına karar vermek için kullanılabilir. Parametre regresyon tahmini değeri ise bir bu aralığın dışında, bu tür bir sonuç, gerçek bir sıfır eğilim varlığında meydana gelen tek, örneğin, güven değeri ise yirmi üzerinden bir kez S =% 95 kullanılmıştır; bu durumda, S kesinlik derecesinde , gerçek temel eğilimin sıfır olduğu sıfır hipotezini reddettiğimiz söylenebilir.

Bununla birlikte, S'nin hangi değerini seçersek seçelim, o zaman gerçekten rastgele serilerin belirli bir kesrinin, 1 −  S , önemli bir eğilime sahip olduğu bildirilecektir (yanlış, yapım gereği). Tersine, aslında sıfırdan farklı bir trende sahip olan belirli bir seri fraksiyonunun trend olduğu beyan edilmeyecektir.

Trend artı gürültü olarak veriler

Bir (zaman) veri serisini analiz etmek için, bunun trend artı gürültü olarak temsil edilebileceğini varsayıyoruz:

nerede ve bilinmeyen sabitlerdir ve 'ler rastgele dağıtılmış hatalardır . Hataların durağan olmadığı sıfır hipotezi reddedilebilirse , o zaman durağan olmayan { y t } serisine trend-durağan denir . En küçük kareler yöntemi, hataların normal bir dağılımla bağımsız olarak dağıldığını varsayar . Durum böyle değilse, bilinmeyen a ve b parametreleriyle ilgili hipotez testleri yanlış olabilir. Hepsinin aynı dağılıma sahip olması en basitidir , ancak değilse (bazılarının daha yüksek varyansa sahip olması , yani bu veri noktalarının etkin bir şekilde daha az kesin olduğu anlamına geliyorsa ), o zaman bu, her bir noktayı ağırlıklandırarak en küçük kareler uydurması sırasında dikkate alınabilir. bu noktanın varyansının tersi ile.

Analiz edilecek yalnızca tek bir zaman serisinin olduğu çoğu durumda, 'lerin varyansı , tahmin edilen parametre değerlerini elde etmek için bir eğilim uydurularak tahmin edilir ve böylece tahmin edilen değerlere izin verilir.

verilerden çıkarılması (böylece verilerin trendinin kaldırılması ) ve artıkların trendi giderilmiş veriler olarak bırakılması ve artıklardan 'lerin varyansının tahmin edilmesi - bu genellikle 'lerin varyansını tahmin etmenin tek yoludur .

Biz serinin "gürültü" bildiğimiz zaman, o zaman yaparak trendin önemini değerlendirmek Sıfır hipotezini trendi olduğunu, bilinen rastgele verilerdeki eğilimleri Yukarıdaki tartışmadan 0'dan farklı değildir Varyans , biz Rastgele (eğilimsiz) verilerden beklenen hesaplanmış eğilimlerin dağılımını bilir. Tahmin edilen eğilim, belirli bir önem düzeyi için kritik değerden büyükse , o zaman tahmin edilen eğilim, o anlamlılık düzeyinde sıfırdan önemli ölçüde farklı kabul edilir ve temeldeki sıfır eğilimin sıfır hipotezi reddedilir.

Doğrusal bir eğilim çizgisinin kullanılması eleştiri konusu olmuş ve model tahmininde kullanımından kaçınmak için alternatif yaklaşımlar aranmasına yol açmıştır. Alternatif yaklaşımlardan biri de ekonometrik çalışmalarda birim kök testleri ve eşbütünleşme tekniğidir.

Zaman gibi doğrusal bir eğilim değişkeni ile ilişkili tahmini katsayı, bilinmeyen veya bilinen ancak ölçülemeyen bir dizi faktörün bir birim zaman boyunca bağımlı değişken üzerindeki etkisinin bir ölçüsü olarak yorumlanır. Kesin konuşmak gerekirse, bu yorum yalnızca tahmin zaman çerçevesi için geçerlidir. Bu zaman diliminin dışında, ölçülemeyen faktörlerin hem niteliksel hem de niceliksel olarak nasıl davrandığı bilinmez. Ayrıca, zaman trendinin doğrusallığı birçok soruyu da beraberinde getiriyor:

(i) Neden doğrusal olmalıdır?

(ii) Eğilim doğrusal değilse, hangi koşullar altında dahil edilmesi modeldeki diğer parametrelerin tahminlerinin büyüklüğünü ve istatistiksel önemini etkiler?

(iii) Bir modele doğrusal bir zaman eğiliminin dahil edilmesi, varsayım yoluyla bağımlı değişkenin zaman içindeki eğilimlerinde dalgalanmaların varlığını engeller; bu mutlaka belirli bir bağlamda geçerli mi?

(iv) Ve, altta yatan bir nedensel değişkenin kendisi zaman yönelimli olduğu için modelde sahte bir ilişki var mıdır?

Bu sorulara yanıt olarak matematikçilerin, istatistikçilerin, ekonometristlerin ve ekonomistlerin araştırma sonuçları yayınlandı. Örneğin, regresyon modelindeki doğrusal zaman eğilimlerinin anlamı hakkında ayrıntılı notlar Cameron'da (2005); Granger, Engle ve diğer birçok ekonometrist durağanlık, birim kök testi, eş-bütünleşme ve ilgili konular hakkında yazılar yazmışlardır (bu alandaki bazı çalışmaların bir özeti İsveç Kraliyet Bilimler Akademisi'nin (2003) bir bilgi makalesinde bulunabilir. ve Ho-Trieu & Tucker (1990) logaritmik zaman trendleri üzerine yazdılar ve sonuçları lineer zaman trendlerinin döngülerin özel durumları olduğunu gösteriyor .

Örnek: gürültülü zaman serisi

Gürültülü bir zaman serisinde bir trend görmek daha zordur. Örneğin, gerçek seri 0, 1, 2, 3 ve tümü artı standart sapma E'nin bazı bağımsız normal dağılmış "gürültü" e'si ise ve 50 uzunluğunda bir örnek serimiz varsa, o zaman E  = 0.1 ise eğilim açık olacaktır. ; eğer E  100 = eğilim muhtemelen görünür olacaktır; ancak E  = 10000 ise trend gürültüye gömülecektir.  

Somut bir örnek ele alırsak, IPCC tarafından sunulan son 140 yılın küresel yüzey sıcaklığı kaydı : o zaman, yıllar arası değişim yaklaşık 0,2 °C ve 140 yılda eğilim yaklaşık 0,6 °C'dir, %95 güven sınırları 0,2'dir. °C (tesadüf eseri, yıllar arası varyasyonla aynı değerde). Dolayısıyla eğilim istatistiksel olarak 0'dan farklıdır. Ancak, başka bir yerde belirtildiği gibi bu zaman serisi, en küçük karelerin geçerli olması için gerekli varsayımlara uymaz.

Uyum iyiliği ( r- kare) ve trend

r 2 üzerinde filtreleme etkisinin gösterimi . Siyah = filtrelenmemiş veri; kırmızı = her 10 noktada bir ortalama veri; mavi = her 100 noktada bir ortalama veri. Hepsi aynı eğilimi vardır, ancak daha yüksek yol açar filtre r 2 donatılmış eğilim hattının.

En küçük kareler uydurma işlemi , 1 eksi artıkların varyansının bağımlı değişkenin varyansına oranı olan - r-kare ( r 2 ) - bir değer üretir . Verilerin varyansının ne kadarının uygun trend çizgisi tarafından açıklandığını söyler. Bu etmez olmayan ilgili istatistiksel anlamlılık eğilim hattı (grafik bakınız); trendin istatistiksel önemi, t-istatistiği ile belirlenir . Çoğu zaman, bir diziyi filtrelemek r 2'yi arttırırken, uygun trendde çok az fark yaratır.

Gerçek veriler daha karmaşık modellere ihtiyaç duyabilir

Şimdiye kadar verilerin trend artı gürültüden oluştuğu, her veri noktasındaki gürültünün bağımsız ve özdeş olarak dağıtılmış rastgele değişkenler olduğu ve normal bir dağılıma sahip olduğu varsayılmıştır . Gerçek veriler (örneğin iklim verileri) bu kriterleri karşılamayabilir. Bu önemlidir, çünkü veri serilerinden maksimum bilgiyi çıkarmak için istatistiklerin kolaylıkla analiz edilebilmesi açısından büyük bir fark yaratır. Bağımsız değişkenle (döngüsel etkiler gibi) korelasyonu olan başka doğrusal olmayan etkiler varsa, trendin en küçük kareler tahmininin kullanılması geçerli değildir. Ayrıca varyasyonların sonuçtaki düz çizgi eğiliminden önemli ölçüde daha büyük olduğu durumlarda, başlangıç ​​ve bitiş noktalarının seçimi sonucu önemli ölçüde değiştirebilir. Yani model matematiksel olarak yanlış tanımlanmıştır . İstatistiksel çıkarımlar (trendin varlığına yönelik testler, trend için güven aralıkları, vb.), örneğin aşağıdaki gibi standart varsayımlardan sapmalar uygun şekilde hesaba katılmadıkça geçersizdir:

İçinde R , veri lineer trend 'durumu: paketinin 'tslm' fonksiyonunu kullanılarak tahmin edilebilir.

Klinik verilerdeki eğilimler

Tıbbi ve biyomedikal araştırmalar genellikle (yukarıda belirtildiği gibi) üç farklı hastalık gibi veri setlerinde bir bağlantı belirlemeye çalışır. Ancak veriler zamanla (bir ilacın etkisinin başlangıçtan 1. aya, 2. aya kadar değişmesi gibi) veya araştırmacı ve/veya denekleri tarafından belirlenebilen veya belirlenemeyen harici bir faktörle de bağlantılı olabilir. (ağrı yok, hafif ağrı, orta derecede ağrı, şiddetli ağrı gibi). Bu durumlarda, etki testi istatistiğinin (örneğin, bir statinin kolesterol seviyeleri üzerindeki etkisi , bir analjeziğin ağrı derecesi üzerindeki etkisi veya bir ilacın ölçülebilir bir indeks üzerindeki artan dozları) etki geliştikçe doğrudan sırayla değişmesi beklenir. Statin reçete edilmeden önce ve sonra ortalama kolesterol seviyesinin başlangıçta 5,6 mmol/L' den bir ayda 3,4 mmol/L'ye ve iki ayda 3,7 mmol/L'ye düştüğünü varsayalım . Yeterli güç verildiğinde, bir ANOVA büyük olasılıkla bir ve iki ayda önemli bir düşüş bulacaktır, ancak düşüş doğrusal değildir. Ayrıca, bir post-hoc testi gerekebilir. Alternatif bir test , verilerin doğasına bağlı olarak tekrarlanan ölçümler (iki yönlü) ANOVA veya Friedman testi olabilir. Bununla birlikte, gruplar sıralı olduğu için standart bir ANOVA uygun değildir. Kolesterol 5,4'ten 4,1'e 3,7'ye düşerse, net bir doğrusal eğilim vardır. Aynı prensip, XX, XY, YY nükleotitlerindeki SNP'lerin aslında Y'lerin olmadığı, bir Y'nin ve ardından iki Y'nin bir eğilimi olduğu iddia edilebilecek alel/ genotip frekansının etkilerine uygulanabilir .

Doğrusal eğilim tahmininin matematiği, farklı bilgiler veren standart ANOVA'nın bir çeşididir ve araştırmacılar test istatistiklerinde bir eğilim etkisi hipotezi kuruyorlarsa en uygun test olacaktır. Bir örnek [1], on yaşa göre sıralanan altı denek grubundaki serum tripsin seviyeleridir (10-19 yaşından 60-69 yaşına kadar). Tripsin seviyeleri (ng/mL) 128, 152, 194, 207, 215, 218'lik doğrudan doğrusal bir trendde yükselir. Şaşırtıcı olmayan bir şekilde, bir 'standart' ANOVA p  < 0.0001 verirken, doğrusal eğilim tahmini p  = 0.00006 verir. Bu arada, yaş doğal olarak sürekli değişken bir indeks olduğundan, on yıllara ve yaş ve serum tripsin etkisinin korelasyonla aranmaması gerektiği (ham verilerin mevcut olduğu varsayılarak) makul bir şekilde tartışılabilir. Başka bir örnek, farklı gruplarda dört zaman noktasında ölçülen bir maddedir: ortalama [SD] (1) 1,6 [0.56], (2) 1.94 [0.75], (3) 2.22 [0.66], (4) 2.40 [0.79 ], ki bu açık bir eğilimdir. ANOVA, p  = 0.091 verir , çünkü genel varyans ortalamaları aşarken, doğrusal eğilim tahmini p  = 0.012 verir . Bununla birlikte, verilerin aynı bireylerde dört zaman noktasında toplanması durumunda, doğrusal eğilim tahmini uygun olmaz ve iki yönlü (tekrarlanan ölçümler) ANOVA uygulanır.

Ayrıca bakınız

Notlar

Referanslar

  • Bianchi, M.; Boyle, M.; Hollingsworth, D. (1999). "Trend tahmini için yöntemlerin karşılaştırılması". Uygulamalı İktisat Mektupları . 6 (2): 103–109. doi : 10.1080/135048599353726 .
  • Cameron, S. (2005). "Regresyon Analizini Daha Faydalı Hale Getirme, II". Ekonometri . Maidenhead: McGraw Hill Yüksek Öğrenim. s. 171–198. ISBN'si 0077104285.
  • Chatfield, C. (1993). "Aralık Tahminlerinin Hesaplanması". İş ve Ekonomik İstatistikler Dergisi . 11 (2): 121–135. doi : 10.1080/07350015.1993.10509938 .
  • Ho-Trieu, NL; Tucker, J. (1990). "Bir logaritmik zaman trendinin kullanımına ilişkin başka bir not". Pazarlama ve Tarım Ekonomisinin Gözden Geçirilmesi . 58 (1): 89-90. DOI: 10.22004/ag.econ.12288
  • Kungl. Vetenskapsakademien (İsveç Kraliyet Bilimler Akademisi) (2003). "Zaman serisi ekonometri: Eşbütünleşme ve otoregresif koşullu değişen varyans". Alfred Nobel Anısına İktisadi Bilimlerde İsveç Bankası Ödülü Hakkında İleri Bilgiler .
  • Arianos, S.; Karbon, A.; Türk, C. (2011). "Yüksek mertebeden hareketli ortalamaların kendine benzerliği" . Fiziksel İnceleme E . 84 (4): 046113. doi : 10.1103/physreve.84.046113 . PMID  22181233 .