Değişkenlerde hata modelleri - Errors-in-variables models

Gelen istatistik , hatalar-in-değişkenler modeller veya ölçüm hatası modelleri vardır regresyon modelleri için hesap ölçüm hataları içinde bağımsız değişkenler . Buna karşılık, standart regresyon modelleri, bu regresyonların tam olarak ölçüldüğünü veya hatasız olarak gözlemlendiğini varsayar; bu nedenle, bu modeller yalnızca bağımlı değişkenlerdeki veya yanıtlardaki hataları hesaba katar .

Çizimi regresyon seyreltme regresyon bir dizi (ya da zayıflatma önyargı) hataları-içinde-değişken bir model tahmin etmektedir. İki regresyon çizgisi (kırmızı), lineer regresyon olasılıklarının aralığını sınırlar. Bağımsız değişken (veya yordayıcı) apsis (x ekseni) üzerinde olduğunda sığ eğim elde edilir. Bağımsız değişken ordinat (y ekseni) üzerinde olduğunda daha dik eğim elde edilir. Geleneksel olarak, x eksenindeki bağımsız değişken ile daha sığ eğim elde edilir. Yeşil referans çizgileri, her eksen boyunca rastgele kutular içindeki ortalamalardır. Daha dik yeşil ve kırmızı regresyon tahminlerinin, y ekseni değişkenindeki daha küçük hatalarla daha tutarlı olduğuna dikkat edin.

Bazı regresörlerin hatalarla ölçüldüğü durumda, standart varsayıma dayalı tahmin, tutarsız tahminlere yol açar , yani parametre tahminleri çok büyük örneklerde bile gerçek değerlere eğilim göstermez. İçin basit doğrusal regresyonu etkisi olarak bilinen katsayısının tam olarak gerçeği, bir zayıflatma önyargı . Gelen doğrusal olmayan modellerin önyargı yönü daha karmaşık hale muhtemeldir.

motive edici örnek

Formun basit bir doğrusal regresyon modelini düşünün

nerede gerçek ancak gözlemlenmeyen regresörü belirtir . Bunun yerine bu değeri bir hatayla gözlemliyoruz:

burada ölçüm hatasının gerçek değerden bağımsız olduğu varsayılır .

Eğer ′s , ′s üzerinde basitçe regrese edilirse (bakınız basit lineer regresyon ), o zaman eğim katsayısı için tahmin edici şudur:

örneklem büyüklüğü sınırsız olarak arttıkça yakınsayan :

Varyanslar negatif değildir, bu nedenle sınırda tahminin büyüklüğü gerçek değerinden daha küçüktür, istatistikçilerin zayıflama veya regresyon seyreltmesi dediği bir etki . Bu nedenle, 'naif' en küçük kareler tahmincisi bu ortamda tutarsızdır . Ancak, tahmincisi bir olan tutarlı tahminci bir iyi lineer öngörücü için gerekli parametrenin verilen : Bunun varyans farz olsa da bazı uygulamalarda bu, daha ziyade 'gerçek' regresyon katsayısının bir tahminden daha gereklidir ne olabilir gözlemlemedeki hatalar sabit kalır. Bu, doğrudan yukarıda alıntılanan sonuçtan ve basit bir lineer regresyonda ′s ile fiilen gözlenen ′s arasında ilişki kuran regresyon katsayısının şu şekilde verildiği gerçeğinden kaynaklanmaktadır.

Gürültüye maruz kalan bir gözleme dayalı bir tahmin edici oluşturmak için gerekli olan , yerine bu katsayı olacaktır .

Hemen hemen tüm mevcut veri kümelerinin farklı doğa ve büyüklükte hatalar içerdiği, dolayısıyla zayıflama yanlılığının son derece sık olduğu (çok değişkenli regresyonda yanlılığın yönü belirsiz olmasına rağmen) iddia edilebilir. Jerry Hausman bunu ekonometrinin bir demir kuralı olarak görüyor : "Tahmin büyüklüğü genellikle beklenenden daha küçüktür."

Şartname

Genellikle ölçüm hatası modelleri, gizli değişkenler yaklaşımı kullanılarak tanımlanır . Eğer yanıt değişkendir ve regresörlerin değerlerini gözlenir, o zaman kabul edilir bazı gizli değişkenleri orada var ve hangi modelin “gerçek” izleyin fonksiyonel bir ilişki ve gözlenen miktarları onların gürültülü gözlemler şu şekildedir:

nerede modelin parametresi ve hatasız olduğu varsayılan regresörler (örneğin, lineer regresyon bir kesme içerdiğinde, sabite karşılık gelen regresör kesinlikle "ölçüm hatası"na sahip değildir). Spesifikasyona bağlı olarak bu hatasız regresörler ayrı olarak ele alınabilir veya alınmayabilir; ikinci durumda, 's'nin varyans matrisindeki karşılık gelen girişlerin sıfır olduğu varsayılır .

Değişkenler , , her edilir gözlenen istatistikçiye sahip, yani bir veri kümesi arasında istatistiksel birimleri aşağıdaki verileri üretme işlemi , yukarıda tarif edilen; , , , ve gizli değişkenleri ancak gözlenmez.

Bu belirtim, var olan tüm değişkenlerdeki hatalar modellerini kapsamaz. Örneğin bunların fonksiyonu bazı olabilir parametrik olmayan ya da yarı-parametrik. Diğer yaklaşımlar, ve arasındaki ilişkiyi işlevsel yerine dağılımsal olarak modeller, yani koşullu olarak belirli (genellikle parametrik) bir dağılımı takip ettiğini varsayarlar .

Terminoloji ve varsayımlar

  • Gözlenen değişken bildirim , gösterge veya vekil değişken olarak adlandırılabilir .
  • Gözlenmeyen değişken , gizli veya gerçek değişken olarak adlandırılabilir . Ya bilinmeyen bir sabit (bu durumda modele işlevsel model denir ) ya da rastgele bir değişken (karşılıklı olarak yapısal bir model ) olarak kabul edilebilir.
  • Ölçüm hatası ve gizli değişken arasındaki ilişki farklı şekillerde modellenebilir:
    • Klasik hatalar : hatalar gizli değişkenden bağımsızdır . Bu en yaygın varsayımdır, hataların ölçüm cihazı tarafından ortaya konduğu ve büyüklüklerinin ölçülen değere bağlı olmadığı anlamına gelir.
    • Ortalama-bağımsızlık : Gizli regresörün her değeri için hatalar ortalama-sıfırdır. Bu, ölçüm hatalarında değişen varyans veya diğer etkilerin varlığına izin verdiği için klasik olandan daha az kısıtlayıcı bir varsayımdır .
    • Berkson hataları :hatalar gözlemlenen regresör x'ten bağımsızdır. Bu varsayımın uygulanabilirliği çok sınırlıdır. Bir örnek yuvarlama hatalarını: örneğin bir kişinin eğer yaş * bir olduğunu sürekli rasgele değişken , gözlenen oysa yaşı küçük bir sonraki tam sayıya kesilir, daha sonra kesme hatası gözlenen yaklaşık bağımsızdır yaş . Başka bir olasılık, sabit tasarım deneyidir: örneğin, bir bilim adamı belirli bir önceden belirlenmiş zamanda bir ölçüm yapmaya karar verirse, örneğin saat 'de, o zaman gerçek ölçüm başka bir değerde(örneğin, sonlu tepki süresi nedeniyle)meydana gelebilir.) ve bu tür ölçüm hatası genellikle regresörün "gözlenen" değerinden bağımsız olacaktır.
    • Yanlış sınıflandırma hataları : kukla regresörler için kullanılan özel durum . Eğer belirli bir olay veya durumun bir göstergesi olan, daha sonra bu regresör ölçüm hatası benzer yanlış sınıflandırmaya karşılık gelir (kişi / erkek kadın gibi bazı tıbbi tedavi / değil, vb verilen) II tip I ve tip istatistiksel testlerde hatalar . Bu durumda hata sadece 3 olası değer alabilir ve koşullu dağılımı iki parametre ile modellenir: , ve . Tanımlama için gerekli koşul , yanlış sınıflandırmanın "çok sık" olmamasıdır. (Bu fikir, ikiden fazla olası değere sahip ayrık değişkenlere genelleştirilebilir.)

Doğrusal model

İlk olarak değişkenlerde doğrusal hata modelleri üzerinde çalışıldı, bunun nedeni muhtemelen doğrusal modellerin çok yaygın olarak kullanılması ve doğrusal olmayan modellerden daha kolay olmalarıdır. Standart en küçük kareler regresyonunun (OLS) aksine , değişken regresyonundaki (EiV) hataları basitten çok değişkenli duruma genişletmek kolay değildir.

Basit doğrusal model

Değişkenlerdeki basit doğrusal hatalar modeli, "motivasyon" bölümünde zaten sunuldu:

burada tüm değişkenler skaler . Burada α ve β ilgilenilen parametrelerdir, oysa σ ε ve σ η -hata terimlerinin standart sapmaları- rahatsız edici parametrelerdir . "Gerçek" regresör x* , ölçüm hatası η'dan ( klasik varsayım) bağımsız olarak rastgele bir değişken ( yapısal model) olarak ele alınır .

Bu model tanımlanabilir (1) ya da latent geri çekici: iki durumda X * bir değil , normalde dağıtılmış , (2) ya da X * , normal dağılımına sahip, ama ne ε t , ne de η t normal dağılım ile bölünebilir. Yani, α , β parametreleri , gizli regresörün Gauss olmaması koşuluyla, herhangi bir ek bilgi olmaksızın veri setinden tutarlı bir şekilde tahmin edilebilir .

Bu tanımlanabilirlik sonucu belirlenmeden önce, istatistikçiler tüm değişkenlerin normal olduğunu varsayarak maksimum olabilirlik tekniğini uygulamaya çalışmış ve ardından modelin tanımlanmadığı sonucuna varmışlardır. Önerilen çözüm, modelin bazı parametrelerinin bilindiğini veya dış kaynaktan tahmin edilebileceğini varsaymaktı . Bu tür tahmin yöntemleri şunları içerir:

  • Deming regresyonuδ = σ² ε / σ² η oranının bilindiğini varsayar . Bu, örneğin y ve x'teki hataların her ikisinin de ölçümlerden kaynaklandığı ve ölçüm cihazlarının veya prosedürlerin doğruluğunun bilindiği durumlarda uygun olabilir. Durumda δ = 1 olarak da bilinir ortogonal regresyon .
  • Bilinen güvenilirlik oranına sahip regresyon λ = σ² / ( σ² η + σ² ), burada σ² gizli regresörün varyansıdır. Bu tür bir yaklaşım, örneğin aynı birimin tekrarlanan ölçümleri mevcut olduğunda veya güvenilirlik oranı bağımsız çalışmadan bilindiğinde uygulanabilir. Bu durumda eğimin tutarlı tahmini, en küçük kareler tahmininin λ'ya bölünmesine eşittir .
  • Bilinen σ² η ile regresyon , x' s'deki hataların kaynağı bilindiğinde ve varyansları hesaplanabildiğinde meydana gelebilir. Bu, yuvarlama hatalarını veya ölçüm cihazının neden olduğu hataları içerebilir. Tüm σ² η biz güvenilirlik oranını hesaplamak için bilinen λ = ( σ² x - σ² η ) / σ² X ve önceki durumda sorunu azaltır.

Modelin bazı parametreleri hakkında bilgi sahibi olduğunu varsaymayan daha yeni tahmin yöntemleri şunları içerir:

  • Moment yöntemi — gözlemlenebilir değişkenlerin üçüncü (veya daha yüksek) dereceli birleşik birikimlerine dayanan GMM tahmincisi . Eğim katsayısı şu şekilde tahmin edilebilir:

    burada ( n 1 , n 2 ) K ( n 1 +1, n 2 ) — (

    x , y )' nin ortak kümülatı — sıfır olmayacak şekildedir. Gizli regresör x*' in üçüncü merkezi momentinin sıfır olmadığı durumda formül şuna indirgenir:
  • Araç değişkenleriaraçlar olarak adlandırılan belirli ek veri değişkenlerinin z olmasını gerektiren bir gerileme . Bu değişkenler, bağımlı (sonuç) değişken ( geçerli ) için denklemdeki hatalarla ilişkisiz olmalı ve ayrıca gerçek regresörler x* ile bağıntılı ( ilgili ) olmalıdır . Bu tür değişkenler bulunabilirse, tahmin edici şekil alır.

Çok değişkenli doğrusal model

Modeline tam doğrusal basit gibi çok değişkenli modeli bakır, sadece bu kez β , η t , X t ve X * T olan K x 1 vektörler.

( ε t , η t ) müşterek olarak normal olduğunda, β parametresi sadece ve ancak tekil olmayan bir  k×k blok matrisi [ a A ] varsa tanımlanmaz, burada a bir 1 vektörüdür. bu a'x *  ve normal olarak, bağımsız bir şekilde dağıtılmış olan  A'x * . Durumda olduğunda ε t , η t1 , ..., η tk karşılıklı bağımsız parametrelerdir  β  sadece bazı hatalar yukarıda koşullarına ek olarak, eğer iki bağımsız değişkenin toplamı olarak yazılabilir, eğer tespit edilmez biri normaldir.

Çok değişkenli doğrusal modeller için tahmin yöntemlerinden bazıları şunlardır:

  • Toplam en küçük kareler , çok değişkenli ayara Deming regresyonunun bir uzantısıdır . Vektörün ( ε , η ) tüm k +1 bileşenleri eşit varyansa sahip olduğunda ve bağımsız olduğunda, bu, x vektörü üzerinde y'nin dik regresyonunu çalıştırmaya eşdeğerdir - yani, arasındaki uzaklıkların karelerinin toplamını en aza indiren regresyon. noktaları ( y t , x t ) ve "en uygun" k boyutlu hiperdüzlem.
  • Anlar gibi bir yöntem [tahmin zaman şartları e göre inşa edilebilir z ty t - α - β'x t )] = 0, (5; k araçların +3) boyutlu vektör z t tanımlanır gibi

    burada belirler Hadamard ürün matrisler ve değişkenler X t , y t ön de-meaned edilmiştir. Yöntemin yazarları, Fuller'in değiştirilmiş IV tahmin edicisini kullanmayı önerir.

    Bu yöntem, gerekirse üçüncü dereceden daha yüksek anları kullanacak ve hatasız ölçülen değişkenleri barındıracak şekilde genişletilebilir.
  • Araç değişkenler yaklaşımı , yanlış ölçülen regresörler x t için araç görevi görecek ek veri değişkenleri z t bulmayı gerektirir . Bu yöntem, uygulama açısından en basit olanıdır, ancak dezavantajı, maliyetli veya hatta imkansız olabilecek ek veri toplamayı gerektirmesidir. Enstrümanlar bulunabildiğinde, tahmin edici standart biçimi alır.

Doğrusal olmayan modeller

Genel bir doğrusal olmayan ölçüm hatası modeli oluşur

Burada g fonksiyonu parametrik veya parametrik olmayan olabilir. g fonksiyonu parametrik olduğunda g(x*, β) olarak yazılacaktır .

Genel bir vektör değerli regresör x* için model tanımlanabilirliği için koşullar bilinmemektedir. Ancak skaler x* durumunda, g fonksiyonu "log-üstel" formda olmadığı sürece model tanımlanır.

ve gizli regresör x* yoğunluğa sahiptir

burada A,B,C,D,E,F sabitleri a,b,c,d'ye bağlı olabilir .

Bu iyimser sonuca rağmen, şu anda doğrusal olmayan değişkenlerdeki hataları tahmin etmek için herhangi bir yabancı bilgi olmadan hiçbir yöntem mevcut değildir. Bununla birlikte, bazı ek verilerden yararlanan birkaç teknik vardır: ya araç değişkenler ya da tekrarlanan gözlemler.

Enstrümantal değişkenler yöntemleri

  • Newey'nin parametrik modeller için simüle edilmiş momentler yöntemi - gerçek regresörün şu şekilde ifade edilebilmesi için z t ek bir gözlemlenen öngörücü değişkenler kümesinin olmasını gerektirir.

    burada π 0 ve σ 0 (bilinmeyen) sabit matrislerdir ve ζ tz t . π 0 katsayısı ,

    x'in z üzerinde standart en küçük kareler regresyonu kullanılarak tahmin edilebilir . ζ t'nin dağılımı bilinmiyor, ancak onu esnek bir parametrik aileye - Edgeworth serisine - ait olarak modelleyebiliriz :

    burada φ olan standart normal dağılım.

    Simüle edilen anlar, önem örnekleme algoritması kullanılarak hesaplanabilir : önce standart normal dağılımdan birkaç rastgele değişken { v ts ~ ϕ , s = 1,…, S , t = 1,…, T } üretiriz, sonra anları hesaplarız de t olarak inci gözlem

    burada θ = ( β , σ , γ ), A z araç değişkenlerinin sadece bir fonksiyonudur ve H iki bileşenli bir moment vektörüdür

    Moment fonksiyonları m t ile , bilinmeyen parametre
    θ'yi tahmin etmek için standart GMM tekniği uygulanabilir .

Tekrarlanan gözlemler

Bu yaklaşımda, x* regresörünün iki (veya belki daha fazla) tekrarlanan gözlemi mevcuttur. Her iki gözlem de kendi ölçüm hatalarını içerir, ancak bu hataların bağımsız olması gerekir:

burada x*η 1η 2 . Değişkenler r 1 , η 2 (bunlar ise tahmincisi verimliliği biraz daha geliştirilmiş olmasına rağmen) gerek aynı dağıtılamaz. Sadece bu iki gözlemle, Kotlarski'nin ters evrişim tekniğini kullanarak x*' in yoğunluk fonksiyonunu tutarlı bir şekilde tahmin etmek mümkündür .

  • Parametrik modeller için Li'nin koşullu yoğunluk yöntemi . Regresyon denklemi, gözlemlenebilir değişkenler cinsinden şu şekilde yazılabilir:

    koşullu yoğunluk fonksiyonunu ƒ x*|x bilseydik, integrali hesaplamak mümkün olurdu . Bu fonksiyon bilinebilir veya tahmin edilebilirse, problem, örneğin NLLS yöntemi kullanılarak tahmin edilebilen standart doğrusal olmayan regresyona dönüşür .
    Sadelik açısından, varsayarsak η 1 , r 2 aynı dağıtılır, bu koşullu yoğunluğu aşağıdaki gibi hesaplanabilir:

    burada x j , bir vektörün j -inci bileşenini belirtir .
    Bu formüldeki tüm yoğunluklar, ampirik karakteristik fonksiyonların ters çevrilmesi kullanılarak tahmin edilebilir . Özellikle,

    Bu karakteristik fonksiyonu tersine çevirmek için, sayısal kararlılığı sağlamak için gerekli olan bir kırpma parametresi C ile ters Fourier dönüşümü uygulanmalıdır . Örneğin:

  • Parametrik doğrusal değişkenler modeli için Schennach'ın tahmincisi . Bu formun bir modeli

    burada w t hatasız ölçülen değişkenleri temsil eder. Buradaki x* regresörü skalerdir (yöntem x* vektörü durumuna da genişletilebilir ).
    Ölçüm hataları olmasaydı, bu tahmin edici ile standart bir doğrusal model olurdu.

    nerede

    Bu formüldeki tüm beklenen değerlerin aynı ters evrişim hilesi kullanılarak tahmin edilebilir olduğu ortaya çıktı. Özellikle, genel bir gözlemlenebilir w t (1, w 1 t , …, w ℓ t veya y t olabilir ) ve bazı h işlevi (herhangi bir g j veya g i g j 'yi temsil edebilir ) için elimizde

    burada φ h olan Fourier dönüşümü ve h ( x * ), ancak aynı sistem kullanılarak karakteristik fonksiyonları ,

    ,

    ve

    Ortaya çıkan tahmin edici tutarlı ve asimptotik olarak normaldir.
  • Parametrik olmayan bir model için Schennach tahmincisi . Parametrik olmayan bir model için standart Nadaraya-Watson tahmincisi şu şekildedir:
    uygun bir çekirdek K ve bant genişliği h seçimi için . Buradaki her iki beklenti de önceki yöntemle aynı teknik kullanılarak tahmin edilebilir.

Referanslar

daha fazla okuma

Dış bağlantılar