Çok değişkenli istatistikler - Multivariate statistics

Çok değişkenli istatistik bir alt bölümüdür istatistik birden fazla aynı anda gözlem ve analizler kapsayan sonuç değişkeni . Çok değişkenli istatistikler, çok değişkenli analizin farklı biçimlerinin her birinin farklı amaçlarını ve arka planını ve bunların birbiriyle nasıl ilişkili olduğunu anlamakla ilgilidir. Çok değişkenli istatistiğin belirli bir probleme pratik uygulaması, değişkenler arasındaki ilişkileri ve bunların incelenen problemle olan ilişkisini anlamak için birkaç tür tek değişkenli ve çok değişkenli analizi içerebilir.

Ek olarak, çok değişkenli istatistikler, her ikisi açısından çok değişkenli olasılık dağılımları ile ilgilidir .

  • bunların gözlemlenen verilerin dağılımlarını temsil etmek için nasıl kullanılabileceği;
  • istatistiksel çıkarımın bir parçası olarak nasıl kullanılabilecekleri , özellikle de aynı analiz için birkaç farklı nicelik söz konusu olduğunda.

Örnek için çok değişkenli veri içeren problemlerin Belirli türdeki basit doğrusal regresyon ve çoklu regresyon , olan olmayan analiz diğer verilen tek sonuç değişkeni koşullu dağılımı (tek değişkenli) dikkate alınarak ele çünkü genellikle çok değişkenli istatistiklerin özel durumlar olarak kabul değişkenler.

Çok değişkenli analiz

Çok değişkenli analiz ( MVA ), çok değişkenli istatistik ilkelerine dayanmaktadır. Tipik olarak, MVA, her deneysel ünitede birden fazla ölçümün yapıldığı ve bu ölçümler arasındaki ilişkilerin ve bunların yapılarının önemli olduğu durumları ele almak için kullanılır. Modern, örtüşen bir MVA sınıflandırması şunları içerir:

  • Normal ve genel çok değişkenli modeller ve dağılım teorisi
  • İlişkilerin incelenmesi ve ölçülmesi
  • Çok boyutlu bölgelerin olasılık hesaplamaları
  • Veri yapılarının ve modellerinin keşfi

Çok değişkenli analiz, hiyerarşik bir "sistemler sistemi" için değişkenlerin etkilerini hesaplamak için fiziğe dayalı analizi dahil etme arzusuyla karmaşık hale gelebilir. Çoğunlukla, çok değişkenli analizi kullanmak isteyen çalışmalar, problemin boyutu nedeniyle durur. Bu endişeler genellikle vekil modellerin , yani fiziğe dayalı kodun oldukça doğru yaklaşımlarının kullanılmasıyla azaltılır . Vekil modeller bir denklem şeklini aldığından, çok hızlı bir şekilde değerlendirilebilirler. Bu, büyük ölçekli MVA çalışmaları için bir kolaylaştırıcı haline gelir: Tasarım alanı boyunca bir Monte Carlo simülasyonu fizik tabanlı kodlarla zor olsa da, genellikle yanıt-yüzey denklemleri şeklini alan vekil modelleri değerlendirirken önemsiz hale gelir .

Analiz türleri

Her biri kendi analiz türüne sahip birçok farklı model vardır:

  1. Çok değişkenli varyans analizi (MANOVA), aynı anda analiz edilecek birden fazla bağımlı değişkenin olduğu durumları kapsayacak şekilde varyans analizini genişletir ; ayrıca bkz. Çok değişkenli kovaryans analizi (MANCOVA).
  2. Çok değişkenli regresyon, bir değişken vektöründeki öğelerin diğerlerindeki değişikliklere aynı anda nasıl tepki verdiğini açıklayabilen bir formül belirlemeye çalışır. Doğrusal ilişkiler için, buradaki regresyon analizleri genel doğrusal modelin formlarına dayanmaktadır . Bazıları, çok değişkenli regresyonun çok değişkenli regresyondan farklı olduğunu öne sürüyor, ancak bu tartışılıyor ve bilimsel alanlarda tutarlı bir şekilde doğru değil.
  3. Temel bileşenler analizi (PCA), orijinal setle aynı bilgileri içeren yeni bir ortogonal değişkenler kümesi oluşturur. Varyasyonun azalan oranlarını özetleyecek şekilde sıralanan yeni bir ortogonal eksen seti vermek için varyasyon eksenlerini döndürür.
  4. Faktör analizi PCA'ya benzer, ancak kullanıcının, kalan açıklanamayan varyasyonu hata olarak bırakarak, orijinal setten daha az belirli sayıda sentetik değişkeni çıkarmasına izin verir. Çıkarılan değişkenler gizli değişkenler veya faktörler olarak bilinir; her birinin bir grup gözlenen değişken içindeki kovaryasyonu hesaba katması beklenebilir.
  5. Kanonik korelasyon analizi , iki değişken kümesi arasında doğrusal ilişkiler bulur; iki değişkenli korelasyonun genelleştirilmiş (yani kanonik) versiyonudur.
  6. Artıklık analizi (RDA), kanonik korelasyon analizine benzer, ancak kullanıcının, başka bir (bağımsız) kümede mümkün olduğunca fazla varyansı açıklayan bir dizi (bağımsız) değişkenden belirli sayıda sentetik değişken türetmesine olanak tanır. Çok değişkenli bir regresyon analoğudur .
  7. Yazışma analizi (CA) veya karşılıklı ortalama, orijinal seti özetleyen bir dizi sentetik değişken bulur (PCA gibi). Temel model, kayıtlar (vakalar) arasında ki-kare farklılıkları varsayar.
  8. İki değişken kümesindeki ortak varyasyonu özetlemek için kanonik (veya "kısıtlı") yazışma analizi (CCA) (artıklık analizi gibi); yazışma analizi ve çok değişkenli regresyon analizi kombinasyonu. Temel model, kayıtlar (vakalar) arasında ki-kare farklılıkları varsayar.
  9. Çok boyutlu ölçekleme , kayıtlar arasındaki ikili mesafeleri en iyi temsil eden bir dizi sentetik değişkeni belirlemek için çeşitli algoritmalar içerir. Orijinal yöntem, temel koordinat analizidir (PCoA; PCA'ya dayalı).
  10. Ayrımcı analiz veya kanonik varyat analizi, iki veya daha fazla vaka grubunu ayırt etmek için bir değişkenler kümesinin kullanılıp kullanılamayacağını belirlemeye çalışır.
  11. Doğrusal diskriminant analizi (LDA), yeni gözlemlerin sınıflandırılmasına izin vermek için normal olarak dağıtılmış iki veri kümesinden doğrusal bir öngörücü hesaplar.
  12. Kümeleme sistemleri, nesneleri gruplara (küme adı verilir) atar, böylece aynı kümedeki nesneler (vakalar) farklı kümelerden gelen nesnelerden daha benzer olur.
  13. Özyinelemeli bölümleme , ikiye bölünmüş bir bağımlı değişkene dayalı olarak popülasyonun üyelerini doğru şekilde sınıflandırmaya çalışan bir karar ağacı oluşturur.
  14. Yapay sinir ağları, regresyon ve kümeleme yöntemlerini doğrusal olmayan çok değişkenli modellere genişletir.
  15. Çok değişkenli verileri keşfetmek için turlar, paralel koordinat grafikleri , dağılım grafiği matrisleri gibi istatistiksel grafikler kullanılabilir.
  16. Eşzamanlı denklem modelleri , farklı bağımlı değişkenlerle birlikte tahmin edilen birden fazla regresyon denklemi içerir.
  17. Vektör otoregresyon , çeşitli zaman serisi değişkenlerinin kendi başlarına ve birbirlerinin gecikmeli değerlerinde eşzamanlı regresyonlarını içerir .
  18. Temel yanıt eğrileri analizi (PRC), kullanıcının zaman içinde kontrol tedavilerindeki değişiklikleri düzelterek zaman içindeki tedavi etkilerine odaklanmasına olanak tanıyan RDA'ya dayalı bir yöntemdir.
  19. Korelasyonların ikonografisi, bir korelasyon matrisinin "dikkat çekici" korelasyonların düz çizgi (pozitif korelasyon) veya noktalı çizgi (negatif korelasyon) ile temsil edildiği bir diyagramla değiştirilmesinden oluşur.

Önemli olasılık dağılımları

Normal dağılım bir veri setine uygun olduğunda tek değişkenli analizde kullanılan karşılık gelen dağılım setine benzer bir rol oynayan çok değişkenli analizlerde kullanılan bir dizi olasılık dağılımı vardır . Bu çok değişkenli dağılımlar:

Ters-Wishart dağılımı önemlidir Bayes çıkarım örneğin Bayes değişkenli doğrusal regresyon . Ek olarak, Hotelling'in T-kare dağılımı , çok değişkenli hipotez testinde kullanılan Student t dağılımını genelleştiren çok değişkenli bir dağılımdır .

Tarih

Anderson'ın 1958 ders kitabı, Çok Değişkenli İstatistiksel Analize Giriş , bir nesil teorisyen ve uygulamalı istatistikçi yetiştirdi; Anderson'ın kitabı, olasılık oranı testleri ve güç fonksiyonlarının özellikleri yoluyla hipotez testini vurgulamaktadır : kabul edilebilirlik , tarafsızlık ve monotonluk .

MVA, veri kümesinin boyutu, karmaşıklığı ve yüksek hesaplama tüketimi nedeniyle bir zamanlar yalnızca istatistiksel teori dünyasında yer aldı. Hesaplama gücünün dramatik büyümesiyle, MVA artık veri analizinde giderek daha önemli bir rol oynamaktadır ve OMICS alanlarında geniş uygulama alanına sahiptir.

Başvurular

Yazılım ve araçlar

Aşağıdakiler dahil çok değişkenli analiz için çok sayıda yazılım paketi ve diğer araçlar vardır:

Ayrıca bakınız

Referanslar

  1. ^ a b Olkin, I .; Sampson, AR (2001-01-01), "Çok Değişkenli Analiz: Genel Bakış" , Smelser, Neil J .; Baltes, Paul B. (editörler), International Encyclopedia of the Social & Behavioral Sciences , Pergamon, pp. 10240–10247, ISBN   9780080430768 , alındı 2019-09-02
  2. ^ Hidalgo, B; Goodman, M (2013). "Çok değişkenli mi yoksa çok değişkenli regresyon mu?" . Ben J Halk Sağlığıyım . 103 : 39–40. doi : 10.2105 / AJPH.2012.300897 . PMC   3518362 . PMID   23153131 .
  3. ^ Değişkenli Gauss sorunların İçeriksiz analistler faydalı olan bir ham ama doğru bulabilir yöntemi sadece toplam alarak doğru ölçme olasılık S ve N toplamı çıkarılarak, artıkların kareler Sm , bu farkı bölünmesi, en az Sm ile çarpılmasıyla, ( N - 2) ve bu ürünün yarısının ters karşıtlığını alıyor.
  4. ^ ter Braak, Cajo JF & Šmilauer, Petr (2012). Canoco referans kılavuzu ve kullanıcı kılavuzu: koordinasyon yazılımı (sürüm 5.0) , s292. Mikrobilgisayar Gücü, Ithaca, NY.
  5. ^ TW Anderson (1958) Çok Değişkenli Analize Giriş , New York: Wiley ISBN   0471026409 ; 2e (1984) ISBN   0471889873 ; 3e (2003) ISBN   0471360910
  6. ^ Sen, Pranab Kumar ; Anderson, TW; Arnold, SF; Eaton, ML; Giri, NC; Gnanadesikan, R .; Kendall, MG; Kshirsagar, AM; et al. (Haziran 1986). "Gözden Geçirme: Çok Değişkenli İstatistiksel Analiz Üzerine Çağdaş Ders Kitapları: Panoramik Bir Değerlendirme ve Eleştiri". Amerikan İstatistik Derneği Dergisi . 81 (394): 560–564. doi : 10.2307 / 2289251 . ISSN   0162-1459 . JSTOR   2289251 . (Sayfa 560–561)
  7. ^ Schervish, Mark J. (Kasım 1987). "Çok Değişkenli Analizin Gözden Geçirilmesi" . İstatistik Bilimi . 2 (4): 396–413. doi : 10.1214 / ss / 1177013111 . ISSN   0883-4237 . JSTOR   2245530 .
  8. ^ CRAN , çok değişkenli veri analizi için kullanılabilen paketlerle ilgili ayrıntılara sahiptir

daha fazla okuma

  • Johnson, Richard A .; Wichern, Dean W. (2007). Uygulamalı Çok Değişkenli İstatistiksel Analiz (Altıncı baskı). Prentice Hall. ISBN   978-0-13-187715-3 .
  • KV Mardia ; JT Kent; JM Bibby (1979). Çok Değişkenli Analiz . Akademik Basın. ISBN   0-12-471252-5 .
  • A. Sen, M. Srivastava, Regresyon Analizi - Teori, Yöntemler ve Uygulamalar , Springer-Verlag, Berlin, 2011 (4. baskı).
  • Cook, Swayne (2007). Veri Analizi için Etkileşimli Grafikler .
  • Malakooti, ​​B. (2013). Çok Amaçlı Operasyon ve Üretim Sistemleri. John Wiley & Sons.
  • TW Anderson, Çok Değişkenli İstatistiksel Analize Giriş , Wiley, New York, 1958.
  • KV Mardia; JT Kent ve JM Bibby (1979). Çok Değişkenli Analiz. Akademik Basın . ISBN   978-0124712522 . (MA seviyesi "olasılık" yaklaşımı)
  • Feinstein, AR (1996) Çok Değişkenli Analiz . New Haven, CT: Yale Üniversitesi Yayınları.
  • Hair, JF Jr. (1995) Okumalarla Çok Değişkenli Veri Analizi , 4. baskı. Prentice-Hall.
  • Johnson, Richard A .; Wichern, Dean W. (2007). Uygulamalı Çok Değişkenli İstatistiksel Analiz (Altıncı baskı). Prentice Hall. ISBN   978-0-13-187715-3 .
  • Schafer, JL (1997) Eksik Çok Değişkenli Verilerin Analizi . CRC Basın. (İleri)
  • Sharma, S. (1996) Uygulamalı Çok Değişkenli Teknikler . Wiley. (Gayri resmi, uygulamalı)
  • İzenman, Alan J. (2008). Modern Çok Değişkenli İstatistik Teknikleri: Regresyon, Sınıflandırma ve Manifold Öğrenimi. İstatistikte Springer Metinleri. New York: Springer-Verlag. Mayıs ISBN   9780387781884 .
  • "Uygulamalı Çok Değişkenli İstatistik ve Matematiksel Modelleme El Kitabı | ScienceDirect". Erişim tarihi: 2019-09-03.

Dış bağlantılar