Keşif amaçlı veri analizi - Exploratory data analysis
İstatistikler üzerine bir serinin parçası |
Veri goruntuleme |
---|
ana boyutlar |
Önemli rakamlar |
Bilgi grafiği türleri |
İlgili konular |
Olarak istatistik , Veri Analizi bir yaklaşımdır analiz veri kümeleri genellikle ana özelliklerini özetler kullanarak istatistiki grafik ve diğer veri görselleştirme yöntemleri. Bir istatistiksel model kullanılmış ya da değil, ama öncelikle EDA veri formel modelleme veya hipotez testi görev ötesinde bize söyleyebilir gördükten içindir edilebilir. Keşfedici veri analizi, istatistikçileri verileri keşfetmeye ve muhtemelen yeni veri toplama ve deneylere yol açabilecek hipotezler formüle etmeye teşvik etmek için 1970'den beri John Tukey tarafından desteklenmektedir . EDA, model uydurma ve hipotez testi için gerekli varsayımları kontrol etmeye ve eksik değerleri ele almaya ve gerektiğinde değişkenlerin dönüşümlerini yapmaya daha dar bir şekilde odaklanan ilk veri analizinden (IDA) farklıdır . EDA, IDA'yı kapsar.
genel bakış
Tukey, 1961'de veri analizini şu şekilde tanımladı: "Verileri analiz etme prosedürleri, bu tür prosedürlerin sonuçlarını yorumlama teknikleri, analizini daha kolay, daha kesin veya daha doğru hale getirmek için veri toplamayı planlama yolları ve tüm makine ve sonuçları ( matematiksel) verileri analiz etmek için geçerli olan istatistikler."
Tukey'nin EDA'yı savunması, istatistiksel hesaplama paketlerinin, özellikle de Bell Laboratuarlarında S'nin geliştirilmesini teşvik etti . S programlama dili, S-PLUS ve R sistemlerine ilham verdi . Bu istatistiksel hesaplama ortamları ailesi, istatistikçilerin daha fazla çalışmayı hak eden verilerdeki aykırı değerleri , eğilimleri ve kalıpları belirlemesine olanak tanıyan büyük ölçüde geliştirilmiş dinamik görselleştirme yeteneklerine sahipti .
Tukey'nin EDA'sı istatistiksel teorideki diğer iki gelişmeyle ilgiliydi : sağlam istatistikler ve parametrik olmayan istatistikler , her ikisi de istatistiksel modellerin formüle edilmesinde istatistiksel çıkarımların hatalara duyarlılığını azaltmaya çalıştı . Tukey kullanımını teşvik beş sayı özet sayısal veri-iki uç ( maksimum ve minimum ), medyan ve kartiller fonksiyonlarını olmak, bu medyan ve kartiller -çünkü ampirik dağılım farklı olarak, her dağılımları için tanımlandığı gibidir , ortalama ve standart sapma ; dahası, çeyrekler ve medyan, geleneksel özetlerden (ortalama ve standart sapma) çarpık veya ağır kuyruklu dağılımlara karşı daha dayanıklıdır . Paketleri S , S-PLUS , ve R, kullanıldığı rutinler dahil yeniden örnekleme istatistikleri gibi Quenouille ve Tukey olarak, jackknife ve Efron 'in ilk yükleme yordamı (birçok soruna) parametrik olmayan ve sağlamdır.
Keşfedici veri analizi, sağlam istatistikler, parametrik olmayan istatistikler ve istatistiksel programlama dillerinin geliştirilmesi, istatistikçilerin bilimsel ve mühendislik problemleri üzerindeki çalışmalarını kolaylaştırdı. Bu tür problemler, yarı iletkenlerin üretimini ve Bell Laboratuvarlarını ilgilendiren iletişim ağlarının anlaşılmasını içeriyordu. Tümü Tukey tarafından desteklenen bu istatistiksel gelişmeler, istatistiksel hipotezleri test etmeye yönelik analitik teoriyi , özellikle de Laplacian geleneğinin üstel ailelere yaptığı vurguyu tamamlamak üzere tasarlandı .
Gelişim
John W. Tukey , Keşifsel Veri Analizi kitabını 1977'de yazdı . Tukey, istatistikte çok fazla vurgunun istatistiksel hipotez testine (doğrulayıcı veri analizi) yerleştirildiğini; test edilecek hipotezler önermek için verilerin kullanılmasına daha fazla vurgu yapılması gerekiyordu . Özellikle, iki tür analizin karıştırılmasının ve bunların aynı veri kümesi üzerinde kullanılmasının , veriler tarafından önerilen hipotezlerin test edilmesinde içkin olan sorunlar nedeniyle sistematik yanlılığa yol açabileceğini savundu .
EDA'nın amaçları şunlardır:
- Gözlenen fenomenlerin nedenleri hakkında hipotezler önermek
- İstatistiksel çıkarımın dayandırılacağı varsayımları değerlendirin
- Uygun istatistiksel araç ve tekniklerin seçimini desteklemek
- Anketler veya deneyler yoluyla daha fazla veri toplanması için bir temel sağlayın
Veri madenciliğinde birçok EDA tekniği benimsenmiştir . Ayrıca genç öğrencilere istatistiksel düşünceyi tanıtmanın bir yolu olarak öğretiliyorlar.
Teknikler ve araçlar
EDA için yararlı olan bir dizi araç vardır, ancak EDA, belirli tekniklerden çok alınan tutumla karakterize edilir.
EDA'da kullanılan tipik grafik teknikleri şunlardır:
- kutu arsa
- histogram
- Çok değişkenli grafik
- Akış Çizelgesi
- Pareto grafiği
- Dağılım grafiği
- Kök-yaprak arsa
- paralel koordinatlar
- Olasılık oranı
- Hedeflenen projeksiyon takibi
- PhenoPlot ve Chernoff yüzleri gibi glif tabanlı görselleştirme yöntemleri
- Büyük tur, rehberli tur ve manuel tur gibi projeksiyon yöntemleri
- Bu planların etkileşimli versiyonları
- Çok boyutlu ölçekleme
- Temel bileşen analizi (PCA)
- Çok Doğrulu PCA
- Doğrusal olmayan boyut azaltma (NLDR)
- Korelasyonların ikonografisi
Tipik nicel teknikler şunlardır:
Tarih
Birçok EDA fikri daha önceki yazarlara kadar izlenebilir, örneğin:
- Francis Galton düzen istatistiklerini ve niceliklerini vurguladı .
- Arthur Lyon Bowley , stemplot'un öncüllerini ve beş sayı özetini kullandı (Bowley , ortanca ile birlikte uç noktalar, ondalık ve çeyrekler de dahil olmak üzere aslında " yedi haneli bir özet " kullandı —bkz. Elementary Manual of Statistics (3. basım, 1920) ), s. 62– "maksimum ve minimum, medyan, çeyrekler ve iki ondalık" "yedi pozisyon" olarak tanımlar.
- Andrew Ehrenberg bir veri azaltma felsefesi dile getirdi (aynı adlı kitabına bakın).
Açık Üniversite ders Toplumda İstatistik (MDST 242), yukarıdaki fikirleri alıp onları birleşti Gottfried Noether tanıtıldı eserinin, istatistiksel çıkarım madeni para savurma ve üzeri medyan testi .
Örnek
EDA'dan elde edilen bulgular, birincil analiz görevine ortogonaldir. Örneklemek için Cook ve ark. Burada analiz görevi, bir yemek partisinin garsona vereceği bahşişi en iyi tahmin eden değişkenleri bulmaktır. Bu görev için toplanan verilerde bulunan değişkenler şunlardır: bahşiş miktarı, toplam fatura, ödeyen cinsiyet, sigara içilen/içilmeyen bölüm, günün saati, haftanın günü ve partinin büyüklüğü. Birincil analiz görevine, bahşiş hızının yanıt değişkeni olduğu bir regresyon modeli uydurularak yaklaşılır. Takılan model
- ( bahşiş oranı ) = 0.18 - 0.01 × (parti boyutu)
Bu, yemek partisinin boyutu bir kişi arttıkça (daha yüksek faturaya yol açar) bahşiş oranının %1 azalacağını söylüyor.
Bununla birlikte, verileri araştırmak, bu model tarafından açıklanmayan diğer ilginç özellikleri ortaya çıkarır.
Kutuların 0,10 $'lık artışları kapsadığı uç miktarlarının histogramı. İlginç bir fenomen göze çarpıyor: Müşterilerin bahşiş olarak yuvarlak sayıları seçmesinden kaynaklanan tam dolar ve yarım dolar miktarlarında zirveler meydana geliyor. Bu davranış, benzin gibi diğer satın alma türlerinde de yaygındır.
İpuçları ile faturanın dağılım grafiği. Çizginin altındaki puanlar, beklenenden daha düşük (o fatura tutarı için) bahşişlere karşılık gelir ve çizginin üzerindeki puanlar, beklenenden daha yüksektir. Sıkı, pozitif doğrusal bir ilişki görmeyi bekleyebiliriz, ancak bunun yerine uç miktarı ile artan varyasyonu görebiliriz . Özellikle, sağ alt taraftaki hattan sol üsttekinden daha fazla nokta var, bu da daha fazla müşterinin çok cömertten çok ucuz olduğunu gösteriyor.
Ödeyenin cinsiyeti ve sigara içme bölümü durumuna göre ayrılan faturaya karşı ipuçları dağılım grafiği. Sigara içen partilerin verdikleri ipuçlarında çok daha fazla değişkenlik vardır. Erkekler (birkaç) daha yüksek faturaları ödeme eğilimindedir ve sigara içmeyen kadınlar çok tutarlı bahşiş verme eğilimindedir (örnekte gösterilen üç göze çarpan istisna dışında).
Deney, bu diğer eğilimleri araştırmak için tasarlanmasa da, grafiklerden öğrenilenler, regresyon modeliyle gösterilenlerden farklıdır. Verileri keşfederek bulunan modeller, önceden tahmin edilemeyen ve hipotezlerin resmi olarak ifade edildiği ve yeni veriler toplanarak test edildiği ilginç takip deneylerine yol açabilecek bahşiş hakkında hipotezler önermektedir.
Yazılım
- JMP , SAS Enstitüsünden bir EDA paketi .
- KNIME , Konstanz Information Miner – Eclipse tabanlı Açık Kaynaklı veri keşif platformu.
- Minitab , endüstriyel ve kurumsal ortamlarda yaygın olarak kullanılan bir EDA ve genel istatistik paketidir.
- Orange , açık kaynaklı bir veri madenciliği ve makine öğrenimi yazılım paketi.
- Python , veri madenciliği ve makine öğreniminde yaygın olarak kullanılan açık kaynaklı bir programlama dilidir.
- R , istatistiksel hesaplama ve grafikler için açık kaynaklı bir programlama dili. Python ile birlikte veri bilimi için en popüler dillerden biri.
- TinkerPlots , ilkokul ve ortaokul öğrencileri için bir EDA yazılımıdır.
- Weka , hedeflenen projeksiyon takibi gibi görselleştirme ve EDA araçlarını içeren açık kaynaklı bir veri madenciliği paketi .
Ayrıca bakınız
- Anscombe'un dörtlüsü , keşfin önemi üzerine
- Veri tarama
- Tahmine dayalı analitik
- Yapılandırılmış veri analizi (istatistikler)
- Yapısal frekans analizi
- Tanımlayıcı istatistikler
Referanslar
bibliyografya
- Andrienko, N & Andrienko, G (2005) Mekansal ve Zamansal Verilerin Keşifsel Analizi. Sistematik Bir Yaklaşım . Springer. ISBN 3-540-25994-5
- Cook, D. ve Swayne, DF (A. Buja, D. Temple Lang, H. Hofmann, H. Wickham, M. Lawrence ile birlikte) (2007-12-12). Veri Analizi için Etkileşimli ve Dinamik Grafikler: R ve GGobi ile . Springer. ISBN'si 9780387717616.CS1 bakımı: birden çok ad: yazar listesi ( bağlantı )
- Hoaglin, DC; Mosteller, F & Tukey, John Wilder (Eds) (1985). Veri Tablolarını, Eğilimleri ve Şekilleri Keşfetmek . ISBN'si 978-0-471-09776-1.CS1 bakımı: birden çok ad: yazar listesi ( bağlantı ) CS1 bakımı: ek metin: yazar listesi ( bağlantı )
- Hoaglin, DC; Mosteller, F & Tukey, John Wilder (Eds) (1983). Sağlam ve Keşfedici Veri Analizini Anlama . ISBN'si 978-0-471-09777-8.CS1 bakımı: birden çok ad: yazar listesi ( bağlantı ) CS1 bakımı: ek metin: yazar listesi ( bağlantı )
- Inselberg, Alfred (2009). Paralel Koordinatlar: Görsel Çok Boyutlu Geometri ve Uygulamaları . Londra New York: Springer. ISBN'si 978-0-387-68628-8.
- Leinhardt, G., Leinhardt, S., Keşifsel Veri Analizi: Ampirik Verilerin Analizi için Yeni Araçlar , Eğitimde Araştırma İncelemesi, Cilt. 8, 1980 (1980), s. 85–157.
- Martinez, WL ; Martinez, AR & Solka, J. (2010). MATLAB ile Keşifsel Veri Analizi, ikinci baskı . Chapman ve Salon/CRC. ISBN'si 9781439812204.
- Theus, M., Urbanek, S. (2008), Veri Analizi için Etkileşimli Grafikler: İlkeler ve Örnekler, CRC Press, Boca Raton, FL, ISBN 978-1-58488-594-8
- Tucker, L; MacCallum, R. (1993). Açımlayıcı Faktör Analizi . [1] .
- Tukey, John Wilder (1977). Keşifsel Veri Analizi . Addison-Wesley. ISBN'si 978-0-201-07616-5.
- Velleman, PF; Hoaglin, DC (1981). Keşifsel Veri Analizinin Uygulamaları, Temelleri ve Hesaplanması . ISBN'si 978-0-87150-409-8.
- Young, FW Valero-Mora, P. ve Friendly M. (2006) Görsel İstatistikler: Dinamik Etkileşimli Grafikler ile verilerinizi görme . Wiley ISBN 978-0-471-68160-1
- Jambu M. (1991) Keşifsel ve Çok Değişkenli Veri Analizi . Akademik Basın ISBN 0123800900
- SHC DuToit, AGW Steyn, RH Stumpf (1986) Grafiksel Keşif Veri Analizi . Springer ISBN 978-1-4612-9371-2