Keşif amaçlı veri analizi - Exploratory data analysis

Olarak istatistik , Veri Analizi bir yaklaşımdır analiz veri kümeleri genellikle ana özelliklerini özetler kullanarak istatistiki grafik ve diğer veri görselleştirme yöntemleri. Bir istatistiksel model kullanılmış ya da değil, ama öncelikle EDA veri formel modelleme veya hipotez testi görev ötesinde bize söyleyebilir gördükten içindir edilebilir. Keşfedici veri analizi, istatistikçileri verileri keşfetmeye ve muhtemelen yeni veri toplama ve deneylere yol açabilecek hipotezler formüle etmeye teşvik etmek için 1970'den beri John Tukey tarafından desteklenmektedir . EDA, model uydurma ve hipotez testi için gerekli varsayımları kontrol etmeye ve eksik değerleri ele almaya ve gerektiğinde değişkenlerin dönüşümlerini yapmaya daha dar bir şekilde odaklanan ilk veri analizinden (IDA) farklıdır . EDA, IDA'yı kapsar.

genel bakış

Tukey, 1961'de veri analizini şu şekilde tanımladı: "Verileri analiz etme prosedürleri, bu tür prosedürlerin sonuçlarını yorumlama teknikleri, analizini daha kolay, daha kesin veya daha doğru hale getirmek için veri toplamayı planlama yolları ve tüm makine ve sonuçları ( matematiksel) verileri analiz etmek için geçerli olan istatistikler."

Tukey'nin EDA'yı savunması, istatistiksel hesaplama paketlerinin, özellikle de Bell Laboratuarlarında S'nin geliştirilmesini teşvik etti . S programlama dili, S-PLUS ve R sistemlerine ilham verdi . Bu istatistiksel hesaplama ortamları ailesi, istatistikçilerin daha fazla çalışmayı hak eden verilerdeki aykırı değerleri , eğilimleri ve kalıpları belirlemesine olanak tanıyan büyük ölçüde geliştirilmiş dinamik görselleştirme yeteneklerine sahipti .

Tukey'nin EDA'sı istatistiksel teorideki diğer iki gelişmeyle ilgiliydi : sağlam istatistikler ve parametrik olmayan istatistikler , her ikisi de istatistiksel modellerin formüle edilmesinde istatistiksel çıkarımların hatalara duyarlılığını azaltmaya çalıştı . Tukey kullanımını teşvik beş sayı özet sayısal veri-iki ( maksimum ve minimum ), medyan ve kartiller fonksiyonlarını olmak, bu medyan ve kartiller -çünkü ampirik dağılım farklı olarak, her dağılımları için tanımlandığı gibidir , ortalama ve standart sapma ; dahası, çeyrekler ve medyan, geleneksel özetlerden (ortalama ve standart sapma) çarpık veya ağır kuyruklu dağılımlara karşı daha dayanıklıdır . Paketleri S , S-PLUS , ve R, kullanıldığı rutinler dahil yeniden örnekleme istatistikleri gibi Quenouille ve Tukey olarak, jackknife ve Efron 'in ilk yükleme yordamı (birçok soruna) parametrik olmayan ve sağlamdır.

Keşfedici veri analizi, sağlam istatistikler, parametrik olmayan istatistikler ve istatistiksel programlama dillerinin geliştirilmesi, istatistikçilerin bilimsel ve mühendislik problemleri üzerindeki çalışmalarını kolaylaştırdı. Bu tür problemler, yarı iletkenlerin üretimini ve Bell Laboratuvarlarını ilgilendiren iletişim ağlarının anlaşılmasını içeriyordu. Tümü Tukey tarafından desteklenen bu istatistiksel gelişmeler, istatistiksel hipotezleri test etmeye yönelik analitik teoriyi , özellikle de Laplacian geleneğinin üstel ailelere yaptığı vurguyu tamamlamak üzere tasarlandı .

Gelişim

Veri bilimi süreç akış şeması

John W. Tukey , Keşifsel Veri Analizi kitabını 1977'de yazdı . Tukey, istatistikte çok fazla vurgunun istatistiksel hipotez testine (doğrulayıcı veri analizi) yerleştirildiğini; test edilecek hipotezler önermek için verilerin kullanılmasına daha fazla vurgu yapılması gerekiyordu . Özellikle, iki tür analizin karıştırılmasının ve bunların aynı veri kümesi üzerinde kullanılmasının , veriler tarafından önerilen hipotezlerin test edilmesinde içkin olan sorunlar nedeniyle sistematik yanlılığa yol açabileceğini savundu .

EDA'nın amaçları şunlardır:

Veri madenciliğinde birçok EDA tekniği benimsenmiştir . Ayrıca genç öğrencilere istatistiksel düşünceyi tanıtmanın bir yolu olarak öğretiliyorlar.

Teknikler ve araçlar

EDA için yararlı olan bir dizi araç vardır, ancak EDA, belirli tekniklerden çok alınan tutumla karakterize edilir.

EDA'da kullanılan tipik grafik teknikleri şunlardır:

Boyut azaltma :

Tipik nicel teknikler şunlardır:

Tarih

Birçok EDA fikri daha önceki yazarlara kadar izlenebilir, örneğin:

Açık Üniversite ders Toplumda İstatistik (MDST 242), yukarıdaki fikirleri alıp onları birleşti Gottfried Noether tanıtıldı eserinin, istatistiksel çıkarım madeni para savurma ve üzeri medyan testi .

Örnek

EDA'dan elde edilen bulgular, birincil analiz görevine ortogonaldir. Örneklemek için Cook ve ark. Burada analiz görevi, bir yemek partisinin garsona vereceği bahşişi en iyi tahmin eden değişkenleri bulmaktır. Bu görev için toplanan verilerde bulunan değişkenler şunlardır: bahşiş miktarı, toplam fatura, ödeyen cinsiyet, sigara içilen/içilmeyen bölüm, günün saati, haftanın günü ve partinin büyüklüğü. Birincil analiz görevine, bahşiş hızının yanıt değişkeni olduğu bir regresyon modeli uydurularak yaklaşılır. Takılan model

( bahşiş oranı ) = 0.18 - 0.01 × (parti boyutu)

Bu, yemek partisinin boyutu bir kişi arttıkça (daha yüksek faturaya yol açar) bahşiş oranının %1 azalacağını söylüyor.

Bununla birlikte, verileri araştırmak, bu model tarafından açıklanmayan diğer ilginç özellikleri ortaya çıkarır.

Deney, bu diğer eğilimleri araştırmak için tasarlanmasa da, grafiklerden öğrenilenler, regresyon modeliyle gösterilenlerden farklıdır. Verileri keşfederek bulunan modeller, önceden tahmin edilemeyen ve hipotezlerin resmi olarak ifade edildiği ve yeni veriler toplanarak test edildiği ilginç takip deneylerine yol açabilecek bahşiş hakkında hipotezler önermektedir.

Yazılım

  • JMP , SAS Enstitüsünden bir EDA paketi .
  • KNIME , Konstanz Information Miner – Eclipse tabanlı Açık Kaynaklı veri keşif platformu.
  • Minitab , endüstriyel ve kurumsal ortamlarda yaygın olarak kullanılan bir EDA ve genel istatistik paketidir.
  • Orange , açık kaynaklı bir veri madenciliği ve makine öğrenimi yazılım paketi.
  • Python , veri madenciliği ve makine öğreniminde yaygın olarak kullanılan açık kaynaklı bir programlama dilidir.
  • R , istatistiksel hesaplama ve grafikler için açık kaynaklı bir programlama dili. Python ile birlikte veri bilimi için en popüler dillerden biri.
  • TinkerPlots , ilkokul ve ortaokul öğrencileri için bir EDA yazılımıdır.
  • Weka , hedeflenen projeksiyon takibi gibi görselleştirme ve EDA araçlarını içeren açık kaynaklı bir veri madenciliği paketi .

Ayrıca bakınız

Referanslar

bibliyografya

Dış bağlantılar