histogram - Histogram
histogram | |
---|---|
Kalitenin Yedi Temel Aracından Biri | |
İlk açıklanan | Karl Pearson |
Amaç | Belirli değer aralıklarında meydana gelen gözlemlerin frekanslarını betimleyerek belirli bir değişkenin olasılık dağılımını kabaca değerlendirmek . |
Bir Histogram yaklaşık bir temsilidir dağıtım sayısal veri. İlk olarak Karl Pearson tarafından tanıtıldı . Bir histogram oluşturmak için ilk adım, değerler aralığını " bin " (veya " kova ") - yani, tüm değer aralığını bir dizi aralığa bölmek - ve ardından her aralığa kaç değer düştüğünü saymaktır. Kutular genellikle bir değişkenin ardışık, örtüşmeyen aralıkları olarak belirtilir . Kutular (aralıklar) bitişik olmalı ve genellikle (ancak olması zorunlu değildir) eşit boyutta olmalıdır.
Kutular eşit büyüklükteyse, kutunun üzerine yüksekliği frekansla , yani her kutudaki kutu sayısıyla orantılı bir dikdörtgen dikilir . Bir histogram, "göreceli" frekansları gösterecek şekilde normalleştirilebilir . Ardından , yüksekliklerin toplamı 1'e eşit olacak şekilde , birkaç kategorinin her birine düşen vakaların oranını gösterir .
Ancak, kutuların eşit genişlikte olması gerekmez; bu durumda, dikilmiş dikdörtgenin alanı , kutudaki vakaların sıklığıyla orantılı olacak şekilde tanımlanır . Dikey eksen, o zaman frekans değil, frekans yoğunluğudur - yatay eksende değişkenin birimi başına vaka sayısı. Değişken bölme genişliği örnekleri aşağıdaki Sayım bürosu verilerinde gösterilmektedir.
Bitişik bölmeler boşluk bırakmadığından, bir histogramın dikdörtgenleri orijinal değişkenin sürekli olduğunu belirtmek için birbirine dokunur.
Histogramlar, verilerin altında yatan dağılımın yoğunluğu hakkında kaba bir fikir verir ve genellikle yoğunluk tahmini için : temel değişkenin olasılık yoğunluk fonksiyonunu tahmin etmek . Olasılık yoğunluğu için kullanılan bir histogramın toplam alanı her zaman 1'e normalleştirilir. x ekseni üzerindeki aralıkların uzunluğunun tümü 1 ise, bu durumda bir histogram göreli bir frekans grafiğine özdeştir .
Bir histogram , bölmeler üzerindeki frekansları yumuşatmak için bir çekirdek kullanan basit bir çekirdek yoğunluğu tahmini olarak düşünülebilir . Bu , genel olarak altta yatan değişkenin dağılımını daha doğru bir şekilde yansıtacak olan daha yumuşak bir olasılık yoğunluk fonksiyonu verir . Yoğunluk tahmini, histograma bir alternatif olarak çizilebilir ve genellikle bir dizi kutudan ziyade bir eğri olarak çizilir. Yine de, istatistiksel özelliklerinin modellenmesi gerektiğinde uygulamalarda histogramlar tercih edilir. Bir çekirdek yoğunluğu tahmininin ilişkili varyasyonunu matematiksel olarak açıklamak çok zordur, oysa her bir bölmenin bağımsız olarak değiştiği bir histogram için basittir.
Çekirdek yoğunluğu tahminine bir alternatif, hesaplanması hızlı olan ve çekirdek kullanmadan yoğunluğun düzgün bir eğri tahminini veren ortalama kaydırılmış histogramdır.
Histogram, kalite kontrolünün yedi temel aracından biridir .
Histogramlar bazen çubuk grafiklerle karıştırılır. Sürekli veriler için bir histogram kullanılır ; burada kutular veri aralıklarını temsil eder, çubuk grafik ise kategorik değişkenlerin bir grafiğidir . Bazı yazarlar, ayrımı netleştirmek için çubuk grafiklerin dikdörtgenler arasında boşluklar olmasını önerir.
Örnekler
Bu, 500 öğe kullanılarak sağdaki histogramın verileridir:
Depo/Aralık | Sayı/Sıklık |
---|---|
−3,5 ila −2,51 | 9 |
−2,5 ila −1,51 | 32 |
-1,5 ila -0,51 | 109 |
-0,5 ila 0,49 | 180 |
0,5 ila 1,49 | 132 |
1,5 ila 2,49 | 34 |
2,5 ila 3,49 | 4 |
Bir histogramdaki kalıpları tanımlamak için kullanılan kelimeler şunlardır: "simetrik", "sola çarpık" veya "sağ", "tek modlu", "iki modlu" veya "çok modlu".
Hakkında daha fazla bilgi edinmek için verileri birkaç farklı bölme genişliği kullanarak çizmek iyi bir fikirdir. İşte bir restoranda verilen ipuçlarına bir örnek.
ABD Sayım Bürosu evlerinin dışında çalışan 124 milyon kişi olduğunu gördük. Aşağıdaki tablo, işe seyahat için harcanan süreye ilişkin verilerini kullanarak, "en az 30 ama 35 dakikadan az" seyahat süresi ile yanıt verenlerin mutlak sayısını, yukarıdaki ve altındaki kategori sayılarından daha yüksek olarak göstermektedir. Bunun nedeni, muhtemelen bildirilen yolculuk sürelerini yuvarlayan kişilerdir. Değerlerin bir şekilde keyfi yuvarlanmış sayılar olarak rapor edilmesi sorunu, insanlardan veri toplarken yaygın bir olgudur.
Mutlak sayılara göre veriler Aralık Genişlik Miktar Miktar/genişlik 0 5 4180 836 5 5 13687 2737 10 5 18618 3723 15 5 19634 3926 20 5 17981 3596 25 5 7190 1438 30 5 16369 3273 35 5 3212 642 40 5 4122 824 45 15 9200 613 60 30 6461 215 90 60 3435 57
Bu histogram, her bir bloğun alanı, anketteki kategorisine giren kişi sayısına eşit olacak şekilde, her bloğun yüksekliği olarak birim aralık başına vaka sayısını gösterir . Eğrinin altındaki alan toplam vaka sayısını (124 milyon) temsil etmektedir. Bu tür histogram, Q'nun binde olduğu mutlak sayıları gösterir.
Orana göre veri Aralık Genişlik Miktar (Q) Q/toplam/genişlik 0 5 4180 0.0067 5 5 13687 0.0221 10 5 18618 0.0300 15 5 19634 0.0316 20 5 17981 0.0290 25 5 7190 0.0116 30 5 16369 0.0264 35 5 3212 0.0052 40 5 4122 0.0066 45 15 9200 0.0049 60 30 6461 0.0017 90 60 3435 0.0005
Bu histogram, yalnızca dikey ölçekte ilkinden farklıdır . Her bloğun alanı, her kategorinin temsil ettiği toplamın kesridir ve tüm çubukların toplam alanı 1'e eşittir ("hepsi" anlamına gelen kesir). Görüntülenen eğri, basit bir yoğunluk tahminidir . Bu sürüm oranları gösterir ve birim alan histogramı olarak da bilinir.
Başka bir deyişle, bir histogram, genişlikleri sınıf aralıklarını temsil eden ve alanları karşılık gelen frekanslarla orantılı olan dikdörtgenler aracılığıyla bir frekans dağılımını temsil eder: her birinin yüksekliği, aralığın ortalama frekans yoğunluğudur. Aralıklar, histogram tarafından temsil edilen verilerin dışlayıcı iken aynı zamanda bitişik olduğunu göstermek için birlikte yerleştirilir. (Örneğin, bir histogramda 10.5–20.5 ve 20.5–33.5'lik iki bağlantı aralığına sahip olmak mümkündür, ancak 10.5–20.5 ve 22.5–32.5'lik iki bağlantı aralığı olamaz. Boş aralıklar boş olarak gösterilir ve atlanmaz.)
matematiksel tanımlar
Histogram oluşturmak için kullanılan verileri bir fonksiyon ile oluşturulan m ı o sayıları (bilinen ayrık kategorilerinin her biri ayrılır gözlem sayısı bidonları ). Bu nedenle, n'nin toplam gözlem sayısı ve k'nin toplam kutu sayısı olmasına izin verirsek , histogram verileri m i aşağıdaki koşulları karşılar:
kümülatif histogram
Kümülatif histogram, belirtilen bölmeye kadar tüm bölmelerdeki kümülatif gözlem sayısını sayan bir eşlemedir. Yani, bir histogram m j'nin kümülatif histogramı M i şu şekilde tanımlanır:
Kutu sayısı ve genişlik
"En iyi" kutu sayısı yoktur ve farklı kutu boyutları verilerin farklı özelliklerini ortaya çıkarabilir. Verileri gruplandırma, en azından Graunt'un 17. yüzyıldaki çalışması kadar eskidir , ancak Sturges'in 1926'daki çalışmasına kadar hiçbir sistematik yönerge verilmemiştir .
Altta yatan veri noktalarının yoğunluğunun düşük olduğu yerlerde daha geniş kutular kullanmak, rastgele örnekleme nedeniyle gürültüyü azaltır; yoğunluğun yüksek olduğu (böylece sinyal gürültüyü boğduğu) yerlerde daha dar kutular kullanmak, yoğunluk tahminine daha fazla hassasiyet verir. Bu nedenle, bir histogram içindeki bölme genişliğini değiştirmek faydalı olabilir. Bununla birlikte, eşit genişlikte kutular yaygın olarak kullanılmaktadır.
Bazı teorisyenler optimal bir kutu sayısı belirlemeye çalışmışlardır, ancak bu yöntemler genellikle dağılımın şekli hakkında güçlü varsayımlarda bulunur. Gerçek veri dağılımına ve analizin hedeflerine bağlı olarak, farklı kutu genişlikleri uygun olabilir, bu nedenle uygun bir genişliği belirlemek için genellikle deney yapılması gerekir. Bununla birlikte, çeşitli yararlı yönergeler ve temel kurallar vardır.
Kutu sayısı k doğrudan atanabilir veya önerilen bir bölme genişliğinden h şu şekilde hesaplanabilir :
Parantezler tavan fonksiyonunu gösterir .
Karekök seçimi
örnekteki (Excel histogramları ve diğerleri tarafından kullanılan) veri noktası sayısının karekökünü alır ve bir sonraki tamsayıya yuvarlar .
Sturges' formülü
Sturges formülü bir binom dağılımından türetilmiştir ve örtük olarak yaklaşık olarak normal bir dağılım olduğunu varsayar.
Sturges'in formülü, kutu boyutlarını dolaylı olarak veri aralığına dayandırır ve n < 30 ise kötü performans gösterebilir , çünkü kutu sayısı yediden az olacak ve verilerdeki eğilimleri iyi gösterme olasılığı düşük olacaktır. Diğer uçta, Sturges formülü çok büyük veri kümeleri için kutu genişliğini olduğundan fazla tahmin edebilir ve bu da aşırı düzleştirilmiş histogramlara neden olabilir. Veriler normal dağılmamışsa da kötü performans gösterebilir.
Histogram kutuları için yaygın olarak kabul edilen diğer iki formül olan Scott kuralı ve Terrell-Scott kuralı ile karşılaştırıldığında, Sturges formülünün çıktısı n ≈ 100 olduğunda en yakın olur .
pirinç kuralı
Pirinç Kuralı, Sturges kuralına basit bir alternatif olarak sunulur.
Doane'nin formülü
Doane'nin formülü, performansını normal olmayan verilerle iyileştirmeye çalışan Sturges formülünün bir modifikasyonudur.
dağılımın tahmini 3. moment çarpıklığı nerede ve
Scott'ın normal referans kuralı
Bin genişliği tarafından verilir
örnek standart sapma nerede . Scott'ın normal referans kuralı, yoğunluk tahmininin entegre ortalama karesel hatasını en aza indirmesi anlamında, normal olarak dağıtılmış verilerin rastgele örnekleri için optimaldir.
Freedman-Diaconis'in tercihi
Freedman-Diaconis kuralı bin genişliği verir gibidir:
bu, IQR ile gösterilen çeyrekler arası aralığa dayanmaktadır . Scott kuralının 3.5σ'sini, verilerdeki aykırı değerlere standart sapmadan daha az duyarlı olan 2 IQR ile değiştirir.
Çapraz doğrulama tahmini kare hatasını en aza indirme
Scott kuralından elde edilen entegre ortalama karesel hatayı en aza indirmeye yönelik bu yaklaşım, bir dışarıda bırakma çapraz doğrulama kullanılarak normal dağılımların ötesinde genelleştirilebilir:
Burada, içinde veri noktası sayısı olan k inci bin ve değerini seçerek h en aza indirir o J ortalama karesel hata entegre aza edecektir.
Shimazaki ve Shinomoto'nun seçimi
Seçim, tahmini bir L 2 risk fonksiyonunun minimizasyonuna dayanmaktadır.
burada ve bin-genişliği olan bir histogramın ortalama ve sapma varyans vardır , ve .
Değişken bölme genişlikleri
Bazı uygulamalar için eşit aralıklı kutular seçmek yerine kutu genişliğini değiştirmek tercih edilir. Bu, düşük sayımlara sahip kutulardan kaçınır. Yaygın bir durum, her bir kutudaki numune sayısının yaklaşık olarak eşit olması beklenen eşit olasılıklı kutular seçmektir . Kutular, bilinen bazı dağılımlara göre seçilebilir veya her bir kutunun örnekleri olacak şekilde verilere dayalı olarak seçilebilir . Histogramı çizerken, bağımlı eksen için frekans yoğunluğu kullanılır. Tüm bölmeler yaklaşık olarak eşit alana sahipken, histogramın yükseklikleri yoğunluk dağılımına yakındır.
Eş olasılıklı kutular için, kutu sayısı için aşağıdaki kural önerilir:
Bu kutu seçimi, kutuların eşit sayıda numune içerip içermediğini test eden bir Pearson ki-kare testinin gücünü maksimize ederek motive edilir . Daha spesifik olarak, belirli bir güven aralığı için aşağıdaki denklemin 1/2 ile 1 katı arasında seçim yapılması önerilir:
Nerede olduğunu probit fonksiyonu. Bu kuralı takip etmek için ve arasında verir ; 2 katsayısı, bu geniş optimumdan hatırlanması kolay bir değer olarak seçilir.
Açıklama
Kutu sayısının orantılı olması için iyi bir neden şudur: verilerin, düzgün yoğunlukta sınırlı bir olasılık dağılımının bağımsız gerçekleşmeleri olarak elde edildiğini varsayalım . O zaman histogram , sonsuzluğa eğilimli olduğu gibi eşit derecede "sağlam" kalır . Eğer dağılımın "genişliği" ise (örneğin standart sapma veya çeyrekler arası aralık), o zaman bir kutudaki (sıklık) birim sayısı düzenlidir ve göreli standart hata düzenlidir . Bir sonraki bölmeyle karşılaştırıldığında , yoğunluğun türevinin sıfır olmaması koşuluyla frekansın göreli değişimi sıralıdır. Bu ikisi aynı düzendeyse düzendedir , yani düzendedir . Bu basit kübik kök seçimi, sabit olmayan genişlikteki kutulara da uygulanabilir.
Uygulamalar
- Gelen hidrolojinin histogram ve tahmin edilen yoğunluk fonksiyonu , bir analiz yağmur ve nehir tahliye verileri, olasılık dağılımı , davranış ve oluşma sıklığı anlamak için kullanılır. Mavi şekilde bir örnek gösterilmiştir.
- Birçok Dijital görüntü işleme programında , piksellerin kontrast /parlaklık dağılımını gösteren bir histogram aracı vardır .
Ayrıca bakınız
- Veri gruplama
-
yoğunluk tahmini
- Çekirdek yoğunluk tahmini , daha yumuşak fakat daha karmaşık bir yoğunluk tahmini yöntemi
- entropi tahmini
- Freedman-Diaconis kuralı
- Görüntü histogramı
- Pareto grafiği
- Yedi temel kalite aracı
- V-optimal histogramlar
Referanslar
daha fazla okuma
- Lancaster, HO Tıbbi İstatistiklere Giriş. John Wiley ve Oğulları. 1974. ISBN 0-471-51250-8
Dış bağlantılar
- Histogramları Keşfetmek , Aran Lunzer ve Amelia McNamara'nın bir makalesi
- İşe Yolculuk ve İş Yeri (örnekte belirtilen nüfus sayımı belgesinin yeri)
- Birkaç örnekten gelen sinyaller ve görüntüler için pürüzsüz histogram
- Histogramlar: Dış bağlantılar ile Yapı, Analiz ve Anlama ve parçacık Fiziğine bir uygulama.
- Histogramın Kutu Boyutunu Seçme Yöntemi
- Histogramlar: Teori ve Uygulama , yukarıda türetilen Bin Genişliği kavramlarının bazılarının harika illüstrasyonları.
- Histogramlar Doğru Yol
- Etkileşimli histogram oluşturucu
- Güzel histogramları çizmek için Matlab işlevi
- MS Excel'de Dinamik Histogram
- SOCR üzerinde Java uygulamaları ve çizelgeleri kullanarak histogram oluşturma ve işleme
- En iyi histogramları oluşturmak için araç kutusu