histogram - Histogram

histogram
histogram
Kalitenin Yedi Temel Aracından Biri
İlk açıklanan	Karl Pearson
Amaç	Belirli değer aralıklarında meydana gelen gözlemlerin frekanslarını betimleyerek belirli bir değişkenin olasılık dağılımını kabaca değerlendirmek .

Bir Histogram yaklaşık bir temsilidir dağıtım sayısal veri. İlk olarak Karl Pearson tarafından tanıtıldı . Bir histogram oluşturmak için ilk adım, değerler aralığını " bin " (veya " kova ") - yani, tüm değer aralığını bir dizi aralığa bölmek - ve ardından her aralığa kaç değer düştüğünü saymaktır. Kutular genellikle bir değişkenin ardışık, örtüşmeyen aralıkları olarak belirtilir . Kutular (aralıklar) bitişik olmalı ve genellikle (ancak olması zorunlu değildir) eşit boyutta olmalıdır.

Kutular eşit büyüklükteyse, kutunun üzerine yüksekliği frekansla , yani her kutudaki kutu sayısıyla orantılı bir dikdörtgen dikilir . Bir histogram, "göreceli" frekansları gösterecek şekilde normalleştirilebilir . Ardından , yüksekliklerin toplamı 1'e eşit olacak şekilde , birkaç kategorinin her birine düşen vakaların oranını gösterir .

Ancak, kutuların eşit genişlikte olması gerekmez; bu durumda, dikilmiş dikdörtgenin alanı , kutudaki vakaların sıklığıyla orantılı olacak şekilde tanımlanır . Dikey eksen, o zaman frekans değil, frekans yoğunluğudur - yatay eksende değişkenin birimi başına vaka sayısı. Değişken bölme genişliği örnekleri aşağıdaki Sayım bürosu verilerinde gösterilmektedir.

Bitişik bölmeler boşluk bırakmadığından, bir histogramın dikdörtgenleri orijinal değişkenin sürekli olduğunu belirtmek için birbirine dokunur.

Histogramlar, verilerin altında yatan dağılımın yoğunluğu hakkında kaba bir fikir verir ve genellikle yoğunluk tahmini için : temel değişkenin olasılık yoğunluk fonksiyonunu tahmin etmek . Olasılık yoğunluğu için kullanılan bir histogramın toplam alanı her zaman 1'e normalleştirilir. x ekseni üzerindeki aralıkların uzunluğunun tümü 1 ise, bu durumda bir histogram göreli bir frekans grafiğine özdeştir .

Bir histogram , bölmeler üzerindeki frekansları yumuşatmak için bir çekirdek kullanan basit bir çekirdek yoğunluğu tahmini olarak düşünülebilir . Bu , genel olarak altta yatan değişkenin dağılımını daha doğru bir şekilde yansıtacak olan daha yumuşak bir olasılık yoğunluk fonksiyonu verir . Yoğunluk tahmini, histograma bir alternatif olarak çizilebilir ve genellikle bir dizi kutudan ziyade bir eğri olarak çizilir. Yine de, istatistiksel özelliklerinin modellenmesi gerektiğinde uygulamalarda histogramlar tercih edilir. Bir çekirdek yoğunluğu tahmininin ilişkili varyasyonunu matematiksel olarak açıklamak çok zordur, oysa her bir bölmenin bağımsız olarak değiştiği bir histogram için basittir.

Çekirdek yoğunluğu tahminine bir alternatif, hesaplanması hızlı olan ve çekirdek kullanmadan yoğunluğun düzgün bir eğri tahminini veren ortalama kaydırılmış histogramdır.

Histogram, kalite kontrolünün yedi temel aracından biridir .

Histogramlar bazen çubuk grafiklerle karıştırılır. Sürekli veriler için bir histogram kullanılır ; burada kutular veri aralıklarını temsil eder, çubuk grafik ise kategorik değişkenlerin bir grafiğidir . Bazı yazarlar, ayrımı netleştirmek için çubuk grafiklerin dikdörtgenler arasında boşluklar olmasını önerir.

Örnekler

Bu, 500 öğe kullanılarak sağdaki histogramın verileridir:

Depo/Aralık	Sayı/Sıklık
−3,5 ila −2,51	9
−2,5 ila −1,51	32
-1,5 ila -0,51	109
-0,5 ila 0,49	180
0,5 ila 1,49	132
1,5 ila 2,49	34
2,5 ila 3,49	4

Bir histogramdaki kalıpları tanımlamak için kullanılan kelimeler şunlardır: "simetrik", "sola çarpık" veya "sağ", "tek modlu", "iki modlu" veya "çok modlu".

simetrik, tek modlu
Sağa eğik
sola eğik
çift modlu
çok modlu
Simetrik

Hakkında daha fazla bilgi edinmek için verileri birkaç farklı bölme genişliği kullanarak çizmek iyi bir fikirdir. İşte bir restoranda verilen ipuçlarına bir örnek.

1 dolarlık bir bölme genişliği kullanan ipuçları, sağa eğik, tek modlu
10c kutu genişliği kullanan ipuçları, hala sağa eğik, modları $ ve 50c miktarlarında çok modlu, yuvarlamayı ve ayrıca bazı aykırı değerleri gösterir

ABD Sayım Bürosu evlerinin dışında çalışan 124 milyon kişi olduğunu gördük. Aşağıdaki tablo, işe seyahat için harcanan süreye ilişkin verilerini kullanarak, "en az 30 ama 35 dakikadan az" seyahat süresi ile yanıt verenlerin mutlak sayısını, yukarıdaki ve altındaki kategori sayılarından daha yüksek olarak göstermektedir. Bunun nedeni, muhtemelen bildirilen yolculuk sürelerini yuvarlayan kişilerdir. Değerlerin bir şekilde keyfi yuvarlanmış sayılar olarak rapor edilmesi sorunu, insanlardan veri toplarken yaygın bir olgudur.

Seyahat süresi histogramı (çalışmak için), ABD 2000 nüfus sayımı. Eğrinin altındaki alan, toplam vaka sayısına eşittir. Bu diyagram, tablodaki Q/genişliğini kullanır.

Mutlak sayılara göre veriler
Aralık	Genişlik	Miktar	Miktar/genişlik
0	5	4180	836
5	5	13687	2737
10	5	18618	3723
15	5	19634	3926
20	5	17981	3596
25	5	7190	1438
30	5	16369	3273
35	5	3212	642
40	5	4122	824
45	15	9200	613
60	30	6461	215
90	60	3435	57

Bu histogram, her bir bloğun alanı, anketteki kategorisine giren kişi sayısına eşit olacak şekilde, her bloğun yüksekliği olarak birim aralık başına vaka sayısını gösterir . Eğrinin altındaki alan toplam vaka sayısını (124 milyon) temsil etmektedir. Bu tür histogram, Q'nun binde olduğu mutlak sayıları gösterir.

Seyahat süresi histogramı (çalışmak için), ABD 2000 nüfus sayımı. Eğrinin altındaki alan 1'e eşittir. Bu diyagram, tablodaki Q/toplam/genişliği kullanır.

Orana göre veri
Aralık	Genişlik	Miktar (Q)	Q/toplam/genişlik
0	5	4180	0.0067
5	5	13687	0.0221
10	5	18618	0.0300
15	5	19634	0.0316
20	5	17981	0.0290
25	5	7190	0.0116
30	5	16369	0.0264
35	5	3212	0.0052
40	5	4122	0.0066
45	15	9200	0.0049
60	30	6461	0.0017
90	60	3435	0.0005

Bu histogram, yalnızca dikey ölçekte ilkinden farklıdır . Her bloğun alanı, her kategorinin temsil ettiği toplamın kesridir ve tüm çubukların toplam alanı 1'e eşittir ("hepsi" anlamına gelen kesir). Görüntülenen eğri, basit bir yoğunluk tahminidir . Bu sürüm oranları gösterir ve birim alan histogramı olarak da bilinir.

Başka bir deyişle, bir histogram, genişlikleri sınıf aralıklarını temsil eden ve alanları karşılık gelen frekanslarla orantılı olan dikdörtgenler aracılığıyla bir frekans dağılımını temsil eder: her birinin yüksekliği, aralığın ortalama frekans yoğunluğudur. Aralıklar, histogram tarafından temsil edilen verilerin dışlayıcı iken aynı zamanda bitişik olduğunu göstermek için birlikte yerleştirilir. (Örneğin, bir histogramda 10.5–20.5 ve 20.5–33.5'lik iki bağlantı aralığına sahip olmak mümkündür, ancak 10.5–20.5 ve 22.5–32.5'lik iki bağlantı aralığı olamaz. Boş aralıklar boş olarak gösterilir ve atlanmaz.)

matematiksel tanımlar

Aynı verilerin sıradan ve kümülatif bir histogramı. Gösterilen veriler, ortalama 0 ve standart sapma 1 olan normal bir dağılımdan rastgele 10.000 nokta örneğidir.

Histogram oluşturmak için kullanılan verileri bir fonksiyon ile oluşturulan m _ı o sayıları (bilinen ayrık kategorilerinin her biri ayrılır gözlem sayısı bidonları ). Bu nedenle, n'nin toplam gözlem sayısı ve k'nin toplam kutu sayısı olmasına izin verirsek , histogram verileri m _i aşağıdaki koşulları karşılar:

n=\sum _{i=1}^{k}{m_{i}}.

kümülatif histogram

Kümülatif histogram, belirtilen bölmeye kadar tüm bölmelerdeki kümülatif gözlem sayısını sayan bir eşlemedir. Yani, bir histogram m _j'nin kümülatif histogramı M _i şu şekilde tanımlanır:

M_{i}=\sum _{j=1}^{i}{m_{j}}.

Kutu sayısı ve genişlik

"En iyi" kutu sayısı yoktur ve farklı kutu boyutları verilerin farklı özelliklerini ortaya çıkarabilir. Verileri gruplandırma, en azından Graunt'un 17. yüzyıldaki çalışması kadar eskidir , ancak Sturges'in 1926'daki çalışmasına kadar hiçbir sistematik yönerge verilmemiştir .

Altta yatan veri noktalarının yoğunluğunun düşük olduğu yerlerde daha geniş kutular kullanmak, rastgele örnekleme nedeniyle gürültüyü azaltır; yoğunluğun yüksek olduğu (böylece sinyal gürültüyü boğduğu) yerlerde daha dar kutular kullanmak, yoğunluk tahminine daha fazla hassasiyet verir. Bu nedenle, bir histogram içindeki bölme genişliğini değiştirmek faydalı olabilir. Bununla birlikte, eşit genişlikte kutular yaygın olarak kullanılmaktadır.

Bazı teorisyenler optimal bir kutu sayısı belirlemeye çalışmışlardır, ancak bu yöntemler genellikle dağılımın şekli hakkında güçlü varsayımlarda bulunur. Gerçek veri dağılımına ve analizin hedeflerine bağlı olarak, farklı kutu genişlikleri uygun olabilir, bu nedenle uygun bir genişliği belirlemek için genellikle deney yapılması gerekir. Bununla birlikte, çeşitli yararlı yönergeler ve temel kurallar vardır.

Kutu sayısı k doğrudan atanabilir veya önerilen bir bölme genişliğinden h şu şekilde hesaplanabilir :

k=\sol\lceil {\frac {\max x-\min x}{h}}\sağ\rceil.

Parantezler tavan fonksiyonunu gösterir .

Karekök seçimi

k=\lceil {\sqrt {n}}\rceil \,

örnekteki (Excel histogramları ve diğerleri tarafından kullanılan) veri noktası sayısının karekökünü alır ve bir sonraki tamsayıya yuvarlar .

Sturges' formülü

Sturges formülü bir binom dağılımından türetilmiştir ve örtük olarak yaklaşık olarak normal bir dağılım olduğunu varsayar.

k=\lceil \log _{2}n\rceil +1,\,

Sturges'in formülü, kutu boyutlarını dolaylı olarak veri aralığına dayandırır ve $n < 30$ ise kötü performans gösterebilir , çünkü kutu sayısı yediden az olacak ve verilerdeki eğilimleri iyi gösterme olasılığı düşük olacaktır. Diğer uçta, Sturges formülü çok büyük veri kümeleri için kutu genişliğini olduğundan fazla tahmin edebilir ve bu da aşırı düzleştirilmiş histogramlara neden olabilir. Veriler normal dağılmamışsa da kötü performans gösterebilir.

Histogram kutuları için yaygın olarak kabul edilen diğer iki formül olan Scott kuralı ve Terrell-Scott kuralı ile karşılaştırıldığında, Sturges formülünün çıktısı $n \approx 100$ olduğunda en yakın olur .

pirinç kuralı

k=\lceil 2{\sqrt[{3}]{n}}\rceil ,

Pirinç Kuralı, Sturges kuralına basit bir alternatif olarak sunulur.

Doane'nin formülü

Doane'nin formülü, performansını normal olmayan verilerle iyileştirmeye çalışan Sturges formülünün bir modifikasyonudur.

k=1+\log _{2}(n)+\log _{2}\left(1+{\frac {|g_{1}|}{\sigma _{g_{1}}} }\sağ)

dağılımın tahmini 3. moment çarpıklığı nerede ve $g_{1}$

\sigma _{g_{1}}={\sqrt {\frac {6(n-2)}{(n+1)(n+3)}}}

Scott'ın normal referans kuralı

Bin genişliği tarafından verilir ${\görüntüleme stili h}$

h={\frac {3.49{\hat {\sigma }}}{\sqrt[{3}]{n}}},

örnek standart sapma nerede . Scott'ın normal referans kuralı, yoğunluk tahmininin entegre ortalama karesel hatasını en aza indirmesi anlamında, normal olarak dağıtılmış verilerin rastgele örnekleri için optimaldir. ${\hat {\sigma }}$

Freedman-Diaconis'in tercihi

Freedman-Diaconis kuralı bin genişliği verir gibidir: ${\görüntüleme stili h}$

h=2{\frac {\operatör adı {IQR} (x)}{\sqrt[{3}]{n}}},

bu, IQR ile gösterilen çeyrekler arası aralığa dayanmaktadır . Scott kuralının 3.5σ'sini, verilerdeki aykırı değerlere standart sapmadan daha az duyarlı olan 2 IQR ile değiştirir.

Çapraz doğrulama tahmini kare hatasını en aza indirme

Scott kuralından elde edilen entegre ortalama karesel hatayı en aza indirmeye yönelik bu yaklaşım, bir dışarıda bırakma çapraz doğrulama kullanılarak normal dağılımların ötesinde genelleştirilebilir:

{\underset {h}{\operatöradı {arg\,min} }}{\hat {J}}(h)={\underset {h}{\operatöradı {arg\,min} }}\left ({\frac {2}{(n-1)h}}-{\frac {n+1}{n^{2}(n-1)h}}\sum _{k}N_{k}^ {2}\sağ)

Burada, içinde veri noktası sayısı olan k inci bin ve değerini seçerek h en aza indirir o J ortalama karesel hata entegre aza edecektir. $N_{k}$

Shimazaki ve Shinomoto'nun seçimi

Seçim, tahmini bir L ² risk fonksiyonunun minimizasyonuna dayanmaktadır.

{\underset {h}{\operatöradı {arg\,min} }}{\frac {2{\bar {m}}-v}{h^{2}}}

burada ve bin-genişliği olan bir histogramın ortalama ve sapma varyans vardır , ve . $\textstyle {\bar {m}}$ ${\görüntüleme stili \metin stili v}$ ${\görüntüleme stili \metin stili h}$ $\textstyle {\bar {m}}={\frac {1}{k}}\sum _{i=1}^{k}m_{i}$ $\textstyle v={\frac {1}{k}}\sum _{i=1}^{k}(m_{i}-{\bar {m}})^{2}$

Değişken bölme genişlikleri

Bazı uygulamalar için eşit aralıklı kutular seçmek yerine kutu genişliğini değiştirmek tercih edilir. Bu, düşük sayımlara sahip kutulardan kaçınır. Yaygın bir durum, her bir kutudaki numune sayısının yaklaşık olarak eşit olması beklenen eşit olasılıklı kutular seçmektir . Kutular, bilinen bazı dağılımlara göre seçilebilir veya her bir kutunun örnekleri olacak şekilde verilere dayalı olarak seçilebilir . Histogramı çizerken, bağımlı eksen için frekans yoğunluğu kullanılır. Tüm bölmeler yaklaşık olarak eşit alana sahipken, histogramın yükseklikleri yoğunluk dağılımına yakındır. ${\görüntüleme stili \yaklaşık n/k}$

Eş olasılıklı kutular için, kutu sayısı için aşağıdaki kural önerilir:

{\görüntüleme stili k=2n^{2/5}}

Bu kutu seçimi, kutuların eşit sayıda numune içerip içermediğini test eden bir Pearson ki-kare testinin gücünü maksimize ederek motive edilir . Daha spesifik olarak, belirli bir güven aralığı için aşağıdaki denklemin 1/2 ile 1 katı arasında seçim yapılması önerilir: ${\görüntüleme stili \alfa }$

k=4\sol({\frac {2n^{2}}{\Phi ^{-1}(\alpha )}}\sağ)^{\frac {1}{5}}

Nerede olduğunu probit fonksiyonu. Bu kuralı takip etmek için ve arasında verir ; 2 katsayısı, bu geniş optimumdan hatırlanması kolay bir değer olarak seçilir. ${\görüntüleme stili \Phi ^{-1}}$ ${\görüntüleme stili \alfa =0.05}$ ${\ Displaystyle 1.88n^{2/5}}$ ${\ Displaystyle 3.77n^{2/5}}$

Açıklama

Kutu sayısının orantılı olması için iyi bir neden şudur: verilerin, düzgün yoğunlukta sınırlı bir olasılık dağılımının bağımsız gerçekleşmeleri olarak elde edildiğini varsayalım . O zaman histogram , sonsuzluğa eğilimli olduğu gibi eşit derecede "sağlam" kalır . Eğer dağılımın "genişliği" ise (örneğin standart sapma veya çeyrekler arası aralık), o zaman bir kutudaki (sıklık) birim sayısı düzenlidir ve göreli standart hata düzenlidir . Bir sonraki bölmeyle karşılaştırıldığında , yoğunluğun türevinin sıfır olmaması koşuluyla frekansın göreli değişimi sıralıdır. Bu ikisi aynı düzendeyse düzendedir , yani düzendedir . Bu basit kübik kök seçimi, sabit olmayan genişlikteki kutulara da uygulanabilir. ${\sqrt[{3}]{n}}$ ${\görüntüleme stili n}$ ${\görüntüleme stili n}$ ${\görüntüleme stili s}$ ${\görüntüleme stili nh/s}$ ${\sqrt {s/(nh)}}$ ${\görüntüleme stili h/s}$ ${\görüntüleme stili h}$ $s/{\sqrt[{3}]{n}}$ ${\görüntüleme stili k}$ ${\sqrt[{3}]{n}}$

Gumbel dağılımı için histogram ve yoğunluk fonksiyonu

Uygulamalar

Gelen hidrolojinin histogram ve tahmin edilen yoğunluk fonksiyonu , bir analiz yağmur ve nehir tahliye verileri, olasılık dağılımı , davranış ve oluşma sıklığı anlamak için kullanılır. Mavi şekilde bir örnek gösterilmiştir.
Birçok Dijital görüntü işleme programında , piksellerin kontrast /parlaklık dağılımını gösteren bir histogram aracı vardır .

kontrast histogramı

Ayrıca bakınız

Veri gruplama
yoğunluk tahmini
- Çekirdek yoğunluk tahmini , daha yumuşak fakat daha karmaşık bir yoğunluk tahmini yöntemi
entropi tahmini
Freedman-Diaconis kuralı
Görüntü histogramı
Pareto grafiği
Yedi temel kalite aracı
V-optimal histogramlar

Referanslar

daha fazla okuma

Lancaster, HO Tıbbi İstatistiklere Giriş. John Wiley ve Oğulları. 1974. ISBN 0-471-51250-8

Dış bağlantılar

Histogramları Keşfetmek , Aran Lunzer ve Amelia McNamara'nın bir makalesi
İşe Yolculuk ve İş Yeri (örnekte belirtilen nüfus sayımı belgesinin yeri)
Birkaç örnekten gelen sinyaller ve görüntüler için pürüzsüz histogram
Histogramlar: Dış bağlantılar ile Yapı, Analiz ve Anlama ve parçacık Fiziğine bir uygulama.
Histogramın Kutu Boyutunu Seçme Yöntemi
Histogramlar: Teori ve Uygulama , yukarıda türetilen Bin Genişliği kavramlarının bazılarının harika illüstrasyonları.
Histogramlar Doğru Yol
Etkileşimli histogram oluşturucu
Güzel histogramları çizmek için Matlab işlevi
MS Excel'de Dinamik Histogram
SOCR üzerinde Java uygulamaları ve çizelgeleri kullanarak histogram oluşturma ve işleme
En iyi histogramları oluşturmak için araç kutusu

Languages

In other projects