Mod (istatistikler) - Mode (statistics)

Mod veri değer kümesindeki en sık görünen değerdir. Eğer X, ayrı bir rasgele değişkendir, mod değeri x (yani, X = X ) hangi olasılık yoğunluk fonksiyonu maksimum değerini alır. Başka bir deyişle, örneklenmesi en muhtemel olan değerdir.

İstatistiksel ortalama ve medyan gibi, mod da (genellikle) tek bir sayı ile rastgele bir değişken veya bir popülasyon hakkında önemli bilgileri ifade etmenin bir yoludur . Modun sayısal değeri, normal bir dağılımdaki ortalama ve medyan ile aynıdır ve oldukça çarpık dağılımlarda çok farklı olabilir .

Kipin belirli bir ayrık dağılım için benzersiz olması gerekmez , çünkü olasılık kütle fonksiyonu birkaç noktada x 1 , x 2 , vb. Aynı maksimum değeri alabilir . En uç durum , tüm değerlerin eşit sıklıkta meydana geldiği tek tip dağılımlarda meydana gelir.

Sürekli bir dağılımın olasılık yoğunluk fonksiyonu birden fazla yerel maksimuma sahip olduğunda, dağıtımın modları olarak tüm yerel maksimumlara atıfta bulunmak yaygındır. Böyle sürekli bir dağıtıma çok modlu denir ( tek modlu değil ). Bir bir mod sürekli olasılık dağılımı genellikle herhangi bir değer olduğu düşünülmektedir x onun hangi olasılık yoğunluk fonksiyonu , herhangi zirve modu bu nedenle, lokal olarak en büyük değere sahiptir.

Olarak simetrik tek modlu gibi dağılımlar, normal dağılım , (tanımlanmışsa) ortalama, medyan ve çakıştığı modu. Örnekler için, simetrik tek modlu bir dağılımdan çekildikleri biliniyorsa, örneklem ortalaması, popülasyon modunun bir tahmini olarak kullanılabilir.

Örnek modu

Bir numunenin modu, koleksiyonda en sık görülen unsurdur. Örneğin, [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] örnekleminin modu 6'dır. Veri listesi [1, 1, 2, 4, 4] verildiğinde modu benzersiz değil. Böyle bir durumda bir veri setinin iki modlu olduğu söylenirken , ikiden fazla moda sahip bir set çok modlu olarak tanımlanabilir .

[0.935 ..., 1.211 ..., 2.430 ..., 3.668 ..., 3.874 ...] gibi sürekli bir dağıtımdan bir örnek için, kavram ham haliyle kullanılamaz, çünkü iki değer yok tam olarak aynı olacaktır, bu nedenle her değer tam olarak bir kez gerçekleşecektir. Altta yatan dağılımın modunu tahmin etmek için, olağan uygulama, bir histogram oluşturmaya yönelik olarak , değerleri atandıkları aralıkların orta noktaları ile etkin bir şekilde değiştirerek, frekans değerlerini eşit mesafeli aralıklara atayarak verileri ayrıklaştırmaktır . Bu durumda mod, histogramın zirveye ulaştığı değerdir. Küçük veya orta büyüklükteki numuneler için bu prosedürün sonucu, çok dar veya çok geniş seçilirse aralık genişliği seçimine duyarlıdır; tipik olarak, nispeten az sayıda aralıkta (5 ila 10) konsantre edilmiş büyük bir veri fraksiyonuna sahip olmalıdır, bu arada bu aralıkların dışında kalan veri fraksiyonu da oldukça büyüktür. Alternatif bir yaklaşım, modun bir tahminini sağlayabilen olasılık yoğunluk fonksiyonunun sürekli bir tahminini üretmek için esas olarak nokta örneklerini bulanıklaştıran çekirdek yoğunluğu tahminidir.

Aşağıdaki MATLAB (veya Octave ) kodu örneği, bir örneğin modunu hesaplar:

X = sort(x);                               % x is a column vector dataset
indices   =  find(diff([X; realmax]) > 0); % indices where repeated values change
[modeL,i] =  max (diff([0; indices]));     % longest persistence length of repeated values
mode      =  X(indices(i));

Algoritma, numuneyi artan sırada sıralamak için bir ilk adım gerektirir. Daha sonra sıralı listenin ayrık türevini hesaplar ve bu türevin pozitif olduğu indisleri bulur. Daha sonra, bu endeksler dizisinin ayrık türevini hesaplar, bu endeks türevinin maksimumunu bulur ve son olarak, tekrarlanan değerler dizisinin son üyesine karşılık gelen maksimumun oluştuğu noktada sıralanan örneği değerlendirir.

Ortalama, medyan ve modun karşılaştırılması

Keyfi olasılık yoğunluk fonksiyonunun modunun, medyanının ve ortalamasının geometrik görselleştirmesi.
{1, 2, 2, 3, 4, 7, 9} değerlerinin ortak ortalamalarının karşılaştırması
Tür Açıklama Misal Sonuç
Aritmetik ortalama Bir veri kümesinin değerlerinin toplamının değer sayısına bölümü (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 4
Medyan Bir veri kümesinin büyük ve küçük yarısını ayıran orta değer 1, 2, 2, 3 , 4, 7, 9 3
Mod Bir veri kümesindeki en sık görülen değer 1, 2 , 2 , 3, 4, 7, 9 2

Kullanım

Ortalama ve medyanın aksine, mod kavramı " nominal veriler " için de anlamlıdır (yani, ortalama durumunda sayısal değerlerden veya hatta medyan durumunda sıralı değerlerden oluşmaz). Örneğin, Kore aile adlarının bir örneğini aldığınızda, " Kim " kelimesinin diğer herhangi bir addan daha sık geçtiğini görebilirsiniz . O zaman "Kim", örneğin modu olacaktır. Çoğulluğun zaferi belirlediği herhangi bir oylama sisteminde, tek bir modal değer galip olanı belirlerken, çok-modlu bir sonuç bazı bağ bozma prosedürünün gerçekleşmesini gerektirecektir.

Medyanın aksine, mod kavramı , gerçek sayılar (tek boyutlu bir vektör uzayı) ve tamsayılar (gerçeklerde gömülü olarak kabul edilebilir ) dahil olmak üzere, bir vektör uzayından değerler varsayan herhangi bir rasgele değişken için anlamlıdır . Örneğin, düzlemdeki noktaların dağılımı tipik olarak bir ortalamaya ve bir moda sahip olacaktır, ancak medyan kavramı geçerli değildir. Medyan , olası değerler üzerinde doğrusal bir sıra olduğunda anlamlıdır . Medyan kavramının daha yüksek boyutlu uzaylara genelleştirilmesi geometrik medyan ve merkez noktasıdır .

Benzersizlik ve tanımlılık

Bazı olasılık dağılımları için beklenen değer sonsuz veya tanımsız olabilir, ancak tanımlanmışsa benzersizdir. Bir (sonlu) örneğin ortalaması her zaman tanımlanır. Ortanca, kendisini aşmayan ve altına düşmeyen kesirlerin her biri en az 1/2 olacak şekilde değerdir. Mutlaka benzersiz değildir, ancak asla sonsuz veya tamamen tanımsız değildir. Bir veri örneği için, değerler listesi artan bir değere göre sıralandığında "yarı yol" değeridir, burada genellikle eşit uzunluktaki bir liste için sayısal ortalama "yarı yola" en yakın iki değerin alınır. Son olarak, daha önce de söylendiği gibi, mod mutlaka benzersiz değildir. Belirli patolojik dağılımların (örneğin, Cantor dağılımı ) hiçbir tanımlı modu yoktur. Sonlu bir veri örneği için mod, örnekteki değerlerden biridir (veya daha fazlası).

Özellikleri

Tanımlılığı varsayarsak ve basitliğin benzersizliği için, aşağıdakiler en ilginç özelliklerden bazılarıdır.

  • Tüm üç ölçü aşağıdaki özelliği vardır: rastgele değişken (veya numuneden her değer) düz ya da maruz kalırsa afin dönüşüm yerine, X ile ax + b , bu ortalama, medyan ve mod bulunmaktadır.
  • Son derece küçük örnekler haricinde, mod " aykırı değerlere " karşı duyarsızdır (ara sıra, nadir, yanlış deneysel okumalar gibi). Ortanca, aykırı değerlerin varlığında da çok sağlamdır, ancak ortalama oldukça hassastır.
  • Sürekli tek modlu dağılımlarda medyan genellikle ortalama ve mod arasında, ortalamadan moda giden yolun yaklaşık üçte biri arasında bulunur. Bir formülde, medyan ≈ (2 × ortalama + mod) / 3. Bu kural, Karl Pearson'a bağlı olarak , genellikle normal dağılıma benzeyen hafif simetrik olmayan dağılımlar için geçerlidir, ancak her zaman doğru değildir ve genel olarak üç istatistik herhangi bir sırada görünebilir.
  • Tek modlu dağılımlar için, mod, ortalamanın 3 standart sapması içindedir ve modla ilgili kök ortalama kare sapma, standart sapma ile standart sapmanın iki katı arasındadır.

Eğri dağılım örneği

Çarpık dağılımın bir örneği kişisel servettir : Çok az insan çok zengindir, ancak bunların arasında bazıları son derece zengindir. Ancak, çoğu oldukça fakir.

Farklı çarpıklığa sahip iki log-normal dağılımın ortalama , medyan ve modunun karşılaştırılması .

Gelişigüzel eğriltilebilen iyi bilinen bir dağılım sınıfı log-normal dağılım ile verilir . Normal dağılıma sahip rastgele bir X değişkeninin Y = e X rastgele değişkenine dönüştürülmesiyle elde edilir . Daha sonra rastgele değişken Y'nin logaritması normal olarak dağıtılır, dolayısıyla adı da buradan gelir.

X'in ortalama μ'sini 0 alırsak, Y'nin medyanı , X'in standart sapmasından σ bağımsız olarak 1 olacaktır . Bu, bu nedenle bir X, medyan gelen transformasyon ayrıca 0 olup, böylece simetrik bir dağılıma sahip X için Y monoton olduğunu ve ortalama bulmak çok e 0 = 1 için Y .

Zaman X, standart sapma σ = 0.25 olan, dağılımı Y zayıf çarpık. Log-normal dağılım için formüller kullanarak şunu buluruz:

Aslında, ortalamadan moda geçiş yolunda medyan yaklaşık üçte birdir.

Zaman X, daha büyük bir standart sapma var σ = 1 , dağıtım Y güçlü çarpık. Şimdi

Burada, Pearson'un temel kuralı başarısız oluyor.

Van Zwet durumu

Van Zwet, bu eşitsizliğin devam etmesi için yeterli koşulları sağlayan bir eşitsizlik ortaya çıkardı. Eşitsizlik

Mod ≤ Medyan ≤ Ortalama

eğer tutar

F (Medyan - x ) + F (Medyan + x ) ≥ 1

tüm x F () 'dir kümülatif dağılım fonksiyonu dağılımının.

Tek modlu dağılımlar

Tek modlu bir dağılım için, medyan ve ortalamanın birbirlerinin (3/5) 1/2 ≈ 0.7746 standart sapmaları dahilinde olduğu gösterilebilir. Sembollerde,

mutlak değer nerede .

Medyan ve mod arasında da benzer bir ilişki vardır: birbirlerinin 3 1/2 ≈ 1,732 standart sapması içinde yer alırlar:

Tarih

Mod terimi , 1895'te Karl Pearson'dan kaynaklanmaktadır .

Pearson, mod terimini maksimum koordinat ile birbirinin yerine kullanır . Bir dipnotta, " Maksimum frekansın koordinatına karşılık gelen apsis için mod terimini kullanmayı uygun buldum" diyor .

Ayrıca bakınız

Referanslar

Dış bağlantılar