Olasılık tablosu - Contingency table

Olarak istatistik , bir veri tablosu (aynı zamanda olarak da bilinen çapraz tablolama veya Sadece çapraz ) bir tür tablo bir de matris biçiminde olduğunu gösterir (değişkenli) frekans dağılımı değişkenlerin. Anket araştırması, iş zekası, mühendislik ve bilimsel araştırmada yoğun olarak kullanılırlar. İki değişken arasındaki ilişkinin temel bir resmini sağlarlar ve aralarındaki etkileşimleri bulmaya yardımcı olabilirler. Koşul tablosu terimi ilk olarak Drapers Company'nin bir parçası olan "Olasılık Teorisi ve İlişkisi ve Normal Korelasyonla İlişkisi Üzerine" de Karl Pearson tarafından kullanılmıştır. 1904'te yayınladığım Research Memoirs Biometric Series I.

Çok değişkenli istatistiklerin önemli bir sorunu, yüksek boyutlu olasılık tablolarında bulunan değişkenlerin altında yatan (doğrudan) bağımlılık yapısını bulmaktır. Bazı Eğer koşullu bağımsızlıklarını ortaya çıkar, verilerin ardından bile depolama daha akıllı bir şekilde yapılabilir (Lauritzen (2002) bakınız). Bunu yapmak için , bilgiyi sadece olasılık dağılımından alan ve göreceli frekanslarla kontenjans tablosundan kolaylıkla ifade edilebilen bilgi teorisi kavramları kullanılabilir .

Bir pivot tablo tablo yazılımını kullanarak olasılık tabloları oluşturmak için bir yoldur.

Misal

İki değişken olduğunu varsayalım, cinsiyet (erkek veya kadın) ve el tercihi (sağ veya solak). Ayrıca, el tercihinde cinsiyet farklılıklarının araştırılmasının bir parçası olarak çok büyük bir popülasyondan 100 kişinin rastgele örneklendiğini varsayalım. Sağlak ve solak erkek, sağ elini ve sol elini kullanan erkek bireylerin sayısını gösteren bir acil durum tablosu oluşturulabilir. Böyle bir beklenmedik durum tablosu aşağıda gösterilmiştir.

Handed-
lık
Seks
Sağlak Solak Toplam
Erkek 43 9 52
Kadın 44 4 48
Toplam 87 13 100

Erkeklerin, kadınların ve sağ ve sol elini kullanan bireylerin sayılarına marjinal toplamlar denir . Genel toplam (acil durum tablosunda temsil edilen toplam kişi sayısı) sağ alt köşedeki sayıdır.

Tablo, kullanıcıların bir bakışta sağ elini kullanan erkeklerin oranının, oranlar aynı olmasa da sağ elini kullanan kadınların oranı ile yaklaşık aynı olduğunu görmelerini sağlar. İlişkilendirmenin gücü, olasılık oranıyla ve örnek olasılık oranıyla tahmin edilen nüfus olasılık oranıyla ölçülebilir . Önemi iki oran arasındaki farkın da dahil olmak üzere istatistiksel testler, çeşitli değerlendirilebilir Pearson chi-square testi , G, -test , Fisher kesin testi , Boschloo testi ve Barnard testi , rastgele bireyleri temsil eden tablo girdileri Resim Hangi sonuçların çıkarılacağı popülasyondan örneklenmiştir. Farklı sütunlardaki bireylerin oranları satırlar arasında önemli ölçüde farklılık gösteriyorsa (veya tam tersi), iki değişken arasında bir olasılık olduğu söylenir . Diğer bir deyişle, iki değişken bağımsız değildir . Herhangi bir olasılık yoksa, iki değişkenin bağımsız olduğu söylenir .

Yukarıdaki örnek, her değişkenin yalnızca iki seviyeye sahip olduğu bir tablo olan en basit olasılık tablosudur; buna 2 × 2 olasılık tablosu denir. Prensip olarak, herhangi bir sayıda satır ve sütun kullanılabilir. Ayrıca ikiden fazla değişken olabilir, ancak yüksek dereceli acil durum tablolarının görsel olarak temsil edilmesi zordur. Sıralı değişkenler arasındaki veya sıralı ve kategorik değişkenler arasındaki ilişki , acil durum tablolarında da gösterilebilir, ancak böyle bir uygulama nadirdir. İki sıralı değişken arasındaki ilişki için bir olasılık tablosunun kullanımı hakkında daha fazla bilgi için bkz. Goodman ve Kruskal'ın gama .

Bir acil durum tablosunun standart içeriği

  • Birden çok sütun (tarihsel olarak, basılı bir sayfanın tüm beyaz alanını kullanmak üzere tasarlanmışlardı). Her satır, popülasyondaki belirli bir alt gruba (bu durumda erkekler veya kadınlar) atıfta bulunduğunda, sütunlara bazen başlık noktaları veya kesikler (ve satırlar bazen koçan adı verilir ) adı verilir.
  • Önem testleri. Tipik haliyle, her iki sütun karşılaştırmalar , sütunlar arasındaki farklar için hangi test ve harfler ya da kullanılarak bu sonuçlarını görüntülemek hücre karşılaştırmalar bir şekilde göze çarpan bir tablodaki bir hücreyi belirlemek için bir renk veya ok kullanın.
  • Alt toplamlar olan ağlar veya ağlar .
  • Yüzdeler, satır yüzdeleri, sütun yüzdeleri, dizinler veya ortalamalardan biri veya daha fazlası.
  • Ağırlıksız örnek boyutları (sayımlar).

İlişkilendirme ölçüleri

İki değişken arasındaki ilişki derecesi, birkaç katsayı ile değerlendirilebilir. Aşağıdaki alt bölümler bunlardan birkaçını açıklamaktadır. Kullanımları hakkında daha kapsamlı bir tartışma için, her bir alt bölüm başlığı altında bağlantılı ana makalelere bakın.

Olasılık oranı

2 × 2 acil durum tablosu için en basit ilişkilendirme ölçüsü olasılık oranıdır . İki olay, A ve B verildiğinde, olasılık oranı, B'nin varlığında A'nın olasılıklarının oranı ve B'nin yokluğunda A'nın olasılıklarının oranı veya eşdeğer olarak (simetri nedeniyle), olasılıkların oranı olarak tanımlanır. A'nın mevcudiyetinde B'nin ve A'nın yokluğunda B'nin olasılıklarının sayısı. İki olay bağımsızdır ancak ve ancak olasılık oranı 1 ise; olasılık oranı 1'den büyükse, olaylar pozitif olarak ilişkilidir; İhtimal oranı 1'den az ise, olaylar negatif olarak ilişkilidir.

İhtimal oranının olasılıklar açısından basit bir ifadesi vardır; ortak olasılık dağılımı verildiğinde:

olasılık oranı:

Phi katsayısı

Yalnızca 2 × 2 acil durum tabloları için geçerli olan basit bir ölçü, ile tanımlanan phi katsayısıdır (φ).

burada χ 2 deki gibi hesaplanır Pearson chi-square testi ve N gözlemler toplamıdır. φ, 2 × 2 tablolarda gösterilen sıklık verilerine dayalı olması koşuluyla, 0'dan (değişkenler arasında hiçbir ilişkiye karşılık gelir) 1 veya −1'e (tam ilişki veya tam ters ilişki) değişir. O halde işareti , tablonun ana köşegen elemanlarının çarpımının eksi köşegen dışı elemanların çarpımına eşittir . φ ancak ve ancak her marjinal oran 0,5'e eşitse (ve iki köşegen hücre boşsa) minimum değer −1,0 veya maksimum +1,0 değerini alır .

Cramér'in V ve beklenmedik durum katsayısı C

İki alternatif, acil durum katsayısı C ve Cramér's V'dir .

C ve V katsayılarının formülleri şunlardır:

ve

k satır sayısı veya sütun sayısıdır, hangisi daha azsa.

C , maksimum 1,0'a ulaşmaması dezavantajına sahiptir, özellikle 2 × 2 bir tabloda ulaşabileceği en yüksek değer 0,707'dir. Daha fazla kategori içeren acil durum tablolarında 1,0'a yakın değerlere ulaşabilir; örneğin 4 × 4 bir tabloda maksimum 0,870'e ulaşabilir. Bu nedenle, farklı sayıda kategoriye sahiplerse, farklı tablolardaki ilişkileri karşılaştırmak için kullanılmamalıdır.

bölünmesi ile satır ve sütun herhangi bir sayı, bir tablodaki tam ilişki olduğunda 1.0 bir maksimuma ulaşır, böylece ayarlanabilir C ile burada K tablosu, karedir, satır ve sütunların sayısının ya göre burada r satır sayısı ve c sütun sayısıdır.

Tetrakorik korelasyon katsayısı

Diğer bir seçenek de tetrakorik korelasyon katsayısıdır ancak yalnızca 2 × 2 tablolar için geçerlidir. Polikorik korelasyon , ikiden fazla seviyeli değişkenleri içeren tablolara tetrakorik korelasyonun bir uzantısıdır.

Tetrakorik korelasyon, her iki boyutlu ölçümün altında yatan değişkenin normal olarak dağıldığını varsayar . Katsayı, "dereceli ölçümler iki kategoriye indirildiğinde [Pearson ürün-moment] korelasyonunun uygun bir ölçüsünü sağlar."

Tetrakorik korelasyon katsayısı , her değişkenin iki seviyesini (matematiksel olarak φ katsayısına eşdeğer olan) temsil etmek için örneğin 0.0 ve 1.0 değerleri atanarak hesaplanan Pearson korelasyon katsayısı ile karıştırılmamalıdır .

Lambda katsayısı

Lambda katsayısı değişkenleri ölçülen enine cetvellerden esas gücünün bir ölçüsüdür nominal seviyeye . Değerler 0,0 (ilişkilendirme yok) ile 1,0 (olası maksimum ilişkilendirme) arasındadır.

Asimetrik lambda, bağımlı değişkeni tahmin etmedeki iyileşme yüzdesini ölçer. Simetrik lambda, tahmin her iki yönde de yapıldığında iyileşme yüzdesini ölçer.

Belirsizlik katsayısı

Belirsizlik katsayısı veya Theil U nominal seviyede değişkenler için bir ölçüdür. Değerleri -1.0 (% 100 negatif ilişki veya mükemmel ters çevirme) ile +1.0 (% 100 pozitif ilişki veya mükemmel uyum) arasında değişir. 0.0 değeri, ilişkinin olmadığını gösterir.

Ayrıca, belirsizlik katsayısı koşulludur ve asimetrik bir ilişki ölçüsüdür ve şu şekilde ifade edilebilir:

.

Bu asimetrik özellik, simetrik birliktelik ölçülerinde olduğu kadar açık olmayan anlayışlara yol açabilir.

Diğerleri

Ayrıca bakınız

Referanslar

daha fazla okuma

Dış bağlantılar