Otomatik Benzerlik Değerlendirme Programı - Automated Similarity Judgment Program

Otomatik Benzerlik Değerlendirme Programı
Üretici Max Planck İnsan Tarihi Bilimi Enstitüsü (Almanya)
Diller İngilizce
Erişim
Maliyet Özgür
Kapsam
disiplinler Nicel karşılaştırmalı dilbilim
Bağlantılar
İnternet sitesi http://asjp.clld.org

Otomatik Benzerlik Yargı Programı ( ASJP ) için hesaplama yaklaşımları uygulayan bir işbirliği projesi karşılaştırmalı dilbilim kelime listelerinin bir veritabanı kullanarak. Veritabanı açık erişimdir ve dünya dillerinin yarısından fazlası için 40 maddelik temel kelime listelerinden oluşur. Sürekli genişletilmektedir. İzolatlar ve kanıtlanmış soy gruplarının dillerine ek olarak, veritabanı pidgins , creoles , karma diller ve yapılandırılmış dilleri içerir . Veritabanındaki kelimeler basitleştirilmiş bir standart imlaya ( ASJPcode ) dönüştürülür. Veritabanı, dil ailelerinin glotokronoloji ile ilgili ancak yine de farklı bir yöntemle kız dillere ayrıldığı tarihleri ​​tahmin etmek , bir proto-dilin anavatanını ( Urheimat ) belirlemek, ses sembolizmini araştırmak , farklı filogenetiği değerlendirmek için kullanılmıştır. yöntemleri ve diğer bazı amaçlar.

ASJP, dil aileleri arasındaki ilişkileri kurmak veya değerlendirmek için yeterli bir yöntem olarak tarihsel dilbilimciler arasında yaygın olarak kabul görmemektedir.

Max Planck İnsan Tarihi Bilimi Enstitüsü tarafından barındırılan Diller Arası Bağlantılı Veri projesinin bir parçasıdır .

Tarih

Orijinal hedefler

ASJP orijinal olarak, farklı dillerden aynı anlama sahip kelimelerin benzerliğini objektif olarak değerlendirmek için bir araç olarak geliştirilmiştir ve nihai amacı, gözlemlenen sözcüksel benzerliklere dayalı olarak dilleri hesaplamalı olarak sınıflandırmaktır. İlk ASJP makalesinde , karşılaştırılan dillerden semantik olarak aynı iki kelime, en az iki özdeş ses segmenti gösteriyorsa benzer olarak değerlendirildi. İki dil arasındaki benzerlik, karşılaştırılan ve benzer olarak değerlendirilen toplam kelime sayısının yüzdesi olarak hesaplandı. Bu yöntem 250 diller için 100 maddelik kelime listelerine uygulandı dil aileleri dahil Avustralasyatik , Hint-Avrupa , Maya ve Muskogean .

ASJP Konsorsiyumu

2008 civarında kurulan ASJP Konsorsiyumu, gönüllü transkripsiyoncu olarak çalışan ve/veya projeye başka şekillerde yardım sağlayan yaklaşık 25 profesyonel dilbilimciyi ve diğer ilgili tarafları dahil etti. Konsorsiyumun kuruluşunun arkasındaki ana itici güç Cecil H. Brown'dı. Søren Wichmann , projenin günlük küratörüdür. Konsorsiyumun üçüncü bir merkezi üyesi, projede kullanılan yazılımların çoğunu oluşturan Eric W. Holman'dır.

Daha kısa kelime listeleri

Kullanılan kelime listeleri orijinal olarak 100 maddelik Swadesh listesine dayansa da, 100 maddeden 40'lık bir alt kümenin, tüm listeden biraz daha iyi sınıflandırma sonuçları olmasa da aynı derecede iyi ürettiği istatistiksel olarak belirlendi. Bu nedenle, sonradan toplanan kelime listeleri yalnızca 40 öğe içerir (veya bazıları için kanıtlar eksik olduğunda daha az).

Levenştein Mesafesi

2008'den beri yayınlanan makalelerde ASJP, Levenshtein mesafesine (LD) dayalı bir benzerlik değerlendirme programı kullanmıştır . Bu yaklaşımın, başlangıçta kullanılan yönteme göre uzman görüşüne göre ölçülen daha iyi sınıflandırma sonuçları ürettiği bulundu. LD, bir kelimeyi diğerine dönüştürmek için gerekli minimum ardışık değişiklik sayısı olarak tanımlanır; burada her değişiklik bir sembolün eklenmesi, silinmesi veya değiştirilmesidir. Levenshtein yaklaşımında, kelime uzunluğundaki farklılıklar, LD'yi karşılaştırılan iki kelimenin daha uzun olan sembollerinin sayısına bölerek düzeltilebilir. Bu, normalleştirilmiş LD (LDN) üretir. İki dil arasında bölünmüş bir LDN (LDND), aynı anlamı içeren tüm kelime çiftleri için ortalama LDN'nin, farklı anlamlar içeren tüm kelime çiftleri için ortalama LDN'ye bölünmesiyle hesaplanır. Bu ikinci normalleştirme, şans benzerliğini düzeltmeye yöneliktir.

Kelime listesi

ASJP aşağıdaki 40 kelimelik listeyi kullanır. Swadesh-Yakhontov listesine benzer , ancak bazı farklılıkları vardır.

Vücut kısımları
  • göz
  • kulak
  • burun
  • dil
  • diş
  • el
  • diz
  • kan
  • kemik
  • meme (kadının)
  • karaciğer
  • deri
Hayvanlar ve bitkiler
  • bit
  • köpek
  • balık (isim)
  • boynuz (hayvan parçası)
  • ağaç
  • Yaprak
İnsanlar
  • kişi
  • isim (isim)
Doğa
  • Güneş
  • Yıldız
  • Su
  • ateş
  • taş
  • yol
  • dağ
  • gece (karanlık zaman)
Fiiller ve sıfatlar
  • içmek (fiil)
  • ölmek
  • görmek
  • duymak
  • Gelmek
  • yeni
  • tam dolu
Rakamlar ve zamirler
  • bir
  • 2
  • ben
  • sen
  • Biz

ASJP kodu

2016'dan itibaren ASJP sürümü, fonemleri kodlamak için aşağıdaki sembolleri kullanır : pbfvmw 8 tdszcnrl SZC j T 5 ykgx N q X h 7 L 4 G! yani E 3 au

Hepsi standart QWERTY klavyesinde bulunan 7 sesli harf ve 34 ünsüz harfi temsil eder.

ASJPcode ile temsil edilen sesler
ASJP kodu Açıklama IPA
ben yüksek ön sesli harf, yuvarlak ve yuvarlatılmamış ben, ɪ, y, ʏ
e orta ön sesli harf, yuvarlak ve yuvarlatılmamış e, ø
E düşük ön sesli harf, yuvarlak ve yuvarlatılmamış a, æ, ɛ, ɶ, œ
3 yüksek ve orta orta sesli harf, yuvarlak ve yuvarlatılmamış ɨ, ɘ, ə, ɜ, ʉ, ɵ, ɞ
a düşük merkezi sesli harf, yuvarlatılmamış ɐ
sen yüksek sesli harf, yuvarlak ve yuvarlatılmamış ɯ, sen
Ö orta ve alçak sesli harf, yuvarlak ve yuvarlatılmamış ɤ, ʌ, ɑ, o, ɔ, ɒ
P sessiz bilabial stop ve frikatif p, ɸ
B sesli bilabial stop ve frikatif b, β
m çift ​​dudaklı burun m
F sessiz labiodental frikatif F
v sesli labiodental frikatif v
8 sessiz ve sesli diş sürtünmesi θ, ğ
4 diş burun n
T sessiz alveolar durdurma T
NS sesli alveolar stop NS
s sessiz alveolar frikatif s
z sesli alveolar frikatif z
C sessiz ve sesli alveolar affricate ts, dz
n sessiz ve sesli alveolar nazal n
S sessiz postalveolar frikatif ʃ
Z sesli postalveolar frikatif ʒ
C sessiz palato-alveolar affricate
J sesli palato-alveolar affricate
T sessiz ve sesli damak durağı c, ɟ
5 damak nazal ɲ
k sessiz velar stop k
G sesli velar stop ɡ
x sessiz ve sesli dana frikatif x, ɣ
n dana eti n
Q sessiz küçük dil durdurma Q
G sesli küçük dil durağı ɢ
x sessiz ve sesli küçük dil sürtünmeli, sessiz ve sesli faringeal sürtünmeli χ, ʁ, ħ, ʕ
7 sessiz gırtlak durağı ʔ
H sessiz ve sesli glottal frikatif h, ɦ
ben sesli alveolar lateral yaklaşık ben
L diğer tüm yanallar ʟ, ɭ, ʎ
w sesli bilabial-damaklar yaklasik w
y damak yakınlığı J
r sesli apiko-alveolar tril ve tüm “r-sesleri” çeşitleri r, ʀ, vb.
! tüm "tıklama sesleri" çeşitleri ǃ, ǀ, ǁ, ǂ

Ayrıca bakınız

Referanslar

Kaynaklar

Dış bağlantılar