IETF dil etiketi - IETF language tag

Bir IETF BCP 47 dil etiketi , HTTP , HTML , XML ve PNG gibi bilgi işlem standartları tarafından kullanıldığı şekliyle internet programlamasında insan dillerini tanımlamak için kullanılan standartlaştırılmış bir kod veya etikettir . Etiket yapısı, İnternet Mühendisliği Görev Gücü (IETF) tarafından En İyi Güncel Uygulama (BCP) 47'de standartlaştırılmıştır ; alt etiketler, IANA Dil Alt Etiket Kaydı tarafından korunur . Ülkeler , bölgeler veya yazı sistemleri için dil türevlerini ayırt etmek için IETF dil etiketleri, ISO 639 , ISO 15924 , ISO 3166-1 ve UN M.49 gibi diğer standartlardan gelen alt etiketleri birleştirir .

Özellikle, etiket tr açılımı İngilizce ; Latin Amerika İspanyolcası için es-419 ; Sursilvan için rm-sursilv ; Zürih Almancası için gsw-u-sd-chzh ; nan-Hant-TW , Tayvan'da geleneksel Han karakterlerini kullanarak konuşulan Min Nan Çincesi için .

Tarih

IETF dil etiketleri ilk olarak Mart 1995'te yayınlanan Harald Tveit Alvestrand tarafından düzenlenen RFC 1766'da tanımlanmıştır. Etiketler , ISO 639 iki harfli dil kodlarını ve ISO 3166 iki harfli ülke kodlarını kullandı ve varyant veya üç ila sekiz harften oluşan komut dosyası alt etiketleri.

Ocak 2001'de bu, ISO 639-2 üç harfli kodların kullanımını ekleyen, basamaklı alt etiketlere izin veren ve dil etiketlerinin eşleşmesine yardımcı olmak için HTTP/1.1'den dil aralıkları kavramını benimseyen RFC 3066 tarafından güncellendi .

Spesifikasyonun bir sonraki revizyonu, Addison Philips ve Mark Davis ve RFC 4647 (eşleşme davranışı ile ilgilenen ) tarafından düzenlenen RFC 4646'nın ( spesifikasyonun ana kısmı) yayınlanmasıyla Eylül 2006'da geldi . RFC 4646, dil etiketleri için daha yapılandırılmış bir biçim getirdi, ISO 15924 dört harfli kod kodlarının ve UN M.49 üç basamaklı coğrafi bölge kodlarının kullanımını ekledi ve eski etiket kayıt defterini yeni bir alt etiket kaydıyla değiştirdi. Yeni yapıya uymayan önceden tanımlanmış az sayıda etiket, RFC 3066 ile uyumluluğu korumak için büyükbaba olarak tahsis edildi.

Spesifikasyonun güncel versiyonu, RFC 5646, Eylül 2009'da yayınlandı. Bu revizyonun temel amacı , birlikte çalışabilirliği artırmak için ISO 639-3 ve 639-5'ten üç harfli kodları Dil Alt Etiket Kaydı'na dahil etmekti. ISO 639 ve BCP 47 arasında.

Dil etiketlerinin sözdizimi

Her dil etiketi, kısa çizgilerle (-) ayrılmış bir veya daha fazla "alt etiketten" oluşur. Her alt etiket yalnızca temel Latin harflerinden veya rakamlardan oluşur.

Bir x öneki ile başlayan özel kullanım dil etiketleri ve büyükbabalı dil etiketleri (bir i- öneki ile başlayanlar ve daha önce eski Dil Etiketi Kaydı'na kayıtlı olanlar dahil) istisnaları dışında, alt etiketler aşağıdaki sırayla oluşur:

  • ISO 639-1 (2002)' den iki harfli bir dil koduna veya ISO 639-2 (1998), ISO 639-3 (2007) veya ISO 639-5'ten (2008) üç harfli bir koda dayalı tek bir birincil dil alt etiketi ) veya BCP 47 süreci aracılığıyla kayıtlı ve beş ila sekiz harften oluşan;
  • Her biri üç harften oluşan ve kısa çizgilerle ayrılmış en fazla üç isteğe bağlı genişletilmiş dil alt etiketi ; (Şu anda Dil Alt Etiketi Kaydı'nda eşdeğer ve tercih edilen bir birincil dil alt etiketi olmadan kayıtlı bir genişletilmiş dil alt etiketi yoktur. Dil etiketlerinin bu bileşeni, geriye dönük uyumluluk ve ISO 639'un gelecekteki bölümlerine izin vermek için korunur.)
  • ISO 15924'ten dört harfli bir komut dosyası kodunu temel alan isteğe bağlı bir komut dosyası alt etiketi (genellikle Başlık Durumunda yazılır );
  • ISO 3166-1 alpha-2'den (genellikle büyük harflerle yazılır) iki harfli bir ülke kodunu veya coğrafi bölgeler için UN M.49'dan üç basamaklı bir kodu temel alan isteğe bağlı bir bölge alt etiketi ;
  • Her biri beş ila sekiz harften veya bir rakamla başlayan dört karakterden oluşan kısa çizgilerle ayrılmış isteğe bağlı varyant alt etiketleri ; (Varyant alt etiketleri, IANA'ya kaydedilir ve herhangi bir harici standartla ilişkilendirilmez.)
  • İsteğe bağlı uzantı alt etiketleri , tirelerle ayrılmış, her biri x hariç tek bir karakterden ve bir tirenin ardından her biri iki ila sekiz karakterden oluşan ve tirelerle ayrılmış bir veya daha fazla alt etiketten oluşur;
  • İsteğe bağlı özel kullanımlı bir alt etiket , x harfi ve kısa çizginin ardından tire ile ayrılmış, her biri birden sekize kadar karakterden oluşan alt etiketlerden oluşur .

Alt etiketler büyük/ küçük harf duyarlı değildir , ancak belirtim, bölge alt etiketlerinin BÜYÜK HARF , komut dosyası alt etiketlerinin Başlık Büyük Harfi ve diğer tüm alt etiketlerin küçük harf olduğu Dil Alt Etiket Kaydı'ndakiyle aynı büyük/küçük harfin kullanılmasını önerir . Bu büyük harf kullanımı, temel ISO standartlarının tavsiyelerine uygundur.

İsteğe bağlı komut dosyası ve bölge alt etiketlerinin, bir dil etiketine hiçbir ayırt edici bilgi eklemediklerinde atlanması tercih edilir. Örneğin, es göre tercih edilir es-latn İspanyolca tamamen Latin alfabesinde yazılmış olması bekleniyor olarak; ja , ja- JP'ye göre tercih edilir , çünkü Japonya'da kullanılan Japonca, başka yerlerde kullanılan Japonca'dan önemli ölçüde farklı değildir.

Tüm dil bölgeleri geçerli bir bölge alt etiketi ile temsil edilemez: bir birincil dilin alt ulusal bölgesel lehçeleri, varyant alt etiketleri olarak kaydedilir. Örneğin, Katalanca'nın Valensiya lehçesi için valencia varyant alt etiketi, ca öneki ile Dil Alt Etiket Kaydı'na kaydedilir . Bu lehçe neredeyse yalnızca İspanya'da konuşulduğundan, bölge alt etiketi ES normalde atlanabilir.

IETF dil etiketleri birçok uygulamada yerel ayar tanımlayıcıları olarak kullanılmıştır . RFC 4647'de açıklanan strateji yeterli değilse, bu uygulamaların yerelleri tanımlamak, kodlamak ve eşleştirmek için kendi stratejilerini oluşturmaları gerekebilir.

IETF dil etiketlerinin kullanımı, yorumlanması ve eşleştirilmesi şu anda RFC 5646 ve RFC 4647'de tanımlanmıştır. Dil Alt Etiket Kaydı, geçerli tüm genel alt etiketleri listeler. Özel kullanım alt etiketleri, uygulamaya bağımlı oldukları ve bunları kullanan üçüncü taraflar arasındaki özel anlaşmalara tabi oldukları için Tescil'e dahil edilmez. Bu özel anlaşmalar BCP 47'nin kapsamı dışındadır.

Diğer standartlarla ilişkisi

Bazı alt etiket türleri ISO veya BM temel standartlarından türetilmiş olsa da , dil etiketlerinin anlamının zamanla değişmesine yol açabileceğinden, bu standartlara kesinlikle uymazlar . Özellikle, ISO 639 , ISO 15924 , ISO 3166 veya UN M.49 tarafından atanan bir koddan türetilen bir alt etiket , kod ilgili çekirdek standarttan geri çekilse bile geçerli (kullanımdan kaldırılmış olsa da) bir alt etiket olarak kalır. Standart daha sonra geri çekilen koda yeni bir anlam atarsa, karşılık gelen alt etiket hala eski anlamını koruyacaktır.

Bu kararlılık, RFC 4646'da tanıtıldı.

ISO 639-3 ve ISO 639-1

RFC 4646, "genişletilmiş dil alt etiketi" (bazen extlang olarak da adlandırılır ) kavramını tanımladı , ancak o sırada böyle bir alt etiket kaydedilmedi.

RFC 5645 ve RFC 5646 , Kayıt Defterinde halihazırda mevcut olmayan tüm diller için ISO 639-3 kodlarına karşılık gelen birincil dil alt etiketleri ekledi . Ayrıca, belirli makro dillerin kapsadığı diller için kodlar, genişletilmiş dil alt etiketleri olarak kaydedildi. İşaret dilleri de sgn önekiyle uzantılar olarak kaydedildi . Bu diller ya (tek başına kapsanan dilin alt etiketi ile temsil edilebilir cmn Mandarin) ya da bir dil extlang kombinasyonu ile ( zh-cmn ). İlk seçenek çoğu amaç için tercih edilir. İkinci seçeneğe "extlang form" adı verilir ve RFC 5646'da yenidir.

RFC 4646'dan önce kaydedilen ve şimdi "büyükbaba" veya "yedek" olarak sınıflandırılan (yeni sözdizimine uyup uymadıklarına bağlı olarak) tüm etiketler, varsa, karşılık gelen ISO 639-3 tabanlı dil alt etiketinin lehine kaldırılmıştır. . Birkaç örnek listelemek için nan göre tercih edilir zh-min-nan için Min Nan Chinese; Hakka Çincesi için hak , i-hak ve zh-hakka'ya tercih edilir ; ve Amerikan İşaret Dili için sgn-US yerine ase tercih edilir .

ISO 639-5 ve ISO 639-2

ISO 639-5 , alfa-3 kodlu dil koleksiyonlarını başlangıçta ISO 639-2'de kodlandıklarından farklı bir şekilde tanımlar ( ISO 639-1'de zaten mevcut olan bir kod dahil). Spesifik olarak, dil koleksiyonlarının tümü, bazıları özel olarak tanımlanmak yerine artık ISO 639-5'te kapsayıcı olarak tanımlanmaktadır. Bu, bazı durumlarda zaten ISO 639-2'de ayrı olarak kodlanmış dilleri kapsayabilecekleri dil koleksiyonlarının öncekinden daha geniş bir kapsamı olduğu anlamına gelir.

Örneğin, ISO 639-2 kodu afa , daha önce kendi kodlarına sahip olan Arapça gibi diller hariç, "Afro-Asya (Diğer)" adıyla ilişkilendirildi. ISO 639-5'te bu koleksiyon "Afro-Asya dilleri" olarak adlandırılır ve bu tür tüm dilleri içerir. ISO 639-2, 2009'da özel adları, kapsayıcı ISO 639-5 adlarıyla eşleşecek şekilde değiştirdi.

Bu koleksiyonların daha eski (özel) tanımına bağlı olabilecek uygulamaları bozmaktan kaçınmak için, ISO 639-5, ISO 639-2'de zaten kodlanmış olan tüm koleksiyonlar için bir gruplama türü özniteliği tanımlar (bu tür gruplandırma türü, yeni için tanımlanmamıştır). yalnızca ISO 639-5'te eklenen koleksiyonlar).

BCP 47, dil koleksiyonları için alt etiketleri tanımlamak için bir "Kapsam" özelliği tanımlar. Ancak, verilen herhangi bir koleksiyonu kapsayıcı veya özel olarak tanımlamaz ve bu alt etiketler için Dil Alt Etiket Kaydı'ndaki açıklama alanları ISO 639-5 (dahil) adlarıyla eşleşmesine rağmen, ISO 639-5 gruplandırma türü özniteliğini kullanmaz. Sonuç olarak, bir koleksiyon için bir birincil dil alt etiketi içeren BCP 47 dil etiketleri, koleksiyonun kapsayıcı mı yoksa dışlayıcı mı olduğu konusunda belirsiz olabilir.

ISO 639-5, hangi dillerin bu koleksiyonların üyesi olduğunu tam olarak tanımlamaz; bu koleksiyonların kapsayıcı tanımı kullanılarak yalnızca koleksiyonların hiyerarşik sınıflandırması tanımlanır. Bu nedenle, RFC 5646, "Birden çok dil" ve "Belirlenmemiş" gibi anlamları daha az spesifik olan alt etiketlere göre hala tercih edilmelerine rağmen, çoğu uygulama için dil koleksiyonları için alt etiketlerin kullanılmasını önermez.

Buna karşılık, tek tek dillerin makro dilleri içinde sınıflandırılması, hem ISO 639-3'te hem de Dil Alt Etiket Kaydı'nda standartlaştırılmıştır.

ISO 15924, ISO/IEC 10646 ve Unicode

Komut dosyası alt etiketleri, ilk olarak ISO 15924'te tanımlanan kodlar listesinden RFC 4646 yayınlandığında Dil Alt Etiket Kaydı'na eklendi . Dil etiketinde, birincil ve genişletilmiş dil alt etiketlerinden sonra, ancak bölge ve varyant alt etiketleri dahil olmak üzere diğer alt etiket türlerinden önce kodlanırlar.

Bazı birincil dil alt etiketleri, "Suppress-Script" adlı bir özellik ile tanımlanır; bu, başka bir komut dosyasıyla yazılabilse bile, genellikle tek bir komut dosyasının dil için varsayılan olarak varsayılabileceği durumları gösterir. Bu durumda, başarılı eşleştirme olasılığını artırmak için komut dosyası alt etiketinin atlanması tercih edilir. Gerektiğinde ayrım yapmak için farklı bir komut dosyası alt etiketi yine de eklenebilir. Örneğin, yi göre tercih edilir yi-Hebr İbranice yazı alt etiketi için varsayılır, çünkü çoğu bağlamlarda Yidiş dilinde.

Bir başka örnek olarak, zh-Hans-SG eşdeğer kabul edilebilir -Hans zh bölge kodu çok anlamlı değildir, çünkü; Singapur'da kullanılan Çince'nin yazılı biçimi, Çince'nin yazıldığı diğer ülkelerdekiyle aynı basitleştirilmiş Çince karakterleri kullanır. Ancak, önemli olduğu için komut dosyası alt etiketi korunur.

ISO 15924'ün, Unicode ve ISO/IEC 10646 içinde birleştirilmiş komut dosyası değişkenleri için bazı kodları (örneğin, Çince karakterlerin basitleştirilmiş ve geleneksel biçimleri için Hans ve Hant ) içerdiğini unutmayın . Bu komut dosyası varyantları çoğunlukla bibliyografik amaçlar için kodlanır, ancak dilbilimsel bir bakış açısından her zaman önemli değildir (örneğin, çoğunlukla normal Latin harfleriyle kodlanan Latin alfabesinin Fraktur ve Gaelic varyantları için Latf ve Latg alfabesi kodları). Unicode ve ISO/IEC 10646'da). Varsayılan grafik kümeleri olarak farklı harf, aksan ve digraf/trigraf analizi veya harf büyük/küçük harf kurallarındaki farklılıklar ile ortografik veya semantik farklılıkları ortaya çıkarmak için dil etiketlerinde zaman zaman yararlı olabilirler.

ISO 3166-1 ve UN M.49

İki harfli bölge alt etiketleri, ISO 3166-1'de atanan veya "istisnai olarak ayrılmış" kodlara dayanır . ISO 3166 Bakım Ajansı, daha önce farklı bir ülkeye atanmış olan bir kodu yeniden atasaydı, bu koda karşılık gelen mevcut BCP 47 alt etiketi anlamını koruyacak ve UN M.49'a dayalı yeni bir bölge alt etiketi için kaydedilecekti. yeni ülke. UN M.49 aynı zamanda 005Güney Amerika gibi coğrafi bölgeler için sayısal bölge alt etiketleri için kaynaktır . Ekonomik bölgeler için BM M.49 kodlarına izin verilmez.

Bölge alt etiketleri, belirli bir bölgede "kullanıldığı gibi" bir dilin çeşitliliğini belirtmek için kullanılır. Çeşitlilik doğası gereği bölgesel olduğunda uygundurlar ve İngiliz İngilizcesini ( en-GB ) Amerikan İngilizcesinden ( en-US ) ayırt ederken olduğu gibi ilgili ülkeleri tanımlayarak yeterli şekilde yakalanabilirler . Basitleştirilmiş ve geleneksel Çince karakterlerde olduğu gibi, fark komut dosyası veya komut dosyası çeşitliliği olduğunda, bölge alt etiketi yerine komut dosyası alt etiketi ile ifade edilmelidir; bu örnekte zh-CN ve zh-HK yerine zh-Hans ve zh-Hant kullanılmalıdır .

Bölgesel bir çeşitlilik olarak kabul edilebilecek bir dil için ayrı bir dil alt etiketi mevcut olduğunda, bir dil-bölge kombinasyonu yerine daha spesifik alt etiketi kullanmak genellikle tercih edilir. Örneğin, ar-DZ ( Arapça kullanılan Cezayir ) daha iyi olarak ifade edilebilir ARQ için Cezayir Sözlü Arapça .

Uzantılar

Uzantı alt etiketleri ( genişletilmiş dil alt etiketleri ile karıştırılmamalıdır ), bir dili tanımlamaya hizmet etmeyen bir dil etiketine ek bilgilerin eklenmesine izin verir. Uzantıların bir kullanımı, takvim ve para birimi gibi yerel bilgileri kodlamaktır.

Uzatma alt etiketi (dışında tek bir karakter ile başlayarak birden fazla tire ayrılmış karakter dizileri oluşan x olarak adlandırılan), tekil . Her uzantı kendi açıklanan IETF RFC o uzantının verilerini yönetmek için bir Kayıt Yetkilisi tanımlar. IANA , singletonları tahsis etmekten sorumludur.

Ocak 2014 itibariyle iki uzantı atanmıştır.

Uzantı T (Dönüştürülmüş İçerik)

Uzantı T, bir dil etiketinin, etiketlenen verilerin nasıl dönüştürüldüğü, kopyalandığı veya başka bir şekilde dönüştürüldüğü hakkında bilgi içermesine izin verir. Örneğin, en-t-jp etiketi , orijinal Japoncadan çevrilmiş İngilizce içerik için kullanılabilir. Ek alt diziler, çevirinin mekanik olarak veya yayınlanmış bir standarda göre yapıldığını gösterebilir.

T uzantısı, Şubat 2012'de yayınlanan RFC 6497'de açıklanmıştır. Kayıt Yetkilisi, Unicode Konsorsiyumu'dur .

Uzantı U (Unicode Yerel Ayarı)

U Uzantısı, Ortak Yerel Veri Havuzunda (CLDR) bulunan çok çeşitli yerel ayar niteliklerinin dil etiketlerine gömülmesine izin verir . Bu nitelikler, ülke alt bölümleri, takvim ve saat dilimi verileri, harmanlama sırası, para birimi, sayı sistemi ve klavye tanımlamasını içerir.

Bazı örnekler şunları içerir:

U uzantısı, Aralık 2010'da yayınlanan RFC 6067'de açıklanmıştır. Kayıt Yetkilisi, Unicode Konsorsiyumu'dur .

Ayrıca bakınız

Referanslar

Dış bağlantılar

  • BCP 47 Dil Etiketleri – geçerli belirtim (farklı tarihlerde ayrı olarak yayınlanan, ancak tek bir belgede birleştirilmiş iki RFC, RFC 5646 ve RFC 4647 içerir)
    • (aynı zamanda, önceki bilgi RFC 4645'i tamamlayan ilgili bilgilendirici RFC 5645'e ve ayrıca bu BCP 47 revizyonları arasında Tescil'e eklenen veya değiştirilen her dil için başkaları tarafından ayrı ayrı yayınlanan diğer bireysel kayıt formlarına atıfta bulunur)
  • Dil Alt Etiket Kaydı – IANA tarafından korunur
  • Dil Alt Etiketi Kayıt Defteri Araması – alt etiketleri bulun ve Kayıt Defterindeki girişleri görüntüleyin
  • HTML ve XML'deki dil etiketleri – W3C'den
  • Dil Etiketleri – IETF Dil Etiketi Kayıt Güncellemesi çalışma grubundan