Unicode karakter özelliği - Unicode character property
Unicode Standardı çeşitli atar özelliklerini her Unicode karakteri ve kod noktası .
Özellikler, satır kesme, komut dosyası yönü sağdan sola veya kontroller uygulama gibi işlemlerde karakterleri (kod noktaları) işlemek için kullanılabilir. Bazı "karakter özellikleri", atanmış hiçbir karaktere sahip olmayan kod noktaları ve "<bir karakter değil>" gibi etiketlenen kod noktaları için de tanımlanır. Karakter özellikleri, Standart Ek #44'te açıklanmıştır.
Mülklerin güçlülük seviyeleri vardır: normatif, bilgilendirici, katkı sağlayan veya geçici. Belirtimi basitleştirmek için, aynı özelliğe sahip sürekli bir dizi kod noktası belirtilerek bir karakter özelliği atanabilir.
anlamsal öğeler
Özellikler aşağıdaki sırayla görüntülenir:
[code];[name];[gc];[cc];[bc];[decomposition];;;[nv];[bm];[alias];;;;
- 'takma ad' = düzeltilmiş ad
- 'bc' = bidi (çift yönlü) kategori [L, R vb.]
- 'bm' = bidi yansıtılmış [N veya Y]
- 'cc' = sınıfın birleştirilmesi [aksan işaretinin konumu]
- ayrıştırma = harf + aksan, bağ XY, üst simge X, yazı tipi X, ilk X, orta X, son X, yalıtılmış X, dikey X, vb.
- 'gc' = genel kategori [harf, sembol, rakam, noktalama, büyük/küçük harf davranışı vb.]
- 'nv' = [bir basamağın] sayısal değeri
İsim
Bir Unicode karakterine benzersiz bir Ad (na) atanır . Ad, A–Z büyük harflerden, 0–9 rakamlardan, - (kısa çizgi-eksi) ve <boşluk>'tan oluşur. Bazı diziler hariç tutulur: boşluk veya kısa çizgi ile başlayan adlara, boşluk veya kısa çizgi ile biten adlara, tekrarlanan boşluklara veya kısa çizgilere ve kısa çizgiden sonra boşluk bırakılmasına izin verilmez. Adın Unicode içinde benzersiz olması garanti edilir ve bir kod noktasını ve karakterini tanımlamak için kullanılabilir. On binlerce olan ideografik karakterler, " cjk birleşik ideograph - hhhh " kalıbında adlandırılır . Örneğin, U+4E00 一 CJK BİRLEŞİK IDEOGRAPH-4E00 . Biçimlendirme karakterleri de adlandırılır: U+00A0 KESİNTİSİZ UZAY .
Aşağıdaki kod noktası sınıflarının bir Adı (na="") yoktur: Kontroller (Genel Kategori: Cc), Özel kullanım (Co), Vekil (Cs), Karaktersizler (Cn) ve Ayrılmış (Cn). Bunlara gayri resmi olarak "Kod Noktası Etiketleri" adı verilen genel veya belirli bir meta adla başvurulabilir: <control>, <control-0088>, <reserved>, <noncharacter- hhhh >, <private-use- hhhh > , <vekil>. Bu etiketler <>-parantezleri içerdiğinden, hiçbir zaman Ad olarak görünemezler, bu da karışıklığı önler.
Sürüm 1.0 adları
Unicode'un 2.0 sürümünde birçok isim değiştirildi. O andan itibaren, takma adların katı (normatif) kullanımı da dahil olmak üzere "bir ad asla değişmeyecek" kuralı yürürlüğe girdi. Kullanılmayan sürüm 1.0 adları, geriye dönük uyumluluk sağlamak için Alias özelliğine taşındı.
Karakter adı takma adı
Unicode sürüm 2.0'dan itibaren, bir kod noktasının yayınlanan adı asla değişmeyecektir. Bu nedenle, bir karakter adının yanlış yazılması veya karakter adının tamamen yanlış veya ciddi şekilde yanıltıcı olması durumunda, karaktere resmi bir Karakter Adı Takma Adı atanabilir ve bu takma ad, gerçek hatalı karakter adı yerine uygulamalar tarafından kullanılabilir. . Örneğin, U+FE18 ︘ DİKEY SAĞ BEYAZ LENTİKÜLER KONSOL İÇİN SUNUM FORMU, gerçek karakter adındaki "parantez"in "braket" olarak yanlış yazılmasını önlemek için "DİKEY SAĞ BEYAZ LENTİKÜLER KONSOL İÇİN SUNUM FORMU" karakter adı takma adını taşır; U+A015 ꀕ YI HECE WU , karakter adının aksine sabit bir hece değerine sahip olmadığı için "YI HECE TEKRARLAMA İŞARETİ" karakter adına sahiptir.
Hatalı karakter adlarının düzeltilmesi olan karakter adı takma adlarına ek olarak, bazı karakterlere alternatif adlar veya kısaltmalar olan takma adlar atanır. Unicode Standardında beş tür karakter adı takma adı tanımlanmıştır:
- Düzeltme: yanlış yazılmış veya ciddi şekilde yanlış karakter adları için düzeltmeler;
- Kontrol: C0 ve C1 kontrol işlevleri için ISO 6429 adları (Unicode Standardında karakter adlarına atanmamış);
- Alternatif: bazı biçim karakterleri için alternatif adlar (yalnızca "BYTE ORDER MARK" takma adına sahip U+FEFF "ZERO WIDTH NO-BREAK SPACE");
- Şekil: Herhangi bir standartta gerçek ad olmayan bazı C1 kontrol kodu işlevleri için belgelenmiş etiketler;
- Kısaltma: Kontrol kodları, biçim karakterleri, boşluklar ve varyasyon seçicileri için kısaltmalar veya akronimler.
Tüm resmi karakter adı takma adları, izin verilen karakter adları için kurallara uyar ve hem karakter adı takma adı hem de karakter adı ad alanları içinde benzersiz olmaları garanti edilir (bu nedenle, ISO 6429 adı "BELL", U için bir takma ad olarak tanımlanmamıştır). +0007 çünkü U+1F514 "BELL" olarak adlandırılmıştır).
Unicode sürüm 12.1'den itibaren, yirmi sekiz resmi karakter adı takma adı, hatalı karakter adları için düzeltmeler olarak tanımlanır. Bunlar listelenmektedir aşağıda .
Bu normatif adların dışında, resmi olmayan adlar Unicode kod çizelgelerinde gösterilebilir. Bunlar, bir karakter için yaygın olarak kullanılan diğer adlardır ve A–Z harfleri, 0–9 rakamları, - (tire-eksi) ve <boşluk> ile sınırlandırılması gerekmez. Bu resmi olmayan adların benzersiz oldukları garanti edilmez ve standardın sonraki sürümlerinde değiştirilebilir veya kaldırılabilir.
Genel Kategori
Her kod noktasına Genel Kategori için bir değer atanır. Bu, atanmamış kod noktaları ve "karakter değil" olarak tanımlanan kod noktaları için de tanımlanan karakter özelliklerinden biridir.
Genel Kategori (Unicode Karakter Özelliği ) | |||||
---|---|---|---|---|---|
Değer | Kategori Majör, minör | Temel tip | Atanan karakter | Sayım (14.0 itibariyle) |
Uyarılar |
L, Harf; LC, Cased Letter (yalnızca Lu, Ll ve Lt) | |||||
lu | Harf, büyük harf | Grafik | Karakter | 1.831 | |
Ll | Harf, küçük harf | Grafik | Karakter | 2.227 | |
Lt. | Mektup, başlık | Grafik | Karakter | 31 | Bitişik harfler küçük harf, ardından büyük ihtiva eden (örneğin, Dž , Lj , Nj ve Dz ) |
lm | Mektup, değiştirici | Grafik | Karakter | 334 | Bir değiştirici mektup |
Lo | mektup, diğer | Grafik | Karakter | 127.333 | Tek harfli alfabede bir ideograf veya harf |
M, Mark | |||||
Mn | İşaret, aralıksız | Grafik | Karakter | 1950 | |
Mc | İşaret, boşluk birleştirme | Grafik | Karakter | 445 | |
Ben mi | işaret, çevreleyen | Grafik | Karakter | 13 | |
N, Sayı | |||||
Nd | Sayı, ondalık basamak | Grafik | Karakter | 660 | Tüm bunlar ve yalnızca bunlar, Sayısal Tip = De'ye sahiptir. |
Nl | Sayı, harf | Grafik | Karakter | 236 | Harflerden veya harf benzeri sembollerden oluşan sayılar (örneğin, Romen rakamları ) |
Numara | Sayı, diğer | Grafik | Karakter | 895 | Örneğin, kaba kesirler , üst simge ve alt simge basamaklar |
P, Noktalama | |||||
bilgisayar | noktalama, bağlayıcı | Grafik | Karakter | 10 | "_" alt çizgi içerir |
PD | noktalama, tire | Grafik | Karakter | 26 | Birkaç kısa çizgi karakteri içerir |
not | noktalama, açık | Grafik | Karakter | 79 | Parantez açma karakterleri |
Pe | noktalama, yakın | Grafik | Karakter | 77 | Kapanış parantez karakterleri |
Pi | Noktalama, ilk alıntı | Grafik | Karakter | 12 | Açma tırnak işareti . ASCII "nötr" tırnak işaretini içermez. Kullanıma bağlı olarak Ps veya Pe gibi davranabilir |
Pf | Noktalama, son alıntı | Grafik | Karakter | 10 | Kapanış tırnak işareti. Kullanıma bağlı olarak Ps veya Pe gibi davranabilir |
po | noktalama, diğer | Grafik | Karakter | 605 | |
S, Sembol | |||||
Sm | Sembol, matematik | Grafik | Karakter | 948 | Matematiksel semboller (örneğin, + , − , = , × , ÷ , √ , ∊ , ≠ ). Ps ve Pe kategorilerindeki parantez ve parantezleri içermez. Ayrıca içermez ! , * , - veya / , matematiksel operatörler olarak sık kullanılmasına rağmen öncelikle "noktalama işaretleri" olarak kabul edilir. |
sc | Sembol, para birimi | Grafik | Karakter | 63 | Para birimi sembolleri |
Sk | Sembol, değiştirici | Grafik | Karakter | 125 | |
Yani | Sembol, diğer | Grafik | Karakter | 6.605 | |
Z, Ayırıcı | |||||
Z'ler | Ayırıcı, boşluk | Grafik | Karakter | 17 | Boşluğu içerir, ancak Cc olan TAB , CR veya LF'yi içermez |
Zl | Ayırıcı, çizgi | Biçim | Karakter | 1 | Yalnızca U+2028 HAT AYIRICI (LSEP) |
Zp | Ayırıcı, paragraf | Biçim | Karakter | 1 | Yalnızca U+2029 PARAGRAF AYIRICI (PSEP) |
C, Diğer | |||||
bilgi | Diğer, kontrol | Kontrol | Karakter | 65 (asla değişmeyecek) | İsim yok, <kontrol> |
bkz. | Diğer, biçim | Biçim | Karakter | 163 | İçerir yumuşak tire , kontrol karakterleri (katılmadan zwnj ve zwj ), kontrol karakterleri desteklemek için iki yönlü metin ve dil etiketi karakterleri |
C'ler | Diğer, vekil | Vekil | Değil (yalnızca UTF-16'da kullanılır ) | 2.048 (asla değişmeyecek) | İsim yok, <vekil> |
ortak | Diğer, özel kullanım | Özel kullanım | Karakter (ancak yorum belirtilmemiş) | 137.468 toplam ((asla değişmeyecek) içinde 6.400 BMP , 131.068 de Planes 15-16 ) | İsim yok, <özel kullanım> |
Müşteri | Diğer, atanmamış | Karaktersiz | Olumsuz | 66 (asla değişmeyecek) | İsim yok, <karakter dışı> |
Rezerve | Olumsuz | 829.768 | İsim yok, <ayrılmış> | ||
Noktalama
Karakterlerin noktalama işareti olduklarını belirtmek için ayrı özellikleri vardır . Özelliklerin hepsinin bir Evet/Hayır değeri vardır : Dash , Quotation_Mark , Sentence_Terminal , Terminal_Punctuation .
Beyaz boşluk
Boşluk , tipografik efekt için yaygın olarak kullanılan bir kavramdır. Temel olarak, işlenmiş metinde boşluk etkisi olan görünmez karakterleri kapsar. Bu içerir boşluk , sekme ve yeni satır biçimlendirme kontrolleri. Unicode'da, böyle bir karakter "WSpace=yes" özelliğine sahiptir. 14.0 sürümünde 25 boşluk karakteri vardır.
İsim | kod noktası | Genişlik kutusu | kırılabilir mi? | In IDN ? |
Senaryo | Engellemek | Genel kategori |
Notlar | |
---|---|---|---|---|---|---|---|---|---|
karakter tablosu | U+0009 | 9 | Evet | Numara | Yaygın | Temel Latince | Diğer, kontrol |
HT, Yatay Sekme . HTML/XML adlı varlık : 	 , LaTeX : '\tab'
|
|
satır besleme | U+000A | 10 | satır sonu mu | Yaygın | Temel Latince | Diğer, kontrol |
LF, Satır besleme . HTML/XML adlı varlık:

|
||
satır tablosu | U+000B | 11 | satır sonu mu | Yaygın | Temel Latince | Diğer, kontrol |
VT, Dikey Sekme | ||
form besleme | U+000C | 12 | satır sonu mu | Yaygın | Temel Latince | Diğer, kontrol |
FF, Form beslemesi | ||
satırbaşı | U+000D | 13 | satır sonu mu | Yaygın | Temel Latince | Diğer, kontrol |
CR, Satır başı | ||
Uzay | U+0020 | 32 | Evet | Numara | Yaygın | Temel Latince | Ayırıcı, boşluk |
En yaygın (normal ASCII alanı) | |
Sonraki satır | U+0085 | 133 | satır sonu mu | Yaygın | Latin-1 Eki |
Diğer, kontrol |
NEL, Sonraki satır | ||
kesintisiz alan | U+00A0 | 160 | Numara | Numara | Yaygın | Latin-1 Eki |
Ayırıcı, boşluk |
Bölünemez boşluk : U+0020 ile aynıdır, ancak bir çizginin kesilebileceği bir nokta değildir. HTML/XML adlı varlık: , LaTeX: '\'
|
|
ogham boşluk işareti | U+1680 | 5760 | Evet | Numara | Ogham | Ogham | Ayırıcı, boşluk |
Kullanılan interword ayrılık içinde Ogham metni. Normalde dikey metinde dikey bir satır veya yatay metinde yatay bir satır, ancak "stemless" yazı tiplerinde boşluk da olabilir. Bir Ogham yazı tipi gerektirir. | |
dörtlü | U+2000 | 8192 | Evet | Numara | Yaygın | Genel Noktalama |
Ayırıcı, boşluk |
Birinin genişliği tr . U+2002, bu karaktere kanonik olarak eşdeğerdir; U+2002 tercih edilir. | |
dörtlü | U+2001 | 8193 | Evet | Numara | Yaygın | Genel Noktalama |
Ayırıcı, boşluk |
Ayrıca "koyun eti dörtlü" olarak da bilinir. Bir em genişliği . U+2003, bu karaktere kurallı olarak eşdeğerdir; U+2003 tercih edilir. | |
uzayda | U+2002 | 8194 | Evet | Numara | Yaygın | Genel Noktalama |
Ayırıcı, boşluk |
"Fındık" olarak da bilinir. Birinin genişliği tr . U+2000 En Quad, bu karaktere kanonik olarak eşdeğerdir; U+2002 tercih edilir. HTML/XML adlı varlık:   , LaTeX: '\enspace'
|
|
boşluk | U+2003 | 8195 | Evet | Numara | Yaygın | Genel Noktalama |
Ayırıcı, boşluk |
Ayrıca "koyun" olarak da bilinir. Bir em genişliği . U+2001 Em Quad, bu karaktere kanonik olarak eşdeğerdir; U+2003 tercih edilir. HTML/XML adlı varlık:   , LaTeX: '\quad'
|
|
em başına üç boşluk | U+2004 | 8196 | Evet | Numara | Yaygın | Genel Noktalama |
Ayırıcı, boşluk |
"Kalın boşluk" olarak da bilinir. Em genişliğinde üçte biri. HTML/XML adlı varlık: 
|
|
em başına dört boşluk | U+2005 | 8197 | Evet | Numara | Yaygın | Genel Noktalama |
Ayırıcı, boşluk |
"Orta boşluk" olarak da bilinir. Em genişliğinin dörtte biri. HTML/XML adlı varlık: 
|
|
em başına altı boşluk | U+2006 | 8198 | Evet | Numara | Yaygın | Genel Noktalama |
Ayırıcı, boşluk |
Em genişliğinin altıda biri. Bilgisayar tipografisinde, bazen U+2009'a eşittir. | |
şekil uzayı | U+2007 | 8199 | Numara | Numara | Yaygın | Genel Noktalama |
Ayırıcı, boşluk |
Şekil alanı . Tek aralıklı basamaklı yazı tiplerinde, bir basamağın genişliğine eşit. HTML/XML adlı varlık: 
|
|
noktalama alanı | U+2008 | 8200 | Evet | Numara | Yaygın | Genel Noktalama |
Ayırıcı, boşluk |
Bir yazı tipindeki dar noktalama işaretleri kadar geniş, yani nokta veya virgülün ilerleme genişliği. HTML/XML adlı varlık: 
|
|
ince boşluk | U+2009 | 8201 | Evet | Numara | Yaygın | Genel Noktalama |
Ayırıcı, boşluk |
İnce boşluk ; em genişliğinin beşte biri (bazen altıda biri). SI birimleri ile yapılan ölçümlerde binlik ayırıcı olarak kullanılması önerilir . U+2002 ila U+2008'den farklı olarak, genişliği dizgide ayarlanabilir. HTML/XML adlı varlık: ; LaTeX: '\,'
  |
|
saç alanı | U+200A | 8202 | Evet | Numara | Yaygın | Genel Noktalama |
Ayırıcı, boşluk |
İnce bir boşluktan daha ince. HTML/XML adlı varlık:   ( tüm tarayıcılarda çalışmaz )
|
|
satır ayırıcı | U+2028 | 8232 | satır sonu mu | Yaygın | Genel Noktalama |
Ayırıcı, çizgi |
|||
paragraf ayırıcı | U+2029 | 8233 | satır sonu mu | Yaygın | Genel Noktalama |
Ayırıcı, paragraf |
|||
dar kırılmaz alan | U+202F | 8239 | Numara | Numara | Yaygın | Genel Noktalama |
Ayırıcı, boşluk |
Dar, kırılmaz alan . U+00A0 Kesintisiz Alan işlevine benzer. Moğolca ile kullanıldığında genişliği genellikle normal boşluğun üçte biri kadardır; diğer bağlamda, genişliği bazen İnce Uzay'ın genişliğine benzer (U+2009). | |
orta matematiksel uzay | U+205F | 8287 | Evet | Numara | Yaygın | Genel Noktalama |
Ayırıcı, boşluk |
MMSP. Matematiksel formüllerde kullanılır. Bir em'in on sekizde dördü. Matematiksel tipografide, boşlukların genişlikleri genellikle bir em'in on sekizde birinin tam katları olarak verilir ve 4/18 em birkaç durumda kullanılabilir, örneğin, a ile + arasında ve + ile b arasında. a + b ifadesi . HTML/XML adlı varlık: 
|
|
ideografik alan | U+3000 | 12288 | Evet | Numara | Yaygın | CJK Sembolleri ve Noktalama İşaretleri |
Ayırıcı, boşluk |
Bir CJK karakter hücresi kadar geniş (tam genişlik ). Örneğin, tai tou'da kullanılır . |
İsim | kod noktası | Genişlik kutusu | kırılabilir mi? | In IDN ? |
Senaryo | Engellemek | Genel kategori |
Notlar | |
---|---|---|---|---|---|---|---|---|---|
moğolca ünlü ayırıcı | U+180E | 6158 | | Evet | Numara | Moğolca | Moğolca | Diğer, Biçim |
MVS. Moğolca'da bir kelimenin son iki karakterinin farklı şekiller almasına neden olmak için kullanılan dar boşluk karakteri. Standardın önceki sürümlerinde olmasına rağmen, Unicode 6.3.0'da artık boşluk karakteri (yani Zs kategorisinde) olarak sınıflandırılmamaktadır. |
sıfır genişlikli boşluk | U+200B | 8203 | | Evet | Numara | ? | Genel Noktalama |
Diğer, Biçim |
ZWSP, sıfır genişlikli uzay . Açık boşluk kullanmayan komut dosyaları kullanırken metin işleme sistemlerine sözcük sınırlarını belirtmek için kullanılır. Yumuşak kısa çizgiye benzer , ancak sonuncusu hece sınırlarını belirtmek için kullanılır ve satır kesildiğinde görünür bir kısa çizgi göstermelidir. HTML/XML adlı varlık :​
|
sıfır genişlikli marangoz olmayan | U+200C | 8204 | | Evet | bağlama bağlı | ? | Genel Noktalama |
Diğer, Biçim |
ZWNJ, sıfır genişlikli marangoz olmayan . Aksi takdirde bağlanacak iki karakter arasına yerleştirildiğinde, bir ZWNJ bunların sırasıyla son ve ilk biçimlerinde yazdırılmasına neden olur. HTML/XML adlı varlık:‌
|
sıfır genişlik marangoz | U+200D | 8205 | | Evet | bağlama bağlı | ? | Genel Noktalama |
Diğer, Biçim |
ZWJ, sıfır genişlikli marangoz . Aksi takdirde bağlanmayacak iki karakter arasına yerleştirildiğinde, bir ZWJ bunların bağlı formlarında yazdırılmasına neden olur. Birleştirme formlarını ayrı ayrı görüntülemek için de kullanılabilir. Varsayılan olarak bir bitişik harf veya bağlaç beklenip beklenmemesine bağlı olarak, tek bir glif ile ikameyi tetikleyebilir ( emoji ve Sinhala'da olduğu gibi ) veya bastırabilir ( Devanagari'de olduğu gibi ), yine de bireysel birleştirme formlarının kullanımına izin verirken (ZWNJ'den farklı olarak). HTML/XML adlı varlık:‍
|
kelime birleştirici | U+2060 | 8288 | | Numara | Numara | ? | Genel Noktalama |
Diğer, Biçim |
WJ, kelime birleştirici . U+200B'ye benzer, ancak bir çizginin kesilebileceği bir nokta değil. HTML/XML adlı varlık:⁠
|
sıfır genişlikte bölünmez boşluk | U+FEFF | 65279 | | Numara | Numara | ? | Arapça Sunum Formları-B |
Diğer, Biçim |
Sıfır genişlikte kırılmaz boşluk . Öncelikle Bayt Sırası İşareti olarak kullanılır . Bozulmama göstergesi olarak kullanım, Unicode 3.2'den itibaren kullanımdan kaldırılmıştır; bunun yerine U+2060'a bakın. |
Diğer genel özellikler
İdeografik, alfabetik, karaktersiz.
sınıf birleştirme
Bazı yaygın kodlar:
- 0 = boşluk harfi, sembol veya değiştirici (örn. a, (, ʰ)
- 1 = bindirme
- 6 = Han okuması (CJK aksanlı okuma işaretleri)
- 7 = nukta (ayırıcı nukta olarak Brahmic komut dosyaları )
- 8 = kana seslendirme işaretleri
- 9 = virüs
10-199 = çeşitli sabit konum sınıfları
Temel harfe eklenen işaretler:
- 200 = sol altta takılı
- 202 = doğrudan aşağıya eklenir (örn. ç üzerinde cedilla)
- 204 = sağ altta ekli
- 208 = sola bağlı
- 210 = sağa bağlı
- 212 = sol üste ekli
- 214 = doğrudan yukarıya eklenir
- 216 = sağ üstte ekli
Temel harfe eklenmeyen işaretler:
- 218 = sol alt
- 220 = doğrudan aşağıda (örn. n̥'de halka)
- 222 = sağ altta
- 224 = sol
- 226 = sağ
- 228 = sol üst
- 230 = yukarıda (örneğin, á'da keskin vurgu)
- 232 = sağ üst
- 233 = iki kat aşağıda (iki bazdan oluşur)
- 234 = çift yukarıda (iki tabanı uzatır)
- 240 = iota alt simgesi (yalnızca bu Yunanca aksan)
Şekillendirme, genişlik.
Çift yönlü yazma
Çift yönlü yazma ile ilgili altı karakter özelliği: Bidi_Class, Bidi_Control, Bidi_Mirrored, Bidi_Mirroring_Glyph, Bidi_Paired_Bracket ve Bidi_Paired_Bracket_Type.
Unicode'un en önemli özelliklerinden biri, sağdan sola (R-to-L) ve soldan sağa (L-to-R) iki yönlü ( Bidi ) metin görüntüleme desteğidir . Unicode Çift Yönlü Algoritma UAX9, metni değişen komut dosyası yönleriyle sunma sürecini açıklar. Örneğin, İngilizce bir metinde İbranice bir alıntı yapılmasını sağlar. Bidi_Character_Type, yönlü yazmada bir karakterin davranışını işaretler. Bir yönü geçersiz kılmak için, Unicode özel biçimlendirme kontrol karakterleri tanımlamıştır ( Bidi-Control s). Bu karakterler bir yönü zorlayabilir ve tanım gereği yalnızca çift yönlü yazmayı etkiler.
Her kod noktasının Bidi_Class adında bir özelliği vardır . Algoritma tarafından yorumlandığı gibi davranışını iki yönlü bir metinde tanımlar:
Tip | Açıklama | Kuvvet | yönlülük | Genel kapsam | Bidi_Control karakteri |
---|---|---|---|---|---|
L | Soldan sağa | Güçlü | soldan sağa | Çoğu alfabetik ve heceli karakter, Çince karakterler, Avrupa dışı veya Arapça olmayan rakamlar, LRM karakteri, ... | U+200E SOLDAN SAĞDAN İŞARET (LRM) |
r | Sağdan sola | Güçlü | R-to-L | Adlam, İbranice, Mandaic, Mende Kikakui, N'Ko, Samaritan, Kharoshthi ve Nabataean gibi eski yazılar, RLM karakteri, ... | U+200F SAĞDAN SOL İŞARETİ (RLM) |
AL | Arapça Harf | Güçlü | R-to-L | Arapça, Hanifi Rohingya, Soğdca, Süryanice ve Thaana alfabeleri ve bu yazılara özgü çoğu noktalama işareti, ALM karakteri, ... | U+061C ARAP HARF İŞARETİ (ALM) |
TR | Avrupa Numarası | Zayıf | Avrupa rakamları, Doğu Arap-Hint rakamları, Kıpti epact numaraları, ... | ||
ES | Avrupa Ayırıcı | Zayıf | artı işareti , eksi işareti , ... | ||
ET | Avrupa Numara Sonlandırıcı | Zayıf | derece işareti , para birimi simgeleri, ... | ||
BİR | Arapça Numara | Zayıf | Arapça-Hint rakamları, Arapça ondalık ve binlik ayırıcılar, Rumi rakamlar, Hanifi Rohingya rakamları, ... | ||
CS | Ortak Sayı Ayırıcı | Zayıf | kolon , virgül , nokta , kesintisizlik uzay , ... | ||
NSM | Aralıksız İşaret | Zayıf | Genel Kategorilerdeki Karakterler İşaretle, boşluk bırakmadan ve İşaretle, çevreleyen (Mn, Me) | ||
BN | Sınır Nötr | Zayıf | Varsayılan göz ardı edilebilirler, karakter olmayanlar, açıkça belirtilen diğer türler dışındaki kontrol karakterleri | ||
B | Paragraf Ayırıcı | Doğal | paragraf ayırıcı , uygun Yeni Satır İşlevleri, üst düzey protokol paragraf belirleme | ||
S | Segment Ayırıcı | Doğal | Sekmeler | ||
WS | Beyaz boşluk | Doğal | boşluk , şekil boşluk , satır ayırıcı , form besleme , Genel Noktalama blok boşlukları ( Unicode boşluk listesinden daha küçük küme ) | ||
ÜZERİNDE | Diğer Nötrler | Doğal | Nesne değiştirme karakteri de dahil olmak üzere diğer tüm karakterler | ||
LRE | Soldan Sağa Gömme | Açık | soldan sağa | Yalnızca LRE karakteri | U+202A SOLDAN SAĞA Gömme (LRE) |
LRO | Soldan Sağa Geçersiz Kılma | Açık | soldan sağa | Yalnızca LRO karakteri | U+202D SOLDAN SAĞA GEÇERSİZ KILMA (LRO) |
RLE | Sağdan Sola Gömme | Açık | R-to-L | sadece RLE karakteri | U+202B Sağdan Sola Gömme (RLE) |
RLO | Sağdan Sola Geçersiz Kılma | Açık | R-to-L | Yalnızca RLO karakteri | U+202E SAĞDAN SOL GEÇERSİZ KILMA (RLO) |
Pop Yönlü Format | Açık | Yalnızca PDF karakteri | U+202C POP YÖNLÜ BİÇİMLENDİRME (PDF) | ||
LRI | Soldan Sağa İzole | Açık | soldan sağa | Yalnızca LRI karakteri | U+2066 SOLDAN SAĞA İZOLAT (LRI) |
RLI | Sağdan Sola İzole | Açık | R-to-L | sadece RLI karakteri | U+2067 SAĞDAN SOL İZOLAT (RLI) |
FSI | İlk Güçlü İzole | Açık | Yalnızca FSI karakteri | U+2068 İLK GÜÇLÜ İZOLAT (FSI) | |
PDI | Pop Yönlü İzole | Açık | Yalnızca PDI karakteri | U+2069 POP YÖNLÜ İZOLAT (PDI) | |
Notlar
|
Normal durumlarda, algoritma bu karakter özelliği ile bir metnin yönünü belirleyebilir. Daha karmaşık Bidi durumlarını kontrol etmek için, örneğin İngilizce bir metinde İbranice bir alıntı olduğunda, Unicode'a ekstra seçenekler eklenir. On iki karakter Bidi_Control=Evet özelliğine sahiptir : ALM, FSI, LRE, LRI, LRM, LRO, PDF, PDI, RLE, RLI, RLM ve RLO tabloda belirtildiği gibi. Bunlar, yalnızca algoritma tarafından kullanılan ve çift yönlü biçimlendirme dışında hiçbir etkisi olmayan, görünmez biçimlendirme kontrol karakterleridir. Adına rağmen, kontrol karakterleri değil, karakterleri biçimlendirirler ve Unicode tanımında "Diğer, biçim (Cf)" Genel kategorisine sahiptirler.
Temel olarak, algoritma , özel Bidi kontrolleri tarafından geçersiz kılınmayı hesaba katarak , aynı güçlü yön tipine (R-to-L veya L-to-R) sahip bir karakter dizisini belirler . Nötr karakterler gibi sayı dizilerine (Zayıf türler), güçlü ortamlarına göre bir yön atanır. Son olarak, karakterler bir dizgenin yönüne göre görüntülenir.
İki karakter özelliği, iki yönlü metinde bir glifin ayna görüntüsünü belirlemekle ilgilidir: Bidi_Mirrored=Yes , glifin R-to-L yazıldığında yansıtılması gerektiğini belirtir. Özelliği Bidi_Mirroring_Glyph = u + hhhh sonra yansıtılmış karakteri işaret edebilir. Örneğin, parantezler "()" bu şekilde yansıtılır. Arapça gibi bitişik el yazısı komut dosyalarını şekillendirmek ve bir yönü olan glifleri yansıtmak algoritmanın bir parçası değildir.
kasa
Unicode'da Case değeri Normative'dir. Büyük harfli (aka büyük, majuscule) ve küçük harfli (aka küçük, küçük) harflerle ilgilidir. Adlam, Ermenice, Cherokee, Kıpti, Kiril, Çöl, Glagolitik, Yunanca, Khutsuri ve Mkhedruli Gürcüce, Latince, Medefaidrin, Eski Macarca, Osage, Vithkuqi ve Warang Citi yazılarında büyük/küçük harf farkı vardır.
(üst, alt, başlık, katlama - hem basit hem de tam)
Sayısal değerler ve türler
Ondalık
Karakterler Sayısal bir türle sınıflandırılır . Kesirler, alt simgeler, üst simgeler, Romen rakamları, para birimi payları, daire içine alınmış sayılar ve koda özgü rakamlar gibi karakterler Numeric türüdür. Onlar sahip sayısal değeri sıfır ve negatif ya da bir kaba fraksiyonun dahil ondalık olabilir. Çoğu karakterde olduğu gibi böyle bir değer yoksa, sayısal tür "Yok"tur.
Sayısal değeri olan karakterler üç gruba ayrılır: Ondalık (De), Rakam (Di) ve Sayısal (Sayı, yani diğerleri). "Ondalık", karakterin düz bir ondalık basamak olduğu anlamına gelir. Yalnızca bitişik kodlanmış bir 0..9 aralığının parçası olan karakterlerin sayısal türü Decimal'dir. Üst simgeler gibi diğer rakamlar, Rakam sayısal tipine sahiptir. Kesirler ve Romen rakamları gibi tüm sayısal karakterler "Sayısal" türüyle biter. Amaçlanan etki, basit bir ayrıştırıcının bu ondalık sayısal değerleri, örneğin sayısal bir üst simge veya kesir tarafından dikkati dağılmadan kullanabilmesidir. Hesaplama için kullanılanlar da dahil olmak üzere bir sayıyı temsil eden yetmiş üç CJK İdeografı Sayısal olarak yazılır.
Öte yandan, ikinci anlamı olarak sayısal bir değere sahip olabilecek karakterler, yine de Sayısal tür "Yok" olarak işaretlenir ve sayısal değeri ("") yoktur. Örneğin Latin harfleri "II.A.1.b" gibi paragraf numaralandırmalarında kullanılabilir, ancak "I", "A" ve "b" harfleri sayısal değildir ("Yok" yazın) ve sayısal değerleri yoktur.
Unicode karakter özelliği ) | Sayısal Tip (||||
---|---|---|---|---|
sayısal tür | kod | sayısal değeri var | Örnek | Uyarılar |
sayısal değil | None |
Numara |
|
Sayısal Değer = "NaN" |
Ondalık | De |
Evet |
|
Düz basamak (ondalık sayı tabanı ). Genel Kategori =Nd ile her iki yöne de karşılık gelir |
Hane | Di |
Evet |
|
Ondalık, ancak tipografik bağlamda |
sayısal | Nu |
Evet |
|
Sayısal değer, ancak ondalık sayı tabanı değil |
a. ^ "Bölüm 4.6: Sayısal Değer" (PDF) . Unicode Standardı . Unicode Konsorsiyumu. Eylül 2021. | ||||
B. ^ "Unicode 14.0 Türetilmiş Sayısal Türler" . Unicode Karakter Veritabanı . Unicode Konsorsiyumu. 2021-03-08. |
onaltılık basamak
Onaltılık karakterler, onaltılık değerleri 0...9ABCDEF (on altı karakter, ondalık değer 0–15) olan dizilerdeki karakterlerdir. Hex_Digit karakter özelliği , bir karakter böyle bir dizide olduğunda Evet olarak ayarlanır:
Unicode'da işaretlenmiş karakterler Hex_Digit=Yes
|
|||
---|---|---|---|
0123456789ABCDEF |
Temel Latince, büyük harfler | Ayrıca ASCII_Hex_Digit=Yes
|
|
0123456789abcdef |
Temel Latince, küçük harfler | Ayrıca ASCII_Hex_Digit=Yes
|
|
0123456789ABCDEF |
Tam genişlikte formlar , büyük harfler | ||
0123456789abcdef |
Tam genişlikte formlar, küçük harfler | ||
a. ^ "Unicode 14.0 UCD: PropList.txt" . 2021-08-12 . 2020-03-12 alındı . |
Kırk dört karakter Hex_Digit olarak işaretlenmiştir. Temel Latin bloğundakiler de ASCII_Hex_Digit olarak işaretlenmiştir .
Unicode'un onaltılık değerler için ayrı karakterleri yoktur. Sonuç olarak, normal karakterler kullanıldığında onaltılık değerin amaçlanıp amaçlanmadığını veya hatta bir değerin amaçlanıp amaçlanmadığını belirlemek mümkün değildir. Bu, daha yüksek bir düzeyde belirlenmelidir, örneğin onaltılık bir sayının başına "0x" eklenerek veya bağlama göre. Tek özellik, Unicode'un bir dizinin onaltılık bir değer olabileceğini veya olamayacağını not edebilmesidir .
Engellemek
Bir blok , benzersiz olarak adlandırılmış, bitişik bir kod noktası aralığıdır. İlk ve son kod noktası ile tanımlanır. Bloklar örtüşmez . Bir blok her karakter vb olmayan atanmış saklıdır kod noktalarını içerebilir olan atanmış, mevcut bir bloğun 14.0 Atanmamışların kod noktaları dışında Unicode sürüm olarak atanan 320 isimleri, tek bir "blok adı" değerine sahiptir, bilgisi varsayılan değer "No_block".
Uçak | Blok aralığı | Blok adı | Kod noktaları | Atanan karakterler | Kodlar |
---|---|---|---|---|---|
0 BMP | U+0000..U+007F | Temel Latince | 128 | 128 | Latince (52 karakter), Ortak (76 karakter) |
0 BMP | U+0080..U+00FF | Latin-1 Eki | 128 | 128 | Latince (64 karakter), Ortak (64 karakter) |
0 BMP | U+0100..U+017F | Latince Genişletilmiş-A | 128 | 128 | Latince |
0 BMP | U+0180..U+024F | Latince Genişletilmiş-B | 208 | 208 | Latince |
0 BMP | U+0250..U+02AF | IPA Uzantıları | 96 | 96 | Latince |
0 BMP | U+02B0..U+02FF | Aralık Değiştirici Harfler | 80 | 80 | Bopomofo (2 karakter), Latince (14 karakter), Ortak (64 karakter) |
0 BMP | U+0300..U+036F | Aksan İşaretlerini Birleştirme | 112 | 112 | Miras |
0 BMP | U+0370..U+03FF | Yunan ve Kıpti | 144 | 135 | Kıpti (14 karakter), Yunanca (117 karakter), Ortak (4 karakter) |
0 BMP | U+0400..U+04FF | Kiril | 256 | 256 | Kiril (254 karakter), Devralınan (2 karakter) |
0 BMP | U+0500..U+052F | Kiril Ek | 48 | 48 | Kiril |
0 BMP | U+0530..U+058F | Ermeni | 96 | 91 | Ermeni |
0 BMP | U+0590..U+05FF | İbranice | 112 | 88 | İbranice |
0 BMP | U+0600..U+06FF | Arapça | 256 | 256 | Arapça (238 karakter), Ortak (6 karakter), Devralınan (12 karakter) |
0 BMP | U+0700..U+074F | Süryanice | 80 | 77 | Süryanice |
0 BMP | U+0750..U+077F | Arapça Eki | 48 | 48 | Arapça |
0 BMP | U+0780..U+07BF | taana | 64 | 50 | taana |
0 BMP | U+07C0..U+07FF | NK | 64 | 62 | Nko |
0 BMP | U+0800..U+083F | Samiriyeli | 64 | 61 | Samiriyeli |
0 BMP | U+0840..U+085F | Manda dili | 32 | 29 | Manda dili |
0 BMP | U+0860..U+086F | Süryanice Eki | 16 | 11 | Süryanice |
0 BMP | U+0870..U+089F | Arapça Genişletilmiş-B | 48 | 41 | Arapça |
0 BMP | U+08A0..U+08FF | Arapça Genişletilmiş-A | 96 | 96 | Arapça (95 karakter), Ortak (1 karakter) |
0 BMP | U+0900..U+097F | Devanagari | 128 | 128 | Devanagari (122 karakter), Ortak (2 karakter), Devralınan (4 karakter) |
0 BMP | U+0980..U+09FF | Bengalce | 128 | 96 | Bengalce |
0 BMP | U+0A00..U+0A7F | Gurmukhi | 128 | 80 | Gurmukhi |
0 BMP | U+0A80..U+0AFF | Gujarati | 128 | 91 | Gujarati |
0 BMP | U+0B00..U+0B7F | Ortaca | 128 | 91 | Ortaca |
0 BMP | U+0B80..U+0BFF | Tamilce | 128 | 72 | Tamilce |
0 BMP | U+0C00..U+0C7F | Telugu | 128 | 100 | Telugu |
0 BMP | U+0C80..U+0CFF | kannada | 128 | 90 | kannada |
0 BMP | U+0D00..U+0D7F | Malayalamca | 128 | 118 | Malayalamca |
0 BMP | U+0D80..U+0DFF | Sinhala | 128 | 91 | Sinhala |
0 BMP | U+0E00..U+0E7F | Tay | 128 | 87 | Tayca (86 karakter), Ortak (1 karakter) |
0 BMP | U+0E80..U+0EFF | Lao | 128 | 82 | Lao |
0 BMP | U+0F00..U+0FFF | Tibetçe | 256 | 211 | Tibet (207 karakter), Ortak (4 karakter) |
0 BMP | U+1000..U+109F | Myanmar | 160 | 160 | Myanmar |
0 BMP | U+10A0..U+10FF | Gürcü | 96 | 88 | Gürcüce (87 karakter), Ortak (1 karakter) |
0 BMP | U+1100..U+11FF | Hangul Jamo | 256 | 256 | Hangul |
0 BMP | U+1200..U+137F | Etiyopyalı | 384 | 358 | Etiyopyalı |
0 BMP | U+1380..U+139F | Etiyopya Ek | 32 | 26 | Etiyopyalı |
0 BMP | U+13A0..U+13FF | Cherokee | 96 | 92 | Cherokee |
0 BMP | U+1400..U+167F | Birleşik Kanada Aborjin Heceleri | 640 | 640 | Kanadalı Aborjin |
0 BMP | U+1680..U+169F | Ogham | 32 | 29 | Ogham |
0 BMP | U+16A0..U+16FF | Runik | 96 | 89 | Runik (86 karakter), Ortak (3 karakter) |
0 BMP | U+1700..U+171F | Tagalog | 32 | 23 | Tagalog |
0 BMP | U+1720..U+173F | Hanunoo | 32 | 23 | Hanunoo (21 karakter), Ortak (2 karakter) |
0 BMP | U+1740..U+175F | Buhid | 32 | 20 | Buhid |
0 BMP | U+1760..U+177F | Tagbanva | 32 | 18 | Tagbanva |
0 BMP | U+1780..U+17FF | Kmer | 128 | 114 | Kmer |
0 BMP | U+1800..U+18AF | Moğolca | 176 | 158 | Moğolca (155 karakter), Ortak (3 karakter) |
0 BMP | U+18B0..U+18FF | Birleşik Kanada Aborjin Heceleri Genişletilmiş | 80 | 70 | Kanadalı Aborjin |
0 BMP | U+1900..U+194F | Limbu | 80 | 68 | Limbu |
0 BMP | U+1950..U+197F | Tay Le | 48 | 35 | Tay Le |
0 BMP | U+1980..U+19DF | Yeni Tai Lue | 96 | 83 | Yeni Tai Lue |
0 BMP | U+19E0..U+19FF | Kmer Sembolleri | 32 | 32 | Kmer |
0 BMP | U+1A00..U+1A1F | Bugi dili | 32 | 30 | Bugi dili |
0 BMP | U+1A20..U+1AAF | Tay Tham | 144 | 127 | Tay Tham |
0 BMP | U+1AB0..U+1AFF | Genişletilmiş Aksan İşaretlerini Birleştirme | 80 | 31 | Miras |
0 BMP | U+1B00..U+1B7F | Bali dili | 128 | 124 | Bali dili |
0 BMP | U+1B80..U+1BBF | Sunda dili | 64 | 64 | Sunda dili |
0 BMP | U+1BC0..U+1BFF | Batak | 64 | 56 | Batak |
0 BMP | U+1C00..U+1C4F | lepça | 80 | 74 | lepça |
0 BMP | U+1C50..U+1C7F | Ol Chiki | 48 | 48 | Ol Chiki |
0 BMP | U+1C80..U+1C8F | Kiril Genişletilmiş-C | 16 | 9 | Kiril |
0 BMP | U+1C90..U+1CBF | Gürcüce Genişletilmiş | 48 | 46 | Gürcü |
0 BMP | U+1CC0..U+1CCF | Sunda Ek | 16 | 8 | Sunda dili |
0 BMP | U+1CD0..U+1CFF | Vedik Uzantılar | 48 | 43 | Ortak (16 karakter), Devralınan (27 karakter) |
0 BMP | U+1D00..U+1D7F | Fonetik Uzantılar | 128 | 128 | Kiril (2 karakter), Yunanca (15 karakter), Latince (111 karakter) |
0 BMP | U+1D80..U+1DBF | Fonetik Uzantılar Eki | 64 | 64 | Yunanca (1 karakter), Latince (63 karakter) |
0 BMP | U+1DC0..U+1DFF | Aksan İşaretleri Ekini Birleştirme | 64 | 64 | Miras |
0 BMP | U+1E00..U+1EFF | Latince Genişletilmiş Ek | 256 | 256 | Latince |
0 BMP | U+1F00..U+1FFF | Yunanca Genişletilmiş | 256 | 233 | Yunan |
0 BMP | U+2000..U+206F | Genel Noktalama | 112 | 111 | Ortak (109 karakter), Devralınan (2 karakter) |
0 BMP | U+2070..U+209F | Üst Simgeler ve Alt Simgeler | 48 | 42 | Latince (15 karakter), Ortak (27 karakter) |
0 BMP | U+20A0..U+20CF | Para Birimi Sembolleri | 48 | 33 | Yaygın |
0 BMP | U+20D0..U+20FF | Semboller için Aksan İşaretlerini Birleştirme | 48 | 33 | Miras |
0 BMP | U+2100..U+214F | Harf benzeri Semboller | 80 | 80 | Yunanca (1 karakter), Latince (4 karakter), Ortak (75 karakter) |
0 BMP | U+2150..U+218F | Sayı Formları | 64 | 60 | Latince (41 karakter), Ortak (19 karakter) |
0 BMP | U+2190..U+21FF | Oklar | 112 | 112 | Yaygın |
0 BMP | U+2200..U+22FF | Matematiksel Operatörler | 256 | 256 | Yaygın |
0 BMP | U+2300..U+23FF | Çeşitli Teknik | 256 | 256 | Yaygın |
0 BMP | U+2400..U+243F | Kontrol Resimleri | 64 | 39 | Yaygın |
0 BMP | U+2440..U+245F | Optik karakter tanıma | 32 | 11 | Yaygın |
0 BMP | U+2460..U+24FF | Kapalı Alfanümerik | 160 | 160 | Yaygın |
0 BMP | U+2500..U+257F | Kutu Çizimi | 128 | 128 | Yaygın |
0 BMP | U+2580..U+259F | Blok Elemanları | 32 | 32 | Yaygın |
0 BMP | U+25A0..U+25FF | Geometrik şekiller | 96 | 96 | Yaygın |
0 BMP | U+2600..U+26FF | Çeşitli Semboller | 256 | 256 | Yaygın |
0 BMP | U+2700..U+27BF | Dingbat'lar | 192 | 192 | Yaygın |
0 BMP | U+27C0..U+27EF | Çeşitli Matematiksel Semboller-A | 48 | 48 | Yaygın |
0 BMP | U+27F0..U+27FF | Tamamlayıcı Oklar-A | 16 | 16 | Yaygın |
0 BMP | U+2800..U+28FF | Braille Desenleri | 256 | 256 | Braille alfabesi |
0 BMP | U+2900..U+297F | Ek Oklar-B | 128 | 128 | Yaygın |
0 BMP | U+2980..U+29FF | Çeşitli Matematiksel Semboller-B | 128 | 128 | Yaygın |
0 BMP | U+2A00..U+2AFF | Tamamlayıcı Matematiksel Operatörler | 256 | 256 | Yaygın |
0 BMP | U+2B00..U+2BFF | Çeşitli Semboller ve Oklar | 256 | 253 | Yaygın |
0 BMP | U+2C00..U+2C5F | Glagolitik | 96 | 96 | Glagolitik |
0 BMP | U+2C60..U+2C7F | Latince Genişletilmiş-C | 32 | 32 | Latince |
0 BMP | U+2C80..U+2CFF | Kıpti | 128 | 123 | Kıpti |
0 BMP | U+2D00..U+2D2F | Gürcüce Eki | 48 | 40 | Gürcü |
0 BMP | U+2D30..U+2D7F | Tifinag | 80 | 59 | Tifinag |
0 BMP | U+2D80..U+2DDF | Etiyopya Genişletilmiş | 96 | 79 | Etiyopyalı |
0 BMP | U+2DE0..U+2DFF | Kiril Genişletilmiş-A | 32 | 32 | Kiril |
0 BMP | U+2E00..U+2E7F | Ek Noktalama | 128 | 94 | Yaygın |
0 BMP | U+2E80..U+2EFF | CJK Radikalleri Eki | 128 | 115 | Han |
0 BMP | U+2F00..U+2FDF | Kangxi Radikalleri | 224 | 214 | Han |
0 BMP | U+2FF0..U+2FFF | İdeografik Açıklama Karakterler | 16 | 12 | Yaygın |
0 BMP | U+3000..U+303F | CJK Sembolleri ve Noktalama İşaretleri | 64 | 64 | Han (15 karakter), Hangul (2 karakter), Ortak (43 karakter), Devralınan (4 karakter) |
0 BMP | U+3040..U+309F | Hiragana | 96 | 93 | Hiragana (89 karakter), Ortak (2 karakter), Devralınan (2 karakter) |
0 BMP | U+30A0..U+30FF | Katakana | 96 | 96 | Katakana (93 karakter), Ortak (3 karakter) |
0 BMP | U+3100..U+312F | bopomofo | 48 | 43 | bopomofo |
0 BMP | U+3130..U+318F | Hangul Uyumluluğu Jamo | 96 | 94 | Hangul |
0 BMP | U+3190..U+319F | kanbun | 16 | 16 | Yaygın |
0 BMP | U+31A0..U+31BF | Genişletilmiş Bopomofo | 32 | 32 | bopomofo |
0 BMP | U+31C0..U+31EF | CJK Vuruşları | 48 | 36 | Yaygın |
0 BMP | U+31F0..U+31FF | Katakana Fonetik Uzantıları | 16 | 16 | Katakana |
0 BMP | U+3200..U+32FF | Ekteki CJK Harfleri ve Ayları | 256 | 255 | Hangul (62 karakter), Katakana (47 karakter), Ortak (146 karakter) |
0 BMP | U+3300..U+33FF | CJK Uyumluluğu | 256 | 256 | Katakana (88 karakter), Ortak (168 karakter) |
0 BMP | U+3400..U+4DBF | CJK Birleşik İdeograflar Uzantısı A | 6.592 | 6.592 | Han |
0 BMP | U+4DC0..U+4DFF | Yijing Heksagram Sembolleri | 64 | 64 | Yaygın |
0 BMP | U+4E00..U+9FFF | CJK Birleşik İdeograflar | 20.992 | 20.992 | Han |
0 BMP | U+A000..U+A48F | Yi Heceleri | 1,168 | 1.165 | Yi |
0 BMP | U+A490..U+A4CF | Yi Radikaller | 64 | 55 | Yi |
0 BMP | U+A4D0..U+A4FF | lisu | 48 | 48 | lisu |
0 BMP | U+A500..U+A63F | vai | 320 | 300 | vai |
0 BMP | U+A640..U+A69F | Kiril Genişletilmiş-B | 96 | 96 | Kiril |
0 BMP | U+A6A0..U+A6FF | Bamum | 96 | 88 | Bamum |
0 BMP | U+A700..U+A71F | Değiştirici Ton Harfleri | 32 | 32 | Yaygın |
0 BMP | U+A720..U+A7FF | Latince Genişletilmiş-D | 224 | 193 | Latince (188 karakter), Ortak (5 karakter) |
0 BMP | U+A800..U+A82F | Siloti Nagri | 48 | 45 | Siloti Nagri |
0 BMP | U+A830..U+A83F | Ortak İndik Numara Formları | 16 | 10 | Yaygın |
0 BMP | U+A840..U+A87F | phags-pa | 64 | 56 | phags Pa |
0 BMP | U+A880..U+A8DF | Saurashtra | 96 | 82 | Saurashtra |
0 BMP | U+A8E0..U+A8FF | Devanagari Genişletilmiş | 32 | 32 | Devanagari |
0 BMP | U+A900..U+A92F | Kayah Li | 48 | 48 | Kayah Li (47 karakter), Ortak (1 karakter) |
0 BMP | U+A930..U+A95F | rejang | 48 | 37 | rejang |
0 BMP | U+A960..U+A97F | Hangul Jamo Genişletilmiş-A | 32 | 29 | Hangul |
0 BMP | U+A980..U+A9DF | Cava | 96 | 91 | Cava (90 karakter), Ortak (1 karakter) |
0 BMP | U+A9E0..U+A9FF | Myanmar Genişletilmiş-B | 32 | 31 | Myanmar |
0 BMP | U+AA00..U+AA5F | Çam | 96 | 83 | Çam |
0 BMP | U+AA60..U+AA7F | Myanmar Genişletilmiş-A | 32 | 32 | Myanmar |
0 BMP | U+AA80..U+AADF | Tay Viet | 96 | 72 | Tay Viet |
0 BMP | U+AAE0..U+AAFF | Meetei Mayek Uzantıları | 32 | 23 | Meetei Mayek |
0 BMP | U+AB00..U+AB2F | Etiyopya Genişletilmiş-A | 48 | 32 | Etiyopyalı |
0 BMP | U+AB30..U+AB6F | Latince Genişletilmiş-E | 64 | 60 | Latince (56 karakter), Yunanca (1 karakter), Genel (3 karakter) |
0 BMP | U+AB70..U+ABBF | Cherokee Eki | 80 | 80 | Cherokee |
0 BMP | U+ABC0..U+ABFF | Meetei Mayek | 64 | 56 | Meetei Mayek |
0 BMP | U+AC00..U+D7AF | Hangul Heceleri | 11.184 | 11.172 | Hangul |
0 BMP | U+D7B0..U+D7FF | Hangul Jamo Genişletilmiş-B | 80 | 72 | Hangul |
0 BMP | U+D800..U+DB7F | Yüksek Vekiller | 896 | 0 | Bilinmeyen |
0 BMP | U+DB80..U+DBFF | Yüksek Özel Kullanım Vekilleri | 128 | 0 | Bilinmeyen |
0 BMP | U+DC00..U+DFFF | Düşük Vekiller | 1.024 | 0 | Bilinmeyen |
0 BMP | U+E000..U+F8FF | Özel Kullanım Alanı | 6.400 | 6.400 | Bilinmeyen |
0 BMP | U+F900..U+FAFF | CJK Uyumluluk İdeografları | 512 | 472 | Han |
0 BMP | U+FB00..U+FB4F | Alfabetik Sunum Formları | 80 | 58 | Ermenice (5 karakter), İbranice (46 karakter), Latince (7 karakter) |
0 BMP | U+FB50..U+FDFF | Arapça Sunum Formları-A | 688 | 631 | Arapça (629 karakter), Ortak (2 karakter) |
0 BMP | U+FE00..U+FE0F | Varyasyon Seçiciler | 16 | 16 | Miras |
0 BMP | U+FE10..U+FE1F | Dikey Formlar | 16 | 10 | Yaygın |
0 BMP | U+FE20..U+FE2F | Yarım İşaretleri Birleştirme | 16 | 16 | Kiril (2 karakter), Devralınan (14 karakter) |
0 BMP | U+FE30..U+FE4F | CJK Uyumluluk Formları | 32 | 32 | Yaygın |
0 BMP | U+FE50..U+FE6F | Küçük Form Varyantları | 32 | 26 | Yaygın |
0 BMP | U+FE70..U+FEFF | Arapça Sunum Formları-B | 144 | 141 | Arapça (140 karakter), Ortak (1 karakter) |
0 BMP | U+FF00..U+FFEF | Yarım Genişlik ve Tam Genişlik Formları | 240 | 225 | Hangul (52 karakter), Katakana (55 karakter), Latince (52 karakter), Ortak (66 karakter) |
0 BMP | U+FFF0..U+FFFF | Özel | 16 | 5 | Yaygın |
1 SMP | U+10000..U+1007F | Doğrusal B Hece | 128 | 88 | Doğrusal B |
1 SMP | U+10080..U+100FF | Doğrusal B İdeogramları | 128 | 123 | Doğrusal B |
1 SMP | U+10100..U+1013F | Ege Rakamları | 64 | 57 | Yaygın |
1 SMP | U+10140..U+1018F | Antik Yunan Sayıları | 80 | 79 | Yunan |
1 SMP | U+10190..U+101CF | Antik Semboller | 64 | 14 | Yunanca (1 karakter), Ortak (13 karakter) |
1 SMP | U+101D0..U+101FF | Phaistos Diski | 48 | 46 | Ortak (45 karakter), Devralınan (1 karakter) |
1 SMP | U+10280..U+1029F | Likya | 32 | 29 | Likya |
1 SMP | U+102A0..U+102DF | Karya | 64 | 49 | Karya |
1 SMP | U+102E0..U+102FF | Kıpti Epact Numaraları | 32 | 28 | Ortak (27 karakter), Devralınan (1 karakter) |
1 SMP | U+10300..U+1032F | Eski İtalik | 48 | 39 | Eski İtalik |
1 SMP | U+10330..U+1034F | Gotik | 32 | 27 | Gotik |
1 SMP | U+10350..U+1037F | Eski Permik | 48 | 43 | Eski Permik |
1 SMP | U+10380..U+1039F | Ugarit | 32 | 31 | Ugarit |
1 SMP | U+103A0..U+103DF | Eski Farsça | 64 | 50 | Eski Farsça |
1 SMP | U+10400..U+1044F | çöl | 80 | 80 | çöl |
1 SMP | U+10450..U+1047F | Şaviyen | 48 | 48 | Şaviyen |
1 SMP | U+10480..U+104AF | Osmaniye | 48 | 40 | Osmaniye |
1 SMP | U+104B0..U+104FF | Osage | 80 | 72 | Osage |
1 SMP | U+10500..U+1052F | Elbasan | 48 | 40 | Elbasan |
1 SMP | U+10530..U+1056F | Kafkas Arnavutça | 64 | 53 | Kafkas Arnavutça |
1 SMP | U+10570..U+105BF | Vithkuqi | 80 | 70 | Vithkuqi |
1 SMP | U+10600..U+1077F | Doğrusal A | 384 | 341 | Doğrusal A |
1 SMP | U+10780..U+107BF | Latince Genişletilmiş-F | 64 | 57 | Latince |
1 SMP | U+10800..U+1083F | Kıbrıslı Hece | 64 | 55 | Kıbrıslı |
1 SMP | U+10840..U+1085F | İmparatorluk Aramice | 32 | 31 | İmparatorluk Aramice |
1 SMP | U+10860..U+1087F | Palmyren | 32 | 32 | Palmyren |
1 SMP | U+10880..U+108AF | Nebati | 48 | 40 | Nebati |
1 SMP | U+108E0..U+108FF | hatran | 32 | 26 | hatran |
1 SMP | U+10900..U+1091F | Fenike | 32 | 29 | Fenike |
1 SMP | U+10920..U+1093F | Lidya | 32 | 27 | Lidya |
1 SMP | U+10980..U+1099F | Meroitik Hiyeroglifler | 32 | 32 | Meroitik Hiyeroglifler |
1 SMP | U+109A0..U+109FF | Meroitik El Yazısı | 96 | 90 | Meroitik El Yazısı |
1 SMP | U+10A00..U+10A5F | Kharoshthi | 96 | 68 | Kharoshthi |
1 SMP | U+10A60..U+10A7F | Eski Güney Arap | 32 | 32 | Eski Güney Arap |
1 SMP | U+10A80..U+10A9F | Eski Kuzey Arap | 32 | 32 | Eski Kuzey Arap |
1 SMP | U+10AC0..U+10AFF | Maniheist | 64 | 51 | Maniheist |
1 SMP | U+10B00..U+10B3F | Avestan | 64 | 61 | Avestan |
1 SMP | U+10B40..U+10B5F | Yazıtlı Partça | 32 | 30 | Yazıtlı Partça |
1 SMP | U+10B60..U+10B7F | Yazıt Pehlevi | 32 | 27 | Yazıt Pehlevi |
1 SMP | U+10B80..U+10BAF | Zebur Pehlevi | 48 | 29 | Zebur Pehlevi |
1 SMP | U+10C00..U+10C4F | Eski Türkçe | 80 | 73 | Eski Türkçe |
1 SMP | U+10C80..U+10CFF | Eski Macar | 128 | 108 | Eski Macar |
1 SMP | U+10D00..U+10D3F | Hanifi Rohingya | 64 | 50 | Hanifi Rohingya |
1 SMP | U+10E60..U+10E7F | Rumi Rakam Sembolleri | 32 | 31 | Arapça |
1 SMP | U+10E80..U+10EBF | Yezidi | 64 | 47 | Yezidi |
1 SMP | U+10F00..U+10F2F | Eski Soğd | 48 | 40 | Eski Soğd |
1 SMP | U+10F30..U+10F6F | soğd | 64 | 42 | soğd |
1 SMP | U+10F70..U+10FAF | Eski Uygur | 64 | 26 | Eski Uygur |
1 SMP | U+10FB0..U+10FDF | Chorasmiyen | 48 | 28 | Chorasmiyen |
1 SMP | U+10FE0..U+10FFF | Elymaic | 32 | 23 | Elymaic |
1 SMP | U+11000..U+1107F | Brahmi | 128 | 115 | Brahmi |
1 SMP | U+11080..U+110CF | Kaithi | 80 | 68 | Kaithi |
1 SMP | U+110D0..U+110FF | sora sompeng | 48 | 35 | sora sompeng |
1 SMP | U+11100..U+1114F | çakma | 80 | 71 | çakma |
1 SMP | U+11150..U+1117F | Mahajani | 48 | 39 | Mahajani |
1 SMP | U+11180..U+111DF | Sharada | 96 | 96 | Sharada |
1 SMP | U+111E0..U+111FF | Sinhala Arkaik Sayılar | 32 | 20 | Sinhala |
1 SMP | U+11200..U+1124F | Khojki | 80 | 62 | Khojki |
1 SMP | U+11280..U+112AF | çok dilli | 48 | 38 | çok dilli |
1 SMP | U+112B0..U+112FF | Hudavadi | 80 | 69 | Hudavadi |
1 SMP | U+11300..U+1137F | Grantha | 128 | 86 | Grantha (85 karakter), Devralınan (1 karakter) |
1 SMP | U+11400..U+1147F | Newa | 128 | 97 | Newa |
1 SMP | U+11480..U+114DF | Tirhuta | 96 | 82 | Tirhuta |
1 SMP | U+11580..U+115FF | Siddham | 128 | 92 | Siddham |
1 SMP | U+11600..U+1165F | mod | 96 | 79 | mod |
1 SMP | U+11660..U+1167F | Moğolca Eki | 32 | 13 | Moğolca |
1 SMP | U+11680..U+116CF | takri | 80 | 68 | takri |
1 SMP | U+11700..U+1174F | Ahom | 80 | 65 | Ahom |
1 SMP | U+11800..U+1184F | dogra | 80 | 60 | dogra |
1 SMP | U+118A0..U+118FF | Warang Citi | 96 | 84 | Warang Citi |
1 SMP | U+11900..U+1195F | Dalışlar Akuru | 96 | 72 | Dalışlar Akuru |
1 SMP | U+119A0..U+119FF | Nandinagari | 96 | 65 | Nandinagari |
1 SMP | U+11A00..U+11A4F | Zanabazar Meydanı | 80 | 72 | Zanabazar Meydanı |
1 SMP | U+11A50..U+11AAF | soyombo | 96 | 83 | soyombo |
1 SMP | U+11AB0..U+11ABF | Birleşik Kanada Aborijin Heceleri Genişletilmiş-A | 16 | 16 | Kanadalı Aborjin |
1 SMP | U+11AC0..U+11AFF | Pau Cin Hau | 64 | 57 | Pau Cin Hau |
1 SMP | U+11C00..U+11C6F | Bhaiksuki | 112 | 97 | Bhaiksuki |
1 SMP | U+11C70..U+11CBF | Marchen | 80 | 68 | Marchen |
1 SMP | U+11D00..U+11D5F | Masaram Gondi | 96 | 75 | Masaram Gondi |
1 SMP | U+11D60..U+11DAF | Gunjala Gondi | 80 | 63 | Gunjala Gondi |
1 SMP | U+11EE0..U+11EFF | makasar | 32 | 25 | makasar |
1 SMP | U+11FB0..U+11FBF | Lisu Eki | 16 | 1 | lisu |
1 SMP | U+11FC0..U+11FFF | Tamilce Eki | 64 | 51 | Tamilce |
1 SMP | U+12000..U+123FF | çivi yazısı | 1.024 | 922 | çivi yazısı |
1 SMP | U+12400..U+1247F | Çivi Yazısı Sayıları ve Noktalama İşaretleri | 128 | 116 | çivi yazısı |
1 SMP | U+12480..U+1254F | Erken Hanedan Çivi Yazısı | 208 | 196 | çivi yazısı |
1 SMP | U+12F90..U+12FFF | Kıbrıs-Minoa Dili | 112 | 99 | Kıbrıslı Minos |
1 SMP | U+13000..U+1342F | Mısır Hiyeroglifleri | 1.072 | 1.071 | Mısır Hiyeroglifleri |
1 SMP | U+13430..U+1343F | Mısır Hiyeroglif Biçimi Kontrolleri | 16 | 9 | Mısır Hiyeroglifleri |
1 SMP | U+14400..U+1467F | Anadolu Hiyeroglifleri | 640 | 583 | Anadolu Hiyeroglifleri |
1 SMP | U+16800..U+16A3F | Bamum Takviyesi | 576 | 569 | Bamum |
1 SMP | U+16A40..U+16A6F | Bay | 48 | 43 | Bay |
1 SMP | U+16A70..U+16ACF | Tangsa | 96 | 89 | Tangsa |
1 SMP | U+16AD0..U+16AFF | Bassa Vah | 48 | 36 | Bassa Vah |
1 SMP | U+16B00..U+16B8F | Pahawh Hmong | 144 | 127 | Pahawh Hmong |
1 SMP | U+16E40..U+16E9F | medefaidrin | 96 | 91 | medefaidrin |
1 SMP | U+16F00..U+16F9F | Miao | 160 | 149 | Miao |
1 SMP | U+16FE0..U+16FFF | İdeografik Semboller ve Noktalama İşaretleri | 32 | 7 | Han (4 karakter), Khitan Küçük Senaryo (1 karakter), Nushu (1 karakter), Tangut (1 karakter) |
1 SMP | U+17000..U+187FF | Tangut | 6.144 | 6.136 | Tangut |
1 SMP | U+18800..U+18AFF | Tangut Bileşenleri | 768 | 768 | Tangut |
1 SMP | U+18B00..U+18CFF | Khitan Küçük Senaryo | 512 | 470 | Khitan Küçük Senaryo |
1 SMP | U+18D00..U+18D7F | Tangut Eki | 128 | 9 | Tangut |
1 SMP | U+1AFF0..U+1AFFF | Kana Genişletilmiş-B | 16 | 13 | Katakana |
1 SMP | U+1B000..U+1B0FF | Kana Eki | 256 | 256 | Hiragana (255 karakter), Katakana (1 karakter) |
1 SMP | U+1B100..U+1B12F | Kana Genişletilmiş-A | 48 | 35 | Hiragana (32 karakter), Katakana (3 karakter) |
1 SMP | U+1B130..U+1B16F | Küçük Kana Uzantısı | 64 | 7 | Hiragana (3 karakter), Katakana (4 karakter) |
1 SMP | U+1B170..U+1B2FF | Nuşu | 400 | 396 | Nüshu |
1 SMP | U+1BC00..U+1BC9F | Duployan | 160 | 143 | Duployan |
1 SMP | U+1BCA0..U+1BCAF | Steno Format Kontrolleri | 16 | 4 | Yaygın |
1 SMP | U+1CF00..U+1CFCF | Znamenny Müzik Notasyonu | 208 | 185 | Ortak (116 karakter), Devralınan (69 karakter) |
1 SMP | U+1D000..U+1D0FF | Bizans Müzik Sembolleri | 256 | 246 | Yaygın |
1 SMP | U+1D100..U+1D1FF | Müzikal Semboller | 256 | 233 | Ortak (211 karakter), Devralınan (22 karakter) |
1 SMP | U+1D200..U+1D24F | Antik Yunan Müzik Notasyonu | 80 | 70 | Yunan |
1 SMP | U+1D2E0..U+1D2FF | Maya Rakamları | 32 | 20 | Yaygın |
1 SMP | U+1D300..U+1D35F | Tai Xuan Jing Sembolleri | 96 | 87 | Yaygın |
1 SMP | U+1D360..U+1D37F | Çubuk Rakamlarını Sayma | 32 | 25 | Yaygın |
1 SMP | U+1D400..U+1D7FF | Matematiksel Alfanümerik Semboller | 1.024 | 996 | Yaygın |
1 SMP | U+1D800..U+1DAAF | Sutton SignYazma | 688 | 672 | İşaret Yazısı |
1 SMP | U+1DF00..U+1DFFF | Latince Genişletilmiş-G | 256 | 31 | Latince |
1 SMP | U+1E000..U+1E02F | Glagolitik Ek | 48 | 38 | Glagolitik |
1 SMP | U+1E100..U+1E14F | Nyiakeng Puachue Hmong | 80 | 71 | Nyiakeng Puachue Hmong |
1 SMP | U+1E290..U+1E2BF | Toto | 48 | 31 | Toto |
1 SMP | U+1E2C0..U+1E2FF | Wancho | 64 | 59 | Wancho |
1 SMP | U+1E7E0..U+1E7FF | Etiyopya Genişletilmiş-B | 32 | 28 | Etiyopyalı |
1 SMP | U+1E800..U+1E8DF | Mende Kikakui | 224 | 213 | Mende Kikakui |
1 SMP | U+1E900..U+1E95F | Adlam | 96 | 88 | Adlam |
1 SMP | U+1EC70..U+1ECBF | Hint Siyaq Numaraları | 80 | 68 | Yaygın |
1 SMP | U+1ED00..U+1ED4F | Osmanlı Siyaq Numaraları | 80 | 61 | Yaygın |
1 SMP | U+1EE00..U+1EEFF | Arapça Matematiksel Alfabetik Semboller | 256 | 143 | Arapça |
1 SMP | U+1F000..U+1F02F | Mahjong Fayansları | 48 | 44 | Yaygın |
1 SMP | U+1F030..U+1F09F | Domino Fayansları | 112 | 100 | Yaygın |
1 SMP | U+1F0A0..U+1F0FF | Oyun kağıtları | 96 | 82 | Yaygın |
1 SMP | U+1F100..U+1F1FF | Ekli Alfanümerik Ek | 256 | 200 | Yaygın |
1 SMP | U+1F200..U+1F2FF | Ekli İdeografik Eki | 256 | 64 | Hiragana (1 karakter), Ortak (63 karakter) |
1 SMP | U+1F300..U+1F5FF | Çeşitli Semboller ve Piktograflar | 768 | 768 | Yaygın |
1 SMP | U+1F600..U+1F64F | ifadeler | 80 | 80 | Yaygın |
1 SMP | U+1F650..U+1F67F | Süs Dingbat'ları | 48 | 48 | Yaygın |
1 SMP | U+1F680..U+1F6FF | Ulaşım ve Harita Sembolleri | 128 | 117 | Yaygın |
1 SMP | U+1F700..U+1F77F | Simya Sembolleri | 128 | 116 | Yaygın |
1 SMP | U+1F780..U+1F7FF | Genişletilmiş Geometrik Şekiller | 128 | 102 | Yaygın |
1 SMP | U+1F800..U+1F8FF | Ek Oklar-C | 256 | 150 | Yaygın |
1 SMP | U+1F900..U+1F9FF | Tamamlayıcı Semboller ve Piktograflar | 256 | 256 | Yaygın |
1 SMP | U+1FA00..U+1FA6F | Satranç Sembolleri | 112 | 98 | Yaygın |
1 SMP | U+1FA70..U+1FAFF | Semboller ve Piktograflar Genişletilmiş-A | 144 | 88 | Yaygın |
1 SMP | U+1FB00..U+1FBFF | Eski Bilgi İşlem için Semboller | 256 | 212 | Yaygın |
2 SIP | U+20000..U+2A6DF | CJK Birleşik İdeograflar Uzantısı B | 42.720 | 42.720 | Han |
2 SIP | U+2A700..U+2B73F | CJK Birleşik İdeograflar Uzantısı C | 4160 | 4.153 | Han |
2 SIP | U+2B740..U+2B81F | CJK Birleşik İdeograflar Uzantısı D | 224 | 222 | Han |
2 SIP | U+2B820..U+2CEAF | CJK Birleşik İdeograflar Uzantısı E | 5.776 | 5.762 | Han |
2 SIP | U+2CEB0..U+2EBEF | CJK Birleşik İdeograflar Uzantısı F | 7.488 | 7.473 | Han |
2 SIP | U+2F800..U+2FA1F | CJK Uyumluluk İdeografları Eki | 544 | 542 | Han |
3 İPUCU | U+30000..U+3134F | CJK Birleşik İdeograflar Uzantısı G | 4.944 | 4.939 | Han |
14 SSP | U+E0000..U+E007F | Etiketler | 128 | 97 | Yaygın |
14 SSP | U+E0100..U+E01EF | Varyasyon Seçici Eki | 240 | 240 | Miras |
15 PUA-A | U+F0000..U+FFFFF | Ek Özel Kullanım Alanı-A | 65.536 | 65.534 | Bilinmeyen |
16 PUA-B | U+100000..U+10FFFF | Ek Özel Kullanım Alanı-B | 65.536 | 65.534 | Bilinmeyen |
Senaryo
Atanan her karakter, "Script" özelliği için hangi betiğe ait olduğunu gösteren tek bir değere sahip olabilir. Değer, ISO 15924'te mevcut olan ve bir yazı sistemine eşlenen Aaaa-Zzzz aralığında dört harfli bir koddur . Bir betiğin arka planını ve kullanımını açıklamanın dışında, Unicode bir betik ile o betiği kullanan diller arasında bir bağlantı kullanmaz. Yani "İbranice" İbranice alfabeyi ifade eder, İbranice dilini değil.
"Ortak" için özel Zyyy kodu, birden çok komut dosyasında kullanılan bir karakter için tek bir değere izin verir. Karakterleri ve diğer bazı özel amaçlı kod noktalarını birleştirmek için kullanılan Zinh "Devralınan komut dosyası" kodu, bir karakterin komut dosyası kimliğini birleştirildiği karakterden "miras aldığını" gösterir. (Unicode daha önce bu amaç için özel Qaai kodunu kullanıyordu.) Zzzz "Bilinmeyen" kodu, semboller ve biçimlendirme karakterleri gibi bir komut dosyasına ait olmayan (yani varsayılan değer) tüm karakterler için kullanılır. Genel olarak, tek bir komut dosyasının karakterleri , Latin karakterleri gibi birden çok blok üzerine dağılabilir . Ve bunun tersi de geçerlidir: birden fazla komut dosyası mevcut olabilir, tek bir bloktur, örneğin blok Harfli Semboller Latin, Yunanca ve Ortak komut dizilerinden karakterler içerir.
Komut Dosyası "" (boş) olduğunda, Unicode'a göre karakter bir komut dosyasına ait değildir. Bu, sembollerle ilgilidir, çünkü mevcut ISO komut dosyası kodları "Zmth" (Matematiksel gösterim), "Zsym" (Sembol) ve "Zsye" (Sembol, emoji varyantı) Unicode'da kullanılmaz. "Komut Dosyası" özelliği, kontroller, ikameler ve özel kullanım kod noktaları gibi tipografik bir karakter olmayan kod noktaları için de boştur.
: ISO 15924 belirli komut takma adı varsa, o karakter adına kullanılan U + 0041 A LATİN A harfi ve U + 05D0 א İBRANİCE MEKTUP ALEF .
ISO 15924 | Unicode'da komut dosyası | ||||||
---|---|---|---|---|---|---|---|
kod | ISO resmi adı | yönlülük | Unicode Takma Adı | Sürüm | karakterler | Notlar | Açıklama |
| |||||||
adlm | Adlam | sağdan sola komut dosyası | Adlam | 9.0 | 88 | Bölüm 19.9 | |
Afak | afaka | değişir | — Unicode'da değil, teklif araştırılıyor | ||||
ahb | Kafkas Arnavutça | soldan sağa | Kafkas Arnavutça | 7.0 | 53 | antik/tarihi | Bölüm 8.11 |
Ahom | Ahom, Tai Ahom | soldan sağa | Ahom | 8.0 | 65 | antik/tarihi | Bölüm 15.15 |
Arap | Arapça | sağdan sola komut dosyası | Arapça | 1.0 | 1,365 | Bölüm 9.2 | |
Aran | Arapça (Nastaliq varyantı) | karışık | § Arap ) | — Arapça'nın tipografik varyantı (||||
ordu | İmparatorluk Aramice | sağdan sola komut dosyası | İmparatorluk Aramice | 5.2 | 31 | antik/tarihi | Bölüm 10.4 |
silah | Ermeni | soldan sağa | Ermeni | 1.0 | 96 | Bölüm 7.6 | |
avst | Avestan | sağdan sola komut dosyası | Avestan | 5.2 | 61 | antik/tarihi | Bölüm 10.7 |
Bali | Bali dili | soldan sağa | Bali dili | 5.0 | 124 | Bölüm 17.3 | |
Bamu | Bamum | soldan sağa | Bamum | 5.2 | 657 | Bölüm 19.6 | |
Bas | Bassa Vah | soldan sağa | Bassa Vah | 7.0 | 36 | antik/tarihi | Bölüm 19.7 |
Batk | Batak | soldan sağa | Batak | 6.0 | 56 | Bölüm 17.6 | |
Ben | Bengalce (Bangla) | soldan sağa | Bengalce | 1.0 | 96 | Bölüm 12.2 | |
Bhk | Bhaiksuki | soldan sağa | Bhaiksuki | 9.0 | 97 | antik/tarihi | Bölüm 14.3 |
mutluluk | mutluluk sembolleri | değişir | — Unicode'da değil, teklif araştırılıyor | ||||
bopo | bopomofo | soldan sağa | bopomofo | 1.0 | 77 | Bölüm 18.3 | |
brah | Brahmi | soldan sağa | Brahmi | 6.0 | 115 | antik/tarihi | Bölüm 14.1 |
sutyen | Braille alfabesi | soldan sağa | Braille alfabesi | 3.0 | 256 | Bölüm 21.1 | |
böcek | Bugi dili | soldan sağa | Bugi dili | 4.1 | 30 | Bölüm 17.2 | |
Buhd | Buhid | soldan sağa | Buhid | 3.2 | 20 | Bölüm 17.1 | |
Çakm | çakma | soldan sağa | çakma | 6.1 | 71 | Bölüm 13.11 | |
kutular | Birleşik Kanada Aborjin Heceleri | soldan sağa | Kanadalı Aborjin | 3.0 | 726 | Bölüm 20.2 | |
Cari | Karya | soldan sağa, sağdan sola komut dosyası | Karya | 5.1 | 49 | antik/tarihi | Bölüm 8.5 |
Çam | Çam | soldan sağa | Çam | 5.1 | 83 | Bölüm 16.10 | |
Cher | Cherokee | soldan sağa | Cherokee | 3.0 | 172 | Bölüm 20.1 | |
Saat | Chorasmiyen | sağdan sola komut dosyası , yukarıdan aşağıya | Chorasmiyen | 13.0 | 28 | antik/tarihi | Bölüm 10.8 |
çevre | çevre | değişir | — Unicode'da değil | ||||
Kıpti | Kıpti | soldan sağa | Kıpti | 1.0 | 137 | Antik/tarihi, 4.1'de Yunancadan Ayrılmış | Bölüm 7.3 |
BGBM | Kıbrıs-Minoa Dili | soldan sağa | Kıbrıslı Minos | 14.0 | 99 | antik/tarihi | Bölüm 8.4 |
Kprt | Kıbrıslı hece | sağdan sola komut dosyası | Kıbrıslı | 4.0 | 55 | antik/tarihi | Bölüm 8.3 |
Cyrl | Kiril | soldan sağa | Kiril | 1.0 | 443 | Eski Kilise Slavcasının tipografik varyantını içerir ( § Cyrs) | Bölüm 7.4 |
Cyrs | Kiril (Eski Kilise Slav varyantı) | değişir | Kiril'in tipografik varyantı ( § Cyrl ) | —antik/tarihi | |||
Deva | Devanagari (Nagari) | soldan sağa | Devanagari | 1.0 | 154 | Bölüm 12.1 | |
Diak | Dalışlar Akuru | soldan sağa | Dalışlar Akuru | 13.0 | 72 | antik/tarihi | Bölüm 15.14 |
dogr | dogra | soldan sağa | dogra | 11.0 | 60 | antik/tarihi | Bölüm 15.17 |
Dsrt | Çöl (Mormon) | soldan sağa | çöl | 3.1 | 80 | Bölüm 20.4 | |
çift | Duployan steno, Duployan stenografi | soldan sağa | Duployan | 7.0 | 143 | Bölüm 21.6 | |
Mısır | Mısırlı demotik | karışık | — Unicode'da değil | ||||
Mısır | Mısır hiyerarşisi | karışık | — Unicode'da değil | ||||
Mısır | Mısır hiyeroglifleri | sağdan sola komut dosyası | Mısır Hiyeroglifleri | 5.2 | 1.080 | antik/tarihi | Bölüm 11.4 |
Elba | Elbasan | soldan sağa | Elbasan | 7.0 | 40 | antik/tarihi | Bölüm 8.10 |
Elym | Elymaic | sağdan sola komut dosyası | Elymaic | 12.0 | 23 | antik/tarihi | Bölüm 10.9 |
Ethi | Etiyopya (Geʻez) | soldan sağa | Etiyopyalı | 3.0 | 523 | Bölüm 19.1 | |
Geok | Khutsuri (Asomtavruli ve Nuskhuri) | soldan sağa | Gürcü | Unicode, "Khutsori", "Asomtavruli" ve "Nuskhuri" gruplarını 'Gürcüce' olarak gruplandırır ( § Geok ). Ayrıca "Mkhedruli" ve "Mtavruli" 'Gürcüce'dir ( § Geor ) | Bölüm 7.7 | ||
George | Gürcüce (Mkhedruli ve Mtavruli) | soldan sağa | Gürcü | 1.0 | 173 | Unicode'da Geok'u (Nuskhuri) de içerir | Bölüm 7.7 |
Glag | Glagolitik | soldan sağa | Glagolitik | 4.1 | 134 | antik/tarihi | Bölüm 7.5 |
Gong | Gunjala Gondi | soldan sağa | Gunjala Gondi | 11.0 | 63 | Bölüm 13.15 | |
gonm | Masaram Gondi | soldan sağa | Masaram Gondi | 10.0 | 75 | Bölüm 13.14 | |
Got | Gotik | soldan sağa | Gotik | 3.1 | 27 | antik/tarihi | Bölüm 8.9 |
büyükanne | Grantha | soldan sağa | Grantha | 7.0 | 85 | antik/tarihi | Bölüm 15.13 |
Yunanca | Yunan | soldan sağa | Yunan | 1.0 | 518 | Yönlülük bazen boustrophedon olarak | Bölüm 7.2 |
Gujr | Gujarati | soldan sağa | Gujarati | 1.0 | 91 | Bölüm 12.4 | |
guru | Gurmukhi | soldan sağa | Gurmukhi | 1.0 | 80 | Bölüm 12.3 | |
Hanb | Bopomofo ile Han (Han + Bopomofo için takma ad) | karışık | § Hani , § Bopo | — Bkz.||||
Asmak | Hangul (Hangŭl, Hangeul) | soldan sağa, yukarıdan aşağıya | Hangul | 1.0 | 11.739 | Hangul heceleri 2.0'da taşındı | Bölüm 18.6 |
Hani | Han (Hanzi, Kanji, Hanja) | yukarıdan aşağıya, sütunlar sağdan sola (geçmişte) | Han | 1.0 | 94.215 | Bölüm 18.1 | |
Hano | Hanunoo (Hanuno) | soldan sağa, aşağıdan yukarıya | Hanunoo | 3.2 | 21 | Bölüm 17.1 | |
Hans | Han (Basitleştirilmiş varyant) | değişir | § Hani ) | — Han'ın alt kümesi (Hanzi, Kanji, Hanja) (||||
hant | Han (Geleneksel varyant) | değişir | § Hani'nin alt kümesi | —||||
hatr | hatran | sağdan sola komut dosyası | hatran | 8.0 | 26 | antik/tarihi | Bölüm 10.12 |
İbranice | İbranice | sağdan sola komut dosyası | İbranice | 1.0 | 134 | Bölüm 9.1 | |
Hira | Hiragana | yukarıdan aşağıya, soldan sağa | Hiragana | 1.0 | 380 | Bölüm 18.4 | |
hluw | Anadolu Hiyeroglifleri (Luwi Hiyeroglifleri, Hitit Hiyeroglifleri) | soldan sağa | Anadolu Hiyeroglifleri | 8.0 | 583 | antik/tarihi | Bölüm 11.6 |
hmm | Pahawh Hmong | soldan sağa | Pahawh Hmong | 7.0 | 127 | Bölüm 16.11 | |
hmnp | Nyiakeng Puachue Hmong | soldan sağa | Nyiakeng Puachue Hmong | 12.0 | 71 | Bölüm 16.12 | |
Hrkt | Japonca heceler (Hiragana + Katakana için takma ad) | yukarıdan aşağıya, soldan sağa | Katakana veya Hiragana | Bakınız § Hira , § Kana | Bölüm 18.4 | ||
Asılı | Eski Macarca (Macar Runik) | sağdan sola komut dosyası | Eski Macar | 8.0 | 108 | antik/tarihi | Bölüm 8.8 |
İndeks | İndus (Harappan) | karışık | — Unicode'da değil, teklif araştırılıyor | ||||
İtalyan | Eski İtalik (Etrüsk, Oscan, vb.) | sağdan sola komut dosyası , soldan sağa | Eski İtalik | 3.1 | 39 | antik/tarihi | Bölüm 8.6 |
jamo | Jamo (Hangul'un Jamo alt kümesi için takma ad) | değişir | § Askıda kalmanın alt kümesi | —||||
Java | Cava | soldan sağa | Cava | 5.2 | 90 | Bölüm 17.4 | |
Jpan | Japonca (Han + Hiragana + Katakana için takma ad) | değişir | § Hani , § Hira ve § Kana | — Bakınız||||
Jurc | Jurchen | soldan sağa | — Unicode'da değil | ||||
Kali | Kayah Li | soldan sağa | Kayah Li | 5.1 | 47 | Bölüm 16.9 | |
kana | Katakana | yukarıdan aşağıya, soldan sağa | Katakana | 1.0 | 320 | Bölüm 18.4 | |
Khar | Kharoshthi | sağdan sola komut dosyası | Kharoshthi | 4.1 | 68 | antik/tarihi | Bölüm 14.2 |
Kmr | Kmer | soldan sağa | Kmer | 3.0 | 146 | Bölüm 16.4 | |
Hoca | Khojki | soldan sağa | Khojki | 7.0 | 62 | antik/tarihi | Bölüm 15.7 |
Kitl | Kitan büyük komut dosyası | soldan sağa | — Unicode'da değil | ||||
Kitler | Khitan küçük komut dosyası | yukarıdan aşağıya | Khitan Küçük Senaryo | 13.0 | 471 | antik/tarihi | Bölüm 18.12 |
Knda | kannada | soldan sağa | kannada | 1.0 | 90 | Bölüm 12.8 | |
Kore | Korece (Hangul + Han için takma ad) | soldan sağa | § Hani , § Bekle | — Bkz.||||
Kpel | Kpelle | soldan sağa | — Unicode'da değil, teklif araştırılıyor | ||||
Kthi | Kaithi | soldan sağa | Kaithi | 5.2 | 68 | antik/tarihi | Bölüm 15.2 |
lana | Tai Tham (Lanna) | soldan sağa | Tay Tham | 5.2 | 127 | Bölüm 16.7 | |
laoo | Lao | soldan sağa | Lao | 1.0 | 82 | Bölüm 16.2 | |
Latf | Latince (Fraktur varyantı) | değişir | § Latn ) | — Latince'nin tipografik varyantı (||||
Latg | Latince (Gal varyantı) | soldan sağa | § Latn ) | — Latince'nin tipografik varyantı (||||
Latince | Latince | soldan sağa | Latince | 1.0 | 1.475 | Ayrıca bakınız: Unicode'da Latin alfabesi | Bölüm 7.1 |
Leke | Leke | soldan sağa | — Unicode'da değil | ||||
cüzzam | Lepcha (Róng) | soldan sağa | lepça | 5.1 | 74 | Bölüm 13.12 | |
uzuv | Limbu | soldan sağa | Limbu | 4.0 | 68 | Bölüm 13.6 | |
lina | Doğrusal A | soldan sağa | Doğrusal A | 7.0 | 341 | antik/tarihi | Bölüm 8.1 |
Linb | Doğrusal B | soldan sağa | Doğrusal B | 4.0 | 211 | antik/tarihi | Bölüm 8.2 |
lisu | Lisu (Fraser) | soldan sağa | lisu | 5.2 | 49 | Bölüm 18.9 | |
loma | loma | soldan sağa | — Unicode'da değil, teklif araştırılıyor | ||||
Likya | Likya | soldan sağa | Likya | 5.1 | 29 | antik/tarihi | Bölüm 8.5 |
Lidya | Lidya | sağdan sola komut dosyası | Lidya | 5.1 | 27 | antik/tarihi | Bölüm 8.5 |
mahj | Mahajani | soldan sağa | Mahajani | 7.0 | 39 | antik/tarihi | Bölüm 15.6 |
maka | makasar | soldan sağa | makasar | 11.0 | 25 | antik/tarihi | Bölüm 17.8 |
Mand | Mandaca, Mandaca | sağdan sola komut dosyası | Manda dili | 6.0 | 29 | Bölüm 9.5 | |
Mani | Maniheist | sağdan sola komut dosyası | Maniheist | 7.0 | 51 | antik/tarihi | Bölüm 10.5 |
Marc | Marchen | soldan sağa | Marchen | 9.0 | 68 | antik/tarihi | Bölüm 14.5 |
Maya | Maya hiyeroglifleri | karışık | — Unicode'da değil | ||||
Medf | Medefaidrin (Oberi Okaime, Oberi Ɔkaimɛ) | soldan sağa, soldan sağa | medefaidrin | 11.0 | 91 | Bölüm 19.10 | |
tamir | Mende Kikakui | sağdan sola komut dosyası | Mende Kikakui | 7.0 | 213 | Bölüm 19.8 | |
Mercan | Meroitik El Yazısı | sağdan sola komut dosyası | Meroitik El Yazısı | 6.1 | 90 | antik/tarihi | Bölüm 11.5 |
mero | Meroitik Hiyeroglifler | sağdan sola komut dosyası | Meroitik Hiyeroglifler | 6.1 | 32 | antik/tarihi | Bölüm 11.5 |
Mlym | Malayalamca | soldan sağa | Malayalamca | 1.0 | 118 | Bölüm 12.9 | |
mod | Modi, Moḍī | soldan sağa | mod | 7.0 | 79 | antik/tarihi | Bölüm 15.11 |
Mong | Moğolca | yukarıdan aşağıya, soldan sağa | Moğolca | 3.0 | 168 | Mong , Clear ve Mançu komut dosyalarını içerir | Bölüm 13.5 |
Ay | Ay (Ay kodu, Ay yazısı, Ay tipi) | karışık | — Unicode'da değil, teklif araştırılıyor | ||||
Mroo | Bay, Bay | soldan sağa | Bay | 7.0 | 43 | Bölüm 13.8 | |
Mtei | Meitei Mayek (Meithei, Meetei) | soldan sağa | Meetei Mayek | 5.2 | 79 | Bölüm 13.7 | |
çok | çok dilli | soldan sağa | çok dilli | 8.0 | 38 | antik/tarihi | Bölüm 15.9 |
Mymr | Myanmar (Burma) | soldan sağa | Myanmar | 3.0 | 223 | Bölüm 16.3 | |
Nand | Nandinagari | soldan sağa | Nandinagari | 12.0 | 65 | antik/tarihi | Bölüm 15.12 |
narb | Eski Kuzey Arap (Antik Kuzey Arap) | sağdan sola komut dosyası , sağdan sola komut dosyası | Eski Kuzey Arap | 7.0 | 32 | antik/tarihi | Bölüm 10.1 |
Nbat | Nebati | sağdan sola komut dosyası | Nebati | 7.0 | 40 | antik/tarihi | Bölüm 10.10 |
Newa | Newa, Newar, Newari, Nepal lipi | soldan sağa | Newa | 9.0 | 97 | Bölüm 13.3 | |
nkdb | Naxi Dongba (na²¹ɕi³³ to³ba²¹, Nakhi Tomba) | soldan sağa | — Unicode'da değil | ||||
nkgb | Nakhi Geba (na²¹ɕi³³ gʌ²¹ba²¹, 'Na-'Khi ²Ggŏ-¹baw, Nakhi Geba) | soldan sağa | — Unicode'da değil, teklif araştırılıyor | ||||
Nkoo | N'Ko | sağdan sola komut dosyası | NK | 5.0 | 62 | Bölüm 19.4 | |
Nshu | Nüshu | yukarıdan aşağıya | Nuşu | 10.0 | 397 | Bölüm 18.8 | |
Ogam | Ogham | aşağıdan yukarıya, soldan sağa | Ogham | 3.0 | 29 | antik/tarihi | Bölüm 8.14 |
Olck | Ol Chiki (Ol Cemet', Ol, Santali) | soldan sağa | Ol Chiki | 5.1 | 48 | Bölüm 13.10 | |
Orkh | Eski Türkçe, Orhon Runik | sağdan sola komut dosyası | Eski Türkçe | 5.2 | 73 | antik/tarihi | Bölüm 14.8 |
Orya | Ortaca (Odia) | soldan sağa | Ortaca | 1.0 | 91 | Bölüm 12.5 | |
Osge | Osage | soldan sağa | Osage | 9.0 | 72 | Bölüm 20.3 | |
osma | Osmaniye | soldan sağa | Osmaniye | 4.0 | 40 | Bölüm 19.2 | |
Uğur | Eski Uygur | karışık | Eski Uygur | 14.0 | 26 | antik/tarihi | Bölüm 14.11 |
avuç içi | Palmyren | sağdan sola komut dosyası | Palmyren | 7.0 | 32 | antik/tarihi | Bölüm 10.11 |
Pauc | Pau Cin Hau | soldan sağa | Pau Cin Hau | 7.0 | 57 | Bölüm 16.13 | |
Pcun | Proto-Çivi yazısı | soldan sağa | — Unicode'da değil | ||||
Pelin | Proto-Elamit | soldan sağa | — Unicode'da değil | ||||
perma | Eski Permik | soldan sağa | Eski Permik | 7.0 | 43 | antik/tarihi | Bölüm 8.13 |
fag | phags-pa | yukarıdan aşağıya | phags-pa | 5.0 | 56 | antik/tarihi | Bölüm 14.4 |
Phli | Yazıt Pehlevi | sağdan sola komut dosyası | Yazıt Pehlevi | 5.2 | 27 | antik/tarihi | Bölüm 10.6 |
Phlp | Zebur Pehlevi | sağdan sola komut dosyası | Zebur Pehlevi | 7.0 | 29 | antik/tarihi | Bölüm 10.6 |
Phlv | Pehlevi kitabı | karışık | — Unicode'da değil | ||||
Phnx | Fenike | sağdan sola komut dosyası | Fenike | 5.0 | 29 | antik/tarihi | Bölüm 10.3 |
piqd | Klingonca (KLI pIqaD) | soldan sağa | — Unicode'a dahil edilmek üzere reddedildi | ||||
plrd | Miao (Pollard) | soldan sağa | Miao | 6.1 | 149 | Bölüm 18.10 | |
prti | Yazıtlı Partça | sağdan sola komut dosyası | Yazıtlı Partça | 5.2 | 30 | antik/tarihi | Bölüm 10.6 |
Psin | Proto-Sinaitik | karışık | — Unicode'da değil | ||||
Qaaa-Qabx | Özel kullanım için ayrılmıştır (aralık) | — Unicode'da değil | |||||
Ranj | Ranjana | soldan sağa | — Unicode'da değil | ||||
Rjng | Rejang (Redjang, Kaganga) | soldan sağa | rejang | 5.1 | 37 | Bölüm 17.5 | |
Rohg | Hanifi Rohingya | sağdan sola komut dosyası | Hanifi Rohingya | 11.0 | 50 | Bölüm 16.14 | |
Roro | rongorongo | karışık | — Unicode'da değil, teklif araştırılıyor | ||||
koşucu | Runik | soldan sağa, boustrophedon | Runik | 3.0 | 86 | antik/tarihi | Bölüm 8.7 |
Samir | Samiriyeli | sağdan sola komut dosyası , yukarıdan aşağıya | Samiriyeli | 5.2 | 61 | Bölüm 9.4 | |
sara | sarati | karışık | — Unicode'da değil | ||||
sarp | Eski Güney Arap | sağdan sola komut dosyası | Eski Güney Arap | 5.2 | 32 | antik/tarihi | Bölüm 10.2 |
saur | Saurashtra | soldan sağa | Saurashtra | 5.1 | 82 | Bölüm 13.13 | |
Sgnw | İşaret Yazısı | yukarıdan aşağıya | İşaret Yazısı | 8.0 | 672 | Bölüm 21.7 | |
Shaw | Shavian (Şah) | soldan sağa | Şaviyen | 4.0 | 48 | Bölüm 8.15 | |
parça | Sharada, Śāradā | soldan sağa | Sharada | 6.1 | 96 | Bölüm 15.3 | |
Şui | Shuishu | soldan sağa | — Unicode'da değil | ||||
Sidd | Siddham, Siddhaṃ, Siddhamātṛkā | soldan sağa | Siddham | 7.0 | 92 | antik/tarihi | Bölüm 15.5 |
Sind | Khudawadi, Sindhi | soldan sağa | Hudavadi | 7.0 | 69 | Bölüm 15.8 | |
Çin | Sinhala | soldan sağa | Sinhala | 3.0 | 111 | Bölüm 13.2 | |
soğd | soğd | Doğu Asya yazılarında yatay ve dikey yazı , yukarıdan aşağıya | soğd | 11.0 | 42 | antik/tarihi | Bölüm 14.10 |
O zaman git | Eski Soğd | sağdan sola komut dosyası | Eski Soğd | 11.0 | 40 | antik/tarihi | Bölüm 14.9 |
sora | sora sompeng | soldan sağa | sora sompeng | 6.1 | 35 | Bölüm 15.16 | |
soya | soyombo | soldan sağa | soyombo | 10.0 | 83 | antik/tarihi | Bölüm 14.7 |
Pazar | Sunda dili | soldan sağa | Sunda dili | 5.1 | 72 | Bölüm 17.7 | |
sylo | Siloti Nagri | soldan sağa | Siloti Nagri | 4.1 | 45 | antik/tarihi | Bölüm 15.1 |
sirk | Süryanice | sağdan sola komut dosyası | Süryanice | 3.0 | 88 | Estrangelo ( § Syre ), Batı ( § Syrj ) ve Doğu ( § Syrn ) tipografik varyantlarını içerir | Bölüm 9.3 |
şıra | Süryanice (Estrangelo varyantı) | karışık | § Syrc ) | — Süryanice'nin tipografik varyantı (||||
sirj | Süryanice (Batı varyantı) | karışık | § Syrc ) | — Süryanice'nin tipografik varyantı (||||
sirn | Süryanice (Doğu varyantı) | karışık | § Syrc ) | — Süryanice'nin tipografik varyantı (||||
etiketb | Tagbanva | soldan sağa | Tagbanva | 3.2 | 18 | Bölüm 17.1 | |
takr | Takri, Ṭākri, Ṭāṅkri | soldan sağa | takri | 6.1 | 68 | Bölüm 15.4 | |
Masal | Tay Le | soldan sağa | Tay Le | 4.0 | 35 | Bölüm 16.5 | |
talu | Yeni Tai Lue | soldan sağa | Yeni Tai Lue | 4.1 | 83 | Bölüm 16.6 | |
Tamilce | Tamilce | soldan sağa | Tamilce | 1.0 | 123 | Bölüm 12.6 | |
Tanga | Tangut | yukarıdan aşağıya, sütunlar sağdan sola, soldan sağa | Tangut | 9.0 | 6.914 | antik/tarihi | Bölüm 18.11 |
Tavt | Tay Viet | soldan sağa | Tay Viet | 5.2 | 72 | Bölüm 16.8 | |
teluca | Telugu | soldan sağa | Telugu | 1.0 | 100 | Bölüm 12.7 | |
Teng | Tengwar | soldan sağa | — Unicode'da değil | ||||
Tfng | Tifinag (Berberi) | soldan sağa | Tifinag | 4.1 | 59 | Bölüm 19.3 | |
Tglg | Tagalog (Baybayin, Alibata) | soldan sağa | Tagalog | 3.2 | 23 | Bölüm 17.1 | |
Taa | taana | sağdan sola komut dosyası | taana | 3.0 | 50 | Bölüm 13.1 | |
Tay | Tay | soldan sağa | Tay | 1.0 | 86 | Bölüm 16.1 | |
tibt | Tibetçe | soldan sağa | Tibetçe | 2.0 | 207 | 1.0'da eklendi, 1.1'de kaldırıldı ve 2.0'da yeniden sunuldu | Bölüm 13.4 |
Tirh | Tirhuta | soldan sağa | Tirhuta | 7.0 | 82 | Bölüm 15.10 | |
Tnsa | Tangsa | soldan sağa | Tangsa | 14.0 | 89 | Bölüm 13.18 | |
Toto | Toto | soldan sağa | Toto | 14.0 | 31 | Bölüm 13.17 | |
Ugar | Ugarit | soldan sağa | Ugarit | 4.0 | 31 | antik/tarihi | Bölüm 11.2 |
Vai | vai | soldan sağa | vai | 5.1 | 300 | Bölüm 19.5 | |
Visp | Görünür Konuşma | soldan sağa | — Unicode'da değil | ||||
Vit | Vithkuqi | soldan sağa | Vithkuqi | 14.0 | 70 | antik/tarihi | Bölüm 8.12 |
Vara | Warang Citi (Varang Kshiti) | soldan sağa | Warang Citi | 7.0 | 84 | Bölüm 13.9 | |
kim | Wancho | soldan sağa | Wancho | 12.0 | 59 | Bölüm 13.16 | |
kurt | Woleai | karışık | — Unicode'da değil, teklif araştırılıyor | ||||
Xpeo | Eski Farsça | soldan sağa | Eski Farsça | 4.1 | 50 | antik/tarihi | Bölüm 11.3 |
Xsux | Çivi yazısı, Sümer-Akad | soldan sağa | çivi yazısı | 5.0 | 1.234 | antik/tarihi | Bölüm 11.1 |
Yezi | Yezidi | sağdan sola komut dosyası | Yezidi | 13.0 | 47 | antik/tarihi | Bölüm 9.6 |
yii | Yi | soldan sağa | Yi | 3.0 | 1.220 | Bölüm 18.7 | |
Zanb | Zanabazar Meydanı (Zanabazarin Dörböljin Useg, Xewtee Dörböljin Bicig, Yatay Kare Yazısı) | soldan sağa | Zanabazar Meydanı | 10.0 | 72 | antik/tarihi | Bölüm 14.6 |
Çin | Devralınan komut dosyası için kod | Miras | 657 | ||||
Zmth | matematiksel gösterim | — Unicode'da bir "kod" değil | |||||
zsim | Semboller | — Unicode'da bir "kod" değil | |||||
Zsye | Semboller (emoji çeşidi) | — Unicode'da bir "kod" değil | |||||
Zxxx | Yazılı olmayan belgeler için kod | — Unicode'da bir "kod" değil | |||||
Zyyy | Belirsiz komut dosyası için kod | Yaygın | 8.252 | ||||
Zzzzz | Kodlanmamış komut dosyası için kod | Bilinmeyen | 969.350 | Unicode'da: Diğer tüm kod noktaları | |||
Notlar
|
Normalleştirme özellikleri
Ayrıştırmalar, ayrıştırma türü, kurallı birleştirme sınıfı, kompozisyon dışlamaları ve daha fazlası.
Yaş
Yaş , kod noktasının ilk belirlendiği Standardın versiyonudur. Sürüm numarası majör.minor olarak kısaltılır, ancak daha ayrıntılı sürüm numaraları kullanılır: 4.0.0 ve 4.0.1 sürümlerinin her ikisi de 4.0 olarak Age olarak adlandırılır. Sürümler göz önüne alındığında, Yaş aralığı şu aralıkta olabilir: 1.1, 2.0, 2.1, 3.0, 3.1, 3.2, 4.0, 4.1, 5.0, 5.1, 5.2, 6.0, 6.1, 6.2, 6.3, 7.0, 8.0, 9.0, 10.0, 11.0 , 12.0, 12.1, 13.0 ve 14.0. Yaş için uzun değerler V ile başlar ve nokta yerine alt çizgi kullanır: V1_1, örneğin. Özel olarak atanmış bir yaş değeri olmayan kod noktaları, "Atanmamış" uzun biçimiyle "NA" değerine sahiptir.
kullanımdan kaldırıldı
Bir karakter tanımlandıktan sonra kaldırılmaz veya yeniden atanmaz. Bununla birlikte, bir karakter kullanımdan kaldırılabilir , yani "kullanımı kesinlikle önerilmez". Unicode 14.0 sürümünden itibaren aşağıdaki on beş karakter kullanımdan kaldırılmıştır:
Unicode'da kullanımdan kaldırılan karakterler | ||||
---|---|---|---|---|
kod noktası | Karakter ismi | Önerilen alternatif | Uyarılar | |
U+0149 | KÜÇÜK LATİN N HARFİ ÖNÜNDE APOSTROPH | U+02BC U+006E | n | |
U+0673 | ALTINDA DALGALI HAMZA İLE ARAPÇA ALEF MEKTUBU | U+0627 U+065F | اٟ | |
U+0F77 | TİBETAN SESLİ İŞARET SESLİ RR | U+0FB2 U+0F81 | ྲཱྀ | |
U+0F79 | TİBETAN SESLİ İŞARET SESLİ LL | U+0FB3 U+0F81 | ླཱྀ | |
U+17A3 | KHMER BAĞIMSIZ SESLİ QAQ | U+17A2 | អ | |
U+17A4 | KHMER BAĞIMSIZ SESLİ QAA | U+17A2 U+17B6 | អា | |
U+206A | SİMETRİK DEĞİŞİMİ ENGELLE | Hiçbiri | ||
U+206B | SİMETRİK DEĞİŞİMİ ETKİNLEŞTİRİN | Hiçbiri | ||
U+206C | ARAPÇA FORM ŞEKİLLENDİRMEYİ ENGELLE | Hiçbiri | ||
U+206D | ARAPÇA FORM ŞEKİLLENDİRMEYİ ETKİNLEŞTİRİN | Hiçbiri | ||
U+206E | ULUSAL HANGİ ŞEKİLLER | Hiçbiri | ||
U+206F | NOMİNAL SAYI ŞEKİLLERİ | Hiçbiri | ||
U+2329 | SOL İŞARET AÇILI BRAKET | U+3008 | 〈 | U+27E8 ⟨ MATEMATİKSEL SOL AÇILI BRAKET , matematiksel ve diğer teknik kullanımlar için önerilir |
U+232A | SAĞA İŞARETLİ AÇILI BRAKET | U+3009 | 〉 | U+27E9 ⟩ MATEMATİKSEL DİK AÇILI PARLAK , matematiksel ve diğer teknik kullanımlar için önerilir. |
U+E0001 | DİL ETİKETİ | Hiçbiri | ||
sınırlar
Unicode Standardı, aşağıdaki sınırla ilgili özellikleri belirtir:
- Grapheme kümesi
- Kelime
- Hat
- Cümle
Unicode takma ad düzeltmesi
Karakter | İsim | takma ad | |
---|---|---|---|
01A2 | Ƣ | LATİN BÜYÜK HARF YAĞ | LATİN BÜYÜK HARF GHA |
01A3 | ƣ | LATİN KÜÇÜK HARF YAĞ | LATİN KÜÇÜK HARF GHA |
0709 | ܉ | SURİYE ALT DOĞRUSAL KOLON SAĞ EĞİK | SURİYE ALT DOĞRUSAL KOLON SOL EĞİK |
0CDE | ೞ | KANADA FA MEKTUBU | KANADA MEKTUBU LLLA |
0E9D | ຝ | LAO MEKTUP FO TAM | LAO FO MEKTUBU |
0E9F | ຟ | LAO FO SUNG MEKTUBU | FAY FO MEKTUBU |
0EA3 | ຣ | LAO MEKTUP LO LING | LAO MEKTUBU RO |
0EA5 | ລ | LAO MEKTUBU LOOT | LAO MEKTUP L |
0FD0 | ࿐ | TIBETAN MARK BSKA- SHOG GI MGO RGYAN | TIBETAN MARK BKA- SHOG GI MGO RGYAN |
11EC | ᇬ | HANGUL JONGSEONG IEUNG-KIYEOK | HANGUL JONGSEONG YESIEUNG-KIYEOK |
11ED | ᇭ | HANGUL JONGSEONG IEUNG-SSANGKIYEOK | HANGUL JONGSEONG YESIEUNG-SSANGKIYEOK |
11EE | ᇮ | HANGUL JONGSEONG SSANGIEUNG | HANGUL JONGSEONG SSANGYESIEUNG |
11EF | ᇯ | HANGUL JONGSEONG IEUNG-KHIEUKH | HANGUL JONGSEONG YESIEUNG-KHIEUKH |
2118 | ℘ | SCRIPT SERMAYE P | WEIERSTRAS ELİPTİK FONKSİYONU |
2448 | ⑈ | OCR DASH | ABD SEMBOLÜNDE MİKRO |
2449 | ⑉ | OCR MÜŞTERİ HESAP NUMARASI | MICR DASH SEMBOL |
2B7A | ⭺ | ÇİFT YATAY VURUŞLU SOL ÜÇGEN BAŞLI OK | ÇİFT DİKEY VURUŞLU SOL ÜÇGEN BAŞLI OK |
2B7C | ⭼ | ÇİFT YATAY VURUŞLU SAĞ ÜÇGEN BAŞLI OK | ÇİFT DİKEY VURUŞLU SAĞ ÜÇGEN BAŞLI OK |
A015 | ꀕ | YI HECE WU | YI HECE İTERASYON İŞARETİ |
FE18 | ︘ | DİKEY SAĞ BEYAZ LENTİKÜLER BRAKET SUNUM FORMU | DİKEY SAĞ BEYAZ LENTİKÜLER BRAKET SUNUM FORMU |
122D4 | 𒋔 | ÇİVİ YAZISI BÖLÜM TENU | ÇİVİ YAZISI İŞARET NU11 TENU |
122D5 | 𒋕 | ÇİVİ YAZISI İŞARET BÜKÜ ÜZERİNDEN BUR ÜZERİNDE BUR | ÇİVİ YAZISI NU11 ÜZERİ NU11 İŞARETLERİ |
16E56 | 𖹖 | MEDEFAİDRİN BÜYÜK HARF HP | MEDEFAİDRİN BÜYÜK HARF H |
16E57 | 𖹗 | MEDEFAIDRİN BÜYÜK HARF NY | MEDEFAIDRİN BÜYÜK HARF NG |
16E76 | 𖹶 | MEDEFAIDRIN KÜÇÜK HARF HP | MEDEFAIDRİN KÜÇÜK H Harfi |
16E77 | 𖹷 | MEDEFAIDRIN KÜÇÜK HARF NY | MEDEFAIDRIN KÜÇÜK HARF NG |
1B001 | 𛀁 | HİRAGANA MEKTUP ARKAİK YE | HENTAIGANA MEKTUP E-1 |
1D0C5 | 𝃅 | BİZANS MÜZİK SEMBOL FHTORA SKLIRON KROM VASIS | BİZANS MÜZİK SEMBOL FTHORA SKLIRON KROM VASIS |
Dış bağlantılar
- Unicode Karakter Veritabanı , ek #44, farklı özellikleri açıklıyor
- UnicodeData.txt – özellikleriyle birlikte tüm Unicode karakterlerinin listesi
Referanslar
-
^ a b c d e "Unicode Standardı, Bölüm 4: Karakter Özellikleri" (PDF) . Unicode, Inc. Eylül 2021 . 2021-08-15 alındı . Alıntı günlüğü gerektirir
|journal=
( yardım ) - ^ a b c "Unicode Standart Ek #44: Unicode Karakter Veritabanı" . Unicode Standardı . 2017-06-14.
- ^ "UCD: Ad Takma Adları" . Unicode Karakter Veritabanı . Unicode Konsorsiyumu. 2019-03-08.
- ^ "Karakter tasarım standartları – boşluk karakterleri" . Karakter tasarım standartları . Microsoft . 1998–1999. Arşivlenmiş orijinal 23 Ağustos 2000 tarihinde . 2009-05-18 alındı .
- ^ Unicode Standard 5.0, basılı baskı, s.205
- ^ "Genel Noktalama İşaretleri" (PDF) . Unicode Standardı 5.1 . Unicode Inc . 1991–2008 . 2009-05-13 alındı .
- ^ Sargent, Murray III (2006-08-29). "Matematiğin Unicode Neredeyse Düz Metin Kodlaması (Sürüm 2)" . Unicode Teknik Not #28 . Unicode Inc . s. 19–20 . 2009-05-19 alındı .
- ^ Gillam, Richard (2002). Unicode Demystified: Kodlama Standardına Yönelik Pratik Bir Programcı Kılavuzu . Addison-Wesley. ISBN'si 0-201-70052-2.
- ^ a b Hickson, Ian . "12.5 Adlandırılmış karakter referansları" . HTML Standardı . WHATWG .
- ^ Wolfram . "\[NegativeThickSpace]" . Wolfram Dil Belgeleri .
- ^ Wolfram . "\[NegativeMediumSpace]" . Wolfram Dil Belgeleri .
- ^ Wolfram . "\[NegativeThinSpace]" . Wolfram Dil Belgeleri .
- ^ Wolfram . "\[NegativeVeryThinSpace]" . Wolfram Dil Belgeleri .
- ^ Faltström, P., ed. (Ağustos 2010). "Sıfır Genişlikli Marangoz Olmayan" . Unicode Kod Noktaları ve Uygulamalar için Uluslararası Alan Adları (IDNA) . IETF . sn. A.1. doi : 10.17487/RFC5892 . RFC 5892 . 4 Eylül 2019'da alındı .
- ^ Faltström, P., ed. (Ağustos 2010). "Sıfır Genişlik Marangoz" . Unicode Kod Noktaları ve Uygulamalar için Uluslararası Alan Adları (IDNA) . IETF . sn. A.2. doi : 10.17487/RFC5892 . RFC 5892 . 4 Eylül 2019'da alındı .
- ^ "Unicode Standart Ek #44, Unicode Karakter Veritabanı" .
- ^ a b "Unicode Standart Ek #9: Unicode Çift Yönlü Algoritma" . Unicode Standardı . 2017-05-14.
- ^ "Unicode Standart Ek #24: Unicode Komut Dosyası Özelliği" . Unicode Standardı . 2015-06-01.
- ^ a b c d e f g h i "Önerilen Yeni Komut Dosyaları" . Unicode Konsorsiyumu . 2018-05-25 . 2019-09-12 alındı .
- ^ Michael Everson (1997-09-18). "ISO/IEC 10646-2 Düzlem 1'de Klingon'u kodlama önerisi" .
- ^ Unicode Konsorsiyumu (2001-08-14). "UTC 87/L2 184 Ortak Toplantısının Onaylanmış Tutanakları" .
- ^ "Orta Doğu-II, Eski Yazılar" (PDF) . 14.0.0. Unicode Consortiumtitle=Orta Doğu komut dosyaları II . 2021-09-15 alındı .
- ^ "UCD: Türetilmiş Yaş" . Unicode Karakter Veritabanı . Unicode Konsorsiyumu. 2021-07-10.
-
^ "Unicode Karakter Kodlama Kararlılık Politikaları" . Unicode . Unicode Konsorsiyumu . 2017-06-23 . 2021-07-25 alındı .
Bir karakter kodlandıktan sonra taşınmaz veya kaldırılmaz.
- ^ "3.4: Karakterler ve Kodlama, D13: Kullanımdan kaldırılan karakter" (PDF) . Unicode Standardı, Sürüm 14.0 . Dağ Manzarası: Unicode Konsorsiyumu . 2021-09-14. ISBN'si 9781936213-290. 2021-09-15 alındı .
- ^ "PropList-14.0.0.txt" . Unicode . Unicode Konsorsiyumu . 2021-08-12 . 2021-09-15 alındı .
- ^ "Bölüm 23.3: Kullanımdan Kaldırılan Biçim Karakterleri" (PDF) . Unicode Standardı, Sürüm 13.0 . Dağ Manzarası: Unicode Konsorsiyumu . 2020-03-10. ISBN'si 9781936213269. 2021-07-25 alındı .
- ^ "23.9: Etiket Karakterleri, Dil Etiketleme için Kullanımdan Kaldırılan Kullanım" (PDF) . Unicode Standardı, Sürüm 13.0 . Dağ Manzarası: Unicode Konsorsiyumu . 2020-03-10. ISBN'si 9781936213269. 2021-07-25 alındı .