Birleşik Hangul Kodu - Unified Hangul Code

Birleşik Hangul Kodu
Birleşik Hangul Code.svg
Birleşik Hangul Kodunun Düzeni
takma ad(lar) Windows Kod Sayfası 949, IBM Kod Sayfası 1363
Diller) Koreli
Standart WHATWG Kodlama Standardı ("EUC-KR" olarak)
sınıflandırma Genişletilmiş ISO 646 , değişken genişlikli kodlama , CJK kodlaması
uzatır EUC-KR
Diğer ilgili kodlama(lar) KPS 9566 -2003 , KPS 9566-2011

Microsoft Windows altında Kod Sayfası 949 ( Windows-949 , MS949 veya belirsiz bir şekilde CP949 ) olarak da bilinen Birleşik Hangul Kodu ( UHC ) veya Genişletilmiş Wansung , Kore dili için Microsoft Windows kod sayfasıdır . (Wansung Kanunu bir uzantısıdır KS C 5601 : kodlanmış 1987, EUC-KR tüm 11172 olmayan kısmi dahil etmek için) Hangul heceler mevcut Johab (: 1992 ek 3 KS C 5601). Bu , Unicode 2.0 ve sonraki sürümlerde bulunan önceden oluşturulmuş hecelere karşılık gelir .

Wansung Kodunun dezavantajı, yalnızca kendi KS X 1001 (KS C 5601) kod noktalarına sahip 2350 önceden oluşturulmuş Hangul hecesi için kodlar ataması (toplamda 11172 üzerinden, eski jamo kullananları saymaz) ve diğerlerinin sekiz hece kullanmasını gerektirir. Standardın bazı kısmi uygulamaları tarafından desteklenmeyen bayt kompozisyon dizileri. UHC, modern jamo kullanılarak oluşturulan tüm olası heceler için tek kodlar atayarak, KS X 1001 için kullanılan kodlama alanının dışında atamalar yaparak bu sorunu çözer.

Öncü bayt aralığı 0x 81–FE'ye ve iz bayt aralığı 0x41–5A, 0x61–7A ve 0x81–FE'ye genişletilir (EUC-KR'de her iki aralık da 0xA1–FE'dir). EUC-KR aralıkları dışındaki kodlar ek hangul için kullanılır. Ayrı ayrı ele alınırsa hem EUC-KR Hangul bloğu hem de UHC genişletilmiş Hangul bölümü Unicode düzenindedir.

terminoloji

Birleşik Hangul Kodu, İnternet üzerinden bilgi iletmek için bir standart olarak IANA'ya kayıtlı değildir . Alternatifler arasında UTF-8 bulunur . Ancak, HTML5 tarafından kullanılan W3C / WHATWG Kodlama Standardı , Birleşik Hangul Kodu uzantılarını "EUC-KR" tanımına dahil eder.

Microsoft, Windows-949'a, KS X 1001'in kendisine uygun şekilde uygulanan "ks_c_5601-1987" etiketini atar ( KS C 5601 , KS X 1001'in orijinal adıdır). WHATWG, "dağıtılan içerikle uyumlu" olma niyetiyle "ks_c_5601-1987" etiketini "EUC-KR" ile değiştirilerek ele alır. Unicode Consortium geri eşlemeler 's 'OBSOLETE / Avrasya'yla' ayarlamak 'KSX1001.TXT' olarak dahil edilen 7 bit KS x 1001 otomatik olarak türetilmiş eşlemelerle 'KSC5601.TXT' olarak birleştirilmiş Hangul Kod eşlemeler dahil.

IBM'in kod sayfası 949 , EUC-KR'nin başka bir şekilde alakasız uzantısıdır. Unicode için Uluslararası Bileşenler (ICU), bu IBM kod sayfasına atıfta bulunmak için "cp949", "949" veya "ibm-949" ve "ms949" veya "windows-949" (veya "ks_c_5601-1987"nin çeşitli türevleri) kullanır. UHC'nin Windows eşlemesine atıfta bulunmak için. Python , aksine, "cp949", "949", "ms949" ve "uhc"yi UHC için etiketler olarak tanır ve bir IBM-949 codec bileşeni içermez. WHATWG, kod sayfa numarasını içeren etiketlerden yalnızca "windows-949"u tanır.

IBM'in Birleşik Hangul Kodu için kod sayfasına Kod sayfası 1363 ( IBM-1363 ) veya "Korean MS-Win" adı verilir. Bu bir kombinasyonudur SBCS kod sayfa 1126 ve dbcs kodu bulma Bu 0x5c tek bir bayt eşleme olan farklılık 1362. Kazanılmış işareti (U 20A9); Windows, 0x5C'yi U+005C'ye ( ters eğik çizgi için Unicode kod noktası ) ASCII'deki gibi eşler , ancak yazı tipleri genellikle hala bir Won işareti olarak gösterir. Dalga çizgisinin (0xA1AD) Unicode eşlemesi de farklıdır, IBM eşlemesi U+301C'yi tercih ederken, Microsoft eşlemesi U+223C'yi (Tilde Operatörü) tercih eder. UHC için IBM eşlemesi, ICU'da "ibm-1363" olarak mevcuttur, oysa ICU "windows-949" codec bileşeni, bazı ICU kaynak kodu yorumlarında IBM-1261 olarak anılır.

Tek baytlı kodlar

Aşağıda, IBM tarafından tanımlandığı şekliyle kod sayfasının tek baytlık bölümü yer almaktadır. Kod sayfası 437'ye benzer şekilde , kontrol kodu baytları, bağlama bağlı olarak kontrol kodları veya grafik kodlar olarak kullanılabilir—grafik kodlar aşağıda gösterilmiştir. Microsoft, tüm ASCII baytları için ASCII eşlemelerini kullanır, ancak ters eğik çizgi yine de kazanıldı işareti olarak gösterilebilir .

Kod sayfası 1126
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _NS _E _F
0_
0
SIFIR
0000

250C

2510

2514

2518

2502

2500

2022

25D8

25CB

25D9

2642

2640

266A

266B

263C
1_
16

253C

25C4

2195

203C

00B6

2534

252C

2524

2191

251C

2192

2190

221F

2194

25B2

25BC
2_
32
SP
0020
!
0021
"
0022
#
0023
0024 $
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
bir
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
ben
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_
80
P
0050
Q,
0051
R,
0052
S
0053
T
0054
U
0055
V
0056
B
0057
X
0058
Y
0059
Z
005A
[
005B

20A9
]
005D
^
005E
_
005F
6_
96
`
0060
bir
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
saat
0068
ben
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_
112
p
0070
q
0071
r
0072
s
0073
t
0074
u
0075
v
0076
ağırlık
0077
x
0078
y
0079
z
007A
{
007B
|
007C
}
007D
~
007E

2302

  Mektup  Sayı  Noktalama  Sembol  Başka  Tanımsız 437 kod sayfasından  farklılıklar

Dipnotlar

Referanslar

Dış bağlantılar