Birleşik Hangul Kodu - Unified Hangul Code
takma ad(lar) | Windows Kod Sayfası 949, IBM Kod Sayfası 1363 |
---|---|
Diller) | Koreli |
Standart | WHATWG Kodlama Standardı ("EUC-KR" olarak) |
sınıflandırma | Genişletilmiş ISO 646 , değişken genişlikli kodlama , CJK kodlaması |
uzatır | EUC-KR |
Diğer ilgili kodlama(lar) | KPS 9566 -2003 , KPS 9566-2011 |
Microsoft Windows altında Kod Sayfası 949 ( Windows-949 , MS949 veya belirsiz bir şekilde CP949 ) olarak da bilinen Birleşik Hangul Kodu ( UHC ) veya Genişletilmiş Wansung , Kore dili için Microsoft Windows kod sayfasıdır . (Wansung Kanunu bir uzantısıdır KS C 5601 : kodlanmış 1987, EUC-KR tüm 11172 olmayan kısmi dahil etmek için) Hangul heceler mevcut Johab (: 1992 ek 3 KS C 5601). Bu , Unicode 2.0 ve sonraki sürümlerde bulunan önceden oluşturulmuş hecelere karşılık gelir .
Wansung Kodunun dezavantajı, yalnızca kendi KS X 1001 (KS C 5601) kod noktalarına sahip 2350 önceden oluşturulmuş Hangul hecesi için kodlar ataması (toplamda 11172 üzerinden, eski jamo kullananları saymaz) ve diğerlerinin sekiz hece kullanmasını gerektirir. Standardın bazı kısmi uygulamaları tarafından desteklenmeyen bayt kompozisyon dizileri. UHC, modern jamo kullanılarak oluşturulan tüm olası heceler için tek kodlar atayarak, KS X 1001 için kullanılan kodlama alanının dışında atamalar yaparak bu sorunu çözer.
Öncü bayt aralığı 0x 81–FE'ye ve iz bayt aralığı 0x41–5A, 0x61–7A ve 0x81–FE'ye genişletilir (EUC-KR'de her iki aralık da 0xA1–FE'dir). EUC-KR aralıkları dışındaki kodlar ek hangul için kullanılır. Ayrı ayrı ele alınırsa hem EUC-KR Hangul bloğu hem de UHC genişletilmiş Hangul bölümü Unicode düzenindedir.
terminoloji
Birleşik Hangul Kodu, İnternet üzerinden bilgi iletmek için bir standart olarak IANA'ya kayıtlı değildir . Alternatifler arasında UTF-8 bulunur . Ancak, HTML5 tarafından kullanılan W3C / WHATWG Kodlama Standardı , Birleşik Hangul Kodu uzantılarını "EUC-KR" tanımına dahil eder.
Microsoft, Windows-949'a, KS X 1001'in kendisine uygun şekilde uygulanan "ks_c_5601-1987" etiketini atar ( KS C 5601 , KS X 1001'in orijinal adıdır). WHATWG, "dağıtılan içerikle uyumlu" olma niyetiyle "ks_c_5601-1987" etiketini "EUC-KR" ile değiştirilerek ele alır. Unicode Consortium geri eşlemeler 's 'OBSOLETE / Avrasya'yla' ayarlamak 'KSX1001.TXT' olarak dahil edilen 7 bit KS x 1001 otomatik olarak türetilmiş eşlemelerle 'KSC5601.TXT' olarak birleştirilmiş Hangul Kod eşlemeler dahil.
IBM'in kod sayfası 949 , EUC-KR'nin başka bir şekilde alakasız uzantısıdır. Unicode için Uluslararası Bileşenler (ICU), bu IBM kod sayfasına atıfta bulunmak için "cp949", "949" veya "ibm-949" ve "ms949" veya "windows-949" (veya "ks_c_5601-1987"nin çeşitli türevleri) kullanır. UHC'nin Windows eşlemesine atıfta bulunmak için. Python , aksine, "cp949", "949", "ms949" ve "uhc"yi UHC için etiketler olarak tanır ve bir IBM-949 codec bileşeni içermez. WHATWG, kod sayfa numarasını içeren etiketlerden yalnızca "windows-949"u tanır.
IBM'in Birleşik Hangul Kodu için kod sayfasına Kod sayfası 1363 ( IBM-1363 ) veya "Korean MS-Win" adı verilir. Bu bir kombinasyonudur SBCS kod sayfa 1126 ve dbcs kodu bulma Bu 0x5c tek bir bayt eşleme olan farklılık 1362. Kazanılmış işareti (U 20A9); Windows, 0x5C'yi U+005C'ye ( ters eğik çizgi için Unicode kod noktası ) ASCII'deki gibi eşler , ancak yazı tipleri genellikle hala bir Won işareti olarak gösterir. Dalga çizgisinin (0xA1AD) Unicode eşlemesi de farklıdır, IBM eşlemesi U+301C'yi tercih ederken, Microsoft eşlemesi U+223C'yi (Tilde Operatörü) tercih eder. UHC için IBM eşlemesi, ICU'da "ibm-1363" olarak mevcuttur, oysa ICU "windows-949" codec bileşeni, bazı ICU kaynak kodu yorumlarında IBM-1261 olarak anılır.
Tek baytlı kodlar
Aşağıda, IBM tarafından tanımlandığı şekliyle kod sayfasının tek baytlık bölümü yer almaktadır. Kod sayfası 437'ye benzer şekilde , kontrol kodu baytları, bağlama bağlı olarak kontrol kodları veya grafik kodlar olarak kullanılabilir—grafik kodlar aşağıda gösterilmiştir. Microsoft, tüm ASCII baytları için ASCII eşlemelerini kullanır, ancak ters eğik çizgi yine de kazanıldı işareti olarak gösterilebilir .
_0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _A | _B | _C | _NS | _E | _F | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0_ 0 |
SIFIR 0000 |
┌ 250C |
┐ 2510 |
└ 2514 |
┘ 2518 |
│ 2502 |
─ 2500 |
• 2022 |
◘ 25D8 |
○ 25CB |
◙ 25D9 |
♂ 2642 |
♀ 2640 |
♪ 266A |
♫ 266B |
☼ 263C |
1_ 16 |
┼ 253C |
◄ 25C4 |
↕ 2195 |
‼ 203C |
¶ 00B6 |
┴ 2534 |
┬ 252C |
┤ 2524 |
↑ 2191 |
├ 251C |
→ 2192 |
← 2190 |
∟ 221F |
↔ 2194 |
▲ 25B2 |
▼ 25BC |
2_ 32 |
SP 0020 |
! 0021 |
" 0022 |
# 0023 |
0024 $ |
% 0025 |
& 0026 |
' 0027 |
( 0028 |
) 0029 |
* 002A |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
3_ 48 |
0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
4_ 64 |
@ 0040 |
bir 0041 |
B 0042 |
C 0043 |
D 0044 |
E 0045 |
F 0046 |
G 0047 |
H 0048 |
ben 0049 |
J 004A |
K 004B |
L 004C |
M 004D |
N 004E |
O 004F |
5_ 80 |
P 0050 |
Q, 0051 |
R, 0052 |
S 0053 |
T 0054 |
U 0055 |
V 0056 |
B 0057 |
X 0058 |
Y 0059 |
Z 005A |
[ 005B |
₩ 20A9 |
] 005D |
^ 005E |
_ 005F |
6_ 96 |
` 0060 |
bir 0061 |
b 0062 |
c 0063 |
d 0064 |
e 0065 |
f 0066 |
g 0067 |
saat 0068 |
ben 0069 |
j 006A |
k 006B |
l 006C |
m 006D |
n 006E |
o 006F |
7_ 112 |
p 0070 |
q 0071 |
r 0072 |
s 0073 |
t 0074 |
u 0075 |
v 0076 |
ağırlık 0077 |
x 0078 |
y 0079 |
z 007A |
{ 007B |
| 007C |
} 007D |
~ 007E |
⌂ 2302 |
Mektup Sayı Noktalama Sembol Başka Tanımsız 437 kod sayfasından farklılıklar
Dipnotlar
Referanslar
Dış bağlantılar
- Microsoft'un Windows-949 Referansı
- IBM'in IBM-1363 belgeleri
- Windows-949'un Unicode ile Eşlenmesi
- Unicode (ICU) eşleme dosyaları için Uluslararası Bileşenler: ibm-1363_P110-1997.ucm , ibm-1363_P11B-1998.ucm ve windows-949-2000.ucm
- Windows-949 için ICU gösterimi (ASCII eşlemeleri ile)
- IBM-1363 için ICU gösterimi (Won işareti olarak 0x5C ile)