Bilgi Değişimi için Hint Komut Dosyası Kodu - Indian Script Code for Information Interchange

Indian Script Code for Information Interchange ( ISCII ), Hindistan'ın çeşitli yazı sistemlerini temsil eden bir kodlama şemasıdır . Ana Hint yazılarını ve bir Roma harf çevirisini kodlar . Desteklenen komut dosyaları şunlardır: Assamese , Bengalce (Bangla) , Devanagari , Gujarati , Gurmukhi , Kannada , Malayalam , Oriya , Tamil ve Telugu . ISCII, Hindistan'ın Farsçaya dayalı yazı sistemlerini kodlamaz , ancak yazı sistemi değiştirme kodları yine de Keşmirce , Sindhi , Urduca , Farsça , Peştuca ve Arapça'yı sağlar . Farsça tabanlı yazı sistemleri daha sonra PASCII kodlamasında kodlanmıştır .

Klasik Mac OS'de ATR mekanizması olmayan bir varyant kullanılmış olmasına rağmen, ISCII belirli devlet kurumlarının dışında yaygın olarak kullanılmamıştır ve artık Unicode tarafından büyük ölçüde geçersiz kılınmıştır . Unicode, her Hint yazı sistemi için ayrı bir blok kullanır ve büyük ölçüde her blok içindeki ISCII düzenini korur.

Arka fon

Brahmi kökenli yazı sistemleri benzer bir yapıya sahiptir. Böylece ISCII, aynı fonetik değere sahip harfleri aynı kod noktasında, çeşitli komut dosyalarının üzerine bindirerek kodlar. Örneğin, 0xB3 0xDB ISCII kodları [ki] 'yi temsil eder. Bu, Malayalam'da കി, Devanagari'de कि, Gurmukhi'de ਕਿ ve Tamilce'de as olarak çevrilecektir. Yazı sistemi, işaretleme ile zengin metin olarak veya aşağıda açıklanan ATR kodu ile düz metin olarak seçilebilir .

Tek bir kodlamanın kullanılması için bir motivasyon , bir yazı sisteminden diğerine kolay harf çevirisine izin vereceği fikridir . Ancak, bunun gerçekten pratik bir fikir olmadığı yeterince uyumsuzluk var.

ISCII, 8 bitlik bir kodlamadır. Alt 128 kod noktası düz ASCII , üst 128 kod noktası ISCII'ye özgüdür. Karakterleri temsil eden kod noktalarına ek olarak, ISCII yapar hafıza ile bir kod noktası kullanımı ATR aşağıdaki bayt bilgi iki çeşitten biri içerdiğini gösterir. Bir değer kümesi, yazma sistemini bir sonraki yazma sistemi göstergesine veya satır sonuna kadar değiştirir. Başka bir değer kümesi, kalın ve italik gibi görüntüleme modlarını seçer. ISCII, varsayılan yazma sistemini belirtmek için bir araç sağlamaz.

Kod sayfası düzeni

Aşağıdaki tablo Devanagari için karakter kümesini göstermektedir . Assamese, Bengalce, Gujarati, Gurmukhi, Kannada, Malayalam, Oriya, Tamil ve Telugu için kod setleri benzerdir ve her bir Devanagari formu her yazı sisteminde eşdeğer formla değiştirilir . Her karakter, ondalık kodu ve Unicode eşdeğeri ile gösterilir.

ISCII Devanagari
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _A _B _C _D _E _F
0_
0
SIFIR
0000
SOH
0001
STX
0002
ETX
0003
EOT
0004
ENQ
0005
ACK
0006
BEL
0007
BS
0008
HT
0009
LF
000A
VT
000B
FF
000C
CR
000D
SO
000E
SI
000F
1_
16
DLE
0010
DC1
0011
DC2
0012
DC3
0013
DC4
0014
NAK
0015
SYN
0016
ETB
0017
CAN
0018
EM
0019
ALT
001A
ESC
001B
FS
001C
GS
001D
RS
001E
ABD
001F
2_
32
SP
0020
!
0021
"
0022
#
0023
0024 ABD doları
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_
48
0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_
64
@
0040
bir
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
I
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_
80
P
0050
Q
0051
R,
0052
Ç
0053
T
0054
U
0055
V
0056
B
0057
X
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_
96
`
0060
bir
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
saat
0068
ben
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_
112
p
0070
q
0071
r
0072
s
0073
t
0074
u
0075
v
0076
ağırlık
0077
x
0078
y
0079
z
007A
{
007B
|
007C
}
007D
~
007E
DEL
007F
8_
128
9_
144
A_
160

0901

0902

0903

0905

0906

0907

0908

0909

090A

090B

090E

090F

0910

090D

0912
B_
176

0913

0914

0911

0915

0916

0917

0918

0919

091A

091B

091C

091D

091E

091F

0920

0921
C_
192

0922

0923

0924

0925

0926

0927

0928

0929

092A

092B

092C

092D

092E

092F
य़
095F

0930
D_
208

0931
l
0932

0933
ऴ
0934

0935

0936

0937

0938

0939
INV
 
93
093E
ि
093F
e
0940

0941

0942

0943
E_
224

0946
n
0947

0948

0945

094A

094B

094C

0949

094D

093C

0964
ATR
 
F_
240
HARİCİ
 

0966

0967
2
0968

0969

096A

096B

096C

096D

096E

096F

  mektup  Numara  Noktalama  Sembol  Diğer  Tanımsız

Özel kod noktaları

INV karakteri—kod noktası D9 (217)
INV (görünmez ünsüz) karakteri, birleştirme öğelerini yalıtılmış olarak görüntülemek için sözde ünsüz olarak kullanılır. Örneğin, क (ka) + ् (halant) + INV = क्‍ (yarım ka). Unicode eşdeğeri U+200D ZERO WIDTH JOINER'dır ( ZWJ ). Bununla birlikte, aşağıda belirtildiği gibi , Unicode'da ZWNJ veya ZWJ tarafından oluşturulan efektleri elde etmek için ISCII sabit karakteri iki katına çıkarılabilir veya ISCII nukta ile birleştirilebilir . Bu nedenle Apple , ISCII INV karakterini Unicode soldan sağa işaretiyle eşler , böylece gidiş- dönüş garanti edilir .
ATR karakteri—kod noktası EF (239)
Bir bayt kodunun ardından gelen ATR (öznitelik) karakteri , bir sonraki ATR dizisine veya sonuna kadar farklı bir yazı tipi özniteliğine (kalın gibi) veya farklı bir ISCII veya PASCII diline (Bengalce gibi) geçmek için kullanılır. hat. Yazı tipi nitelikleri Unicode'un parçası olmadığından ve her komut dosyasının ayrı bir kod noktası kümesi olduğundan, bunun doğrudan Unicode eşdeğeri yoktur.
Sunum özellikleri
ATR + bayt anımsatıcı Biçimlendirme seçeneği
0x30 BLD kalın
0x31 ITA italik
0x32 UL altı çizili
0x33 tecrübe Genişletilmiş
0x34 HLT Vurgulamak
0x35 OTL anahat
0x36 SHD Gölge
0x37 ÜST Karakterin üst yarısı (çift yükseklikte karakterler oluşturmak için DÜŞÜK ile kullanılır)
0x38 DÜŞÜK Karakterin alt yarısı (çift yükseklikte karakterler oluşturmak için TOP ile birlikte kullanılır)
0x39 DBL Tüm sıra çift genişlik ve çift yükseklik
ISCII komut dosyalarına geçer
ATR + bayt anımsatıcı ISCII komut dosyası
0x40 DEF Varsayılan komut dosyası (yani, bir satır kesilmesinden sonra geri alınacak komut dosyası)
0x41 RMN Romanlaştırılmış harf çevirisi
0x42 DEV Devanagari
0x43 BNG Bengalce komut dosyası
0x44 TML Tamilce komut dosyası
0x45 TLG Telugu alfabesi
0x46 ASM Assam alfabesi
0x47 ORI Odia komut dosyası
0x48 KND Kannada alfabesi
0x49 MLM Malayalam alfabesi
0x4A GJR Gujarati alfabesi
0x4B PNJ Gurmukhī
İçin kaymalar PASCII
ATR + bayt anımsatıcı PASCII yerel ayarı
0x71 ARB Arap alfabesi
0x72 PES fars alfabesi
0x73 URD Urdu alfabesi
0x74 SND Sindhi alfabesi
0x75 KSM Keşmir alfabesi
0x76 PST Peştuca alfabesi
EXT karakter—kod noktası F0 (240)
EXT (Vedik için uzantılar) karakteri ve ardından bir bayt kodu bir Vedik aksanı gösterir. Vedik vurgular farklı kod noktalarına atandığından, bunun doğrudan Unicode eşdeğeri yoktur.
Sabit karakter : kod noktası E8 (232)
Kalıcı karakter, bir ünsüzden örtük sesli harfi çıkarır ve ünsüzler arasında birleşik ünsüzleri temsil etmek için kullanılır. Örneğin, क (ka) + ् (halant) + त (ta) = क्त (kta). ् (halant) + ् (halant) dizisi, açık bir sabit ile bir bağlaç görüntüler, örneğin क (ka) + ् (halant) + ् (halant) + त (ta) = क्‌त. ् (halant) + ़ (nukta) dizisi, eğer varsa, yarı ünsüzlerle birleşik görüntüler, örneğin क (ka) + ् (halant) + ़ (nukta) + त (ta) = क्‍त.
ISCII ve Unicode halent/virama davranışı arasındaki yazışmalar
ISCII tek kod
tek halant E8 kalıcı 094D
halat + halat E8 E8 kalıcı + ZWNJ 094D 200C
halant + nukta E8 E9 kalıcı + ZWJ 094D 200D
Nukta karakteri ़— kod noktası E9 (233)
Bir diğer ISCII karakterinden sonra gelen nukta karakteri, ana ISCII setinde mevcut olmayan birkaç daha nadir karakter için kullanılır. Örneğin क (ka) + ़ (nukta) = क़ (qa). Bu karakterler, aşağıdaki tabloda gösterildiği gibi, Unicode'da önceden oluşturulmuş formlara sahiptir.
ISCII nukta dizilerine karşılık gelen tek Unicode karakterler
ISCII
kod noktası
Orijinal
karakter
Karakter
nukta ile
Unicode
kod noktası
A1 (161) 0950
A6 (166) 090C
A7 (167) 0961
AA (176) 0960
B3 (179) क़ 0958
B4 (180) ख़ 0959
B5 (181) ग़ 095A
BA (186) ज़ 095B
en iyi kadın (191) ड़ 095C
C0 (192) ढ़ 095D
C9 (201) फ़ 095E
DB (219) ि 0962
DC (220) e 0963
DF (223) 0944
EA (234) 093D

ISCII dönüşümü için kod sayfaları

Unicode'dan (UTF-8) bir ISCII / ANSI kodlamasına dönüştürmek için aşağıdaki kod sayfaları kullanılabilir:

  • 57002: Devanagari (Hintçe, Marathi, Sanskritçe, Konkani)
  • 57003: Bengalce
  • 57004: Tamilce
  • 57005: Telugu
  • 57006: Assam dili
  • 57007: Odia
  • 57008: Kannada
  • 57009: Malayalamca
  • 57010: Gujarati
  • 57011: Pencap (Gurmukhi)

Tüm diller için kod noktaları

Referanslar

Dış bağlantılar