Kod noktası - Code point

Gelen karakter kodlayan terminoloji, kod noktası ya da kod konumu oluşturan sayısal değerler, herhangi bir KodAralığı . Birçok kod noktası tek karakterleri temsil eder, ancak biçimlendirme gibi başka anlamları da olabilir.

Örneğin, karakter kodlama şeması ASCII , 0 _hex ila 7F _hex aralığında 128 kod noktasından oluşur , Genişletilmiş ASCII, 0 _hex ila FF _hex aralığında 256 kod noktasından oluşur ve Unicode , 0 _hex ila 10FFFF _hex aralığında 1.114.112 kod noktasından oluşur. . Unicode kod alanı , her biri 65.536 (= 2 ¹⁶ ) kod noktasına sahip on yedi düzleme (temel çok dilli düzlem ve 16 tamamlayıcı düzlem) bölünmüştür . Böylece Unicode kod uzayının toplam boyutu 17 × 65.536 = 1.114.112'dir.

Tanım

Bir kod noktası kavramı, her ikisini de ayırt etmek için soyutlama için kullanılır:

bit dizisi olarak kodlamadan gelen sayı ve
belirli bir grafik gösterimden ( glif ) soyut karakter .

Bunun nedeni, aşağıdakiler için bu ayrımları yapmak isteyebileceğidir:

belirli bir kod alanını farklı şekillerde kodlamak veya
farklı glifler aracılığıyla bir karakter görüntüler.

Unicode için, belirli bit dizisine kod birimi denir - UCS-4 kodlaması için, herhangi bir kod noktası 4 bayt ( sekizli ) ikili sayılar olarak kodlanırken , UTF-8 kodlamasında farklı kod noktaları şu şekilde kodlanır: bir ila dört bayt uzunluğunda diziler, kendi kendini senkronize eden bir kod oluşturur . Ayrıntılar için Unicode kodlamalarının karşılaştırmasına bakın . Kod noktaları normalde soyut karakterlere atanır . Bir soyut karakter grafiksel glif ama metinsel verilerin bir birim değildir. Bununla birlikte, kod noktaları gelecekteki atamalar için ayrılmış olarak bırakılabilir (Unicode kod alanının çoğu atanmamıştır) veya diğer atanmış işlevler verilebilir.

Bir kod noktası ile karşılık gelen soyut karakter arasındaki ayrım, Unicode'da belirgin değildir, ancak tek bir kod alanı için çok sayıda kod sayfasının bulunabileceği diğer birçok kodlama şeması için belirgindir .

Tarih

Kod noktası kavramı, Unicode'un 1980'lerde karakter kodlama geliştiricilerinin karşılaştığı zorlu bir bilmeceye çözümünün bir parçasıdır. Daha büyük karakter kümelerini barındırmak için karakter başına daha fazla bit eklerlerse, bu tasarım kararı aynı zamanda Latin alfabesi kullanıcıları için (o zamanlar bilgisayar kullanıcılarının büyük çoğunluğunu oluşturan) o zamanlar kıt olan bilgi işlem kaynaklarının kabul edilemez bir israfı anlamına gelir , çünkü bu ekstra bitler bu tür kullanıcılar için her zaman sıfırlanır. Kod noktası, karakterler ve belirli bit dizileri arasında doğrudan bire bir yazışma eski fikrini kırarak bu sorunu önler.

Ayrıca bakınız

Referanslar

Dış bağlantılar

Codepoints.net, karakterlere, harflere ve Unicode'a ait her şeye adanmış bir site

Languages

In other projects