Elyazısı tanıma - Handwriting recognition

Ülke yıldızı Tex Williams'ın imzası.

El Yazısı Metin Tanıma ( HTR ) olarak da bilinen el yazısı tanıma ( HWR ), bir bilgisayarın kağıt belgeler, fotoğraflar , dokunmatik ekranlar ve diğer cihazlar gibi kaynaklardan elle yazılmış anlaşılır girdileri alma ve yorumlama yeteneğidir . Yazılı metnin görüntüsü, optik tarama ( optik karakter tanıma ) veya akıllı kelime tanıma yoluyla bir kağıt parçasından "çevrimdışı" olarak algılanabilir . Alternatif olarak, kalem ucunun hareketleri, örneğin kalem tabanlı bir bilgisayar ekranı yüzeyi tarafından "çevrimiçi" olarak algılanabilir; bu, daha fazla ipucu olduğu için genellikle daha kolay bir görevdir. Bir el yazısı tanıma sistemi biçimlendirmeyi yönetir, karakterlere doğru segmentasyon yapar ve en makul kelimeleri bulur.

Çevrimdışı tanıma

Çevrimdışı el yazısı tanıma, bir görüntüdeki metnin, bilgisayar ve metin işleme uygulamalarında kullanılabilen harf kodlarına otomatik olarak dönüştürülmesini içerir. Bu form tarafından elde edilen veriler, el yazısının statik bir temsili olarak kabul edilir. Farklı insanlar farklı el yazısı stillerine sahip olduğundan, çevrimdışı el yazısı tanıma nispeten zordur. Ve bugün itibariyle, OCR motorları öncelikle makineyle yazdırılan metne ve elle "basılan" (büyük harflerle yazılmış) metin için ICR'ye odaklanmıştır .

geleneksel teknikler

Karakter çıkarma

Çevrimdışı karakter tanıma genellikle bir form veya belgenin taranmasını içerir. Bu, taranan görüntüde bulunan tek tek karakterlerin çıkarılması gerekeceği anlamına gelir. Bu adımı gerçekleştirebilecek araçlar mevcuttur. Bununla birlikte, bu adımda birkaç yaygın kusur vardır. En yaygın olanı, bağlanan karakterlerin her iki karakteri de içeren tek bir alt görüntü olarak döndürülmesidir. Bu, tanıma aşamasında büyük bir soruna neden olur. Yine de, bağlantılı karakter riskini azaltan birçok algoritma mevcuttur.

Karakter tanıma

Tek tek karakterlerin çıkarılması gerçekleştikten sonra, ilgili bilgisayar karakterini tanımlamak için bir tanıma motoru kullanılır. Şu anda birkaç farklı tanıma tekniği mevcuttur.

Özellik çıkarma

Özellik çıkarma , sinir ağı tanıyıcılarına benzer şekilde çalışır. Ancak, programcılar önemli olduğunu düşündükleri özellikleri manuel olarak belirlemelidir. Bu yaklaşım, tanıyıcıya tanımlamada kullanılan özellikler üzerinde daha fazla kontrol sağlar. Yine de bu yaklaşımı kullanan herhangi bir sistem, özellikler otomatik olarak öğrenilmediği için bir sinir ağından önemli ölçüde daha fazla geliştirme süresi gerektirir.

Modern teknikler

Geleneksel tekniklerin tanıma için tek tek karakterleri bölümlere ayırmaya odaklandığı yerde , modern teknikler bölümlere ayrılmış bir metin satırındaki tüm karakterleri tanımaya odaklanır. Özellikle , daha önce kullanılan sınırlayıcı özellik mühendisliğinden kaçınarak, görsel özellikleri öğrenebilen makine öğrenme tekniklerine odaklanırlar . En gelişmiş yöntemler , tekrarlayan bir sinir ağının karakter olasılıkları üretmek için kullandığı bir metin satırı görüntüsünün birkaç örtüşen penceresi üzerinden görsel özellikleri çıkarmak için evrişimli ağları kullanır.

Çevrimiçi tanıma

Çevrimiçi el yazısı tanıma, özel bir sayısallaştırıcıya veya PDA'ya yazıldığı için metnin otomatik olarak dönüştürülmesini içerir; burada bir sensör, kalem ucu hareketlerini ve kalem yukarı/aşağıya doğru geçişi algılar. Bu tür veriler dijital mürekkep olarak bilinir ve el yazısının dijital bir temsili olarak kabul edilebilir. Elde edilen sinyal, bilgisayar ve metin işleme uygulamalarında kullanılabilen harf kodlarına dönüştürülür.

Çevrimiçi bir el yazısı tanıma arabiriminin öğeleri tipik olarak şunları içerir:

  • kullanıcının yazması için bir kalem veya dijital kalem.
  • bir çıktı ekranına entegre olabilen veya ona bitişik olabilen dokunmaya duyarlı bir yüzey.
  • Yazı yüzeyi boyunca kalemin hareketlerini yorumlayan ve ortaya çıkan vuruşları dijital metne çeviren bir yazılım uygulaması.

Çevrimiçi el yazısı tanıma süreci birkaç genel adıma ayrılabilir:

  • ön işleme,
  • özellik çıkarma ve
  • sınıflandırma

Ön işlemenin amacı, giriş verilerindeki tanımayı olumsuz yönde etkileyebilecek alakasız bilgileri atmaktır. Bu hız ve doğrulukla ilgilidir. Ön işleme genellikle ikilileştirme, normalleştirme, örnekleme, yumuşatma ve gürültü gidermeden oluşur. İkinci adım, özellik çıkarımıdır. Ön işleme algoritmalarından alınan iki veya daha yüksek boyutlu vektör alanından daha yüksek boyutlu veriler çıkarılır. Bu adımın amacı, tanıma modeli için önemli bilgileri vurgulamaktır. Bu veriler, kalem basıncı, hızı veya yazma yönü değişiklikleri gibi bilgileri içerebilir. Son büyük adım sınıflandırmadır. Bu adımda, çıkarılan öznitelikleri farklı sınıflara eşlemek ve böylece özniteliklerin temsil ettiği karakterleri veya sözcükleri belirlemek için çeşitli modeller kullanılır.

Donanım

Klavye girişinin yerine el yazısı tanıma özelliğini içeren ticari ürünler 1980'lerin başında tanıtıldı. Örnekler arasında Pencept Penpad ve Inforite satış noktası terminali gibi el yazısı terminalleri sayılabilir . Kişisel bilgisayarlar için geniş tüketici pazarının ortaya çıkmasıyla birlikte, bir kişisel bilgisayardaki klavye ve fareyi tek bir işaretleme/el yazısı sistemiyle değiştirmek için Pencept, CIC ve diğerleri gibi çeşitli ticari ürünler tanıtıldı. Piyasada bulunan ilk tablet tipi taşınabilir bilgisayar, Eylül 1989'da piyasaya sürülen GRiD Systems'ın GRiDPad'ıydı . İşletim sistemi MS-DOS'a dayanıyordu .

1990'ların başında, NCR , IBM ve EO dahil olmak üzere donanım üreticileri , GO Corp. tarafından geliştirilen PenPoint işletim sistemini çalıştıran tablet bilgisayarları piyasaya sürdü . PenPoint, baştan sona el yazısı tanıma ve jestleri kullandı ve olanakları üçüncü taraf yazılımlara sağladı. IBM'in tablet bilgisayarı, ThinkPad adını kullanan ve IBM'in el yazısı tanıma özelliğini kullanan ilk bilgisayardı . Bu tanıma sistemi daha sonra Pen Computing için Microsoft Windows'a ve OS/2 için IBM'in Pen'ine taşındı . Bunların hiçbiri ticari olarak başarılı olmadı.

Elektronikteki gelişmeler, el yazısı tanıma için gerekli olan bilgi işlem gücünün tablet bilgisayarlardan daha küçük bir form faktörüne sığmasını sağladı ve el yazısı tanıma, genellikle el tipi PDA'lar için bir giriş yöntemi olarak kullanılır . Yazılı girdi sağlayan ilk PDA , halkı akıcı bir kullanıcı arabiriminin avantajına maruz bırakan Apple Newton'du . Ancak, kullanıcının yazı kalıplarını öğrenmeye çalışan yazılımın güvenilmezliği nedeniyle cihaz ticari bir başarı elde edemedi. Modelsiz hata düzeltme gibi mevcut tanıma sistemlerinde hala bulunmayan benzersiz özellikler de dahil olmak üzere, el yazısı tanımanın büyük ölçüde iyileştirildiği Newton OS 2.0'ın piyasaya sürülmesiyle birlikte , büyük ölçüde olumsuz ilk izlenim bırakılmıştı. Apple Newton'un durdurulmasından sonra , özellik Mac OS X 10.2 ve sonraki sürümlerde Inkwell olarak dahil edildi .

Palm daha sonra Graffiti tanıma sistemine dayalı başarılı bir PDA serisi başlattı . Grafiti, her karakter için bir dizi "tek vuruş" veya tek vuruşlu form tanımlayarak kullanılabilirliği geliştirdi. Bu, hatalı giriş olasılığını azalttı, ancak vuruş modellerinin ezberlenmesi kullanıcı için öğrenme eğrisini artırdı. Graffiti el yazısı tanıma özelliğinin Xerox'un sahip olduğu bir patenti ihlal ettiği tespit edildi ve Palm, Graffiti'yi, tek vuruşlu formları desteklerken Xerox patentinden önce gelen CIC el yazısı tanımanın lisanslı bir sürümüyle değiştirdi. Mahkemenin ihlal kararı temyizde bozuldu ve daha sonraki bir temyizde tekrar bozuldu. İlgili taraflar daha sonra bu ve diğer patentlerle ilgili bir anlaşmaya vardılar.

Bir Tablet PC bir olan bir dizüstü bilgisayardır sayısallaştırıcı tablete birimin ekranında El yazısıyla metne bir kullanıcı izin verir ve bir kalemle. İşletim sistemi el yazısını tanır ve onu metne dönüştürür. Windows Vista ve Windows 7 , bir kullanıcının İngilizce, Japonca, Geleneksel Çince, Basitleştirilmiş Çince ve Korece için yazma kalıplarını veya kelime dağarcığını öğrenen kişiselleştirme özellikleri içerir. Özellikler, bir kullanıcının el yazısı örneklerini isteyen ve bunları sistemi daha yüksek doğrulukta tanıma için yeniden eğitmek için kullanan bir "kişiselleştirme sihirbazı" içerir. Bu sistem, PDA'lar için Windows Mobile işletim sisteminde kullanılan daha az gelişmiş el yazısı tanıma sisteminden farklıdır .

El yazısı tanıma, halkın alıştığı bir girdi biçimi olmasına rağmen, ne masaüstü bilgisayarlarda ne de dizüstü bilgisayarlarda yaygın bir kullanıma kavuşamamıştır. Klavye girişinin hem daha hızlı hem de daha güvenilir olduğu hala genel olarak kabul edilmektedir . 2006 itibariyle, birçok PDA el yazısı girişi sunar, hatta bazen doğal bitişik el yazısını bile kabul eder, ancak doğruluk hala bir sorundur ve bazı insanlar hala basit bir ekran klavyesini bile daha verimli bulmaktadır .

Yazılım

İlk yazılımlar, karakterlerin ayrıldığı yerlerde basılı el yazısını anlayabiliyordu; bununla birlikte, birbirine bağlı karakterlere sahip bitişik el yazısı , karakter segmentasyonunu içeren bir zorluk olan Sayre's Paradox'u sundu . 1962'de Shelia Guberman , daha sonra Moskova'da ilk uygulamalı örüntü tanıma programını yazdı. Ticari örnekler Communications Intelligence Corporation ve IBM gibi şirketlerden geldi.

1990'ların başında, iki şirket – ParaGraph International ve Lexicus – bitişik el yazısı tanımayı anlayabilecek sistemler geliştirdi. ParaGraph Rusya merkezli ve bilgisayar bilimcisi Stepan Pachikov tarafından, Lexicus ise Stanford Üniversitesi'nde öğrenci olan Ronjon Nag ve Chris Kortge tarafından kuruldu . ParaGraph CalliGrapher sistemi Apple Newton sistemlerinde konuşlandırıldı ve Lexicus Longhand sistemi PenPoint ve Windows işletim sistemi için ticari olarak kullanıma sunuldu. Lexicus, 1993 yılında Motorola tarafından satın alındı ​​ve Motorola için Çince el yazısı tanıma ve tahmine dayalı metin sistemleri geliştirmeye devam etti . ParaGraph, 1997 yılında SGI tarafından satın alındı ​​ve el yazısı tanıma ekibi, daha sonra Vadem tarafından SGI'dan satın alınan bir P&I bölümü oluşturdu. Microsoft, 1999 yılında Vadem'den P&I tarafından geliştirilen CalliGrapher el yazısı tanıma ve diğer dijital mürekkep teknolojilerini satın aldı.

Wolfram Mathematica (8.0 veya üstü) ayrıca bir el yazısı veya metin tanıma işlevi TextRecognize sağlar.

Araştırma

Sargur Srihari ve Jonathan Hull tarafından geliştirilen ilk el yazısı adres yorumlama sisteminde bağlamsal bilgileri kullanmak için kullanılan yöntem

El yazısı tanıma, onu inceleyen aktif bir akademisyen topluluğuna sahiptir. El yazısı tanıma konusundaki en büyük konferanslar, çift sayılı yıllarda düzenlenen Uluslararası El Yazısı Tanıma Sınırları Konferansı (ICFHR) ve tek sayılı yıllarda düzenlenen Uluslararası Belge Analizi ve Tanıma Konferansıdır (ICDAR). Bu konferansların her ikisi de IEEE ve IAPR tarafından onaylanmıştır . 2021 yılında, ICDAR tutanakları LNCS , Springer tarafından yayınlanacaktır .

Aktif araştırma alanları şunları içerir:

2009'dan beri sonuçlar

2009 yılından bu yana, tekrarlayan sinir ağları ve derin ileri beslemeli araştırma grubunda geliştirilen sinir ağları Jürgen Schmidhuber de İsviçre AI Lab IDSIA çeşitli uluslararası el yazısı yarışmalar kazandı. Özellikle, Alex Graves ve ark.'nın çift ​​yönlü ve çok boyutlu Uzun kısa süreli belleği (LSTM). 2009 Uluslararası Belge Analizi ve Tanıma Konferansı'nda (ICDAR), öğrenilecek üç farklı dil (Fransızca, Arapça, Farsça ) hakkında önceden bilgi sahibi olmadan bağlantılı el yazısı tanıma alanında üç yarışma kazandı . Yeni GPU tabanlı derin öğrenme Dan Ciresan tarafından ileri beslemeli ağlar için yöntem ve de arkadaşları IDSIA ICDAR 2011 çevrimdışı Çinli el yazısı tanıma yarışmasını kazandı; Onların sinir ağları da ünlü üzerindeki insan rekabetçi bir performans elde etmek için ilk yapay desen tanıyıcılar vardı MNIST el yazısıyla basamak sorununa Yann LeCun de ve meslektaşları NYU .

Ayrıca bakınız

Listeler

Referanslar

Dış bağlantılar