Mimik tanıma - Gesture recognition

El konumunu ve hareketini tespit eden basit bir jest tanıma algoritması tarafından algılanan bir çocuk
Hareket tanıma genellikle ara katman yazılımında işlenir , sonuçlar kullanıcı uygulamalarına iletilir.

Hareket tanıma , bilgisayar bilimi ve dil teknolojisinde , insan hareketlerini matematiksel algoritmalar aracılığıyla yorumlamayı amaçlayan bir konudur . Bilgisayarla görmenin bir alt disiplinidir . Hareketler herhangi bir bedensel hareket veya durumdan kaynaklanabilir, ancak genellikle yüz veya elden kaynaklanır . Alandaki güncel odaklar , yüz ve el hareketi tanımadan duygu tanımayı içerir . Kullanıcılar, fiziksel olarak dokunmadan cihazları kontrol etmek veya bunlarla etkileşim kurmak için basit hareketleri kullanabilir. İşaret dilini yorumlamak için kameralar ve bilgisayarla görme algoritmaları kullanılarak birçok yaklaşım yapılmıştır . Bununla birlikte, duruş, yürüyüş, proksemik ve insan davranışlarının tanımlanması ve tanınması da jest tanıma tekniklerinin konusudur. Hareket tanıma, bilgisayarların insan beden dilini anlamaya başlamasının bir yolu olarak görülebilir , böylece makineler ve insanlar arasında ilkel metin kullanıcı arayüzlerinden ve hatta klavyeye girişin çoğunu hala sınırlayan GUI'lerden (grafik kullanıcı arayüzleri) daha zengin bir köprü kurar. ve fare ve herhangi bir mekanik cihaz olmadan doğal olarak etkileşime girer.

genel bakış

Hareket tanıma özellikleri:

  • Daha kesin
  • Yüksek stabilite
  • Bir cihazın kilidini açmak için zaman tasarrufu

Mevcut senaryoda jest tanımanın başlıca uygulama alanları şunlardır:

Hareket tanıma, bilgisayarla görme ve görüntü işleme teknikleriyle gerçekleştirilebilir .

Literatür, bir bilgisayara bağlı kameralar tarafından jestlerin veya daha genel insan pozlarının ve hareketlerinin yakalanması konusunda bilgisayarlı görme alanında devam eden çalışmaları içermektedir .

Hareket tanıma ve kalem hesaplama: Kalem hesaplama, bir sistemin donanım etkisini azaltır ve ayrıca klavye ve fare gibi geleneksel dijital nesnelerin ötesinde kontrol için kullanılabilen fiziksel dünya nesnelerinin aralığını artırır. Bu tür uygulamalar, monitör gerektirmeyen yeni bir donanım yelpazesini mümkün kılabilir. Bu fikir, holografik gösterimin yaratılmasına yol açabilir. Hareket tanıma terimi, bir grafik tablette mürekkep oluşturma , çoklu dokunma hareketleri ve fare hareketi tanıma gibi metin girişi olmayan el yazısı sembollerine daha dar anlamda atıfta bulunmak için kullanılmıştır . Bu, bir işaretleme aygıtı imleci ile sembollerin çizilmesi yoluyla bilgisayar etkileşimidir. (bkz. Kalem hesaplama )

Hareket türleri

Bilgisayar arayüzlerinde iki tür hareket ayırt edilir: Ölçekleme ve döndürme gibi doğrudan manipülasyonlar olarak da kabul edilebilecek çevrimiçi hareketleri ele alıyoruz. Buna karşılık, çevrimdışı hareketler genellikle etkileşim tamamlandıktan sonra işlenir; örneğin bir bağlam menüsünü etkinleştirmek için bir daire çizilir .

  • Çevrimdışı hareketler: Kullanıcının nesneyle etkileşiminden sonra işlenen hareketler. Bir örnek, bir menüyü etkinleştirme hareketidir.
  • Çevrimiçi hareketler: Doğrudan manipülasyon hareketleri. Maddi bir nesneyi ölçeklemek veya döndürmek için kullanılırlar.

Temassız arayüz

Temassız kullanıcı arayüzü, hareket kontrolü ile ilgili olarak gelişen bir teknoloji türüdür. Temassız kullanıcı arayüzü (TUI) , bir klavyeye, fareye veya ekrana dokunmadan bilgisayara vücut hareketi ve jestlerle komut verme işlemidir. Hareket kontrollerine ek olarak dokunmasız arayüz, cihazlarla fiziksel olarak dokunmadan etkileşim kurma yetenekleri sağladıkları için yaygın olarak popüler hale geliyor.

Temassız teknoloji türleri

Akıllı telefonlar, dizüstü bilgisayarlar, oyunlar, televizyon ve müzik ekipmanı gibi bu tür bir arabirimi kullanan bir dizi cihaz vardır.

Bir tür temassız arayüz, bir şirketin ziyaretçi yönetim sistemini etkinleştirmek için bir akıllı telefonun bluetooth bağlantısını kullanır. Bu, COVID-19 salgını sırasında bir arayüze dokunma zorunluluğunu ortadan kaldırır .

Giriş cihazları

Bir kişinin hareketlerini takip etme ve hangi hareketleri yapabileceğini belirleme yeteneği, çeşitli araçlar aracılığıyla elde edilebilir. Kinetik kullanıcı arayüzleri (KUI'ler), kullanıcıların nesnelerin ve cisimlerin hareketi yoluyla bilgi işlem cihazlarıyla etkileşime girmesine izin veren , gelişmekte olan bir kullanıcı arayüzü türüdür. KUI örnekleri arasında somut kullanıcı arabirimleri ve Wii ve Microsoft'un Kinect gibi harekete duyarlı oyunları ve diğer etkileşimli projeler yer alır.

Görüntü/video tabanlı jest tanıma konusunda çok sayıda araştırma yapılmış olmasına rağmen, uygulamalar arasında kullanılan araçlar ve ortamlar arasında bazı farklılıklar vardır.

  • Kablolu eldivenler . Bunlar, manyetik veya atalet izleme cihazları kullanarak ellerin konumu ve dönüşü hakkında bilgisayara girdi sağlayabilir. Ayrıca, bazı eldivenler parmak bükülmesini yüksek derecede bir doğrulukla (5-10 derece) algılayabilir ve hatta kullanıcıya dokunma duyusunun bir simülasyonu olan dokunsal geri bildirim sağlayabilir. Piyasada bulunan ilk el izleme eldiveni tipi cihaz, el pozisyonunu, hareketini ve parmak bükülmesini algılayabilen eldiven tipi bir cihaz olan DataGlove idi. Bu, elin arkasından geçen fiber optik kabloları kullanır. Işık darbeleri oluşturulur ve parmaklar büküldüğünde, ışık küçük çatlaklardan sızar ve kayıp kaydedilir, bu da el pozunun yaklaşık bir değerini verir.
  • Derinliğe duyarlı kameralar. Yapılandırılmış ışık veya uçuş süresi kameraları gibi özel kameralar kullanılarak , kamera aracılığıyla kısa bir mesafede görülenlerin bir derinlik haritası oluşturulabilir ve bu veriler, görülenlerin yaklaşık 3 boyutlu bir temsilini oluşturmak için kullanılabilir. Bunlar, kısa menzilli yetenekleri nedeniyle el hareketlerinin tespiti için etkili olabilir.
  • Stereo kameralar . Birbirleriyle ilişkileri bilinen iki kamera kullanılarak, kameraların çıktısı ile bir 3B gösterime yaklaşılabilir. Kameraların ilişkilerini elde etmek için, sözlük şeridi veya kızılötesi yayıcılar gibi bir konumlandırma referansı kullanılabilir . Doğrudan hareket ölçümü ( 6D-Vision ) ile birlikte hareketler doğrudan algılanabilir.
  • Hareket tabanlı kontrolörler. Bu kontrolörler, vücudun bir uzantısı olarak hareket eder, böylece hareketler yapıldığında, hareketlerinin bir kısmı yazılım tarafından uygun bir şekilde yakalanabilir. Ortaya çıkan jest tabanlı hareket yakalamaya bir örnek, sanal gerçeklik ve artırılmış gerçeklik uygulamaları için geliştirilmekte olan iskelet el takibidir. Bu teknolojinin bir örneği, kullanıcıların çevreleriyle kontrolörler olmadan etkileşime girmesine izin veren izleme şirketleri uSens ve Gestigon tarafından gösterilmektedir .
  • Wi-Fi algılama

Bunun bir başka örneği, fare hareketinin , bir kişinin eli tarafından çizilen bir sembolle ilişkilendirildiği ve hareketleri temsil etmek için zaman içindeki hızlanmadaki değişiklikleri inceleyebilen fare hareketi izlemeleridir . Yazılım ayrıca insan titremesini ve yanlışlıkla yapılan hareketi de telafi eder. Bu akıllı ışık yayan küplerin sensörleri, el ve parmakların yanı sıra yakındaki diğer nesneleri algılamak için kullanılabilir ve verileri işlemek için kullanılabilir. Çoğu uygulama müzik ve ses sentezindedir, ancak diğer alanlara da uygulanabilir.

  • Tek kamera . Kaynakların/ortamın diğer görüntü tabanlı tanıma biçimleri için uygun olmayacağı durumlarda, hareket tanıma için standart bir 2D kamera kullanılabilir. Daha önce tek kameranın stereo veya derinliğe duyarlı kameralar kadar etkili olamayacağı düşünülüyordu, ancak bazı şirketler bu teoriye meydan okuyor. Güçlü el hareketlerini algılayabilen standart bir 2D kamera kullanan yazılım tabanlı hareket tanıma teknolojisi.

algoritmalar

Hareketleri izlemenin ve analiz etmenin farklı yolları mevcuttur ve yukarıdaki şemada bazı temel düzen verilmiştir. Örneğin, hacimsel modeller ayrıntılı bir analiz için gerekli bilgileri iletir, ancak hesaplama gücü açısından çok yoğun olduklarını kanıtlarlar ve gerçek zamanlı analiz için uygulanabilmeleri için daha fazla teknolojik gelişme gerektirirler. Öte yandan, görünüm tabanlı modellerin işlenmesi daha kolaydır, ancak genellikle İnsan-Bilgisayar Etkileşimi için gereken genellikten yoksundur.

Girdi verilerinin türüne bağlı olarak, bir hareketi yorumlama yaklaşımı farklı şekillerde yapılabilir. Ancak tekniklerin çoğu, bir 3B koordinat sisteminde temsil edilen anahtar işaretçilere dayanır. Bunların göreceli hareketine bağlı olarak, girişin kalitesine ve algoritmanın yaklaşımına bağlı olarak hareket yüksek bir doğrulukla algılanabilir.
Bedenin hareketlerini yorumlayabilmek için, bunları ortak özelliklere ve hareketlerin ifade edebileceği mesaja göre sınıflandırmak gerekir. Örneğin, işaret dilinde her hareket bir kelimeyi veya tümceyi temsil eder.

Bazı literatür, jest tanımada 2 farklı yaklaşımı ayırt eder: 3B model tabanlı ve görünüm tabanlı. En önde gelen yöntem, avuç içi konumu veya eklem açıları gibi birkaç önemli parametreyi elde etmek için vücut bölümlerinin temel öğelerinin 3 boyutlu bilgilerini kullanır. Öte yandan, Görünüm tabanlı sistemler, doğrudan yorumlama için görüntüleri veya videoları kullanır.

Gerçek bir el (solda), 3B ağ versiyonunda (sağda) bir tepe noktaları ve çizgiler topluluğu olarak yorumlanır ve yazılım, hareketi anlamak için onların göreli konumlarını ve etkileşimlerini kullanır.

3B model tabanlı algoritmalar

3B model yaklaşımı, hacimsel veya iskelet modelleri veya hatta ikisinin bir kombinasyonunu kullanabilir. Hacimsel yaklaşımlar, bilgisayar animasyon endüstrisinde ve bilgisayarla görü amaçları için yoğun bir şekilde kullanılmaktadır. Modeller genellikle NURBS veya çokgen ağlar gibi karmaşık 3B yüzeylerden oluşturulur.

Bu yöntemin dezavantajı, çok yoğun hesaplama gerektirmesi ve gerçek zamanlı analiz için sistemlerin hala geliştirilme aşamasında olmasıdır. Şu an için daha ilginç bir yaklaşım, basit ilkel nesneleri kişinin en önemli vücut bölümleriyle (örneğin kollar ve boyun için silindirler, kafa için küre) eşleştirmek ve bunların birbirleriyle etkileşim şeklini analiz etmek olacaktır. Ayrıca, süper-kuadrikler ve genelleştirilmiş silindirler gibi bazı soyut yapılar , vücut parçalarını yakınlaştırmak için daha da uygun olabilir.

İskelet versiyonu (sağda) eli (solda) etkili bir şekilde modelliyor. Bu, hacimsel versiyondan daha az parametreye sahiptir ve hesaplanması daha kolaydır, bu da onu gerçek zamanlı jest analiz sistemleri için uygun hale getirir.

İskelet tabanlı algoritmalar

3D modellerin yoğun şekilde işlenmesini ve birçok parametreyle uğraşmak yerine, segment uzunlukları ile birlikte eklem açısı parametrelerinin basitleştirilmiş bir versiyonu kullanılabilir. Bu, kişinin sanal bir iskeletinin hesaplandığı ve vücudun bölümlerinin belirli bölümlere eşlendiği, vücudun iskelet temsili olarak bilinir. Buradaki analiz, bu segmentlerin konumu ve oryantasyonu ve bunların her biri arasındaki ilişki (örneğin eklemler arasındaki açı ve göreceli konum veya oryantasyon) kullanılarak yapılır.

İskelet modellerini kullanmanın avantajları:

  • Algoritmalar daha hızlıdır çünkü yalnızca anahtar parametreler analiz edilir.
  • Bir şablon veritabanına karşı desen eşleştirmesi mümkündür
  • Anahtar noktaların kullanılması, algılama programının vücudun önemli kısımlarına odaklanmasını sağlar.
Bu ikili silüet (sol) veya kontur (sağ) görüntüler, görünüm tabanlı algoritmalar için tipik girdileri temsil eder. Farklı el şablonları ile karşılaştırılır ve eşleşirlerse karşılık gelen jest çıkarımı yapılır.

Görünüm tabanlı modeller

Bu modeller artık vücudun uzamsal bir temsilini kullanmazlar, çünkü parametreleri doğrudan bir şablon veritabanı kullanarak görüntülerden veya videolardan türetirler. Bazıları, vücudun insan bölümlerinin, özellikle de ellerin deforme olabilen 2D şablonlarına dayanmaktadır. Deforme olabilen şablonlar, nesnenin anahat yaklaşımı için enterpolasyon düğümleri olarak kullanılan, bir nesnenin anahattı üzerindeki nokta kümeleridir. En basit enterpolasyon fonksiyonlarından biri, nokta kümelerinden, nokta değişkenlik parametrelerinden ve dış deformasyonlardan ortalama bir şekil gerçekleştiren doğrusaldır. Bu şablon tabanlı modeller çoğunlukla el izleme için kullanılır, ancak basit hareket sınıflandırması için de kullanılabilir.

Görünüm tabanlı modeller kullanan jest algılamada ikinci bir yaklaşım, hareket şablonları olarak görüntü dizilerini kullanır. Bu yöntemin parametreleri ya görüntülerin kendisidir ya da bunlardan türetilen belirli özelliklerdir. Çoğu zaman, yalnızca bir (monoskopik) veya iki (stereoskopik) görünüm kullanılır.

Elektromiyografi tabanlı modeller

Elektromiyografi (EMG), vücuttaki kaslar tarafından üretilen elektrik sinyallerinin incelenmesi ile ilgilidir. Kol kaslarından alınan verilerin sınıflandırılması ile hareketin sınıflandırılması ve böylece hareketin harici bir yazılıma girilmesi mümkündür. Tüketici EMG cihazları, kol veya bacak bandı gibi invaziv olmayan yaklaşımlara izin verir ve bluetooth üzerinden bağlanır. Bu nedenle, EMG'nin görsel yöntemlere göre bir avantajı vardır, çünkü kullanıcının girdi vermek için bir kamerayla yüzleşmesine gerek yoktur, bu da daha fazla hareket özgürlüğü sağlar.

Zorluklar

Hareket tanıma yazılımının doğruluğu ve kullanışlılığıyla ilgili birçok zorluk vardır. Görüntü tabanlı jest tanıma için kullanılan ekipman ve görüntü gürültüsüyle ilgili sınırlamalar vardır . Görüntüler veya videolar, tutarlı aydınlatma altında veya aynı yerde olmayabilir. Arka planda yer alan öğeler veya kullanıcıların ayırt edici özellikleri, tanınmayı zorlaştırabilir.

Görüntü tabanlı jest tanıma uygulamalarının çeşitliliği, teknolojinin genel kullanıma uygunluğu konusunda da sorun yaratabilir. Örneğin, bir kamera için kalibre edilmiş bir algoritma, farklı bir kamera için çalışmayabilir. Arka plan gürültüsünün miktarı, özellikle tıkanmalar (kısmi ve tam) meydana geldiğinde, izleme ve tanıma zorluklarına da neden olur. Ayrıca, kameradan uzaklık ve kameranın çözünürlüğü ve kalitesi de tanıma doğruluğunda farklılıklara neden olur.

İnsan hareketlerini görsel sensörlerle yakalamak için, örneğin el izleme ve el duruşu tanıma veya kafa hareketlerini, yüz ifadelerini veya bakış yönünü yakalamak için sağlam bilgisayarlı görme yöntemleri de gereklidir.

Sosyal kabul edilebilirlik

Akıllı telefonlar ve akıllı saatler gibi tüketici mobil cihazlarında jest arayüzlerinin benimsenmesine yönelik önemli bir zorluk, jestsel girdinin sosyal kabul edilebilirlik sonuçlarından kaynaklanmaktadır. Hareketler birçok yeni form faktörlü bilgisayarda hızlı ve doğru girişi kolaylaştırabilirken, benimsenmeleri ve kullanışlılıkları genellikle teknik faktörlerden ziyade sosyal faktörlerle sınırlıdır. Bu amaçla, jest giriş yöntemlerinin tasarımcıları, hem teknik hususları hem de kullanıcının jestleri farklı sosyal bağlamlarda gerçekleştirme isteğini dengelemeye çalışabilir. Ayrıca, farklı cihaz donanımı ve algılama mekanizmaları, farklı türde tanınabilir hareketleri destekler.

Mobil cihaz

Mobil ve küçük form faktörlü aygıtlardaki hareket arayüzleri, genellikle eylemsizlik ölçüm birimleri (IMU'lar) gibi hareket sensörlerinin varlığıyla desteklenir . Bu cihazlarda hareket algılama, kullanıcıların bu hareket sensörleri tarafından tanınabilen harekete dayalı hareketler gerçekleştirmesine dayanır. Bu, doğal hareketlerden veya gürültüden ayırt edilmesi zorlaşabileceğinden, ince veya düşük hareketli hareketlerden sinyal yakalamayı potansiyel olarak zorlaştırabilir. Araştırmacılar, jest kullanılabilirliği üzerine bir anket ve çalışma yoluyla, mevcut teknolojiye benzer görünen, her harekete benzer görünen veya hissedilen ve zevkli olan ince hareketleri içeren jestlerin kullanıcılar tarafından kabul edilme olasılığının daha yüksek olduğunu buldular. garip, gerçekleştirmesi rahatsız edici, iletişimi engelliyor veya kullanıcıların kullanımlarını reddetme olasılıklarının daha yüksek olmasına neden olan olağandışı hareketler içeriyor. Mobil cihaz hareketlerinin sosyal olarak kabul edilebilirliği, büyük ölçüde hareketin doğallığına ve sosyal bağlama bağlıdır.

Vücut ve giyilebilir bilgisayarlar

Giyilebilir bilgisayarlar , kullanım ve etkileşim konumlarının kullanıcının vücudunda yer alması bakımından tipik olarak geleneksel mobil cihazlardan farklıdır . Bu bağlamlarda, küçük boyutları dokunmatik ekranları veya klavyeleri daha az çekici hale getirdiğinden, hareket arayüzleri geleneksel giriş yöntemlerine göre tercih edilebilir hale gelebilir . Bununla birlikte, hareketle etkileşim söz konusu olduğunda, mobil cihazlarla aynı sosyal kabul edilebilirlik engellerinin çoğunu paylaşırlar. Bununla birlikte, giyilebilir bilgisayarların gözden gizlenme veya giyim gibi diğer günlük nesnelere entegre olma olasılığı, bir gömlek yakasını ayarlamak veya ön pantolon cebini ovmak gibi genel giyim etkileşimlerini taklit etmek için jest girdisine izin verir. Giyilebilir bilgisayar etkileşimi için önemli bir husus, cihaz yerleşimi ve etkileşimi için konumdur. Amerika Birleşik Devletleri ve Güney Kore'de giyilebilir cihaz etkileşimine yönelik üçüncü tarafların tutumlarını araştıran bir araştırma , kısmen vücudun sosyal açıdan hassas olarak kabul edilen farklı alanlarından dolayı, erkek ve kadınların giyilebilir bilgisayar kullanımı algısında farklılıklar buldu. Vücut üzerine yansıtılan arayüzlerin sosyal kabul edilebilirliğini araştıran bir başka çalışmada, her iki çalışmanın da bel, kasık ve üst vücut (kadınlar için) çevresindeki alanları en az kabul edilebilir, önkol ve bilek çevresindeki alanları ise en kabul edilebilir olarak etiketlediği benzer sonuçlar bulundu.

Kamu tesisleri

Etkileşimli halka açık sergiler gibi Kamu Tesisleri , müzeler, galeriler ve tiyatrolar gibi kamuya açık ortamlarda bilgiye erişime ve etkileşimli medyanın görüntülenmesine izin verir. Dokunmatik ekranlar, genel ekranlar için sık kullanılan bir girdi biçimi olsa da, hareket arayüzleri gelişmiş hijyen, uzaktan etkileşim, iyileştirilmiş keşfedilebilirlik gibi ek faydalar sağlar ve performatif etkileşimi destekleyebilir. Halka açık gösterilerle jestsel etkileşim için önemli bir husus, izleyici kitlesinin yüksek olasılığı veya beklentisidir.

"Goril kolu"

"Goril kol", dikey olarak yönlendirilmiş dokunmatik ekran veya ışıklı kalem kullanımının bir yan etkisiydi. Uzun süreli kullanımlarda, kullanıcıların kollarında yorgunluk ve/veya rahatsızlık hissetmeye başladı. Bu etki, 1980'lerdeki ilk popülerliğe rağmen dokunmatik ekran girişinin azalmasına katkıda bulundu.

Kol yorgunluğunu ve goril kol yan etkisini ölçmek için araştırmacılar, Tüketilen Dayanıklılık adlı bir teknik geliştirdiler.

Ayrıca bakınız

Referanslar

Dış bağlantılar