Duygu tanıma - Emotion recognition

Duygu tanıma , insan duygularını tanımlama sürecidir . İnsanlar, başkalarının duygularını tanımadaki doğruluklarında büyük farklılıklar gösterir. Duygu tanıma konusunda insanlara yardımcı olmak için teknolojinin kullanımı, nispeten yeni bir araştırma alanıdır. Genel olarak, teknoloji , bağlamda birden çok modalite kullanıyorsa en iyi sonucu verir . Bugüne kadar, çoğu çalışma, videodan yüz ifadelerinin, sesten konuşulan ifadelerin, metinden yazılı ifadelerin ve giyilebilir cihazlarla ölçülen fizyolojinin tanınmasını otomatikleştirme üzerine yapılmıştır .

İnsan

İnsanlar, duyguları tanıma yeteneklerinde büyük bir değişkenlik gösterirler. Otomatik duygu tanıma hakkında bilgi edinirken akılda tutulması gereken önemli bir nokta, birkaç "temel gerçeği" veya gerçek duygunun ne olduğuyla ilgili gerçeğin olduğudur. Alex'in duygularını tanımaya çalıştığımızı varsayalım. Kaynaklardan biri "çoğu insan Alex'in ne hissettiğini söylerdi?" Bu durumda, 'gerçek' Alex'in hissettikleriyle örtüşmeyebilir, ancak çoğu insanın Alex'in hissettiği gibi göründüğünü söylediği şeye karşılık gelebilir. Örneğin, Alex gerçekten üzgün hissedebilir, ancak kocaman bir gülümseme takınır ve ardından çoğu insan onun mutlu göründüğünü söyler. Otomatik bir yöntem, bir grup gözlemciyle aynı sonuçları elde ederse, Alex'in gerçekte ne hissettiğini gerçekten ölçmese bile, doğru olarak kabul edilebilir. Bir başka 'gerçeğin' kaynağı, Alex'e gerçekten ne hissettiğini sormaktır. Bu, Alex'in içsel durumu hakkında iyi bir sezgisine sahipse ve bunun ne olduğunu size söylemek istiyorsa ve bunu sözcüklere veya sayılara doğru bir şekilde aktarabiliyorsa işe yarar. Bununla birlikte, bazı insanlar aleksitimiktir ve içsel duygularını iyi anlamazlar veya bunları kelimeler ve sayılarla doğru bir şekilde iletemezler. Genel olarak, hangi duygunun gerçekten var olduğu gerçeğine ulaşmak biraz çalışma gerektirebilir, seçilen kriterlere bağlı olarak değişebilir ve genellikle bir miktar belirsizliği korumayı gerektirir.

Otomatik

Otomatik duygu tanıma için yöntemler geliştiren ve değerlendiren onlarca yıllık bilimsel araştırma yapılmıştır. Sinyal işleme , makine öğrenimi , bilgisayarla görme ve konuşma işleme gibi birden çok alandaki tekniklerden yararlanan, yüzlerce farklı türde yöntemi öneren ve değerlendiren kapsamlı bir literatür artık var . Duyguları yorumlamak için Bayes ağları gibi farklı metodolojiler ve teknikler kullanılabilir . Gauss Karışım modelleri ve Gizli Markov Modelleri ve derin sinir ağları .

Yaklaşımlar

Duygu tanımanın doğruluğu, metinler, fizyoloji, ses veya video gibi çok modlu formlardan insan ifadelerinin analizini birleştirdiğinde genellikle geliştirilir. Yüz ifadelerinden , vücut hareketlerinden ve jestlerinden ve konuşmadan elde edilen bilgilerin entegrasyonu yoluyla farklı duygu türleri tespit edilir . Teknolojinin sözde duygusal veya duygusal İnternet'in ortaya çıkmasına katkıda bulunduğu söyleniyor .

Belirli duygu türlerini sınıflandırmak için duygu tanımada mevcut yaklaşımlar genel olarak üç ana kategoride sınıflandırılabilir: bilgiye dayalı teknikler, istatistiksel yöntemler ve hibrit yaklaşımlar.

Bilgiye dayalı teknikler

Bilgiye dayalı teknikler (bazen sözlük tabanlı teknikler olarak adlandırılır ), belirli duygu türlerini tespit etmek için alan bilgisini ve dilin anlamsal ve sözdizimsel özelliklerini kullanır . Bu yaklaşımda, birkaçını saymak gerekirse, WordNet , SenticNet, ConceptNet ve EmotiNet gibi duygu sınıflandırma işlemi sırasında bilgiye dayalı kaynakların kullanılması yaygındır . Bu yaklaşımın avantajlarından biri, bu tür bilgi tabanlı kaynakların büyük ölçüde mevcudiyetinin getirdiği erişilebilirlik ve ekonomidir. Öte yandan bu tekniğin bir sınırlaması, kavram nüanslarını ve karmaşık dil kurallarını ele almadaki yetersizliğidir.

Bilgiye dayalı teknikler temel olarak iki kategoride sınıflandırılabilir: sözlük tabanlı ve derlem tabanlı yaklaşımlar. Sözlük tabanlı yaklaşımlar , bir sözlükte fikir veya duygu tohum kelimeleri bulur ve ilk fikir veya duygu listesini genişletmek için eş anlamlılarını ve zıt anlamlılarını arar . Derlem tabanlı yaklaşımlar ise, fikir veya duygu kelimelerinin bir tohum listesiyle başlar ve geniş bir bütünde bağlama özgü özelliklere sahip başka kelimeler bularak veritabanını genişletir . Derlem tabanlı yaklaşımlar bağlamı hesaba katarken, bir alandaki bir kelime başka bir alanda farklı bir yönelime sahip olabileceğinden, performansları farklı alanlarda hala farklılık gösterir.

istatistiksel yöntemler

İstatistiksel yöntemler genellikle , sistemin uygun duygu türlerini öğrenmesi ve tahmin etmesi için büyük bir açıklamalı veri kümesinin algoritmalara beslendiği farklı denetimli makine öğrenme algoritmalarının kullanımını içerir . Makine öğrenimi algoritmaları genellikle diğer yaklaşımlara kıyasla daha makul sınıflandırma doğruluğu sağlar, ancak sınıflandırma sürecinde iyi sonuçlar elde etmenin zorluklarından biri, yeterince büyük bir eğitim setine sahip olma ihtiyacıdır.

En yaygın olarak kullanılan makine öğrenimi algoritmalarından bazıları arasında Support Vector Machines (SVM) , Naive Bayes ve Maximum Entropy bulunur . Denetimsiz makine öğrenimi ailesinin altında yer alan derin öğrenme , duygu tanımada da yaygın olarak kullanılmaktadır. İyi bilinen derin öğrenme algoritmaları, Evrişimli Sinir Ağı (CNN) , Uzun Kısa Süreli Bellek (LSTM) ve Aşırı Öğrenme Makinesi (ELM) gibi farklı Yapay Sinir Ağı (YSA) mimarilerini içerir . Derin öğrenme yaklaşımlarının duygu tanıma alanındaki popülaritesi, temel olarak bilgisayarla görme , konuşma tanıma ve Doğal Dil İşleme (NLP) gibi ilgili uygulamalardaki başarısına bağlanabilir .

Hibrit yaklaşımlar

Duygu tanımadaki hibrit yaklaşımlar, esasen, her iki tekniğin tamamlayıcı özelliklerinden yararlanan, bilgi tabanlı teknikler ve istatistiksel yöntemlerin bir kombinasyonudur. Bilgiye dayalı dilsel öğeler ve istatistiksel yöntemlerden oluşan bir topluluk uygulayan çalışmalardan bazıları, her ikisi de kavram düzeyinde bilgi tabanlı kaynak SenticNet'i benimseyen sentic hesaplama ve iFeel'i içerir. Bu tür bilgiye dayalı kaynakların hibrit yaklaşımların uygulanmasındaki rolü duygu sınıflandırma sürecinde oldukça önemlidir . Hibrit teknikler, hem bilgiye dayalı hem de istatistiksel yaklaşımların sunduğu faydalardan yararlandığından, bilgi tabanlı veya istatistiksel yöntemleri bağımsız olarak kullanmak yerine daha iyi sınıflandırma performansına sahip olma eğilimindedirler. Bununla birlikte, hibrit teknikleri kullanmanın bir dezavantajı, sınıflandırma işlemi sırasındaki hesaplama karmaşıklığıdır.

veri kümeleri

Veri, duygu tanımada mevcut yaklaşımların ayrılmaz bir parçasıdır ve çoğu durumda makine öğrenimi algoritmalarını eğitmek için gerekli olan açıklamalı verileri elde etmek zordur . Metinler, ses, videolar veya fizyolojik sinyaller biçimindeki çok modlu kaynaklardan farklı duygu türlerini sınıflandırma görevi için aşağıdaki veri kümeleri mevcuttur:

  1. HUMAINE: birden çok modalitede duygu sözcükleri ve bağlam etiketleri ile doğal klipler sağlar
  2. Belfast veritabanı: TV programlarından ve röportaj kayıtlarından çok çeşitli duygular içeren klipler sağlar
  3. SEMAINE: bir kişi ile sanal aracı arasındaki görsel-işitsel kayıtları sağlar ve kızgın, mutlu, korku, iğrenme, üzüntü, küçümseme ve eğlenme gibi duygu açıklamalarını içerir.
  4. IEMOCAP: aktörler arasındaki ikili oturumların kayıtlarını sağlar ve mutluluk, öfke, üzüntü, hayal kırıklığı ve tarafsızlık gibi duygu açıklamalarını içerir
  5. ARA YÜZ: yedi milletten konuların görsel-işitsel kayıtlarını sağlar ve mutluluk, öfke, üzüntü, şaşkınlık, iğrenme ve korku gibi duygu açıklamalarını içerir
  6. DEAP: Elektroensefalografi ( EEG ), elektrokardiyografi ( EKG ) ve yüz video kayıtlarının yanı sıra film kliplerini izleyen kişilerin değerlik , uyarılma ve baskınlığı açısından duygu açıklamaları sağlar.
  7. DREAMER: Elektroensefalografi ( EEG ) ve elektrokardiyografi ( EKG ) kayıtlarının yanı sıra film kliplerini izleyen kişilerin değerlik , uyarılma ve baskınlığı açısından duygu açıklamaları sağlar.
  8. MELD: her ifadenin duygu ve duygu ile etiketlendiği çok taraflı bir konuşma veri setidir. MELD, konuşmaları video formatında sağlar ve bu nedenle çok modlu duygu tanıma ve duygu analizi için uygundur . MELD, çok modlu duygu analizi ve duygu tanıma, diyalog sistemleri ve konuşmalarda duygu tanıma için kullanışlıdır .
  9. MuSe: Bir kişi ve bir nesne arasındaki doğal etkileşimlerin görsel-işitsel kayıtlarını sağlar. Değerlik, uyarılma ve güvenilirlik açısından ayrık ve sürekli duygu açıklamalarının yanı sıra çok modlu duygu analizi ve duygu tanıma için faydalı konuşma konularına sahiptir .
  10. UIT-VSMEC: Doğal Dil İşleme'de (NLP) düşük kaynaklı bir dil olan Vietnamca'da duygu tanıma araştırmalarına katkıda bulunan, altı duygu etiketine sahip yaklaşık 6.927 insan açıklamalı cümle içeren standart bir Vietnam Sosyal Medya Emotion Corpus'udur (UIT-VSMEC). .
  11. BED: Elektroensefalografi ( EEG ) kayıtlarının yanı sıra, görüntüleri izleyen insanların değerliliği ve uyarılması açısından duygu açıklamaları sağlar. EEG tabanlı biyometri görevi için çeşitli uyaranlara ( SSVEP , gözler kapalı istirahat, gözler açık istirahat, bilişsel görevler) maruz kalan kişilerin elektroensefalografi ( EEG ) kayıtlarını da içerir .

Uygulamalar

Duygu tanıma, toplumda çeşitli nedenlerle kullanılmaktadır. MIT'den çıkan Affectiva , daha önce insanlar tarafından manuel olarak yapılan görevleri daha verimli hale getiren, özellikle izleyicilerin bu bilgileri paylaşmaya izin verdiği belirli bağlamlarla ilgili yüz ifadesi ve sesli ifade bilgilerini toplamak için yapay zeka yazılımı sağlar . Örneğin, eğitici bir video veya reklam izlerken her noktada nasıl hissettiğinize dair uzun bir anket doldurmak yerine, bir kameranın yüzünüzü izlemesine ve söylediklerinizi dinlemesine izin verebilir ve deneyimin hangi bölümlerinde yaşadığınızı not edebilirsiniz. can sıkıntısı, ilgi, kafa karışıklığı veya gülümseme gibi ifadeler gösterin. (Bunun, en içteki duygularınızı okuduğu anlamına gelmediğini unutmayın; yalnızca dışa aktardığınızı okur.) Affectiva'nın diğer kullanımları arasında otizmli çocuklara yardım etmek, kör insanların yüz ifadelerini okumalarına yardımcı olmak, robotların insanlarla daha akıllı etkileşim kurmasına yardımcı olmak yer alır. ve sürücü güvenliğini artırmak için sürüş sırasında dikkat belirtilerini izlemek.

Snapchat tarafından 2015 yılında açılan bir patent , kullanıcıların coğrafi etiketli özçekimlerinde algoritmik duygu tanıma gerçekleştirerek halka açık etkinliklerdeki kalabalıklar hakkında veri çıkarma yöntemini açıklıyor .

Emotient, kaş çatma , gülümseme ve yüzlerdeki diğer ifadeleri okumak için duygu tanımayı, yani "yüz ifadelerine dayalı tutum ve eylemleri" tahmin etmek için yapay zekayı uygulayan bir başlangıç ​​şirketiydi . Apple , 2016 yılında Emotient'i satın aldı ve ürünlerinin duygusal zekasını geliştirmek için duygu tanıma teknolojisini kullanıyor.

nViso, gerçek zamanlı bir API aracılığıyla web ve mobil uygulamalar için gerçek zamanlı duygu tanıma sağlar . Visage Technologies AB , pazarlama ve bilimsel araştırma ve benzeri amaçlar için Visage SDK'larının bir parçası olarak duygu tahmini sunar .

Eyeris, yüz analizi ve duygu tanıma yazılımını entegre etme konusunda otomobil üreticileri ve sosyal robot şirketleri dahil olmak üzere gömülü sistem üreticileriyle birlikte çalışan bir duygu tanıma şirketidir ; kısa ve uzun biçimli video reklam öğelerinin algılanan etkinliğini ölçmelerine yardımcı olmak için video içerik oluşturucularıyla birlikte.

"Beğen" düğmesine basmak ve metindeki olumlu ve olumsuz ifadelerin sayıları dahil olmak üzere çevrimiçi iletilen duygulardan bilgi toplamak için birçok ürün mevcuttur ve duygu tanıma, hem eğitim amaçlı hem de eğitim amaçlı bazı oyunlarda ve sanal gerçeklikte giderek daha fazla kullanılmaktadır. oyunculara sosyal avatarları üzerinde daha doğal kontrol sağlar.

Duygu tanımanın alt alanları

Duyguları algılamak için metin (konuşma), ses, video ve fizyoloji dahil olmak üzere farklı nesneleri birleştirerek birden fazla modalite uygularsanız, duygu tanıma muhtemelen en iyi sonucu elde etmektir .

Metinde duygu tanıma

Metin verileri, özgür ve insan yaşamının her yerinde mevcut olduğunda, duygu tanıma için uygun bir araştırma nesnesidir. Diğer veri türleriyle karşılaştırıldığında, metin verilerinin depolanması daha hafiftir ve dillerde sözcüklerin ve karakterlerin sık sık tekrarlanması nedeniyle en iyi performansa sıkıştırmak kolaydır. Duygular iki temel metin biçiminden çıkarılabilir: yazılı metinler ve konuşmalar (diyaloglar). Yazılı metinler için, birçok bilim insanı, duyguları temsil eden "kelimeleri/ifadeleri" çıkarmak için cümle düzeyinde çalışmaya odaklanır.

Seste duygu tanıma

Metindeki duygu tanımadan farklı olarak , sesten duyguları çıkarmak için tanıma için sesli sinyaller kullanılır .

Videoda duygu tanıma

Video verileri, ses verilerinin, görüntü verilerinin ve bazen metinlerin ( alt yazı olması durumunda ) birleşimidir .

Konuşmada duygu tanıma

Konuşmada duygu tanıma (ERC) , Facebook , Twitter , YouTube ve diğerleri gibi sosyal platformlardaki büyük konuşma verilerinden katılımcılar arasındaki görüşleri çıkarır . ERC, korku, şehvet, acı ve zevk gibi çeşitli duyguları algılamak için metin, ses, video veya bir kombinasyon biçimi gibi girdi verilerini alabilir.

Ayrıca bakınız

Referanslar