Görsel algı - Visual perception

Görsel algılama yoluyla çevreleyen ortam yorumlama yeteneği renk görme , skotopik vizyon olmak ve mezopik görme olarak ışık kullanılarak, görünür spektrumda nesneler tarafından yansıtılan ortam . Bu, bir kişinin ne kadar net gördüğünü ifade eden görme keskinliğinden farklıdır (örneğin, "20/20 görüş"). Bir kişi 20/20 görüşe sahip olsa bile görsel algısal işleme ile ilgili sorunlar yaşayabilir.

Ortaya çıkan algı , görme , görme veya görme olarak da bilinir (ilgili sıfat biçimi: görsel , optik veya oküler ). Görme ile ilgili çeşitli fizyolojik bileşenler topluca görsel sistem olarak adlandırılır ve topluca görme bilimi olarak adlandırılan dilbilim , psikoloji , bilişsel bilim , sinirbilim ve moleküler biyolojideki birçok araştırmanın odak noktasıdır .

görsel sistem

İnsanlarda ve diğer bazı memelilerde, ışık göze korneadan girer ve mercek tarafından gözün arkasındaki ışığa duyarlı bir zar olan retinaya odaklanır . Retina , ışığın nöronal sinyallere dönüştürülmesi için bir dönüştürücü görevi görür . Bu transdüksiyon, ışık fotonlarını algılayan ve nöral uyarılar üreterek yanıt veren, çubuklar ve koniler olarak da bilinen retinanın özel fotoreseptif hücreleri tarafından gerçekleştirilir . Bu sinyaller iletilmektedir optik sinir merkezi retina membadan, gangliyon olarak beyin . Lateral genikulat çekirdeği için bilgi iletir, görme korteksi . Retinadan gelen sinyaller de doğrudan retinadan superior kolikulusa gider .

Lateral genikulat çekirdek, sinyaller , aynı zamanda çizgili korteks olarak da adlandırılan birincil görsel kortekse gönderir . Extrastriate korteks olarak da adlandırılan, bir görsel bağlantı korteksi kortikal striat korteksinden bilgi almak yapılar, aynı zamanda, birbirinden kümesidir. Görsel ilişkilendirme korteksinin son açıklamaları, bir ventral ve bir dorsal yol olmak üzere iki fonksiyonel yola bölünmeyi tanımlar . Bu varsayım, iki akış hipotezi olarak bilinir .

İnsan görme sisteminin genellikle elektromanyetik spektrumun 370 ila 730 nanometresi (0.00000037 ila 0.00000073 metre) arasındaki dalga boyları aralığındaki görünür ışığa duyarlı olduğuna inanılmaktadır . Bununla birlikte, bazı araştırmalar, insanların, özellikle gençlerin, 340 nanometreye (UV-A) kadar olan dalga boylarında ışığı algılayabildiğini öne sürüyor. Optimal koşullar altında, insan algısının bu sınırları 310 nm'ye ( UV ) 1100 nm'ye ( NIR ) kadar uzanabilir .

Ders çalışma

Görsel algıdaki en büyük problem, insanların gördüklerinin sadece retinal uyaranların (yani retinadaki görüntünün) bir çevirisi olmamasıdır. Bu nedenle, algıyla ilgilenen insanlar , gerçekte görüleni yaratmak için görsel işlemenin ne yaptığını açıklamak için uzun süre mücadele ettiler .

Erken çalışmalar

Görsel dorsal akım (yeşil) ve ventral akım (mor) gösterilmiştir. İnsan serebral korteksinin çoğu görme ile ilgilidir.

Görmenin nasıl çalıştığına dair ilkel bir açıklama sağlayan iki büyük antik Yunan okulu vardı .

Birincisi , görmenin, ışınlar gözlerden yayıldığında ve görsel nesneler tarafından engellendiğinde meydana geldiğini iddia eden görme " emisyon teorisi " idi. Bir cisim doğrudan görülüyorsa, bu, gözlerden çıkan ve tekrar cismin üzerine düşen 'ışınlar vasıtasıyla' olmuştur. Bununla birlikte, gözlerden çıkan, havadan geçen ve kırılmadan sonra, ışınların hareketi sonucu görülen görünen nesnenin üzerine düşen 'ışınlar aracılığıyla' da kırılmış bir görüntü görüldü. gözünden. Bu teori takipçileri olan bilim adamları tarafından savunulan olarak Öklid 'in Optik ve Batlamyus ' in Optics .

İkinci okul, görmenin nesnenin temsilcisi olan gözlere giren bir şeyden geldiğini gören sözde 'intromisyon' yaklaşımını savundu. Başlıca yayıcıları Aristoteles ( De Sensu ), Galen ( De Usu Partium Corporis Humani ) ve onların takipçileriyle birlikte, bu teori, vizyonun gerçekte ne olduğuna dair modern teorilerle bir miktar bağlantıya sahip görünüyor, ancak herhangi bir deneysel temelden yoksun bir spekülasyon olarak kaldı. (On sekizinci yüzyıl İngiltere'sinde, Isaac Newton , John Locke ve diğerleri, görmenin -gerçek bedensel maddeden oluşan- ışınların görülen nesnelerden yayıldığı ve görenin zihnine girdiği bir süreci içerdiğinde ısrar ederek görmenin içe bakış teorisini ileri taşıdılar. gözün açıklığı yoluyla sensorium.)

Her iki düşünce okulu da "benzer sadece benzer tarafından bilinir" ilkesine ve dolayısıyla gözün, görünür ışığın "dış ateşi" ile etkileşime giren ve görmeyi mümkün kılan bir "iç ateş"ten oluştuğu fikrine dayanıyordu. Platon , Timaeus diyaloğunda (45b ve 46b), Empedokles'in yaptığı gibi (Aristoteles'in De Sensu , DK fragmanı B17'de bildirdiği gibi) bu iddiayı ortaya koyar .

Leonardo da Vinci : Gözün bir merkezi çizgisi vardır ve göze bu merkez çizgiden ulaşan her şey net olarak görülebilir.

Alhazen (965 – c. 1040) , görsel algı üzerine birçok araştırma ve deney yaptı , Ptolemy'nin binoküler görme konusundaki çalışmalarını genişletti ve Galen'in anatomik çalışmaları hakkında yorum yaptı. Işığın bir cisme çarptığında ve sonra gözlere yönlendirildiğinde görmenin oluştuğunu ilk açıklayan kişidir.

Leonardo da Vinci'nin (1452-1519) gözün özel optik niteliklerini ilk fark eden kişi olduğuna inanılır. "İnsan gözünün işlevi... çok sayıda yazar tarafından belirli bir şekilde tanımlanmıştır. Ama ben onu tamamen farklı buldum." Başlıca deneysel bulgusu, görüş hattında yalnızca belirgin ve net bir görüş olduğuydu - foveada biten optik hat . Bu kelimeleri tam anlamıyla kullanmamasına rağmen, aslında foveal ve periferik görme arasındaki modern ayrımın babasıdır .

Isaac Newton (1642-1726/27), bir prizmadan geçen ışık spektrumunun tek tek renklerini izole ederek, nesnelerin görsel olarak algılanan renginin, nesnelerin yansıyan ışığın karakteri nedeniyle ortaya çıktığını deney yoluyla keşfeden ilk kişiydi ve bu bölünmüş renklerin başka bir renge dönüştürülemeyeceğini, günün bilimsel beklentisine aykırı olarak.

bilinçsiz çıkarım

Hermann von Helmholtz , genellikle görsel algının ilk modern çalışmasıyla tanınır. Helmholtz insan gözünü inceledi ve bunun yüksek kaliteli bir görüntü üretemediği sonucuna vardı. Yetersiz bilgi, vizyonu imkansız kılıyor gibiydi. Bu nedenle, görmenin ancak bir tür "bilinçsiz çıkarım"ın sonucu olabileceği sonucuna vardı ve bu terimi 1867'de kullandı. Beynin önceki deneyimlere dayanarak eksik verilerden varsayımlar ve sonuçlar çıkardığını öne sürdü.

Çıkarsama, dünyanın önceden deneyimlenmesini gerektirir.

Görsel deneyime dayanan iyi bilinen varsayımların örnekleri şunlardır:

  • ışık yukarıdan gelir
  • nesneler normalde aşağıdan görüntülenmez
  • yüzler dik olarak görülür (ve tanınır).
  • daha yakın nesneler daha uzaktaki nesnelerin görüşünü engelleyebilir, ancak bunun tersi olamaz
  • rakamlar (yani, ön plan nesneleri) dışbükey sınırlara sahip olma eğilimindedir

Çalışma görsel yanılsama (çıkarsama süreç yanlış gider durumlarda) ne tür varsayımların görsel sistem markaların içine daha fazla fikir vermiştir.

Bilinçsiz çıkarım hipotezinin bir başka türü (olasılıklara dayalı), yakın zamanda Bayesçi görsel algı araştırmalarında yeniden canlandırıldı . Bu yaklaşımın savunucuları, görsel sistemin , duyusal verilerden bir algı elde etmek için bir tür Bayes çıkarımı gerçekleştirdiğini düşünürler . Ancak, bu görüşün savunucularının prensipte Bayes denkleminin gerektirdiği ilgili olasılıkları nasıl türettikleri açık değildir. Bu fikrin temelinde Modeller gibi çeşitli görsel algısal işlevler tanımlamak için kullanılmıştır hareket algılama , derinlik algısı ve figür-zemin algısı . " Tamamen ampirik algı teorisi ", Bayesçi formalizmleri açıkça çağırmadan görsel algıyı rasyonelleştiren ilgili ve daha yeni bir yaklaşımdır.

Gestalt teorisi

Öncelikle 1930'larda ve 1940'larda çalışan Gestalt psikologları , bugün vizyon bilimciler tarafından incelenen araştırma sorularının çoğunu gündeme getirdi.

Gestalt Organizasyon Yasaları, insanların görsel bileşenleri birçok farklı parça yerine organize kalıplar veya bütünler olarak nasıl algıladıklarına dair çalışmalara rehberlik etmiştir. "Gestalt", "bütün veya ortaya çıkan yapı" ile birlikte kısmen "yapılandırma veya kalıp" anlamına gelen Almanca bir kelimedir. Bu teoriye göre, görsel sistemin öğeleri otomatik olarak örüntüler halinde gruplandırmasını belirleyen sekiz ana faktör vardır: Yakınlık, Benzerlik, Kapanış, Simetri, Ortak Kader (yani ortak hareket), Süreklilik ve İyi Gestalt (düzenli, kalıp, kalıp). basit ve düzenli) ve Geçmiş Deneyim.

Göz hareketinin analizi

İlk 2 saniye göz hareketi ( Yarbus , 1967)

1960'larda, teknik gelişme, okuma sırasında, resim izlemede ve daha sonra görsel problem çözmede ve kulaklıklı kameralar kullanıma sunulduğunda, sürüş sırasında da göz hareketlerinin sürekli olarak kaydedilmesine izin verdi.

Sağdaki resim, görsel incelemenin ilk iki saniyesinde neler olabileceğini gösterir. Arka plan odak dışındayken, çevresel görüşü temsil eder, ilk göz hareketi adamın çizmelerine gider (çünkü bunlar başlangıç ​​fiksasyonuna çok yakındırlar ve makul bir kontrasta sahiptirler). Göz hareketleri, dikkatli seçim işlevine hizmet eder , yani beyin tarafından daha derin işleme için tüm görsel girdilerin bir kısmını seçmek.

Aşağıdaki tespitler yüz yüze atlar. Yüzler arasında karşılaştırmalara bile izin verebilirler.

Simge yüzünün , çevresel görüş alanı içinde çok çekici bir arama simgesi olduğu sonucuna varılabilir . Foveal vizyon periferik için detaylı bilgi ekler ilk izlenim .

Farklı göz hareketleri türleri olduğu da not edilebilir: fiksasyonel göz hareketleri ( mikrosakkadlar , oküler kayma ve titreme), verjans hareketleri, sakkadik hareketler ve takip hareketleri. Fiksasyonlar , gözün durduğu nispeten statik noktalardır. Bununla birlikte, göz asla tamamen hareketsiz değildir, ancak bakış pozisyonu kayacaktır. Bu sapmalar, mikrosakkadlar, çok küçük sabit göz hareketleri ile düzeltilir. Verjans hareketleri , bir görüntünün her iki retinanın aynı alanına düşmesine izin vermek için her iki gözün işbirliğini içerir. Bu, tek bir odaklanmış görüntü ile sonuçlanır. Sakkadik hareketler , bir konumdan diğerine atlayan ve belirli bir sahneyi/görüntüyü hızla taramak için kullanılan göz hareketi türüdür. Son olarak, takip hareketi düzgün göz hareketidir ve hareket halindeki nesneleri takip etmek için kullanılır.

Yüz ve nesne tanıma

Yüz ve nesne tanımanın farklı sistemler tarafından gerçekleştirildiğine dair önemli kanıtlar vardır . Örneğin, prosopagnozlu hastalar yüzlerinde eksiklikler gösterir, ancak nesne işlemede görülmez , buna karşın nesne agnozlu hastalar (en önemlisi, hasta CK ) korunan yüz işleme ile nesne işlemede eksiklikler gösterir. Davranışsal olarak, nesnelerin değil de yüzlerin ters çevirme etkilerine maruz kaldığı gösterilmiş ve bu da yüzlerin "özel" olduğu iddiasına yol açmıştır. Ayrıca, yüz ve nesne işleme, farklı sinir sistemlerini işe alır. Özellikle, bazıları, insan beyninin yüz işleme için belirgin uzmanlaşmasının gerçek alan özgüllüğünü yansıtmadığını, daha ziyade belirli bir uyaran sınıfı içinde daha genel bir uzman düzeyinde ayrım sürecini yansıttığını iddia etmişlerdir, ancak bu son iddia önemli bir konunun konusudur. tartışma . Doris Tsao ve meslektaşları fMRI ve elektrofizyolojiyi kullanarak makak maymunlarında beyin bölgelerini ve yüz tanıma mekanizmasını tanımladılar .

İnferotemporal korteks tanıma ve farklı nesnelerin farklılaşma görev kilit bir role sahiptir. MIT ile ilgili bir araştırma, IT korteksinin alt küme bölgelerinin farklı nesnelerden sorumlu olduğunu gösteriyor. Korteksin birçok küçük bölgesinin nöral aktivitesini seçici olarak kapatan hayvan, belirli belirli nesne çiftlerini dönüşümlü olarak ayırt edemez hale gelir. Bu, BT korteksinin farklı ve belirli görsel özelliklere yanıt veren bölgelere ayrıldığını gösterir. Benzer şekilde, korteksin belirli yamaları ve bölgeleri, diğer nesnelerin tanınmasından daha fazla yüz tanımaya dahil olur.

Bazı çalışmalar, beynin görüntüdeki bir nesneyi tanıması gerektiğinde, tek tip küresel görüntüden ziyade nesnelerin bazı özel özelliklerinin ve ilgi alanlarının kilit unsurlar olduğunu gösterme eğilimindedir. Bu şekilde, insan görüşü, nesnenin kenarlarını bozmak, dokuyu değiştirmek veya görüntünün önemli bir bölgesindeki herhangi bir küçük değişiklik gibi görüntüdeki küçük özel değişikliklere karşı savunmasızdır.

Uzun bir körlükten sonra görme yetisine kavuşan insanlar üzerinde yapılan araştırmalar, (renk, hareket ve basit geometrik şekillerin aksine) nesneleri ve yüzleri tam olarak tanıyamadıklarını ortaya koymaktadır. Bazıları, çocuklukta kör olmanın, bu üst düzey görevler için gerekli olan görsel sistemin bir kısmının düzgün gelişmesini engellediğini varsayıyor. Kritik bir dönemin 5 veya 6 yaşına kadar sürdüğüne dair genel inanış, daha yaşlı hastaların yıllarca maruz kalma ile bu yetenekleri geliştirebileceğini bulan 2007 tarihli bir çalışma tarafından sorgulandı.

Bilişsel ve hesaplamalı yaklaşımlar

1970'lerde David Marr , görme sürecini farklı soyutlama seviyelerinde analiz eden çok seviyeli bir görme teorisi geliştirdi. Görmedeki belirli problemlerin anlaşılmasına odaklanmak için üç analiz seviyesi belirledi: hesaplamalı , algoritmik ve uygulamalı seviyeler. Tomaso Poggio da dahil olmak üzere birçok vizyon bilimcisi, bu analiz düzeylerini benimsemiş ve bunları, vizyonu hesaplama perspektifinden daha fazla karakterize etmek için kullanmıştır.

Hesaplamalı düzey adresleri, soyutlama yüksek düzeyde, sorunlar görsel sistemin üstesinden gelmeleri gerektiğini. Algoritmik seviye girişimleri bu sorunları çözmek için kullanılabilecek bir strateji belirlemek için. Son olarak, uygulama düzeyi , sinir devrelerinde bu sorunlara çözümlerin nasıl gerçekleştirildiğini açıklamaya çalışır.

Marr, bu seviyelerin herhangi birinde görmenin bağımsız olarak araştırılmasının mümkün olduğunu öne sürdü. Marr, vizyonu, iki boyutlu bir görsel diziden (retina üzerinde) çıktı olarak dünyanın üç boyutlu bir tanımına ilerlemek olarak tanımladı. Görme aşamaları şunları içerir:

  • Bir 2D veya ilkel çizim vs. kenarları, bölgeler, bir gösterim gibi bir sanatçı tarafından hızlı bir şekilde çizilen bir kalem eskiz kavram benzerliği Not dahil sahnenin temel bileşenleri, özellik çıkarma dayalı sahnenin.
  • A 2 12 Dokuların kabul edildiği, vs. sahnenin 2 boyutlu taslağı . Bir sanatçının derinlik sağlamak için bir sahnenin alanlarını vurguladığı veya gölgelediği çizimdeki sahneye kavram benzerliğine dikkat edin.
  • Bir 3 D modeli sahne, bir sürekli, 3-boyutlu bir harita olarak görüntülenmiştir.

Marr '2 1 / 2 D kroki bir derinlik haritası inşa ettiğini varsayar ve bu harita bu 3D şekil algının temelidir. Bununla birlikte, hem stereoskopik hem de resimsel algılamanın yanı sıra monoküler görüntüleme, 3B şekil algısının noktaların derinliği algısından önce geldiğini ve buna dayanmadığını açıkça ortaya koymaktadır. İlke olarak bir ön derinlik haritasının nasıl oluşturulabileceği veya bunun şekil-zemin organizasyonu veya gruplandırma sorununu nasıl ele alacağı açık değildir. Binoküler olarak görüntülenen 3B nesnelerden 3B şekil algılarının üretilmesinde, Marr tarafından gözden kaçırılan algısal düzenleme kısıtlamalarının rolü, 3B tel nesneler için ampirik olarak gösterilmiştir, örneğin daha ayrıntılı bir tartışma için, bkz. Pizlo (2008).

Daha yeni, alternatif bir çerçeve, vizyonun şu üç aşamadan oluştuğunu önermektedir: kodlama, seçim ve kod çözme. Kodlama, görsel girdileri örneklemek ve temsil etmektir (örneğin, görsel girdileri retinadaki nöral aktiviteler olarak temsil etmek için). Seçim veya dikkatli seçim , daha sonraki işlemler için, örneğin bakışları bir nesneye veya görsel konuma kaydırarak , o konumdaki görsel sinyalleri daha iyi işlemek için girdi bilgisinin küçük bir kısmını seçmektir . Kod çözme, seçilen giriş sinyallerini çıkarmak veya tanımaktır, örneğin bakışın merkezindeki nesneyi birinin yüzü olarak tanımak. Bu çerçevede, dikkatli seçim , görsel yol boyunca birincil görsel kortekste başlar ve dikkat kısıtlamaları , görsel tanıma veya kod çözme için merkezi ve çevresel görsel alanlar arasında bir ikilik dayatır .

transdüksiyon

İletim, çevresel uyaranlardan gelen enerjinin sinirsel aktiviteye dönüştürüldüğü süreçtir. Retina fotoreseptör, bipolar hücre tabakası ve ganglion hücre tabakası: üç farklı hücre katmanları içerir. Transdüksiyonun meydana geldiği fotoreseptör tabakası mercekten en uzak olanıdır. Çubuk ve koni adı verilen farklı hassasiyetlere sahip fotoreseptörler içerir. Koniler renk algısından sorumludur ve kırmızı, yeşil ve mavi olarak etiketlenen üç farklı tiptedir. Çubuklar, düşük ışıkta nesnelerin algılanmasından sorumludur. Fotoreseptörler, içlerinde fotopigment adı verilen ve lamel zarına gömülü özel bir kimyasal içerir; tek bir insan çubuğu yaklaşık 10 milyon tane içerir. Fotopigment molekülleri iki kısımdan oluşur: bir opsin (bir protein) ve retinal (bir lipit). Görünür ışık spektrumu boyunca yanıt veren 3 özel fotopigment (her biri kendi dalga boyu duyarlılığına sahip) vardır. Uygun dalga boyları (spesifik fotopigmentin duyarlı olduğu dalga boyları) fotoreseptöre çarptığında, fotopigment ikiye bölünür ve bipolar hücre tabakasına bir sinyal gönderir ve bu da aksonları oluşturan gangliyon hücrelerine bir sinyal gönderir. optik sinir ve iletim beyne bilgiler. Genetik bir anormallik nedeniyle belirli bir koni tipi eksik veya anormal ise , bazen renk körlüğü olarak adlandırılan bir renk görme eksikliği meydana gelir.

rakip süreç

İletim, fotoreseptörlerden bipolar hücrelere ganglion hücrelerine gönderilen kimyasal mesajları içerir. Birkaç fotoreseptör, bilgilerini bir ganglion hücresine gönderebilir. İki tip ganglion hücresi vardır: kırmızı/yeşil ve sarı/mavi. Bu nöronlar uyarılmasalar bile sürekli ateşlenirler. Bu nöronların ateşleme hızı değiştiğinde, beyin farklı renkleri (ve çok fazla bilgi, bir görüntü ile) yorumlar. Kırmızı ışık kırmızı koniyi uyarır, bu da kırmızı/yeşil ganglion hücresini uyarır. Benzer şekilde, yeşil ışık yeşil/kırmızı ganglion hücresini uyaran yeşil koniyi uyarır ve mavi ışık mavi/sarı ganglion hücresini uyaran mavi koniyi uyarır. Ganglion hücrelerinin ateşlenme hızı, bir koni tarafından sinyal verildiğinde artar, diğer koni tarafından sinyal verildiğinde azalır (inhibe edilir). Ganglion hücresi adındaki ilk renk onu heyecanlandıran renk, ikincisi ise onu engelleyen renktir. yani: Bir kırmızı koni, kırmızı/yeşil gangliyon hücresini uyarır ve yeşil koni, kırmızı/yeşil ganglion hücresini engeller. Bu bir rakip süreçtir . Kırmızı/yeşil ganglion hücresinin ateşlenme hızı artırılırsa beyin ışığın kırmızı olduğunu anlar, hız azaltılırsa beyin ışığın renginin yeşil olduğunu bilir.

Yapay görsel algı

Görsel algı teorileri ve gözlemleri, bilgisayarlı görme ( makine görme veya hesaplamalı görme olarak da adlandırılır) için ana ilham kaynağı olmuştur . Özel donanım yapıları ve yazılım algoritmaları, makinelere bir kamera veya sensörden gelen görüntüleri yorumlama yeteneği sağlar.

Örneğin, 2022 Toyota 86 , sürücü yardım teknolojisi için Subaru EyeSight sistemini kullanıyor .

Ayrıca bakınız

Görme eksiklikleri veya bozuklukları

İlgili disiplinler

Referanslar

daha fazla okuma

Dış bağlantılar