Untangling invariant object recognition - DiCarlo & Cox - 2007 - Artikel

Samenvatting bij het artikel: Untangling invariant object recognition - DiCarlo & Cox - 2007

Dit artikel geeft een grafisch perspectief op de rekenkundige uitdagingen van objectherkenning. Tevens wordt gekeken welke neuronale populatie zorgt voor de representatie van objecten. Onze dagelijkse activiteiten gaan gepaard met het snel en accuraat herkennen van visuele stimuli; zo kunnen we binnen enkele seconden duizenden objecten herkennen. Welke hersenmechanismen bij dit proces betrokken zijn is echter tot nu toe onbekend.

Objectherkenning wordt gedefinieerd als het accuraat kunnen onderscheiden van objecten of categorieën van allerlei mogelijke stimuli. Dit wordt gedaan via de retina volgens een identificatievoorschrijvende transformatie. Objectherkenning is moeilijk om verschillende redenen. De belangrijkste reden is dat ieder object een oneindig aantal verschillende beelden op de retina kan produceren., terwijl dit beeld toch vanaf iedere hoek wordt herkend. Dit wordt ook wel het invariance probleem genoemd: het feit dat we nooit twee keer exact hetzelfde zien en desondanks toch dingen kunnen herkennen).

Rekenkundige processen

Bij het oplossen van een herkenningstaak moet iemand gebruik maken van interne neuronale representaties. Deze interne neurale representaties zijn afkomstig van het visuele zicht en hierin wordt een keuze gemaakt door het brein. Het brein moet een keuzefunctie toepassen om onderscheid te maken tussen welke neuronen worden afgevuurd als object A gepresenteerd wordt en welke niet. Ergens in het brein zitten dus de juiste neuronen die ergens op reageren en die moet je eruit filteren. De centrale vraag in dit proces blijft: welk formaat van neuronen representeert de keuze en welke beslissingsfuncties horen bij die representatie?

Bovenstaand probleem kun je van twee kanten zien. Aan de ene kant is objectherkenning een probleem voor het vinden van complexe beslissingsfuncties en aan de andere kant is het een probleem voor het vinden van operaties die progressief transformeren vanaf de retinale representatie in de vorm van een nieuwe representatie, gevolgd door beslissingfuncties. De laatste visie kan goed gebruikt worden bij het onderzoeken van de architectuur van het visuele systeem (met name het ventrale pad).

Objectherkenning is moeilijk

Onze ogen fixeren gemiddeld 300ms op de wereld en bewegen dan weer verder. Tijdens iedere glimp wordt er al een visueel beeld gemaakt en opgeslagen waarbij minstens 100miljoen cellen gebruikt worden. Een dergelijke representatie kan gezien worden als hoog- dimensioneel. Een voorbeeld van een laag dimensionale representatie is een gezicht.

Dan gaat het om een vast object wat op veel verschillende manier kan worden gezien. Hoe je een object allemaal kunt zien wordt manifold genoemd. Verschillende objecten hebben verschillende manifolds.

De manifolds van alle verschillende objecten zitten door elkaar heen gekreukt in de hersenen. Dit betekent dat de retina niet direct herkent wat we zien, maar dat het wel de informatie doorgeeft die we nodig hebben om een keuze te maken van wat we zien.
Je kan het brein -herkenningsmechanisme zien als een transformatie van de binnenkomende visuele representatie dat gemakkelijk op te bouwen is naar herkenning. Het is echter niet mogelijk om te decoderen hoe het herkennen in zijn werk gaat.

Het ventraal visuele pad

Dit pad vertaalt de manifolds in objecten. Het ventraal pad gaat als volgt: V1àV2àv4à IT. Uit de studies van Gross is gebleken dat zich in de IT de meest specifieke complexe neuronen bevinden. De neuronen daar zorgen waarschijnlijk voor objectherkenning, want deze neuronen reageren specifiek op bepaalde vormen en zijn redelijk ongevoelig voor veranderingen in objectpositie.

Herkenning is geen resultaat van prestatie, maar wel van hoe sterk de visuele representatie is in de IT-cortex. Dit betekent ook dat de manifolds minder door elkaar zijn gehaald in de IT-cortex. Dit betekent direct ook dat de V1-cortex nog wel erg door elkaar zit als het om de manifolds gaat (net als in de retinale representatie). Kortom: het ventrale pad zorgt ervoor dat objecten worden herkend door het ontrafelen van de manifolds. Hoe dit gebeurt weet men nog niet precies.

Inmiddels zijn er al meerdere ideeën over en onderzoeken naar het proces van het ventrale pad. Sommige neurofysiologen hebben zich gefocust op het karakteriseren van tolerantie bij IT neuronen tegenover sommige objecten. Dit is gelijk aan object tangling. Ander onderzoek is gericht op het begrijpen van de kenmerken van vormdimensies. Deze studies zijn belangrijk voor het definiëren van complexe kenmerken van het ventrale visuele pad voor neuronale tuning, dat gerelateerd is aan manifold untangling.

Het perspectief van de object tangling leidt tot een andere aanpak. Er wordt niet verwacht dat individuele IT-neuronen verantwoordelijk zijn voor de herkenning, maar wel voor populatierepresentaties. Daarnaast veronderstelt dit perspectief dat het direct opmaken van een doel bepaalt hoe goed het ventrale visuele pad zorgt voor het ontklitten van manifolds. Dit perspectief biedt een betere manier om computermodellen te maken, omdat populaties meer betekenisvol kunnen zijn dan individuele neuronen.

Daarnaast stelt het perspectief dat een focus op de oorzaak van de klitting beter is dan je te richten op de kenmerken of vormen waarbij iets reageert. Ten slotte kan met dit perspectief hypothesen worden getest wat kan leiden tot nieuwe biologische hypotheses.

Plat maken van manifolds

Door het platmaken van manifolds kan men misschien zien wat er gebeurt. Er wordt gezocht naar transformaties die ervoor zorgen dat een manifold wordt platgetrokken zonder dat deze zich mengt met andere. Hierdoor kunnen de juiste neuronen worden aangewezen. Op IT-niveau resulteert het ontklitten van object manifolds tot het omklappen van iedere manifold tot één punt. Dit suggereert dat ontklitte IT- representaties niet alleen direct zorgen voor objectherkenning, maar ook voor het herkennen van andere taken zoals positie, locatie en grootte. IT-neuronen hebben dus grote gelimiteerde receptieve velden. Hierbij werkt de limitatie in het voordeel. Het ontklitten van manifolds kan bekeken worden met neuronale beelden. Toch is dit erg lastig te zien.

Uit nadere analyse blijkt dat de V1-cortex de wereld door een smal gat ziet en dat de V2 hetzelfde kan. Daarna gaat de herkenning steeds beter. Er zijn drie rekenkundige consistente ideeën die het ontklitten van bovengenoemde fysiologie toestaan:

  • Idee 1: het visuele systeem projecteert binnenkomende informatie naar hogere dimensionale plaatsen waardoor de data zich meer verspreiden in de ruimte.

  • Idee 2: op iedere fase zijn neuronale bronnen aanwezig die overeenkomen met de distributie van de visuele informatie uit de echte wereld.

  • Idee 3: impliciet zorgt de tijd voor supervisie van manifold flattering.

Image

Access: 
Public

Image

Join WorldSupporter!
This content is related to:
The plan recognition problem: An intersection of psychology and artificial intelligence - Schmidt et. al. (1978) - Artikel
Search a summary

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Activity abroad, study field of working area:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Psychology Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
1063