The plan recognition problem: An intersection of psychology and artificial intelligence - Schmidt et. al. (1978) - Artikel
- 1101 keer gelezen
Samenvatting bij het artikel: Untangling invariant object recognition - DiCarlo & Cox - 2007
Dit artikel geeft een grafisch perspectief op de rekenkundige uitdagingen van objectherkenning. Tevens wordt gekeken welke neuronale populatie zorgt voor de representatie van objecten. Onze dagelijkse activiteiten gaan gepaard met het snel en accuraat herkennen van visuele stimuli; zo kunnen we binnen enkele seconden duizenden objecten herkennen. Welke hersenmechanismen bij dit proces betrokken zijn is echter tot nu toe onbekend.
Objectherkenning wordt gedefinieerd als het accuraat kunnen onderscheiden van objecten of categorieën van allerlei mogelijke stimuli. Dit wordt gedaan via de retina volgens een identificatievoorschrijvende transformatie. Objectherkenning is moeilijk om verschillende redenen. De belangrijkste reden is dat ieder object een oneindig aantal verschillende beelden op de retina kan produceren., terwijl dit beeld toch vanaf iedere hoek wordt herkend. Dit wordt ook wel het invariance probleem genoemd: het feit dat we nooit twee keer exact hetzelfde zien en desondanks toch dingen kunnen herkennen).
Bij het oplossen van een herkenningstaak moet iemand gebruik maken van interne neuronale representaties. Deze interne neurale representaties zijn afkomstig van het visuele zicht en hierin wordt een keuze gemaakt door het brein. Het brein moet een keuzefunctie toepassen om onderscheid te maken tussen welke neuronen worden afgevuurd als object A gepresenteerd wordt en welke niet. Ergens in het brein zitten dus de juiste neuronen die ergens op reageren en die moet je eruit filteren. De centrale vraag in dit proces blijft: welk formaat van neuronen representeert de keuze en welke beslissingsfuncties horen bij die representatie?
Bovenstaand probleem kun je van twee kanten zien. Aan de ene kant is objectherkenning een probleem voor het vinden van complexe beslissingsfuncties en aan de andere kant is het een probleem voor het vinden van operaties die progressief transformeren vanaf de retinale representatie in de vorm van een nieuwe representatie, gevolgd door beslissingfuncties. De laatste visie kan goed gebruikt worden bij het onderzoeken van de architectuur van het visuele systeem (met name het ventrale pad).
Onze ogen fixeren gemiddeld 300ms op de wereld en bewegen dan weer verder. Tijdens iedere glimp wordt er al een visueel beeld gemaakt en opgeslagen waarbij minstens 100miljoen cellen gebruikt worden. Een dergelijke representatie kan gezien worden als hoog- dimensioneel. Een voorbeeld van een laag dimensionale representatie is een gezicht.
Dan gaat het om een vast object wat op veel verschillende manier kan worden gezien. Hoe je een object allemaal kunt zien wordt manifold genoemd. Verschillende objecten hebben verschillende manifolds.
De manifolds van alle verschillende objecten zitten door elkaar heen gekreukt in de hersenen. Dit betekent dat de retina niet direct herkent wat we zien, maar dat het wel de informatie doorgeeft die we nodig hebben om een keuze te maken van wat we zien.
Je kan het brein -herkenningsmechanisme zien als een transformatie van de binnenkomende visuele representatie dat gemakkelijk op te bouwen is naar herkenning. Het is echter niet mogelijk om te decoderen hoe het herkennen in zijn werk gaat.
Dit pad vertaalt de manifolds in objecten. Het ventraal pad gaat als volgt: V1àV2àv4à IT. Uit de studies van Gross is gebleken dat zich in de IT de meest specifieke complexe neuronen bevinden. De neuronen daar zorgen waarschijnlijk voor objectherkenning, want deze neuronen reageren specifiek op bepaalde vormen en zijn redelijk ongevoelig voor veranderingen in objectpositie.
Herkenning is geen resultaat van prestatie, maar wel van hoe sterk de visuele representatie is in de IT-cortex. Dit betekent ook dat de manifolds minder door elkaar zijn gehaald in de IT-cortex. Dit betekent direct ook dat de V1-cortex nog wel erg door elkaar zit als het om de manifolds gaat (net als in de retinale representatie). Kortom: het ventrale pad zorgt ervoor dat objecten worden herkend door het ontrafelen van de manifolds. Hoe dit gebeurt weet men nog niet precies.
Inmiddels zijn er al meerdere ideeën over en onderzoeken naar het proces van het ventrale pad. Sommige neurofysiologen hebben zich gefocust op het karakteriseren van tolerantie bij IT neuronen tegenover sommige objecten. Dit is gelijk aan object tangling. Ander onderzoek is gericht op het begrijpen van de kenmerken van vormdimensies. Deze studies zijn belangrijk voor het definiëren van complexe kenmerken van het ventrale visuele pad voor neuronale tuning, dat gerelateerd is aan manifold untangling.
Het perspectief van de object tangling leidt tot een andere aanpak. Er wordt niet verwacht dat individuele IT-neuronen verantwoordelijk zijn voor de herkenning, maar wel voor populatierepresentaties. Daarnaast veronderstelt dit perspectief dat het direct opmaken van een doel bepaalt hoe goed het ventrale visuele pad zorgt voor het ontklitten van manifolds. Dit perspectief biedt een betere manier om computermodellen te maken, omdat populaties meer betekenisvol kunnen zijn dan individuele neuronen.
Daarnaast stelt het perspectief dat een focus op de oorzaak van de klitting beter is dan je te richten op de kenmerken of vormen waarbij iets reageert. Ten slotte kan met dit perspectief hypothesen worden getest wat kan leiden tot nieuwe biologische hypotheses.
Door het platmaken van manifolds kan men misschien zien wat er gebeurt. Er wordt gezocht naar transformaties die ervoor zorgen dat een manifold wordt platgetrokken zonder dat deze zich mengt met andere. Hierdoor kunnen de juiste neuronen worden aangewezen. Op IT-niveau resulteert het ontklitten van object manifolds tot het omklappen van iedere manifold tot één punt. Dit suggereert dat ontklitte IT- representaties niet alleen direct zorgen voor objectherkenning, maar ook voor het herkennen van andere taken zoals positie, locatie en grootte. IT-neuronen hebben dus grote gelimiteerde receptieve velden. Hierbij werkt de limitatie in het voordeel. Het ontklitten van manifolds kan bekeken worden met neuronale beelden. Toch is dit erg lastig te zien.
Uit nadere analyse blijkt dat de V1-cortex de wereld door een smal gat ziet en dat de V2 hetzelfde kan. Daarna gaat de herkenning steeds beter. Er zijn drie rekenkundige consistente ideeën die het ontklitten van bovengenoemde fysiologie toestaan:
Idee 1: het visuele systeem projecteert binnenkomende informatie naar hogere dimensionale plaatsen waardoor de data zich meer verspreiden in de ruimte.
Idee 2: op iedere fase zijn neuronale bronnen aanwezig die overeenkomen met de distributie van de visuele informatie uit de echte wereld.
Idee 3: impliciet zorgt de tijd voor supervisie van manifold flattering.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Main summaries home pages:
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
1064 |
Add new contribution