Il
punto di partenza per progettare il sistema visivo del nostro agente
adattivo artificiale ANT è l'osservazione empirica del sistema
visivo dell'agente adattivo biologico che assumiamo come modello: la
formica del deserto o, più in generale il sistema visivo degli
insetti.
L'occhio degli insetti è composto da qualche decina fino ad alcune
centinaia di ommatidi (occhi semplici) a seconda della specie. Ogni
ommatide ha un proprio cristallino e una propria retina e l'insieme
degli ommatidi di ciascun occhio formano una specie di matrice disposta
su di una superficie semisferica.
|
|
Figura
1. Sinistra: l'occhio composto artificiale usato nell'agente
adattivo. Destra: A: l'agente si muove sul piano
dell'azimut e in ogni istante percepisce attraverso i recettori
dei suoi occhi la direzione d e d' di una fonte di luce (o di
un piano polarizzato di luce) L rispetto al proprio
sistema di riferimento egocentrico, la x del quale (la freccia)
è parallela alla direzione dell'agente nei diversi istanti.
B: la fonte di luce l è ad una distanza tale che
la direzione d nell'istante a è parallela alla direzione
d' nell'istante b.
|
I
recettori sensoriali
L'occhio artificiale
di cui sarà dotato il nostro sistema adattivo è raffigurato
in figura 1. E' composto da 24 ommatidi (raffigurati dai quadratini)
disposti come un mosaico su di una semisfera. Ogni quadratino può
assumere un valore continuo proporzionale alla quantità di luce
che lo colpisce. L'agente adattivo artificiale è dotato di due
occhi di questo tipo. Da questo punto in avanti i quadratini dell'occhio
artificiale verranno chiamati per semplicità recettori, anche
se il termine appare improprio, visto che in realtà ognuno di
essi sta per più recettori.
Gli occhi dell'agente sono posizionati ai lati del corpo rispetto all'asse
principale (vedi figura 2 A). In realtà la distanza fra gli occhi
L è trascurabile poiché la distanza della fonte di luce
L dall'agente artificiale, in analogia con quella del sole dall'agente
biologico, è tale per cui i raggi di luce provenienti da essa
possono essere considerati paralleli sulle due retine; inoltre, come
dimostrato formalmente, la differenza
nell'intensità della luce che arriva ai due occhi è inversamente
proporzionale alla distanza della sorgente di luce. Perciò si
può considerare che alle due retine arrivi la stessa quantità
di luce in ogni istante. Lo schema su cui si fonda la discussione che
segue sulla percezione della luce, pertanto, è quello di figura
2 B, in cui sono raffigurate le due retine adiacenti in modo da formare
una sfera.
Passiamo ora ad analizzare le caratteristiche dello spostamento del
cono di luce proiettato su una sfera in relazione all'inclinazione sul
piano dell'azimut xy (vedi figura 2 C).
|
Figura
2. A: posizione reale degli occhi dell'agente adattivo artificiale
in posizione laterale rispetto all'asse del corpo (y).
B: la distanza fra gli occhi L non ha peso significativo
né sulla quantità, né sulla qualità
della luce in arrivo (dimostrazione).
C: a: piano azimut., b: piano dell'elevazione.
|
La
luce proiettata su una sfera, nel caso in cui il diametro della base
del cono di luce sia maggiore del diametro della sfera ne illumina una
metà, mentre l'altra metà è in ombra; il piano
passante per la linea di demarcazione fra luce e ombra è perpendicolare
alla direzione del fascio di luce. Il piano parallelo a xy e passante
per il centro della sfera verrà di qui in poi chiamato piano
dell'azimut, mentre quello parallelo a yz e passante per il centro della
sfera sarà chiamato piano dell'elevazione (figura 2 C).
Quando la sorgente di luce si muove sul piano dell'azimut (figura 3,
riquadro a), le linee di demarcazione luce-ombra sulla sfera formano,
in corrispondenza di angoli diversi, degli "spicchi" di luce
o di ombra sulle due semisfere corrispondenti ai due occhi. Queste linee
di demarcazione si intersecano in due punti simmetrici (i poli della
sfera) per i quali, in questo caso, passa l'asse y. Siccome nel nostro
agente artificiale le semisfere sono formate dai recettori di figura
1, le zone di luce e ombra delle due semisfere corrispondono a un diverso
grado di attivazione dei singoli recettori. La figura 2.3 C illustra
l'attivazione dei recettori dei due occhi composti dell'agente adattivo
artificiale corrispondente alle zone di luce-ombra delle semisfere (nota
che le parti in scuro sono le parti con maggiore attivazione - figura
3 riquadro b).
|
Figura
3. A: una fonte luminosa che colpisce la sfera con direzione
d genera una semisfera illuminata e una in ombra rispetto a tale
fonte; la linea di demarcazione fra le due semisfere (la base)
giace sul piano parallelo a y, passante per il centro della sfere
e normale alla direzione della fonte di luce d. B: le zone di
luce ed ombra generate dalla fonte di luce di direzione d sulle
due semisfere corrispondenti agli occhi viste dall'alto rispetto
alla loro base. C: corrispondente attivazione dei recettori degli
occhi artificiali.
|
Il
valore assegnato ai recettori (le zone in bianco, grigio e nero della
figura 3) dipende sia dalle zone di luce e ombra che si creano sulla
superficie degli occhi quando vengono colpiti dalla luce (come descritto
sopra), sia dalla quantità di luce totale diffusa (per esempio
quando la luce è intensa il valore dei recettori della zona illuminata
sarà maggiore di quando la luce è bassa)
La
mappa sensoriale
Il problema che si
pone ora è quello dell'utilizzo dell'informazione sensoriale
una volta acquisita nel modo sopra descritto. I pattern di attivazione
dei recettori dei due occhi corrispondenti alle diverse direzioni della
luce devono essere "tradotti" in un formato che sia in qualche
modo utilizzabile dalle funzioni più ad alto livello del sistema;
deve pertanto possedere dei requisiti specifici che rendono necessario
ipotizzarne l'esistenza.
L'attivazione dei recettori corrispondente alla direzione della fonte
di luce, così come illustrato in figura 3, di per sé non
è informativa: per poter essere un solido punto di partenza per
un'elaborazione spaziale, l'informazione di input deve essere rappresentata
in modo tale da essere collocabile spazialmente. L'attivazione dei recettori
di figura 3, per esempio, non è collocabile spazialmente
in quanto dall'analisi di essa non è possibile stabilire, se
non dopo una serie di considerazioni sulla fisica, che la fonte luminosa
è a 45 gradi a sinistra dell'asse dell'agente; è necessario,
in definitiva, che l'informazione spaziale sia disponibile in modo esplicito
e non ambiguo.
Un'altra caratteristica che deve avere un formato utilizzabile dalle
funzioni spaziali del sistema è il fatto di rappresentare l'informazione
in modo topologico; è necessario, per esempio, che dall'analisi
di essa risulti evidente che la direzione di 45 gradi è a metà
fra quella di 0 gradi e 90 gradi.
Il formato in esame deve poi essere robusto alle perturbazioni;
mentre il valore dei recettori può subire variazioni lievi a
causa delle caratteristiche mutevoli della fonte di luce (per esempio
se è intensa o debole, se il sole è basso o alto sull'orizzonte,
ecc.), queste devono essere corrette il più possibile a livello
della rappresentazione nel nuovo formato.
Passiamo ora a considerare come si passa dal pattern sensoriale alla
sua rappresentazione in un altro formato avente le caratteristiche descritte
sopra. Si analizzerà dapprima la rappresentazione dell'attivazione
dei recettori di un occhio e poi si vedrà come integrare le rappresentazioni
relative ai due occhi.
Ma
prima di tutto diamo uno sguardo a come è mappata l'informazione
sensoriale a livello cerebrale nei sistemi biologici.
L'informazione sensoriale è rappresentata, a livello corticale,
in modo tale che neuroni adiacenti siano funzionalmente legati a caratteristiche
fisiche simili dello stimolo. A livello teorico si può ipotizzare
la rete di neuroni che costituiscono la corteccia cerebrale come costituita
da diversi strati di unità di calcolo (neuroni) interconnesse
tra loro. La caratteristica più interessante è la particolare
attitudine a rispondere a certi stimoli mediante un particolare tipo
di interazione con i neuroni vicini, che si articola in tre modi:
eccitatorio
|
è
un tipo di interazione molto forte, ma che presenta un raggio di
influenza piuttosto ridotto (50 - 100 micron); |
inibitorio
|
l'area che circonda la zona di eccitazione è caratterizzata
da una interazione inibitoria di forza minore, ma con un'estensione
maggiore (200 - 500 micron); |
a
lungo raggio
|
oltre
l'area inibitoria sono presenti interazioni molto deboli di tipo
eccitatorio che coprono distanze notevoli (fino ad alcuni centimetri). |
|
Figura
4 Interazioni laterali di un generico neurone biologico Nk
|
La
rappresentazione schematica delle interazioni laterali di un generico
neurone biologico ricalca l'andamento di una funzione a "cappello
messicano" (figura 4).
Per simulare la caratteristica delle mappe biologiche sopra descritta
si utilizzerà una rete neurale di KOHONEN (KOHONEN,
1978, per una descrizione dettagliata vedi INTRODUZIONE
ALLE RETI NEURALI). Il pattern costituito dall'attivazione dei
recettori dell'occhio verrà processato da questa rete neurale
e mappato su una matrice bidimensionale di 4*4 elementi (neuroni) che
sarà l'output della rete. Ma prima di entrare nel merito specifico
della descrizione delle caratteristiche di questa matrice è opportuna
una descrizione generale della rete neurale di Kohonen.
La rete neurale di Kohonen può essere considerata come un a rete
ad apprendimento non supervisionato in quanto non necessita dei pattern
di esempio. I pattern d'ingresso nella fase di apprendimento vengono
mappati nella matrice di neuroni di output come "bolle" di
eccitazione. L'algoritmo di apprendimento è costruito in modo
tale da simulare il meccanismo delle eccitazioni-inibizioni laterali
e creare sulla matrice di output una rappresentazione simile a quella
corticale (figura 4).
Il pattern corrispondente ai valori di attivazione dei recettori di
un occhio, vengono quindi processati da una rete di Kohonen, che lo
mappa su una matrice bidimensionale di 16 neuroni (4 x 4) in una posizione
specifica ed analogica rispetto alla posizione dei recettori attivati.
Scendiamo nel dettaglio e andiamo a specificare quali sono i pattern
di ingresso e illustriamo il concetto di posizione analogica.
La rete di Kohonen ha bisogno di essere addestrata; questo processo
non richiede esempi noti a priori, ma pattern d'ingresso. I pesi della
rete saranno determinati in modo tale per cui ognuno di essi avrà
una "bolla" di attivazione specifica sulla matrice di uscita.
La posizione di tale bolla di attivazione è centrata sul neurone
della matrice maggiormente correlato al pattern d'ingresso (vedi INTRODUZIONE
ALLE RETI NEURALI per i dettagli) e
la sua estensione sulla matrice è determinata dall'ampiezza dell'intorno:
in questo caso si sceglierà arbitrariamente un intorno di ampiezza
due, in modo che le bolle di attivazione occupino tutte la stessa area
sulla matrice, cioè un quarto di essa. Essendo la distribuzione
dei pesi all'inizio casuale, per lo stesso pattern d'ingresso si possono
avere, in sessioni di apprendimento successive, bolle di attivazione
in diverse posizioni sulla matrice. Si sfrutterà questo fatto
per simulare un'altro processo biologico: la competizione neurale per
la conquista di aree specifiche nella corteccia nella formazione delle
mappe sensoriali.
Hubel e Wiesel (HUBEL, 1989) descrivono
il fenomeno in questo modo: in condizioni normali i due occhi proiettano
a bande alterne alla corteccia visiva (le cosiddette colonne di dominanza).
Impedendo nell'animale la visione con uno dei due occhi alla nascita,
attraverso la sutura o la rimozione, si ha un'alterazione nella formazione
delle mappe sensoriali corticali: se l'occhio sinistro, per esempio,
è rimosso subito dopo la nascita, l'occhio destro proietterà
anche alle bande che normalmente sono occupate dall'occhio sinistro.
Gli autori imputano questo fenomeno al fatto che la deprivazione sensoriale,
annullando la stimolazione delle fibre provenienti da un occhio, elimina
la competizione per la conquista di aree corticali, lasciando all'occhio
non deprivato il monopolio di tali zone.
Quello che ci interessa, comunque, è il fatto che ogni occhio,
in condizioni normali, ha una propria rappresentazione sensoriale e
che tale rappresentazione non si sovrappone all'altra, in quanto determinate
da una competizione che seleziona le fibre provenienti da un occhio
piuttosto che dall'altro.
|
Figura
5. Riquadro a: P: pattern di addestramento per la rete
neurale di Kohonen relativi all'occhio sinistro. W: pesi
e connessioni della rete per processare i recettori dell'occhio
sinistro. K: matrici di Kohonen ove è mappata l'attivazione
dei recettori dell'occhio sinistro. Riquadro b: P:
pattern di addestramento per la rete neurale di Kohonen relativi
all'occhio destro. W' pesi e connessioni della rete che
processa i recettori dell'occhio destro. K: matrici di
Kohonen dove è mappata l'attivazione dei recettori dell'occhio
destro.
|
Ritorniamo
al nostro sistema visivo artificiale e consideriamo la figura 5. Il
riquadro a illustra i quattro pattern di addestramento della rete (P)
relativi all'occhio sinistro; W sta per l'insieme dei pesi della rete
neurale, mentre K sono le matrici di Kohonen, ovvero l'output della
rete, in cui l'attivazione P dei recettori dell'occhio sinistro, cioè
l'input della rete, è mappata. Come si può vedere ogni
pattern di attivazione è mappato in un sito specifico della matrice;
è da notare che il pattern numero 1 occupa, a livello della matrice,
lo spazio e l'attivazione del pattern 2 più quella del pattern
3. L'informazione mappata sulle matrici K è analogica a quella
dei pattern sensoriali di input P, nel senso che covaria in modo coerente
all'informazione in ingresso. Il riquadro b illustra i quattro pattern
di attivazione sensoriale P relativi all'occhio destro; W' sta per i
pesi della rete di Kohonen che processa tali pattern e W sono le matrici
di rappresentazione sensoriale dell'attivazione dei recettori dell'occhio
destro.
Consideriamo i pattern di attivazione totale (contrassegnati con 1 nei
riquadri a e b della figura 5) e supponiamo che se la rete di Kohonen
W mappa in una particolare zona ("bolla") della matrice il
pattern relativo all'attivazione dei recettori dell'occhio sinistro
di essi determini l'inibizione all'uso della zona corrispondente da
parte della rete che mappa l'attivazione dei recettori dell'occhio destro
W'.
In questo modo la mappa delle due matrici dovrebbe essere complementare
o, se si vuole, in uno stato di equilibrio, proprio come se vi fosse
stata competizione per conquistare spazio su di esse; questo è
esattamente quello che illustrano le due matrici K corrispondenti ai
pattern 1 dei riquadri a e b della figura 5. Selezionando le due reti
W e W' che mappano la stimolazione di input in matrici con le caratteristiche
di figura 5 si riesce a simulare, con la dovuta approssimazione, il
funzionamento delle mappe sensoriali biologiche: ogni occhio ha la sua
zona di attivazione complementare a quella dell'altro.
La
matrice binoculare
Sommando il valore
dei neuroni corrispondenti delle due matrici relative alla rappresentazione
dei pattern attivazione dei recettori dei due occhi si ottiene una matrice
che verrà chiamata matrice binoculare: questa è
la matrice che integra le rappresentazioni sensoriali relative a ciascun
occhio, pertanto si colloca ad un livello di elaborazione superiore
e presenta caratteristiche diverse. La figura 6 mostra l'integrazione
delle matrici di rappresentazione sensoriale relative ai pattern di
attivazione destro (dx) e sinistro (sx). I pattern di attivazione sono,
per ora, quelli di addestramento. I quattro riquadri della figura 6
si riferiscono alle quattro direzioni principali di una fonte di luce
che si muove sul piano dell'azimut: -90 (270) gradi ("sinistra"
- riquadro a), 0 gradi ("avanti" - riquadro b), 90 gradi ("destra"
- riquadro c) e 180 gradi ("dietro" - riquadro d) rispetto
al sistema di riferimento egocentrico.
La bolla di attivazione della matrice binoculare per ogni direzione
(la zona scura delle matrici Kb di figura 6) verrà chiamata componente
spaziale della matrice binoculare.
|
Figura
6. Matrice binoculare Kb ottenuta attraverso la somma dei
neuroni corrispondenti delle matrici di Kohonen K relative ai
pattern di addestramento. I riquadri illustrano i tre livelli
di attivazione sensoriale: P: recettori oculari, K: matrici di
Kohonen, Kb: matrice binoculare.
|
Osservando
i riquadri di figura 6 risultano chiari i tre livelli di attivazione
presi in esame fino ad ora:
1
|
il livello dei recettori (P), il cui valore è determinato
dalla quantità di luce che li colpisce; |
2
|
il
livello delle matrici di Kohonen (K) che mappano l'attivazione
dei recettori in modo analogico al pattern di attivazione di ciascun
occhio al quale si riferiscono e in modo che l'area di attivazione
relativa ai recettori di un occhio sia complementare a quella relativa
all'altro occhio; |
3
|
il
livello della matrice binoculare (Kb), che mappa l'informazione
integrata delle due matrici relative all'occhio destro e sinistro
in modo topologico: esiste un'analogia spaziale fra la sorgente
della fonte di luce rispetto al sistema di riferimento egocentrico
(x) e l'area della matrice in cui viene mappata l'attivazione dei
recettori relativa a tale direzione. |
In
base alla considerazione per cui l'informazione mappata sulla matrice
binoculare sarebbe topologica alla direzione
della fonte di luce rispetto al sistema di riferimento egocentrico,
è importante osservare cosa succede se si presentano alla rete
pattern che non ha mai visto, i cosiddetti pattern di richiamo (recall).
Per esempio vogliamo vedere come sarà mappata nella matrice binoculare
l'attivazione dei recettori corrispondente ad una fonte di luce che
si trova a 45 gradi (figura 7 P). Il risultato è illustrato nella
figura 7 K e Kb.
|
Figura
7. Presentazione di pattern di richiamo P alle reti W e W'
addestrate con i pattern di figura 5. K: matrici di Kohonen
relative a ciascun pattern P. Kb: matrice binoculare.
|
I
due pattern vengono computati in matrici di Kohonen corrispondenti (K).
I valori di attivazione dei neuroni di queste matrici presentano aspetti
interessanti. Per esempio il pattern di sinistra (sx) viene mappato
nella zona corrispondente a quella in cui è mappato il pattern
di apprendimento numero 2 del riquadro a nella figura 5, ma l'attivazione
dei neuroni della matrice è la metà nel caso del pattern
di richiamo. Il pattern di destra (dx) è mappato nella zona corrispondente
al pattern di apprendimento numero 1 nel riquadro b, ma nella zona della
matrice corrispondente al pattern 2 il valore dell'attivazione è
la metà. Il fine di questo discorso è far vedere che il
valore dei neuroni della matrice K e lo spazio occupato da tale attivazione
sulla matrice è coerente con l'informazione sensoriale di input
(il livello 2 di cui si è detto sopra).
L'integrazione dell'attivazione delle due matrici K avviene, come si
è detto, per somma dei neuroni corrispondenti. Il risultato è
la matrice binoculare Kb: essa mappa l'informazione sensoriale in
modo topologico. Osservando la direzione reale della fonte di luce
d e l'attivazione dei neuroni della matrice Kb rispetto al sistema di
riferimento egocentrico x risulta evidente che la "direzione"
dell'attivazione sulla matrice è topologica alla direzione della
fonte di luce; inoltre, dall'analisi dell'attivazione di tale matrice,
risulta evidente che la direzione di 45 gradi è a metà
fra quella di 0 gradi (figura 6 - riquadro b) e quella di 90 gradi (figura
6 - riquadro c).
Generalizzando l'esempio illustrato nella figura 7, si può di
certo affermare che qualsiasi direzione abbia una fonte di luce che
si muove sul piano dell'azimut essa verrà mappata nella matrice
binoculare in modo topologico, cioè la matrice binoculare avrà
delle componenti attive in modo coerente a tale direzione rispetto a
sistema di riferimento egocentrico. In altre parole l'informazione
è collocabile spazialmente, cioè l'attivazione dei neuroni
è sempre in una zona particolare della matrice che è orientata
in relazione al sistema di riferimento egocentrico (vedi
le figure 6 e 7, Kb). Inoltre si può conferire robustezza
a tale attivazione ipotizzando delle soglie per i neuroni della matrice,
in modo da minimizzare le eventuali distorsioni nell'attivazione sensoriale
a livello dei recettori.