ANT - SISTEMA VISIVO livello sensoriale

Il punto di partenza per progettare il sistema visivo del nostro agente adattivo artificiale ANT è l'osservazione empirica del sistema visivo dell'agente adattivo biologico che assumiamo come modello: la formica del deserto o, più in generale il sistema visivo degli insetti.
L'occhio degli insetti è composto da qualche decina fino ad alcune centinaia di ommatidi (occhi semplici) a seconda della specie. Ogni ommatide ha un proprio cristallino e una propria retina e l'insieme degli ommatidi di ciascun occhio formano una specie di matrice disposta su di una superficie semisferica.

Figura 1. Sinistra: l'occhio composto artificiale usato nell'agente adattivo. Destra: A: l'agente si muove sul piano dell'azimut e in ogni istante percepisce attraverso i recettori dei suoi occhi la direzione d e d' di una fonte di luce (o di un piano polarizzato di luce) L rispetto al proprio sistema di riferimento egocentrico, la x del quale (la freccia) è parallela alla direzione dell'agente nei diversi istanti. B: la fonte di luce l è ad una distanza tale che la direzione d nell'istante a è parallela alla direzione d' nell'istante b.

I recettori sensoriali

L'occhio artificiale di cui sarà dotato il nostro sistema adattivo è raffigurato in figura 1. E' composto da 24 ommatidi (raffigurati dai quadratini) disposti come un mosaico su di una semisfera. Ogni quadratino può assumere un valore continuo proporzionale alla quantità di luce che lo colpisce. L'agente adattivo artificiale è dotato di due occhi di questo tipo. Da questo punto in avanti i quadratini dell'occhio artificiale verranno chiamati per semplicità recettori, anche se il termine appare improprio, visto che in realtà ognuno di essi sta per più recettori.
Gli occhi dell'agente sono posizionati ai lati del corpo rispetto all'asse principale (vedi figura 2 A). In realtà la distanza fra gli occhi L è trascurabile poiché la distanza della fonte di luce L dall'agente artificiale, in analogia con quella del sole dall'agente biologico, è tale per cui i raggi di luce provenienti da essa possono essere considerati paralleli sulle due retine; inoltre, come dimostrato formalmente, la differenza nell'intensità della luce che arriva ai due occhi è inversamente proporzionale alla distanza della sorgente di luce. Perciò si può considerare che alle due retine arrivi la stessa quantità di luce in ogni istante. Lo schema su cui si fonda la discussione che segue sulla percezione della luce, pertanto, è quello di figura 2 B, in cui sono raffigurate le due retine adiacenti in modo da formare una sfera.
Passiamo ora ad analizzare le caratteristiche dello spostamento del cono di luce proiettato su una sfera in relazione all'inclinazione sul piano dell'azimut xy (vedi figura 2 C).

Figura 2. A: posizione reale degli occhi dell'agente adattivo artificiale in posizione laterale rispetto all'asse del corpo (y). B: la distanza fra gli occhi L non ha peso significativo né sulla quantità, né sulla qualità della luce in arrivo (dimostrazione). C: a: piano azimut., b: piano dell'elevazione.

La luce proiettata su una sfera, nel caso in cui il diametro della base del cono di luce sia maggiore del diametro della sfera ne illumina una metà, mentre l'altra metà è in ombra; il piano passante per la linea di demarcazione fra luce e ombra è perpendicolare alla direzione del fascio di luce. Il piano parallelo a xy e passante per il centro della sfera verrà di qui in poi chiamato piano dell'azimut, mentre quello parallelo a yz e passante per il centro della sfera sarà chiamato piano dell'elevazione (figura 2 C).
Quando la sorgente di luce si muove sul piano dell'azimut (figura 3, riquadro a), le linee di demarcazione luce-ombra sulla sfera formano, in corrispondenza di angoli diversi, degli "spicchi" di luce o di ombra sulle due semisfere corrispondenti ai due occhi. Queste linee di demarcazione si intersecano in due punti simmetrici (i poli della sfera) per i quali, in questo caso, passa l'asse y. Siccome nel nostro agente artificiale le semisfere sono formate dai recettori di figura 1, le zone di luce e ombra delle due semisfere corrispondono a un diverso grado di attivazione dei singoli recettori. La figura 2.3 C illustra l'attivazione dei recettori dei due occhi composti dell'agente adattivo artificiale corrispondente alle zone di luce-ombra delle semisfere (nota che le parti in scuro sono le parti con maggiore attivazione - figura 3 riquadro b).

Figura 3. A: una fonte luminosa che colpisce la sfera con direzione d genera una semisfera illuminata e una in ombra rispetto a tale fonte; la linea di demarcazione fra le due semisfere (la base) giace sul piano parallelo a y, passante per il centro della sfere e normale alla direzione della fonte di luce d. B: le zone di luce ed ombra generate dalla fonte di luce di direzione d sulle due semisfere corrispondenti agli occhi viste dall'alto rispetto alla loro base. C: corrispondente attivazione dei recettori degli occhi artificiali.

Il valore assegnato ai recettori (le zone in bianco, grigio e nero della figura 3) dipende sia dalle zone di luce e ombra che si creano sulla superficie degli occhi quando vengono colpiti dalla luce (come descritto sopra), sia dalla quantità di luce totale diffusa (per esempio quando la luce è intensa il valore dei recettori della zona illuminata sarà maggiore di quando la luce è bassa)

La mappa sensoriale

Il problema che si pone ora è quello dell'utilizzo dell'informazione sensoriale una volta acquisita nel modo sopra descritto. I pattern di attivazione dei recettori dei due occhi corrispondenti alle diverse direzioni della luce devono essere "tradotti" in un formato che sia in qualche modo utilizzabile dalle funzioni più ad alto livello del sistema; deve pertanto possedere dei requisiti specifici che rendono necessario ipotizzarne l'esistenza.
L'attivazione dei recettori corrispondente alla direzione della fonte di luce, così come illustrato in figura 3, di per sé non è informativa: per poter essere un solido punto di partenza per un'elaborazione spaziale, l'informazione di input deve essere rappresentata in modo tale da essere collocabile spazialmente. L'attivazione dei recettori di figura 3, per esempio, non è collocabile spazialmente in quanto dall'analisi di essa non è possibile stabilire, se non dopo una serie di considerazioni sulla fisica, che la fonte luminosa è a 45 gradi a sinistra dell'asse dell'agente; è necessario, in definitiva, che l'informazione spaziale sia disponibile in modo esplicito e non ambiguo.
Un'altra caratteristica che deve avere un formato utilizzabile dalle funzioni spaziali del sistema è il fatto di rappresentare l'informazione in modo topologico; è necessario, per esempio, che dall'analisi di essa risulti evidente che la direzione di 45 gradi è a metà fra quella di 0 gradi e 90 gradi.
Il formato in esame deve poi essere robusto alle perturbazioni; mentre il valore dei recettori può subire variazioni lievi a causa delle caratteristiche mutevoli della fonte di luce (per esempio se è intensa o debole, se il sole è basso o alto sull'orizzonte, ecc.), queste devono essere corrette il più possibile a livello della rappresentazione nel nuovo formato.
Passiamo ora a considerare come si passa dal pattern sensoriale alla sua rappresentazione in un altro formato avente le caratteristiche descritte sopra. Si analizzerà dapprima la rappresentazione dell'attivazione dei recettori di un occhio e poi si vedrà come integrare le rappresentazioni relative ai due occhi.

Ma prima di tutto diamo uno sguardo a come è mappata l'informazione sensoriale a livello cerebrale nei sistemi biologici.
L'informazione sensoriale è rappresentata, a livello corticale, in modo tale che neuroni adiacenti siano funzionalmente legati a caratteristiche fisiche simili dello stimolo. A livello teorico si può ipotizzare la rete di neuroni che costituiscono la corteccia cerebrale come costituita da diversi strati di unità di calcolo (neuroni) interconnesse tra loro. La caratteristica più interessante è la particolare attitudine a rispondere a certi stimoli mediante un particolare tipo di interazione con i neuroni vicini, che si articola in tre modi:

eccitatorio	è un tipo di interazione molto forte, ma che presenta un raggio di influenza piuttosto ridotto (50 - 100 micron);
inibitorio	l'area che circonda la zona di eccitazione è caratterizzata da una interazione inibitoria di forza minore, ma con un'estensione maggiore (200 - 500 micron);
a lungo raggio	oltre l'area inibitoria sono presenti interazioni molto deboli di tipo eccitatorio che coprono distanze notevoli (fino ad alcuni centimetri).

Figura 4 Interazioni laterali di un generico neurone biologico Nk

La rappresentazione schematica delle interazioni laterali di un generico neurone biologico ricalca l'andamento di una funzione a "cappello messicano" (figura 4).
Per simulare la caratteristica delle mappe biologiche sopra descritta si utilizzerà una rete neurale di KOHONEN (KOHONEN, 1978, per una descrizione dettagliata vedi INTRODUZIONE ALLE RETI NEURALI). Il pattern costituito dall'attivazione dei recettori dell'occhio verrà processato da questa rete neurale e mappato su una matrice bidimensionale di 4*4 elementi (neuroni) che sarà l'output della rete. Ma prima di entrare nel merito specifico della descrizione delle caratteristiche di questa matrice è opportuna una descrizione generale della rete neurale di Kohonen.
La rete neurale di Kohonen può essere considerata come un a rete ad apprendimento non supervisionato in quanto non necessita dei pattern di esempio. I pattern d'ingresso nella fase di apprendimento vengono mappati nella matrice di neuroni di output come "bolle" di eccitazione. L'algoritmo di apprendimento è costruito in modo tale da simulare il meccanismo delle eccitazioni-inibizioni laterali e creare sulla matrice di output una rappresentazione simile a quella corticale (figura 4).
Il pattern corrispondente ai valori di attivazione dei recettori di un occhio, vengono quindi processati da una rete di Kohonen, che lo mappa su una matrice bidimensionale di 16 neuroni (4 x 4) in una posizione specifica ed analogica rispetto alla posizione dei recettori attivati. Scendiamo nel dettaglio e andiamo a specificare quali sono i pattern di ingresso e illustriamo il concetto di posizione analogica.
La rete di Kohonen ha bisogno di essere addestrata; questo processo non richiede esempi noti a priori, ma pattern d'ingresso. I pesi della rete saranno determinati in modo tale per cui ognuno di essi avrà una "bolla" di attivazione specifica sulla matrice di uscita. La posizione di tale bolla di attivazione è centrata sul neurone della matrice maggiormente correlato al pattern d'ingresso (vedi INTRODUZIONE ALLE RETI NEURALI per i dettagli) e la sua estensione sulla matrice è determinata dall'ampiezza dell'intorno: in questo caso si sceglierà arbitrariamente un intorno di ampiezza due, in modo che le bolle di attivazione occupino tutte la stessa area sulla matrice, cioè un quarto di essa. Essendo la distribuzione dei pesi all'inizio casuale, per lo stesso pattern d'ingresso si possono avere, in sessioni di apprendimento successive, bolle di attivazione in diverse posizioni sulla matrice. Si sfrutterà questo fatto per simulare un'altro processo biologico: la competizione neurale per la conquista di aree specifiche nella corteccia nella formazione delle mappe sensoriali.
Hubel e Wiesel (HUBEL, 1989) descrivono il fenomeno in questo modo: in condizioni normali i due occhi proiettano a bande alterne alla corteccia visiva (le cosiddette colonne di dominanza). Impedendo nell'animale la visione con uno dei due occhi alla nascita, attraverso la sutura o la rimozione, si ha un'alterazione nella formazione delle mappe sensoriali corticali: se l'occhio sinistro, per esempio, è rimosso subito dopo la nascita, l'occhio destro proietterà anche alle bande che normalmente sono occupate dall'occhio sinistro. Gli autori imputano questo fenomeno al fatto che la deprivazione sensoriale, annullando la stimolazione delle fibre provenienti da un occhio, elimina la competizione per la conquista di aree corticali, lasciando all'occhio non deprivato il monopolio di tali zone.
Quello che ci interessa, comunque, è il fatto che ogni occhio, in condizioni normali, ha una propria rappresentazione sensoriale e che tale rappresentazione non si sovrappone all'altra, in quanto determinate da una competizione che seleziona le fibre provenienti da un occhio piuttosto che dall'altro.

Figura 5. Riquadro a: P: pattern di addestramento per la rete neurale di Kohonen relativi all'occhio sinistro. W: pesi e connessioni della rete per processare i recettori dell'occhio sinistro. K: matrici di Kohonen ove è mappata l'attivazione dei recettori dell'occhio sinistro. Riquadro b: P: pattern di addestramento per la rete neurale di Kohonen relativi all'occhio destro. W' pesi e connessioni della rete che processa i recettori dell'occhio destro. K: matrici di Kohonen dove è mappata l'attivazione dei recettori dell'occhio destro.

Ritorniamo al nostro sistema visivo artificiale e consideriamo la figura 5. Il riquadro a illustra i quattro pattern di addestramento della rete (P) relativi all'occhio sinistro; W sta per l'insieme dei pesi della rete neurale, mentre K sono le matrici di Kohonen, ovvero l'output della rete, in cui l'attivazione P dei recettori dell'occhio sinistro, cioè l'input della rete, è mappata. Come si può vedere ogni pattern di attivazione è mappato in un sito specifico della matrice; è da notare che il pattern numero 1 occupa, a livello della matrice, lo spazio e l'attivazione del pattern 2 più quella del pattern 3. L'informazione mappata sulle matrici K è analogica a quella dei pattern sensoriali di input P, nel senso che covaria in modo coerente all'informazione in ingresso. Il riquadro b illustra i quattro pattern di attivazione sensoriale P relativi all'occhio destro; W' sta per i pesi della rete di Kohonen che processa tali pattern e W sono le matrici di rappresentazione sensoriale dell'attivazione dei recettori dell'occhio destro.
Consideriamo i pattern di attivazione totale (contrassegnati con 1 nei riquadri a e b della figura 5) e supponiamo che se la rete di Kohonen W mappa in una particolare zona ("bolla") della matrice il pattern relativo all'attivazione dei recettori dell'occhio sinistro di essi determini l'inibizione all'uso della zona corrispondente da parte della rete che mappa l'attivazione dei recettori dell'occhio destro W'.
In questo modo la mappa delle due matrici dovrebbe essere complementare o, se si vuole, in uno stato di equilibrio, proprio come se vi fosse stata competizione per conquistare spazio su di esse; questo è esattamente quello che illustrano le due matrici K corrispondenti ai pattern 1 dei riquadri a e b della figura 5. Selezionando le due reti W e W' che mappano la stimolazione di input in matrici con le caratteristiche di figura 5 si riesce a simulare, con la dovuta approssimazione, il funzionamento delle mappe sensoriali biologiche: ogni occhio ha la sua zona di attivazione complementare a quella dell'altro.

La matrice binoculare

Sommando il valore dei neuroni corrispondenti delle due matrici relative alla rappresentazione dei pattern attivazione dei recettori dei due occhi si ottiene una matrice che verrà chiamata matrice binoculare: questa è la matrice che integra le rappresentazioni sensoriali relative a ciascun occhio, pertanto si colloca ad un livello di elaborazione superiore e presenta caratteristiche diverse. La figura 6 mostra l'integrazione delle matrici di rappresentazione sensoriale relative ai pattern di attivazione destro (dx) e sinistro (sx). I pattern di attivazione sono, per ora, quelli di addestramento. I quattro riquadri della figura 6 si riferiscono alle quattro direzioni principali di una fonte di luce che si muove sul piano dell'azimut: -90 (270) gradi ("sinistra" - riquadro a), 0 gradi ("avanti" - riquadro b), 90 gradi ("destra" - riquadro c) e 180 gradi ("dietro" - riquadro d) rispetto al sistema di riferimento egocentrico.
La bolla di attivazione della matrice binoculare per ogni direzione (la zona scura delle matrici Kb di figura 6) verrà chiamata componente spaziale della matrice binoculare.

Figura 6. Matrice binoculare Kb ottenuta attraverso la somma dei neuroni corrispondenti delle matrici di Kohonen K relative ai pattern di addestramento. I riquadri illustrano i tre livelli di attivazione sensoriale: P: recettori oculari, K: matrici di Kohonen, Kb: matrice binoculare.

Osservando i riquadri di figura 6 risultano chiari i tre livelli di attivazione presi in esame fino ad ora:

1	il livello dei recettori (P), il cui valore è determinato dalla quantità di luce che li colpisce;
2	il livello delle matrici di Kohonen (K) che mappano l'attivazione dei recettori in modo analogico al pattern di attivazione di ciascun occhio al quale si riferiscono e in modo che l'area di attivazione relativa ai recettori di un occhio sia complementare a quella relativa all'altro occhio;
3	il livello della matrice binoculare (Kb), che mappa l'informazione integrata delle due matrici relative all'occhio destro e sinistro in modo topologico: esiste un'analogia spaziale fra la sorgente della fonte di luce rispetto al sistema di riferimento egocentrico (x) e l'area della matrice in cui viene mappata l'attivazione dei recettori relativa a tale direzione.

In base alla considerazione per cui l'informazione mappata sulla matrice binoculare sarebbe topologica alla direzione della fonte di luce rispetto al sistema di riferimento egocentrico, è importante osservare cosa succede se si presentano alla rete pattern che non ha mai visto, i cosiddetti pattern di richiamo (recall). Per esempio vogliamo vedere come sarà mappata nella matrice binoculare l'attivazione dei recettori corrispondente ad una fonte di luce che si trova a 45 gradi (figura 7 P). Il risultato è illustrato nella figura 7 K e Kb.

Figura 7. Presentazione di pattern di richiamo P alle reti W e W' addestrate con i pattern di figura 5. K: matrici di Kohonen relative a ciascun pattern P. Kb: matrice binoculare.

I due pattern vengono computati in matrici di Kohonen corrispondenti (K). I valori di attivazione dei neuroni di queste matrici presentano aspetti interessanti. Per esempio il pattern di sinistra (sx) viene mappato nella zona corrispondente a quella in cui è mappato il pattern di apprendimento numero 2 del riquadro a nella figura 5, ma l'attivazione dei neuroni della matrice è la metà nel caso del pattern di richiamo. Il pattern di destra (dx) è mappato nella zona corrispondente al pattern di apprendimento numero 1 nel riquadro b, ma nella zona della matrice corrispondente al pattern 2 il valore dell'attivazione è la metà. Il fine di questo discorso è far vedere che il valore dei neuroni della matrice K e lo spazio occupato da tale attivazione sulla matrice è coerente con l'informazione sensoriale di input (il livello 2 di cui si è detto sopra).
L'integrazione dell'attivazione delle due matrici K avviene, come si è detto, per somma dei neuroni corrispondenti. Il risultato è la matrice binoculare Kb: essa mappa l'informazione sensoriale in modo topologico. Osservando la direzione reale della fonte di luce d e l'attivazione dei neuroni della matrice Kb rispetto al sistema di riferimento egocentrico x risulta evidente che la "direzione" dell'attivazione sulla matrice è topologica alla direzione della fonte di luce; inoltre, dall'analisi dell'attivazione di tale matrice, risulta evidente che la direzione di 45 gradi è a metà fra quella di 0 gradi (figura 6 - riquadro b) e quella di 90 gradi (figura 6 - riquadro c).
Generalizzando l'esempio illustrato nella figura 7, si può di certo affermare che qualsiasi direzione abbia una fonte di luce che si muove sul piano dell'azimut essa verrà mappata nella matrice binoculare in modo topologico, cioè la matrice binoculare avrà delle componenti attive in modo coerente a tale direzione rispetto a sistema di riferimento egocentrico. In altre parole l'informazione è collocabile spazialmente, cioè l'attivazione dei neuroni è sempre in una zona particolare della matrice che è orientata in relazione al sistema di riferimento egocentrico (vedi le figure 6 e 7, Kb). Inoltre si può conferire robustezza a tale attivazione ipotizzando delle soglie per i neuroni della matrice, in modo da minimizzare le eventuali distorsioni nell'attivazione sensoriale a livello dei recettori.