Home

Federica EU

1/18

Roberto Prevete » 7.Capacità rappresentativa delle reti neurali - parte prima

Introduzione

Nella presente lezione cercheremo di capire quale è la capacità rappresentativa delle reti Feed-Forward, con funzione di attivazione a soglia (funzione di Heaviside).

1 nodo e funzione di attivazione di Heaviside

Analizziamo, ora, la capacità rappresentativa di una rete neurale feed-forward costituita da un sol nodo e con funzione di attivazione pari alla funzione di Heaviside.

In questo caso abbiamo:

z=θ (a) con a=∑k w_k x_k dove x_k sono i valori di input più il parametro di bias e

θ(x) è la funzione di Heaviside.

Osserviamo che in questo caso la rete Feed-Forward si riduce al neurone di MacCulloch & Pitts.

Funzione di Heaviside

Tale funzione, assume valore:

1, se l’argomento è maggiore di zero

0, in tutti gli altri casi.

Funzione di Heaviside.

Output della rete

L’output della rete è dato, allora, da:

z=θ (a) con a=∑_k w_k x_k

z assumerà valori diversi quando a passa da valori negativi a valori positivi,
quindi “il confine di decisione” è dato da a=0, cioè ∑_k w_k x_k =0.

Se abbiamo, quindi, d input il confine di decisione è un iperpiano d-dimensionale in uno spazio (d+1)-dimensionale.

Cerchiamo di essere più chiari.

Output della rete (segue)

Supponiamo di voler utilizzare tale rete per risolvere un problema di classificazione a due classi C1 e C2. In questo caso abbiamo una sola funzione discriminante F(x) e l’algoritmo di classificazione è il seguente:

Se F(x)>0 → elemento rappresentato da x appartiene alla classe C1
altrimenti F(x)<0 → elemento rappresentato da x appartiene alla classe C2

Supponiamo di voler approssimare F(x) tramite la nostra rete z=y(x)=θ (∑_k w_k x_k).

Ci dobbiamo chiedere, quali confini di decisione la nostra rete è capace di rappresentare ?

Tali confini di decisione permettono di risolvere il problema, cioè z=θ (∑_k w_k x_k) può approssimare F(x)?

Output della rete (segue)

Dato che la risposta del neurone si differenzia quando l’input risulta essere minore o maggiore della soglia, il confine di decisione rappresentabile dalla nostra rete è dato allora dalla equazione

∑_k w_k x_k =0

Tale equazione corrisponde un (d-1)-iperpiano in uno spazio d-dimensionale

Ad esempio se d=2 abbiamo:

w₁ x₁ + w₂ x₂ + w₀ =0

che altro non è che l’equazione di una retta.

Quindi una rete neurale Feed-Forward costituita da un solo neurone e con funzione di attivazione di Heaviside può risolvere solo problemi di classificazione che sono linearmente separabili, cioè possiamo rappresentare solo funzioni discriminanti che hanno come confine di decisione un iper-piano.

Una interpretazione geometrica

Osserviamo che l’equazione

∑_k w_k x_k =0

può essere riscritta come

w^Tx+w₀=0

dove w^Tx è il prodotto scalare tra i vettori

w=(w₁,w₂, …,w_d) e x=(x₁,x₂, …,x_d) e w₀ è il bias.

Una interpretazione geometrica (segue)

Allora Se x^A e x^B sono due punti apprtenenti dell’iperpiano

w^Tx+w₀=0

Allora, risulta

w^Tx^A+w₀=0= w^Tx^B+w₀

quindi

w^T x^A – w^T x^B= w^T (x^A – x^B)=0

così w è un vettore perpendicolare ad ogni vettore giacente nell’iperpiano e quindi all’iperpiano stesso.

Una interpretazione geometrica (segue)

La distanza dell’iperpiano dall’origine è, inoltre, data da:

l= |w₀| / || w ||.

Osserviamo ancora che x^Tw= ||x|| ||w|| cosα
dove ||x|| è la norma (la lunghezza) del vettore x , α è l’angolo compreso tra il vettore x e il vettore w.

Tale prodotto scalare può essere interpretato come la lunghezza del vettore proiezione di x lungo la direzione di w moltiplicato per la lunghezza di w.

Se indichiamo con xw la lunghezza del vettore proiezione di x lungo la direzione di w possiamo scrivere:
x^Tw= x_w ||w||
x_w= (x^Tw)/||w||

Una interpretazione geometrica (segue)

Possiamo dire, allora, che:

Fissato il valore di w e w₀, per i valori di input tale che x^Tw+ w₀=0, dato che w e w₀ sono costanti, la proiezione

x_w =(xTw)/||w||= – w₀/||w||

è costante.

Quindi i valori di x che soddisfano x^Tw+ w₀=0, per dei fissati valori di w e w₀, corrispondono ai punti la cui proiezione su w da il valore – w₀/ ||w|| , tali punti corrispondono ad un iperpiano perpendicolare a w e che lo interseca nel punto – w₀/ ||w||.

Una interpretazione geometrica (segue)

Dato, allora, un generico vettore x ci sono due casi:

x_w > -w₀/ ||w||,
questo significa che il vettore x deve giacere oltre il piano perpendicolare e
risulta x_w>-w₀

x_w < -w₀/ ||w||,
questo significa che il vettore x deve giacere prima della perpendicolare e
risulta x_w<-w0

Feed-forward a due strati e funzione di output di Heaviside

Consideriamo, ora, reti neurali feed-forward multistrato full-connected costituite da

d input,

uno strato di m neuroni interni con funzione di output di Heaviside e

un neurone z di output con funzione di output g che realizza un AND logico dei neuroni interni (per tutti i nodi supponiamo una funzione di attivazione pari all’identità).

Tale rete realizza la seguente funzione:

z(x)=g(∑_h w”h_θ (∑_k w’_hk x_k)) con k=1,2, …,d e h=1,2, …m.

dove abbiamo incluso il bias nella sommatoria.

Feed-forward a due strati e funzione di output di Heaviside (segue)

Reti così fatte, possono rappresentare una regione di decisione semplicemente connessa e convessa (Ricordo che: Un sottoinsieme di R^d è detto semplicemente connesso se è fatto di un “pezzo solo” e se non ha “buchi”. Un sottoinsieme di R^d si dice convesso se per ogni coppia di punti x,y appartenenti al sottoinsieme il segmento che li congiunge è interamente contenuto nel sottoinsieme stesso. Un insieme convesso è semplicemente connesso).

Osserviamo che ciascun nodo interno definisce un confine di decisione coincidente con un iper-piano (una retta nel caso di d=2), quindi gli m iper-piani definiti dagli m nodi interni vanno a definire una unica regione di decisione (chiusa o aperta) convessa. Il nodo di output permette di decidere, così, se un punto appartiene oppure no alla regione di decisione individuata dagli m nodi interni, cioè se gli m nodi interni hanno valore di output pari a 1 l’input x appartiene alla regione di decisione altrimenti no.

Feed-forward a due strati e funzione di output di Heaviside (segue)

Dimostriamo che la regione di decisione K definita da tale rete è convessa (1).

Data una rete con unità a soglia con m nodi interni (ciascuno rappresentante un confine di decisione dato da un iper-piano) e con un nodo di output che realizza un AND logico, tale rete definisce una regione di decisione, K, convessa.

Per dimostrare ciò dobbiamo dimostrare che comunque presi due punti x^A e x^B appartenenti alla regione K allora se scelgo un punto x^C appartenente al segmento congiungente, tale punto appartiene ancora alla regione K.

Feed-forward a due strati e funzione di output di Heaviside (segue)

Dimostriamo che la regione di decisione K definita da tale rete è convessa (2).

un punto xC appartenente al segmento congiungente x^A e x^B può essere così espresso:

x^C =αx^A + (1-α)x^B con 0≤ α≤1

Sappiamo che il valore di output della rete per i due punti x^A e x^B è

z(x^A)>0 e z(x^B)>0,

quindi, per come è costruita la rete, per ciascun nodo interno si ha

∑_k w’_hk x^A_k >0 e ∑_k w’_hk x^B_k>0

(ricordo che la funzione g realizza un AND logico e che, quindi, affinché dia 1 come valore di uscita deve essere θ θ(∑_k w’_hk x_k)=1 per ogni h)

Feed-forward a due strati e funzione di output di Heaviside (segue)

Dimostriamo che la regione di decisione K definita da tale rete è convessa (3).

Allora possiamo scrivere

∑_k w’_hk x^C_k=

∑_k w’_hk (αx^A_k + (1-α)x^B_k)=

α∑_k w’_hk x^A_k+(1-α) ∑_k w’_hk x^B_k

dato che ∑_k w’_hk x^A_k>0 e ∑_k w’_hk x^B_k>0

risulta, così, ∑_k w’_hk x^C_k>0 per ogni h.

Quindi x^C appartiene alla regione K.

Feed-forward a due strati e funzione di output di a soglia

Facciamo notare che:

Se rilassiamo la condizione di avere un AND logico come output possiamo avere anche regioni di decisione più complesse, ma non ogni tipo di regioni di decisione.

Reti neurali che hanno tre strati di pesi possono generare qualunque regioni di decisione (Lippmann, 1987).

L’ultimo punto ci dice che con una rete neurale costituita da 3 strati di pesi, o equivalentemente 2 strati di nodi interni, e con funzione di output dei nodi di tipo “a soglia”, può generare qualunque regioni di decisione, e quindi può, almeno in linea teorica, risolvere qualunque problema di classificazione con la condizione di avere un numero sufficiente di nodi interni.

Una interpretazione geometrica

In figura è mostrato un esempio di confine di decisione che non può essere rappresentato da una rete neurale con due strati di nodi (o due strati di pesi).

In questo caso, tale regione può essere approssimata bene quanto si vuole solamente da una rete neurale con due strati di nodi interni (se c’e’ un numero sufficiente di nodi)