Home

Federica EU

1/21

Roberto Prevete » 15.Cross-entropy e variazioni sulla discesa del gradiente

Introduzione

Nella presente lezione parleremo di

Funzione di errore per problemi di classificazione.
Variazioni sulla discesa del gradiente, in particolare:
- Resilient Propagation.
- Quick Propagation.

Cross-entropy

In precedenza abbiamo ricavato l’errore somma dei quadrati

E=(1/2)∑_n∑_k(yk(xⁿ;w) – t_kⁿ)²

partendo dall’ipotesi che il target t fosse una variabile continua generata da una funzione smooth a cui è addizionato un rumore Gaussiano.

Nel caso di un problema di classificazione a due classi t può assumere solo due valori, cioè t ε{0,1}.

Cross-entropy (segue)

Risulta più opportuno, allora, utilizzare la seguente funzione di errore:

E= – ∑_n[tⁿln(yⁿ)+(1-tⁿ)ln(1-yⁿ)]
(detta cross-entropy error)

Dove

yⁿ rappresenta l’output della rete relativo alla n-sima coppia del training set e

tⁿ il relativo valore target.

Osservo che in questo caso stiamo considerando un problema a due classi e, quindi, una rete con un solo nodo di output.

Cross-entropy (segue)

La funzione di errore:

E= – ∑_n[tⁿln(yⁿ)+(1-tⁿ)ln(1-yⁿ)]
(detta cross-entropy error)

è sempre giustificata andando a massimizzare la verosimiglianza.

Quindi:

L= ∏_np(tⁿ, xⁿ)=∏_np(tⁿ/xⁿ)p(xⁿ)

considerando

E= – ln L = – ln ∏_np(tⁿ/xⁿ)p(xⁿ) = -∑_n ln p(tⁿ/xⁿ) – ∑_nln p(xⁿ)

Cross-entropy (segue)

Dato, allora, la funzione di errore

E= -∑_n ln p(tⁿ/xⁿ) – ∑_nln p(xⁿ)

possiamo minimizzare solo la parte che dipende dai parametri della rete, cioè definire la seguente nuova funzione di errore:

E= -∑_n ln p(tⁿ/xⁿ)

Cross-entropy (segue)

Come già detto in precedenza noi vorremmo che l’uscita y della rete rappresenti

la probabilità a posteriori P(C₁/x) per la classe C₁ (la probabilità per la classe C₂ sarà data da P(C₂/x)=1-y).

Allora se indichiamocon t=1 il caso in cui il vettore di input appartiene a C₁e con t=0 il caso in cui il vettore appartiene alla classe C₂, possimo esprimere la probabilità di osserevare entrambi i valori targete con la seguente formula:

p(t/x)= y^t(1-y)^1-t

Cross-entropy (segue)

Data allora

p(t/x)= y^t(1-y)^1-t

la probabilità di osservare t=1 quando y=1, ad esempio, risulta

p(1/x)= p(1/x)= 1¹(1-1)^1-1=1

Nota che questo e’ un caso particolare della distribuzione binomiale.

Cross-entropy (segue)

Quindi:

E = -∑_n ln p(tⁿ/xⁿ)

E =-∑_n ln (yⁿ)^tn(1-yⁿ)(1-tⁿ)

E= -∑_n (yⁿ)tⁿ – ∑_nln (1-yⁿ)(1-tⁿ)

E =-∑_n tⁿ (yⁿ) – ∑_n (1-tⁿ) ln (1-yⁿ)

Ed infine:

E = – ∑_n [tⁿ (yⁿ) + (1-tⁿ) ln (1-yⁿ)]

Cross-entropy (segue)

Nel caso della funzione di errore cross-entropy le formule per il calcolo della derivate dell’errore rispetto ai pesi resteranno, ovviamente, invariate cioè

∂ Eⁿ /∂w_ij= z_j δ_i

Per le unità di output (in questo caso unica):

δ=(∂ Eⁿ /∂a)= g’(a) (∂ Eⁿ /∂y)

Per le restanti unità:

δ_j=(∂ Eⁿ /∂a_j)=g’(a_j)∑_kw_kj* δ_k

Cross-entropy (segue)

Nel caso della funzione di errore cross-entropy le formule per il calcolo della derivate dell’errore rispetto ai pesi resteranno, ovviamente, invariate, ma cambiano quelle per il calcolo dei delta delle unità di output.

Si ha cioè:

(∂ Eⁿ /∂y)= (yⁿ-tⁿ)/(yⁿ (1-yⁿ)) e

δ=g’(a) (yⁿ-tⁿ)/(yⁿ (1-yⁿ))

Cross-entropy (segue)

Si noti che:

Se scegliamo come funzione di output (per il nodo di uscita) l’identità, si ottiene:

δ=(yⁿ-tⁿ)/(yⁿ (1-yⁿ))

Quindi considerando una rete neurale feed-forward con funzione di output dei nodi di output pari all’identita, nel caso della funzione cross-entropy cambiano le formule per calcolare i delta. Ma se cambiamo la funzione di output, cosa succede?

Cross-entropy (segue)

Se, invece, scegliamo come funzione di output la sigmoide

g(x)=s(x)= 1/(1+ exp(-x))

dato che s’(a)= s(a)(1-s(a)) si ottiene:

δ=s’(aⁿ) (yⁿ-tⁿ)/(yⁿ (1-yⁿ)) =
s’(a) (yⁿ-tⁿ)/(yⁿ (1-yⁿ)) =
s(aⁿ)(1-s(aⁿ))(yⁿ-tⁿ)/(yⁿ (1-yⁿ))

ricordando che s(an) è proprio yn, allora

δ= yⁿ(1-yⁿ)(yⁿ-tⁿ)/(yⁿ (1-yⁿ))= yⁿ – tⁿ

cioe’ lo stesso risultato del caso in cui consideriamo contemporaneamente come
funzione di errore la somma dei quadrati e come funzione di output (dei nodi di uscita) l’identità.

Variazioni sulla discesa del gradiente

Il momento

Possiamo calcolare la variazione del peso come dipendente dalla variazione precedente, cioè:

Δw^(t)_ij=-η∂E/∂w_ijj+μ Δw^(t-1)_ij

dove μ è detto coefficiente del momento e μ Δw^(t-1)_ij momento.

Variazioni sulla discesa del gradiente (segue)

Il momento

Cosa comporta tale variazione della regola della discesa del gradiente?
Cerchiamo di capire cosa accade con l’aggiunta del momento.

Partiamo definendo

Δw_ij = Δw⁽¹⁾_ij+ Δw⁽²⁾_ij+ Δw⁽³⁾_ij+ …Δw^(k)_ij

Dove Δw_ij è la variazione del peso dopo k cicli di apprendimento e Δw⁽ⁱ⁾_ij la variazione del peso al i-simo ciclo di apprendimento.

Variazioni sulla discesa del gradiente (segue)

Il momento

Allora se supponiamo che la derivata non cambia (cioè se siamo in una regione in cui la superficie di errore ha curvatura bassa), abbiamo

Δw_ij= -η∂E/∂w_ij (1+μ+ μ²+…)

Se μ è scelto tra zero ed uno, cioè 0< μ<1, si ha allora che possiamo approssimare la variazione del peso dopo k cicli di apprendimento (supposto k sufficientemente grande)
con

Δw_ij=-(η/1-μ)∂E/∂w_ij

Variazioni sulla discesa del gradiente (segue)

Il momento

Dalla formula Δw_ij=-(η/1-μ)∂E/∂w_ij
si evince che nel caso in cui durante il processo di apprendimento siamo in una zona della superficie di errore con curvatura bassa il termine momento, allora, ha l’effetto di incrementare la velocità di apprendimento da η a η/(1-μ) ∂E/∂w_ij

Al contrario, se siamo in una regione con alta curvatura nella quale la discesa del gradiente è oscillatoria, allora successivi contributi del termine momento tenderanno a elidersi e la velocità di apprendimento sarà vicino ad η.

Variazioni sulla discesa del gradiente (segue)

Scegliendo il parametro η

Un ovvio problema della discesa del gradiente è che la scelta dei parametri η e η è fissata a priori.

Ad esempio, una possibile modo per aggiornare il parametro η è, ad ogni ciclo del processo di apprendimento, è il seguente

η_new= ρη_old se ∂E/∂w<0 , η_new=ρη_old se ∂E/∂w<0

Dove il parametro ρ è scelto poco più grande che l’unità (un tipico valore è ρ=1,1), mentre il parametro σ è scelto abbastanza più piccolo che l’unità (un tipico valore è σ=0,5).

Variazioni sulla discesa del gradiente (segue)

Il momento

Variazioni sulla discesa del gradiente (segue)

Quick-propagation

Un altro possibile approccio si basa sull’idea di approssimare la superficie di errore, nei pressi di un minimo, con una parabola.

Sotto questa assunzione si ottiene la seguente formula:

Δw_i^(t+1)=[g_i^(t) / (g_i^(t-1)-g_i^(t))] Δw_i^(t)

con g_i^(t) = ∂E/∂w_i^(t) e g_i^(t-1) = ∂E/∂w_i^(t-1) , cioè la derivata della funzione di errore rispetto al peso al tempo t e al tempo t-1, rispettivamente.

In tale algoritmo è necessario “stare attenti” ai casi in cui il denominatore diventa zero o prossimo a zero.

Variazioni sulla discesa del gradiente (segue)

Resilient back Propagation (Rprop)

Qui descriviamo un altro approccio ancora. In questo caso le variazioni dei pesi sono determinate nel seguente modo:

Δw_ij^(t)= -Δ_ij^(t) SE ∂E/∂w_ij^(t) >0 ,
Δw_ij^(t)= +Δ_ij^(t) SE ∂E/∂w_ij^(t) <0,
Δw_ij^(t)= 0 ALTRIMENTI

dove

Δ_ij^(t) = η+ Δ_ij^(t-1) se ∂E/∂w_ij^(t) *∂E/∂w_ij^(t-1) >0
Δ_ij^(t) = η- Δ_ij^(t-1) se ∂E/∂w_ij^(t) *∂E/∂w_ij^(t-1) <0
Δ_ij(t) = Δ_ij^(t-1) altrimenti