Abbiamo detto che un problema di classificazione può essere affrontato tramite la ricerca di un algoritmo per assegnare ciascun punto dello spazio delle caratteristiche ad una di c classi.
Possiamo allora supporre che lo spazio delle caratteristiche sia suddiviso in c regioni , dette regioni di decisioni , in modo tale che se un elemento a cui è associato un vettore di caratteristiche x appartenente alla regione
allora l’elemento in questione è assegnato a
.
Osserviamo che ciascuna può essere composta di varie regioni disgiunte.
Ad esempio in figura è composto da due regioni disgiunte.
I confini di tali regioni sono detti confini di decisione o superfici di decisione.
Un possibile criterio per determinare le regioni di decisione è quello di minimizzare l’errore di errata classificazione cioè l’errore di assegnare x a quando invece questo appartiene a
con
.
Cominciamo con il considerare un problema a due classi e
.
Nel caso di due classi, allora, la probabilità di commettere tale tipo di errore, allora, sarà dato da:
dove è la funzione di densità di probabilità di x con la condizione che x sia calcolato a partire da elementi appartenenti alla classe
con
.
Allora, dato un certo x, se risulta:
al fine di minimizzare la probabilità di errore scegliamo
e
in modo che x appartenga a
.
In questo modo nel calcolo di viene escluso il contributo maggiore, cioè
.
Se abbiamo c classi, allora, possiamo estendere il ragionamento fatto nel seguente modo:
…
Quindi
Per un problema a c Classi, allora, minimizzare l’errore di assegnare x a quando invece appartiene a
con
significa che se, per un dato x,
per ogni
dovremmo scegliere le regioni
in modo che x appartenga a
.
Infatti in tal modo non darà alcun contributo nel calcolo dell’errore.
Sulla base di quanto precedentemente visto è possibile, allora, seguire la seguente regola di classificazione:
Tale regola nasce dall’applicazione del Teorema di Bayes e dal voler minimizzare l’errore di errata classificazione.
Infatti implica, dal teorema di Bayes,
e quindi
La regola precedente, allora, è equivalente a dire che:
Se per ogni
allora l’elemento rappresentato da x appartiene a
e, di conseguenza, a minimizzare l’errore di errata classificazione.
Per chiarire quanto detto nelle precedenti slide, mostriamo ora il Teorema di Bayes:
Sia p(x) la densità di probabilità di una variabile x il cui valore rappresenta gli elementi di un insieme S.
Siano con
le classi a cui tali elementi possono appartenere.
Sia la probabilità di occorrere della generica classe
(la probabilità a priori di
),
la probabilità di
dato x (probabilità a posteriori di Ck) e
la densità di probabilità di x dato
.
Possiamo scrivere:
oppure
Da cui deriva il teorema di Bayes, cioè:
supposto che sia
La condizione assicura che
Cioè, dato x, la probabilità che appartenga ad una qualunque delle classi è 1.
Sottolineiamo che:
L’importanza del teorema di Bayes è dovuta al fatto che la probabilità a posteriori di Ck è espressa in termini di quantità che sono in genere più facili da calcolare.
Osservazione:
La funzione densità di probabilità p(x) specifica che la probabilità che la variabile x assuma valori nell’intervallo [a,b] è data da:
se D corrisponde all’intero insieme di appartenenza di x.
Se ci sono d variabili possiamo considerare il vettore
corrispondente ad un punto in uno spazio d-dimensionale. La distribuzione dei valori di x può essere descritta dalla funzione densità di probabilità p(x) tale che la probabilità che x cada in una regione R dello spazio di x è data da:
In generale possiamo riformulare un problema di classificazione con c classi in termini di un insieme di c funzioni discriminanti: in modo tale che un elemento rappresentato da x è assegnato alla classe
se
per ogni
.
Se scegliamo come funzioni discriminanti abbiamo una regola che minimizza la probabilità di errore di errata classificazione.
Osserviamo che:
Osserviamo che:
e la regola di classificazione
si trasforma
Un problema di classificazione può essere visto in termini di un insieme finito di funzioni discriminanti.
Le funzioni discriminanti possono assumere forme diverse, delimitando dei confini di decisione.
Il “goal”, allora, è trovare un algoritmo che permette di “trovare” tali funzioni.
1. Informazioni generali sul corso
3. Un modello computazionale del neurone biologico
4. Possibili problemi risolvibili con Reti Neurali
5. Problemi di Classificazione ed approccio probabilistico
7. Capacità rappresentativa delle reti neurali - parte prima
8. Capacità rappresentativa delle reti neurali - Parte seconda
9. Apprendimento e generalizzazione
10. Discesa del gradiente e backpropagation
11. Back-Propagation
13. Interpretazione output di una rete neural feed-forward
14. Complessità della rete, generalizzazione e termini di regolari...
15. Cross-entropy e variazioni sulla discesa del gradiente
16. Verso le reti neurali RBF: interpolazione esatta.
17. Reti neurali RBF
18. Addestramento di una rete RBF
19. Parametri delle funzioni a base radiale
20. Un primo modello di reti neurali ricorrenti: formalismo di Caia...