Francesco Cutugno » 7.Classificazione – WEKA

Apprendimento non supervisionato – Esempio

Apprendimento non supervisionato (clustering): pprendimento svolto sulla base di esempi non classificati.
Token: item appartenente ad un insieme di dati (p. es. una parola in un testo), oggetto su cui si opera il processo di assegnazioneautomatica di affiliazione alle classi.
Features: caratteristiche misurabili di un oggetto usate per fornirne una descrizione.

Features

Le features rappresentano la ’semantica’ per descrivere i dati.

I processi di individuazione delle classi operano su parametri estratti dai dati piuttosto che sui dati stessi.

Clustering

Clustering (segue)

Le istanze vengono mappate in uno spazio n-dimensionale ed assegnate ad un cluster piuttosto che ad un altro a seconda della distanza euclidea da centroidi posizionati in fase di addestramento.

Apprendimento supervisionato – Esempio

Classificazione: attività consistente nel disporre le entità di un dato dominio di conoscenze in opportuni contenitori di conoscenze (classi).
Apprendimento supervisionato: apprendimento svolto sulla base di esempi preclassificati.
Training set: insieme di istanze usate come esempi per addestrare sistemi automatici nel processo supervisionato.
Validation set: insieme di istanze usate per valutare l’addestramento mentre questo viene effettuato al fine di evitare l’overfitting.
Test set: insieme di istanze usate per valutare il sistema in seguito all’addestramento.

Il train set

La struttura del train set.

Classificatore

Classificatore (segue)

Generalizzazione e overfitting

Overfitting: eccessivo adattamento del sistema al training set che causa perdita di capacità di generalizzazione.

Classificazione un dataset di esempio

Misura delle prestazioni

Esempio – Part Of Speech (POS)Tagging

POS Tagging = Associazione di una etichetta di tipo ‘parte del discorso’ ad ogni item lessicale di un testo

This correlation was also confirmed by detection of early carcinoma in patients with “preventive” extirpation of the esophagus due to a high-grade dysplasia.
This …. DD
correlation …. NN
was …. VBD
also …. RR
… …. …
high-grade …. NN
… …. …

Esempio – POS Tagging

Schema a blocchi del processo di POS-Tagging.

WEKA – Panoramica

In WEKA: 49 filtri per il preprocessing dei dati; 76 algoritmi di classificazione / regressione; 8 algoritmi di clustering; 15 valutatori di attributi / subsets + 10 algoritmi di ricerca per la feature selection; 3 algoritmi per la ricerca di regole di associazione; 3 interfacce grafiche.

Alcuni versioni specializzate di WEKA sono:

BioWEKA – versione di WEKA specializzata per la ricerca biologica;
WEKA-CG – versione di WEKA specializzata per la ricerca nel campo della genetica computazionale;
WEKAParallel – versione parallela di WEKA;
GridWEKA – versione di WEKA dedicata al Grid Computing;

Alcuni software basati su WEKA o dotati di interfacce per dialogare con WEKA sono: