Vai alla Home Page About me Courseware Federica Living Library Federica Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica
 
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Francesco Cutugno » 7.Classificazione – WEKA


Apprendimento non supervisionato – Esempio

  • Apprendimento non supervisionato (clustering): pprendimento svolto sulla base di esempi non classificati.
  • Token: item appartenente ad un insieme di dati (p. es. una parola in un testo), oggetto su cui si opera il processo di assegnazioneautomatica di affiliazione alle classi.
  • Features: caratteristiche misurabili di un oggetto usate per fornirne una descrizione.

Features

Le features rappresentano la ’semantica’ per descrivere i dati.

I processi di individuazione delle classi operano su parametri estratti dai dati piuttosto che sui dati stessi.


Clustering


Clustering (segue)

Le istanze vengono mappate in uno spazio n-dimensionale ed assegnate ad un cluster piuttosto che ad un altro a seconda della distanza euclidea da centroidi posizionati in fase di addestramento.

Le istanze vengono mappate in uno spazio n-dimensionale ed assegnate ad un cluster piuttosto che ad un altro a seconda della distanza euclidea da centroidi posizionati in fase di addestramento.


Apprendimento supervisionato – Esempio

  • Classificazione: attività consistente nel disporre le entità di un dato dominio di conoscenze in opportuni contenitori di conoscenze (classi).
  • Apprendimento supervisionato: apprendimento svolto sulla base di esempi preclassificati.
  • Training set: insieme di istanze usate come esempi per addestrare sistemi automatici nel processo supervisionato.
  • Validation set: insieme di istanze usate per valutare l’addestramento mentre questo viene effettuato al fine di evitare l’overfitting.
  • Test set: insieme di istanze usate per valutare il sistema in seguito all’addestramento.

Il train set

La struttura del train set.

La struttura del train set.


Classificatore


Classificatore (segue)


Generalizzazione e overfitting

Overfitting: eccessivo adattamento del sistema al training set che causa perdita di capacità di generalizzazione.


Classificazione un dataset di esempio


Misura delle prestazioni


Esempio – Part Of Speech (POS)Tagging

POS Tagging = Associazione di una etichetta di tipo ‘parte del discorso’ ad ogni item lessicale di un testo

This correlation was also confirmed by detection of early carcinoma in patients with “preventive” extirpation of the esophagus due to a high-grade dysplasia.
This …. DD
correlation …. NN
was …. VBD
also …. RR
… …. …
high-grade …. NN
… …. …

Esempio – POS Tagging

Schema a blocchi del processo di POS-Tagging.

Schema a blocchi del processo di POS-Tagging.


WEKA – Panoramica

In WEKA: 49 filtri per il preprocessing dei dati; 76 algoritmi di classificazione / regressione; 8 algoritmi di clustering; 15 valutatori di attributi / subsets + 10 algoritmi di ricerca per la feature selection; 3 algoritmi per la ricerca di regole di associazione; 3 interfacce grafiche.

Alcuni versioni specializzate di WEKA sono:

  • BioWEKA – versione di WEKA specializzata per la ricerca biologica;
  • WEKA-CG – versione di WEKA specializzata per la ricerca nel campo della genetica computazionale;
  • WEKAParallel – versione parallela di WEKA;
  • GridWEKA – versione di WEKA dedicata al Grid Computing;

Alcuni software basati su WEKA o dotati di interfacce per dialogare con WEKA sono:

  • KEA – Strumento per l’estrazione di frasi chiave da documenti testuali
  • GATE – Framework open source per il text engineering
  • WEKA – Panoramica

E’ possibile consultare il sito WEKA per maggiori informazioni.

Il formato ARFF

Mostra codice

Il formato XRFF – Esempio

Mostra codice
  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion