Le principali categorie oggetto di studi di classificazione dei suoni sono la musica ed il parlato.
Ovviamente è possibile effettuare una classificazione molto più raffinata distinguendo, ad esempio, la voce maschile da quella femminile.
Le principali caratteristiche/differenze sono sintetizzabili mediante una tabella di riferimento, riportata nella figura a lato.
I principali metodi di classificazione audio sono:
Metodologie di Classificazione dell'audio. Fonte: “modificata, tratta da Guojun Lu, Multimedia Database Management Sysyems, Norwood, MA: Artech House, Inc., © 1999 by Artech House, Inc.”
L’approccio fondamentale per l’indicizzazione ed il recupero del parlato è basato sulla conversione dei segnali audio vocali in testo su cui successivamente applicare tecniche di IR.
Il problema del riconoscimento del parlato (ASR, Automatic Speech Recognition) viene ricondotto ad un problema di pattern matching:
In genere si suddivide il parlato in singole unità ognuna delle quali viene confrontata con i vettori di feature raccolti nella fase di training: in tal modo viene trovato il matching migliore utilizzando la distanza euclidea tra i vettori di feature.
Complicazioni:
Processo di Training e Retrieving di un ASR. Fonte: “modificata, tratta da Guojun Lu, Multimedia Database Management Sysyems, Norwood, MA: Artech House, Inc., © 1999 by Artech House, Inc.”
Ogni “pezzetto” di parlato (frame temporale per esempio di 10 ms) viene rappresentato da un vettore P di caratteristiche.
Il processo di riconoscimento consiste nel considerare più piccola delle differenze tra il vettore P e ciascun vettore memorizzato nella precedente fase di Training.
Problematiche:
La tecnica del Time Warping tenta di normalizzare la durata dei frame del parlato da riconoscere con quella dei frame memorizzati durante la fase di training; tale tecnica è basata sul considerare le variazioni temporali in modo non lineare: si “dilata” o si “contrae” l’asse dei tempi in modo da far coincidere picchi di segnale.
Dopo il Dynamic Time Warping Fonte: “modificata, tratta da Guojun Lu, Multimedia Database Management Sysyems, Norwood, MA: Artech House, Inc., © 1999 by Artech House, Inc.”
Prima del Dynamic Time Warping. Fonte: “modificata, tratta da Guojun Lu, Multimedia Database Management Sysyems, Norwood, MA: Artech House, Inc., © 1999 by Artech House, Inc.”
Le ANN (Artificial Neural Networks), largamente impiegate per il riconoscimento, simulano i processi cognitivi, in particolare l’apprendimento, del cervello umano.
Una ANN simula una rete interconnessa da link con peso.
Una ANN è costituita da due fasi:
Lo scopo della fase di addestramento consiste nel fornire un risultato più probabile per un input assegnato.
Le ANN sono basate su implementazioni che prevedono l’utilizzo di un grande numero di elementi di calcolo (PE – processing elements) molto semplici e interconnessi tra di loro.
Ogni PE implementa una semplice funzione matematica di tipo nonlineare e rappresenta un neurone (unità elementare del cervello).
Le connessioni rappresentano le SINAPSI (strutture nervose di collegamento tra neuroni che si occupano di trasportare segnali elettrici che agiscono da inibitori o eccitatori tra neuroni diversi).
Neurone. Fonte: wikimedia
In una rete neurale artificiale ogni connessione è caratterizzata da un peso (w) in [-1..1].
Il peso rappresenta l’influsso che un neurone porta sul neurone destinatario della connessione.
La rete viene inizializzata con pesi random e, durante l’esecuzione, l’insieme dei pesi rappresenta la “conoscenza” detenuta dalla rete.
La rete può essere addestrata a implementare un determinato compito.
L’addestramento consiste nel variare i pesi delle connessioni secondo determinate leggi
I neuroni sono in genere organizzati in livelli (livello di input, livelli nascosti e livello di output) e le connessioni sono stabilite tra neuroni appartenenti a livelli differenti.
Elaborazione di un PE:
Funzioni di trasformazione:
Le prestazioni dei Sistemi di Speech Recognition sono influenzate dai seguenti fattori:
Cercano di estrarre informazioni su chi sta parlando ed alcuni degli obiettivi sono:
Utilizzano un approccio contrario ai metodi di Speech Recognition (i quali devono essere speaker-independent e quindi cercano di eliminare le caratteristiche peculiari del parlato di ognuno degli speaker) cercando di enfatizzare le differenze di pronuncia, linguistiche e temporali tra i vari speaker.
La ricerca in questo settore è giunta a risultati preliminari (molto peggiori rispetto allo speech recognition).
Utilizzo di feature: un brano musicale viene suddiviso in frame e ogni frame viene rappresentato da un vettore di feature (ad esempio: volume, tono, centroide spettrale, bandwidth, armonicità) che viene utilizzato per il calcolo della similarità.
Utilizzo del tono: un brano musicale viene suddiviso in sequenze di toni (frequenza fondamentale del suono). Si può utilizzare una scala di riferimento oppure classificare una sequenza musicale come una sequenza di U(p), D(own) e S(imilar).
Occorrono tecniche di pattern matching per ritrovare la sequenza che comporta un numero di errori minimo rispetto al brano cercato dall’utente.
In questi sistemi si ottengono alte performance solo se ogni suono è intervallato da una pausa.
In molte applicazioni l’audio è parte di un oggetto multimediale composito (ad esempio un film) dove esistono delle forti relazioni temporali tra video ed audio.
Possiamo utilizzare la conoscenza su uno dei media per migliorare l’indicizzazione e la comprensione del contenuto dell’altro media.
Esempio:
Possiamo utilizzare la classificazione audio (parlato,musica,parlato) per segmentare il video in maniera analoga, ed usare il riconoscimento del parlato per comprendere il contenuto del video.
1. Introduzione
2. Tipologia e formati dei dati MultiMediali. Il testo
3. Tipologia e formati dei dati MultiMediali. L'audio
4. Tipologia e formati dei dati MultiMediali. Grafica e video
5. Progetto di DB Multimediali
6. Indicizzazione e recupero dei documenti di testo
7. Indicizzazione e recupero dell'audio
8. Metodi di classificazione dell'audio
9. Colori
10. Indicizzazione e recupero delle immagini
11. Esempi reali di image retrieval
12. Video
13. Strutture dati efficienti per la ricerca della similarità - pa...
14. Strutture dati efficienti per la ricerca della similarità - pa...
15. Sistemi di supporto e misure di efficacia
17. Geographical Information System - parte prima
18. Geographical Information System -parte seconda
19. Geographical Information System - parte terza