Home

Federica EU

1/16

Walter Balzano » 8.Metodi di classificazione dell'audio

Metodi di classificazione dell’audio

Definizione dei segnali audio
Riconoscimento del parlato
L’ASR
Dynamic Warping
Tecniche basate su reti neurali
Indicizzazione e ricerca di brani musicali

Classificazione dei segnali audio

Le principali categorie oggetto di studi di classificazione dei suoni sono la musica ed il parlato.

Ovviamente è possibile effettuare una classificazione molto più raffinata distinguendo, ad esempio, la voce maschile da quella femminile.

Le principali caratteristiche/differenze sono sintetizzabili mediante una tabella di riferimento, riportata nella figura a lato.

Tabella caratteristiche di segnali audio.

Metodi di classificazine dell’audio

I principali metodi di classificazione audio sono:

Classificazione Step-by-Step (passo passo):
- ciascuna caratteristica audio viene valutata singolarmente per poter determinare se si tratta di un brano musicale o di parlato;
- ogni caratteristica è vista come filtro o criterio di selezione che può essere in grado di stabilire la tipologia di un determinato pezzo audio
- il primo filtro valuta la posizione del centroide: se il valore supera una soglia prefissata allora si presume che si tratti di un brano musicale
- successivamente si valuta la quantità di silenzio (basso silenzio → musica)
- l’ordine con cui si serializzano i filtri l’uno dopo l’altro qualificano un algoritmo, compresa la complessità totale di elaborazione.
Classificazione basata su caratteristiche vettoriali:
- i valori di un insieme di caratteristiche del suono considerato costituiscono le componenti di un vettore V che verrà confrontato (tramite distanza Euclidea) con un altro vettore di caratteristiche R che rappresenta il vettore di riferimento di ciascuna classe di pezzi audio.

Metodi di classificazine dell’audio (segue)

Riconoscimento del parlato

L’approccio fondamentale per l’indicizzazione ed il recupero del parlato è basato sulla conversione dei segnali audio vocali in testo su cui successivamente applicare tecniche di IR.
Il problema del riconoscimento del parlato (ASR, Automatic Speech Recognition) viene ricondotto ad un problema di pattern matching:

al sistema vengono forniti fonemi parole e frasi;
il sistema le rappresenta utilizzando vettori di feature (bandwidth, ZCR, Silence ratio, Spectral centroid, ecc…).

In genere si suddivide il parlato in singole unità ognuna delle quali viene confrontata con i vettori di feature raccolti nella fase di training: in tal modo viene trovato il matching migliore utilizzando la distanza euclidea tra i vettori di feature.

Complicazioni:

persone diverse hanno fonemi diversi;
rumore di sottofondo.

Analisi dell'audio: ASR ed IR.

Concetti di base dell’ASR (Automatic Speech Recognition)

Tecniche di base sul Dynamic Time Warping

Ogni “pezzetto” di parlato (frame temporale per esempio di 10 ms) viene rappresentato da un vettore P di caratteristiche.
Il processo di riconoscimento consiste nel considerare più piccola delle differenze tra il vettore P e ciascun vettore memorizzato nella precedente fase di Training.

Problematiche:

persone diverse possono impiegare tempi diversi per pronunciare la stesso fonema;
la stessa persona può pronunciare lo stesso fonema in modo differente,

La tecnica del Time Warping tenta di normalizzare la durata dei frame del parlato da riconoscere con quella dei frame memorizzati durante la fase di training; tale tecnica è basata sul considerare le variazioni temporali in modo non lineare: si “dilata” o si “contrae” l’asse dei tempi in modo da far coincidere picchi di segnale.

Tecniche basate su Reti Neurali Artificiali ANN

Le ANN (Artificial Neural Networks), largamente impiegate per il riconoscimento, simulano i processi cognitivi, in particolare l’apprendimento, del cervello umano.

Una ANN simula una rete interconnessa da link con peso.

Una ANN è costituita da due fasi:

training (addestramento): i vettori di caratteristiche ottenuti durante l’ addestramento di parlato servono per tarare i pesi dei link della rete;
recognition: l’ ANN seleziona il fonema più verosimile basandosi sulle caratteristiche dei vettori.

Lo scopo della fase di addestramento consiste nel fornire un risultato più probabile per un input assegnato.

Tecniche basate su Reti Neurali Artificiali ANN (segue)

Le ANN sono basate su implementazioni che prevedono l’utilizzo di un grande numero di elementi di calcolo (PE – processing elements) molto semplici e interconnessi tra di loro.

Ogni PE implementa una semplice funzione matematica di tipo nonlineare e rappresenta un neurone (unità elementare del cervello).

Le connessioni rappresentano le SINAPSI (strutture nervose di collegamento tra neuroni che si occupano di trasportare segnali elettrici che agiscono da inibitori o eccitatori tra neuroni diversi).

Neurone. Fonte: wikimedia

Tecniche basate su Reti Neurali Artificiali ANN (segue)

In una rete neurale artificiale ogni connessione è caratterizzata da un peso (w) in [-1..1].
Il peso rappresenta l’influsso che un neurone porta sul neurone destinatario della connessione.
La rete viene inizializzata con pesi random e, durante l’esecuzione, l’insieme dei pesi rappresenta la “conoscenza” detenuta dalla rete.

La rete può essere addestrata a implementare un determinato compito.
L’addestramento consiste nel variare i pesi delle connessioni secondo determinate leggi
I neuroni sono in genere organizzati in livelli (livello di input, livelli nascosti e livello di output) e le connessioni sono stabilite tra neuroni appartenenti a livelli differenti.

Liveli di una rete Neurale.

Tecniche basate su Reti Neurali Artificiali ANN (segue)

Elaborazione di un PE:

ogni neurone della rete (PE) effettua una somma pesata integrazione degli input derivanti dalle connessioni con gli altri neuroni;
l’input pesato viene poi valutato da una funzione detta di trasformazione che determina l’output del singolo PE;
normalmente le funzioni di trasformazione sono funzioni molto semplici e non lineari (funzioni soglia).

Sumulazione del neurone.

Tecniche basate su Reti Neurali Artificiali ANN (segue)

Funzioni di trasformazione:

le funzioni di trasformazione hanno il compito di restituire l’output in relazione all’input totale ricevuto sul neurone;
si utilizzano delle funzioni a soglia che danno luogo ad un’attivazione del neurone solo nel caso in cui l’input su tale neurone superi una soglia pre-determinata;
questo simula il comportamento dei neuroni reali i qualireagiscono solo se stimolati sopra una determinata soglia.

Trasformazioni Sigmoide e Semi-Lineare.

Trasformazioni Lineare e a Gradino.

Prestazioni dei Sistemi di Speech Recognition

Le prestazioni dei Sistemi di Speech Recognition sono influenzate dai seguenti fattori:

soggetto del parlato: articolo di giornale, libro tecnico, ecc …
tipo di parlato: letto o conversazione spontanea;
dimensione del vocabolario utilizzato.

Esempio di prestazione HMM.

Tecniche di identificazione dello speaker

Cercano di estrarre informazioni su chi sta parlando ed alcuni degli obiettivi sono:

identificazione del numero di speaker che stanno parlando;
identificazione del sesso o dell’età dello speaker;
identificazione dello stato emotivo o attitudinale (allegro, triste, ecc…);
riconoscimento della persona che sta parlando (Voice Recognition).

Utilizzano un approccio contrario ai metodi di Speech Recognition (i quali devono essere speaker-independent e quindi cercano di eliminare le caratteristiche peculiari del parlato di ognuno degli speaker) cercando di enfatizzare le differenze di pronuncia, linguistiche e temporali tra i vari speaker.

Speaker Identification.

Speech Recognition.

Indicizzazione e ricerca di brani musicali

La ricerca in questo settore è giunta a risultati preliminari (molto peggiori rispetto allo speech recognition).

Utilizzo di feature: un brano musicale viene suddiviso in frame e ogni frame viene rappresentato da un vettore di feature (ad esempio: volume, tono, centroide spettrale, bandwidth, armonicità) che viene utilizzato per il calcolo della similarità.

Utilizzo del tono: un brano musicale viene suddiviso in sequenze di toni (frequenza fondamentale del suono). Si può utilizzare una scala di riferimento oppure classificare una sequenza musicale come una sequenza di U(p), D(own) e S(imilar).

Occorrono tecniche di pattern matching per ritrovare la sequenza che comporta un numero di errori minimo rispetto al brano cercato dall’utente.

In questi sistemi si ottengono alte performance solo se ogni suono è intervallato da una pausa.

Relazione tra audio ed altri media

In molte applicazioni l’audio è parte di un oggetto multimediale composito (ad esempio un film) dove esistono delle forti relazioni temporali tra video ed audio.

Possiamo utilizzare la conoscenza su uno dei media per migliorare l’indicizzazione e la comprensione del contenuto dell’altro media.

Esempio:
Possiamo utilizzare la classificazione audio (parlato,musica,parlato) per segmentare il video in maniera analoga, ed usare il riconoscimento del parlato per comprendere il contenuto del video.