Data una funzione f(t) periodica con periodo T, se ne può immaginare una versione ‘quasi’ periodica se si considera la possibilità che il valore di periodicità e la sua ampiezza varino, anche se di poco, da periodo a periodo.
Il segnale vocale non è mai periodico. Alcune porzioni, prevalentemente corrispondenti a vocali, possono essere quasi periodiche.
La non periodicità ha due motivi: uno fisiologico e uno intenzionale.
La funzione matematica che si usa per catturare le fluttuazioni volontarie della periodicità di segnali quasi periodici è l’autocorrelazione.
Indica il grado di correlazione della forma d’onda con se stessa a diversi momenti nel tempo.
Un segnale periodico sarà correlato con se stesso nel modo ‘migliore’ negli istanti di tempo multipli della sua frequenza fondamentale (F0).
La distanza fra due massimi consecutivi rappresenta la stima di F0.
Anche l’autocorrelazione può essere calcolata con tecniche tempo-variabili con finestraggio del segnale.
Il segnale viene diviso in porzioni consecutive, r(m) viene calcolato in ogni finestra e l’ascissa del massimo viene usata per datarminare il presunto periodo del segnale.
L’andamento nel tempo della frequenza fondamentale, calcolato in Hertz, viene mostrato ricorrendo ad una interpolazione anche se la curva viene interrotta nelle porzioni non periodiche del segnale.
Suono 1
Oltre alla frequenza fondamentale un altro andamento determina variazioni della struttura non segmentale del parlato, la variazione nel tempo dell’intensità del segnale vocale.
Analogamente alla frequenza fondamentale, l’andamento dell’intensità si calcola con tecniche tempo-variabili con finestraggio del segnale, in ogni finestra si misura il valore di:
Il segnale viene diviso in porzioni consecutive, r(m) viene calcolato in ogni finestra e l’ascissa del massimo viene usata per datarminare il presunto periodo del segnale.
Anche l’andamento nel tempo dell’intensità, calcolato in Decibel, viene mostrato ricorrendo ad una interpolazione.
sorgente del parlato ->
pliche vocali per i suoni sonori -> treno di impulsi con frequenza F0
o articolatori consonantici per i suoni sordi -> rumore bianco
filtro acustico lineare -> tratto vocale
Modello Sorgente/Filtro della produzione del parlato:
Dalla teoria dei sistemi si ha che, nel dominio delle frequenze:
Dove O(z) è la rappresentazione in trasformata Z del segnale vocale nel dominio della frequenza, I(z) equivalentemente, è la trasformata z del segnale sorgente, H(z) è la risposta in frequenza del filtro come definito nella diapositiva precedente.
Con
Supponiamo che ogni campione x[n] di un segnale vocale possa essere predetto utilizzando una combinazione lineare di un numero p di campioni precedenti, costituirà una stima approssimata del segnale originale:
In generale, detto e[n] l’errore che si compie in questo processo di approssimazione, si avrà che:
Ovvero:
Questa espressione è la stessa che si ottiene applicando la trasformata Z inversa ad H(z) nella formula (f.1) della precedente diapositiva, a sottolineare la stretta connessione fra modello sorgente filtro e LPC:
Il valore dei coefficienti ai può essere calcolato considerando gli scarti quadratici fra i valori di predizione e i valori effettivi:
Minimizzando questa relazione si ricava un sistema di equazioni che hanno come incognita i valori ai che, in altro modo, avevamo calcolato nella (f.1).
I coefficienti ai, dunque, caratterizzano il filtro lineare.
Il calcolo dei coefficienti di predizione è un calcolo tempo-variabile, di conseguenza viene effettuato su un segnale diviso in finestre e ripetuto in ogni finestra.
Il calcolo di LPC basato su finestre (frame based) fornisce un metodo di codifica del segnale vocale, cioè definisce una funzione di trasformazione che accetta in ingresso la sequenza dei campioni digitali del segnale e fornisce in uscita una molto meno onerosa tabella di coefficienti. Ogni riga della tabella rappresenta gli m coefficienti che si ricavano da ognuna delle finestre di analisi.
1. Introduzione al corso. Le tecnologie vocali: stato dell'arte e la situazione in Italia
2. Cenni di fonetica articolatoria
3. Digital signal processing applicazioni al segnale vocale – parte prima
4. Digital signal processing applicazioni al segnale vocale – parte seconda
5. Digital signal processing applicazioni al segnale vocale – parte terza
6. Analisi spettrografica del segnale vocale
8. Sintesi vocale da testo - parte prima
9. Sintesi vocale da testo - parte seconda
10. Sintesi vocale da testo - parte terza
11. Riconoscimento del parlato - parte prima
1. Introduzione al corso. Le tecnologie vocali: stato dell'arte e la situazione in Italia
2. Cenni di fonetica articolatoria
3. Digital signal processing applicazioni al segnale vocale – parte prima
4. Digital signal processing applicazioni al segnale vocale – parte seconda
5. Digital signal processing applicazioni al segnale vocale – parte terza
6. Analisi spettrografica del segnale vocale
8. Sintesi vocale da testo - parte prima
9. Sintesi vocale da testo - parte seconda
10. Sintesi vocale da testo - parte terza
11. Riconoscimento del parlato - parte prima
12. Riconoscimento del parlato - parte seconda
I podcast del corso sono disponibili anche su iTunesU e tramite Feed RSS.