D= Numero di foni in una lingua
(dai 20-25 fino ai 45-50, in Italiano circa 30-35)
D2 = Numero di difoni teoricamente possibili
(ma molte combinazioni non sono ammesse)
Corpus di difoni
Corpus per la previsone della prosodia
Proprietà delle parole nella sequenza:
Tipo di parola
Posizione della parola nella frase
Caratteristiche delle parole precedenti e seguenti
Numero di sillabe della parola
Analisi della punteggiatura:
Virgole e punti per pause
Punti interrogativi ed esclamativi
Enfasi (virgolette), sospensione (puntini) ecc
Proprietà delle sillabe nella sequenza:
Tipo di sillaba
Posizione della sillaba nella frase
Tonica/Atona
Numero di sillabe della parola
Proprietà della frase:
Numero di parole nella frase
Numero di nomi e verbi della frase
Presenza di incisi, elenchi e altre strutture prosodicamente rilevanti
Markup espressivo aggiunto nel testo:
Indicazione di profili emotivi
Focalizzazione di elementi della frase
Risate, sospiri e altri fenomeni non verbali
La frase da sintetizzare viene analizzata e ne vengono estratte le stesse features testuali
presenti nella colonna A del CPP.
Un algoritmo di matching confronta le features estratte con tutte le istanze di A nel CPP
e determina quale frase assomiglia di più a quella data.
I valori delle colonne C, D ed E vengono passati all’algoritmo di sovrapposizione di prosodia.
PSOLA – Pitch Synchronus OverLap and Add
E’ un algoritmo per la modifica della frequenza fondamentale di una porzione di parlato.
E’ basato sullo splitting del segnale in finestre.
Richiede una sincronizszazione con i singoli periodi del segnale nelle sue porzioni periodiche.
Neccesitata quindi l’individuazione preliminare dei singoli periodi (pitch markers).
Procedura
Individuare i pitch markers.
Partizionare (finestrare) il segnale con finestre centrate intorno al pitch marker.
Modifica durata
Sulla base dei valori indicati dal corpus di prosodia, ogni finestra viene sommata (o eventualmente soppressa) senza modificare le distanze relative fra i periodi, in pratica se si deve accorciare si eliminano finestre se si deve allungare si duplicano finestre adiacenti)
Modifica fondamentale
Lasciando invariata la durata totale dell’enunciato la frequenza fondamentale viene modificata shiftando e sovrapponendo le finestre, un aumento di frequenza fondamentale comporta un aumento di periodi, una diminuzione comporta una rarefazione.
Bisogna evitare variazioni brusche, effetti di distorsione eccetera.
Modifica intensità
Il profilo energetico della sequenza viene modificato cambiando il valore di picco di ogni singola finestra.
1. Introduzione al corso. Le tecnologie vocali: stato dell'arte e la situazione in Italia
2. Cenni di fonetica articolatoria
3. Digital signal processing applicazioni al segnale vocale – parte prima
4. Digital signal processing applicazioni al segnale vocale – parte seconda
5. Digital signal processing applicazioni al segnale vocale – parte terza
6. Analisi spettrografica del segnale vocale
8. Sintesi vocale da testo - parte prima
9. Sintesi vocale da testo - parte seconda
10. Sintesi vocale da testo - parte terza
11. Riconoscimento del parlato - parte prima
1. Introduzione al corso. Le tecnologie vocali: stato dell'arte e la situazione in Italia
2. Cenni di fonetica articolatoria
3. Digital signal processing applicazioni al segnale vocale – parte prima
4. Digital signal processing applicazioni al segnale vocale – parte seconda
5. Digital signal processing applicazioni al segnale vocale – parte terza
6. Analisi spettrografica del segnale vocale
8. Sintesi vocale da testo - parte prima
9. Sintesi vocale da testo - parte seconda
10. Sintesi vocale da testo - parte terza
11. Riconoscimento del parlato - parte prima
12. Riconoscimento del parlato - parte seconda
I podcast del corso sono disponibili anche su iTunesU e tramite Feed RSS.