Home

Federica EU

1/14

Francesco Cutugno » 10.Sintesi vocale da testo - parte terza

Sintesi concatenativa

Schema Generale della Sintesi Rivisto

Database dei Difoni

D= Numero di foni in una lingua
(dai 20-25 fino ai 45-50, in Italiano circa 30-35)

D2 = Numero di difoni teoricamente possibili
(ma molte combinazioni non sono ammesse)

Una porzione della tabella dei difoni possibili in Italiano. NA = non ammesso.

Corpora necessari per la sintesi

Corpus di difoni

Speaker professionisti e madrelingua.
Qualità della registrazione altissima (in camera anecoica).
Parlato letto: il materiale da leggere è valutato attentamente da linguisti esperti della lingua da sintetizzare.
Copertura totale del repertorio dei difoni della lingua da registrare, ognuno pronunciato in diverse posizioni della frase e con diverse valenze ritmico-accentuali.
Copertura completa del lessico target (dipende dall’applicazione).
Copertura del lessico di base.
Copertura delle principali forme di struttura intonativa delle frasi.
Risate, sospiri e altri fenomeni non verbali.
Da un minimo di due ad un massimo di 6-8 ore di registrazioni per parlante.
Almeno uno speaker maschio e una femmina, solitamente l’acquirente può scegliere fra più voci.

Corpora necessari per la sintesi (segue)

Corpus per la previsone della prosodia

Attori professionisti.
Qualità della registrazione altissima (in camera anecoica).
Parlato letto: di solito si tratta di lettura di favole o altro materiale la cui recitazione consenta ampia variazione prosodica.
Frasi di lunghezza molto variabile.
Copertura dei principali modi di enunciazione prosodica (vari tipi di interrogativa, imperativa, eccetera).
Variazione della posizione degli elementi focalizzati nella frase.
Risate, sospiri e altri fenomeni non verbali.
Un massimo di 3-4 ore di registrazioni per parlante.
Almeno uno speaker maschio e una femmina.

La risintesi per la modifica della prosodia

Le features testuali per la previsione prosodica

Proprietà delle parole nella sequenza:
Tipo di parola
Posizione della parola nella frase
Caratteristiche delle parole precedenti e seguenti
Numero di sillabe della parola
Analisi della punteggiatura:
Virgole e punti per pause
Punti interrogativi ed esclamativi
Enfasi (virgolette), sospensione (puntini) ecc

Le features testuali per la previsione prosodica (segue)

Proprietà delle sillabe nella sequenza:
Tipo di sillaba
Posizione della sillaba nella frase
Tonica/Atona
Numero di sillabe della parola
Proprietà della frase:
Numero di parole nella frase
Numero di nomi e verbi della frase
Presenza di incisi, elenchi e altre strutture prosodicamente rilevanti

Markup espressivo aggiunto nel testo:
Indicazione di profili emotivi
Focalizzazione di elementi della frase
Risate, sospiri e altri fenomeni non verbali

La struttura del database prosodico

La frase da sintetizzare viene analizzata e ne vengono estratte le stesse features testuali
presenti nella colonna A del CPP.

Un algoritmo di matching confronta le features estratte con tutte le istanze di A nel CPP
e determina quale frase assomiglia di più a quella data.

I valori delle colonne C, D ed E vengono passati all’algoritmo di sovrapposizione di prosodia.

Struttura del corpus per la previsione della prosodia (CPP).

PSOLA

PSOLA – Pitch Synchronus OverLap and Add

E’ un algoritmo per la modifica della frequenza fondamentale di una porzione di parlato.
E’ basato sullo splitting del segnale in finestre.
Richiede una sincronizszazione con i singoli periodi del segnale nelle sue porzioni periodiche.
Neccesitata quindi l’individuazione preliminare dei singoli periodi (pitch markers).

Procedura

Individuare i pitch markers.
Partizionare (finestrare) il segnale con finestre centrate intorno al pitch marker.

PSOLA

Individuazione pitch markers e finestraggio su segnali di diversa frequenza fondamentale.

PSOLA per la correzione delle discontinuità

L'uso di PSOLA per la riduzione delle discontinuità.

Synthesis

Modifica durata
Sulla base dei valori indicati dal corpus di prosodia, ogni finestra viene sommata (o eventualmente soppressa) senza modificare le distanze relative fra i periodi, in pratica se si deve accorciare si eliminano finestre se si deve allungare si duplicano finestre adiacenti)
Modifica fondamentale
Lasciando invariata la durata totale dell’enunciato la frequenza fondamentale viene modificata shiftando e sovrapponendo le finestre, un aumento di frequenza fondamentale comporta un aumento di periodi, una diminuzione comporta una rarefazione.
Bisogna evitare variazioni brusche, effetti di distorsione eccetera.
Modifica intensità
Il profilo energetico della sequenza viene modificato cambiando il valore di picco di ogni singola finestra.