Vai alla Home Page About me Courseware Federica Living Library Federica Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica
 
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Francesco Cutugno » 8.Sintesi vocale da testo - parte prima


Le macchine parlanti

La sintesi vocale ( Text to Speech Synthesis – TTS). Lo schema di principio di un sintetizzatore vocale.

La sintesi vocale ( Text to Speech Synthesis – TTS). Lo schema di principio di un sintetizzatore vocale.


Un po’ di storia

La macchina di Von Kempelen. Vedi una demo tratta da YouTube.

La macchina di Von Kempelen. Vedi una demo tratta da YouTube.

Il Pattern Playback dei laboratori Haskins. Maggiori informazioni su Yale University.

Il Pattern Playback dei laboratori Haskins. Maggiori informazioni su Yale University.

Il voder, uno strumento realizzato presso i Bell Laboratories nel 1939. Puoi vederlo all’opera su YouTube.

Il voder, uno strumento realizzato presso i Bell Laboratories nel 1939. Puoi vederlo all'opera su YouTube.


Schema Generale della Sintesi Vocale


Sentence tokenisation

Suddivisione del testo in frasi, punteggiatura e falsa punteggiatura. Frase = blocco intonativo.

Suddivisione del testo in frasi, punteggiatura e falsa punteggiatura. Frase = blocco intonativo.


Esempio – POS Tagging

Schema a blocchi del processo di POS-Tagging.

Schema a blocchi del processo di POS-Tagging.


Normalizzazione

Sigle, abbreviazioni, numeri

G. Bianchi e il dr. S. Rossi ricevono il gruppo R&S solo lu-ma-me dalle 18:30 in poi.

Il nel 2010 mio numero di cellulare è sempre stato 347 123321123

Omografi
Non ho ancora gettato l’ancora.
Leggere queste pagine leggere è facile
Do you live [lIv] near a zoo with live [laiv] animals?


Tipi di sequenze che richiedono normalizzazione

A prevalente carattere alfanumerico

  • Abbreviazioni: aut. min. conc.
  • Sequenze e sigle: DVD, PC, IBM
  • Sigle lette come parole: FIAT, INTEL

A prevalente carattere numerico

  • Numeri: 12, 3.500, ½, 2,5
  • Ordinali: 1°, IV
  • Numeri di telefono: 081 66-50-44, 347 33466733
  • Date e orari: 2/12/2012, 18:45, 5:21 pm
  • Anni: 1899, 80ies, 72DC
  • Valuta: 1.200.000€, 300$
  • Percentuali: 83%, 5,6%

Normalizzazione (segue)

Parole straniere

Ho fatto un check-up a via Washington

Situazioni ambigue

2/12 (frazione o data?), VI (sesto o ‘vi’?)

Regole di concatenazione
Andiamo al cinema -> andiamalcinema
Quando è uscito -> quandescito | quanduscito


Trascrizione grafema fonema


La normalizzazione e le fasi successive


La normalizzazione e le fasi successive (segue)


La normalizzazione e le fasi successive


Determinazione delle durate foniche

Allungamento pre-pausale: la vocale o la sillaba che precede una pausa è allungata di un fattore 1.4

Accorciamento da mancanza di accento: tutte le vocali non accentate devono essere ridotte di un fattore 0.7

Allungamento da presenza di accento: tutte le vocali che portano accento devono essere allungate di un fattore 1.4

Accorciamento in sillaba chiusa: tutte le vocali che in una sillaba sono seguiti da una consonante devono essere accorciate di un fattore 0.8

Accorciamento in contesto occlusivo: tutte le vocali che precedono una occlusiva sorda sono accorciate di un fattore 0.7

Conclusione della fase di normalizzazione


  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion