Vai alla Home Page About me Courseware Federica Living Library Federica Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica
 
I corsi di Scienze Matematiche Fisiche e Naturali
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Francesco Cutugno » 1.Introduzione al corso. Le tecnologie vocali: stato dell'arte e la situazione in Italia


I temi trattati in questo corso

  • Linguaggio: capacità cognitiva propria della specie umana di dare espressione ad un contenuto.
  • La funzione primaria del linguaggio è di comunicare con i propri simili attraverso uno o più codici socialmente condivisi (quali ad esempio lingue verbali e lingue dei segni) detti “lingue” (storico/naturali).
  • Le lingue verbali hanno due modalità: quella parlata (primaria) e quella scritta (secondaria).
  • I linguaggi di programmazione ed il simbolismo matematico sono invece esempi di lingue artificiali.

I temi trattati in questo corso (segue)

  • La linguistica è la disciplina che studia le strutture, il funzionamento e l’uso delle lingue storico/naturali.
  • Elaborazione del Linguaggio Naturale è una denominazione “classica” che deriva in Italia da una errata traduzione del corrispondente inglese “Natural Language Processing”, laddove in inglese non esiste la distinzione linguaggio/lingua (entrambi tradotti con “Language”).
  • Una distinzione più sottile separa poi la Linguistica Computazionale dall’Elaborazione del Linguaggio Naturale.

Settori di ricerca tecnologica sul linguaggio naturale

I principali settori di ricerca tecnologica sul linguaggio naturale:

Elaborazione dei testi

  • Traduzione Automatica.
  • Riassunto ed analisi automatica dei contenuti.
  • Document clustering e classification.

Elaborazione del parlato

  • Sintesi Vocale.
  • Riconoscimento del parlato per scopi specifici (Special Purpose) o per scopi generali come la dettatura (General Purpose).
  • Riconoscimento del parlante sia per scopi commerciali e di sicurezza che forensi.
  • Sistemi di dialogo uomo-macchina in voce.

Ambiti Interdisciplinari

  • Human Computer Interaction and Language Understanding.
  • Voce->testo->traduzioneL1L2->testo -> voce.
  • Facce parlanti ed emotional computing.
L’elaborazione del parlato.

L'elaborazione del parlato.


I temi trattati in questo corso (segue)

  • La Voce Umana.
  • Il Parlatore, la Lingua.
  • Il Parlato, il Messaggio.
  • Il Significato, l’Attuazione dei messaggi e dei comandi vocali.

Tecnologie “basse”

  • Trattamento automatico dei segnali vocali.
  • Sintesi vocale da testo.
  • Riconoscimento di semplici comandi vocali o dei nomi di una agendina sul cellulare, ecc.

Tecnologie “alte”

  • Sistemi per il dialogo uomo macchina in voce.
  • Dettatura e sistemi di riconoscimento del parlato general purpose.
  • Natural Language Understanding.
  • Avatar e facce parlanti.

Le principali caratteristiche della voce umana

La voce umana costituisce un segnale analogico che muta continuamente nel tempo in corrispondenza dei continui movimenti del cavo orale.

Come vedremo nelle prossime lezioni, la voce umana, similmente ad ogni altro suono in natura, viene innanzitutto caratterizzata dalla sua frequenza e dalla sua intensità.
L’escursione in frequenza dei segnali vocali in funzione del canale o della codifica considerata.

L’escursione in frequenza dei segnali vocali in funzione del canale o della codifica considerata.

L'escursione in frequenza dei segnali vocali in funzione del canale o della codifica considerata.

Intensità del segnale vocale.

Intensità del segnale vocale.


Il segnale vocale

Un segnale vocale è un fenomeno complesso

  • Continuamente variabile nel tempo.
  • Contiene al suo interno molta informazione, anche non linguistica.
  • Contrariamente a quanto si immagina, non esiste alcuna separazione effettiva fra una parola e la successiva.
  • Forma d’Onda di un segnale vocale.

Un segnale vocale è un fenomeno complesso

  • E’ molto difficile riconoscere una parola estrapolata dal contesto.
  • E’ molto difficile isolare una parola anche guardando la forma d’onda.

Esempi di segnale vocale.

Forma d’Onda di un segnale vocale.

Forma d'Onda di un segnale vocale.

Forma d’Onda di un segnale vocale.

Forma d'Onda di un segnale vocale.


Elaborare i segnali vocali

Il digital signal processing e il parlato

  • Analisi a tempo variabile.
  • Valutazione di funzioni descrittive e pattern temporali.
  • Estrazione di features.
Il tipico processo dello speech signal processing.

Il tipico processo dello speech signal processing.


Le macchine parlanti

La sintesi vocale (Text to Speech Synthesis – TTS).

Campi di applicazione.
Approcci tecnologici impiegati.

Lo schema di principio di un sintetizzatore vocale. Sintetizzatori vocali moderni.

Lo schema di principio di un sintetizzatore vocale. Sintetizzatori vocali moderni.


Le macchine che riconoscono il parlato

Il riconoscimento vocale
(Automatic Speech Recognition – ASR)

  • Estrazione dei parametri.
  • Modelli per il riconoscimento dei segnali acustici (Hidden Markov Models).
  • Modelli del Linguaggio statistici e basati su grammatiche Architettura dei riconoscitori.
Lo schema di principio di un riconoscitore vocale.

Lo schema di principio di un riconoscitore vocale.


Sistemi di dialogo in voce

Il dialogo uomo macchina

Le principali tecnologie.

Teorie linguistiche degli atti comunicativi.

VoiceXML.

Un esempio di dialogo uomo-macchina.


Storia recente dei principali conseguimenti


Tecnologie avanzate

Facce parlanti e avatar

Tecniche basate su morphing a partire da filmati reali.

Tecniche basate su animazione e grafica 3D con sintesi dei movimenti delle parti mobili del volto inferite direttamente dal testo da pronunciare.

Sintesi di espressioni visive e voce emotivamente caratterizzata.

Lucia una faccia parlante italiana (per gentile concessione di Piero Cosi).

Lucia una faccia parlante italiana (per gentile concessione di Piero Cosi).


Le cose di cui non facciamo a tempo ad interessarci

La codifica e la compressione dei segnali vocali (MP3, PCM per telefonia, codifiche ad alta qualità).

Misure di quality of service su canale VOIP.

Euristiche per la valutazione di sistemi basati su voce (Evalita).

Tecnologie per la raccolta e la fruizione di corpora vocali (CLIPS).


I materiali di supporto della lezione

Esempi di segnale vocale.

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion