Home

Federica EU

1/13

Francesco Cutugno » 1.Introduzione al corso. Le tecnologie vocali: stato dell'arte e la situazione in Italia

I temi trattati in questo corso

Linguaggio: capacità cognitiva propria della specie umana di dare espressione ad un contenuto.

La funzione primaria del linguaggio è di comunicare con i propri simili attraverso uno o più codici socialmente condivisi (quali ad esempio lingue verbali e lingue dei segni) detti “lingue” (storico/naturali).

Le lingue verbali hanno due modalità: quella parlata (primaria) e quella scritta (secondaria).

I linguaggi di programmazione ed il simbolismo matematico sono invece esempi di lingue artificiali.

I temi trattati in questo corso (segue)

La linguistica è la disciplina che studia le strutture, il funzionamento e l’uso delle lingue storico/naturali.

Elaborazione del Linguaggio Naturale è una denominazione “classica” che deriva in Italia da una errata traduzione del corrispondente inglese “Natural Language Processing”, laddove in inglese non esiste la distinzione linguaggio/lingua (entrambi tradotti con “Language”).

Una distinzione più sottile separa poi la Linguistica Computazionale dall’Elaborazione del Linguaggio Naturale.

Settori di ricerca tecnologica sul linguaggio naturale

I principali settori di ricerca tecnologica sul linguaggio naturale:

Elaborazione dei testi

Traduzione Automatica.
Riassunto ed analisi automatica dei contenuti.
Document clustering e classification.

Elaborazione del parlato

Sintesi Vocale.
Riconoscimento del parlato per scopi specifici (Special Purpose) o per scopi generali come la dettatura (General Purpose).
Riconoscimento del parlante sia per scopi commerciali e di sicurezza che forensi.
Sistemi di dialogo uomo-macchina in voce.

Ambiti Interdisciplinari

Human Computer Interaction and Language Understanding.
Voce->testo->traduzioneL1L2->testo -> voce.
Facce parlanti ed emotional computing.

L'elaborazione dei testi.

L'elaborazione del parlato.

I temi trattati in questo corso (segue)

La Voce Umana.
Il Parlatore, la Lingua.
Il Parlato, il Messaggio.
Il Significato, l’Attuazione dei messaggi e dei comandi vocali.

Tecnologie “basse”

Trattamento automatico dei segnali vocali.
Sintesi vocale da testo.
Riconoscimento di semplici comandi vocali o dei nomi di una agendina sul cellulare, ecc.

Tecnologie “alte”

Sistemi per il dialogo uomo macchina in voce.
Dettatura e sistemi di riconoscimento del parlato general purpose.
Natural Language Understanding.
Avatar e facce parlanti.

Le principali caratteristiche della voce umana

La voce umana costituisce un segnale analogico che muta continuamente nel tempo in corrispondenza dei continui movimenti del cavo orale.

Come vedremo nelle prossime lezioni, la voce umana, similmente ad ogni altro suono in natura, viene innanzitutto caratterizzata dalla sua frequenza e dalla sua intensità.
L’escursione in frequenza dei segnali vocali in funzione del canale o della codifica considerata.

L'escursione in frequenza dei segnali vocali in funzione del canale o della codifica considerata.

Intensità del segnale vocale.

Il segnale vocale

Un segnale vocale è un fenomeno complesso

Continuamente variabile nel tempo.
Contiene al suo interno molta informazione, anche non linguistica.
Contrariamente a quanto si immagina, non esiste alcuna separazione effettiva fra una parola e la successiva.
Forma d’Onda di un segnale vocale.

Un segnale vocale è un fenomeno complesso

E’ molto difficile riconoscere una parola estrapolata dal contesto.
E’ molto difficile isolare una parola anche guardando la forma d’onda.

Esempi di segnale vocale.

Forma d'Onda di un segnale vocale.

Elaborare i segnali vocali

Il digital signal processing e il parlato

Analisi a tempo variabile.
Valutazione di funzioni descrittive e pattern temporali.
Estrazione di features.

Il tipico processo dello speech signal processing.

Le macchine parlanti

La sintesi vocale (Text to Speech Synthesis – TTS).

Campi di applicazione.
Approcci tecnologici impiegati.

Lo schema di principio di un sintetizzatore vocale. Sintetizzatori vocali moderni.

Il voder. Il voder all'opera

Le macchine che riconoscono il parlato

Il riconoscimento vocale
(Automatic Speech Recognition – ASR)

Estrazione dei parametri.
Modelli per il riconoscimento dei segnali acustici (Hidden Markov Models).
Modelli del Linguaggio statistici e basati su grammatiche Architettura dei riconoscitori.