Vai alla Home Page About me Courseware Federica Living Library Federica Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica
 
I corsi di Scienze Matematiche Fisiche e Naturali
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Francesco Cutugno » 11.Riconoscimento del parlato - parte prima


Riconoscitori Automatici del Parlato (ASR)

Associare ad un segnale vocale ad una stringa di testo scritto.

Associare ad un segnale vocale ad una stringa di testo scritto.


I molti aspetti del riconoscimento del parlato


Definizione formale del problema

Dati:

L = vocabolario di termini (parole) wi
W = sequenze di termini (frasi) w1 … wn
O = osservazioni (vettori di parametri) che descrivono la manifestazione acustica dei segnali vocali

si ha che:
\hat{W}=\underset{W \in L } {argmax} \ P(O\mid W) \bullet P(\ W)
dove rappresenta la particolare sequenza di termini corrispondente alla frase pronunciata e che si vuole riconoscere.


Schema generale di un Riconoscitore di parlato

Schema generale di un sistema di riconoscimento del parlato.

Schema generale di un sistema di riconoscimento del parlato.


Il processo di estrazione delle features


Mel Frequency Cepstral Coefficients (MFCC)


Probabilità associate a variabili continue e multidimensionali

Approccio basato su Clustered Codebook.

Approccio basato su Clustered Codebook.


La Funzione Gaussiana

Caso base: una dimensione e distribuzione normale
p(x)\equiv \frac 1 {\sigma\sqrt{2\pi}}.e^{-(x-\mu)^2/2\sigma^2}
μ: media
σ: deviazione standard
σ2: varianza

b_j(0_t)=\frac 1 {\sqrt{2\pi\sigma^2_j}}\exp\left(-\frac{(0_t-\mu_j)^2}{2\sigma_j^2}\right)

\hat \mu_i=\frac 1 T\sum_{t=1}^T =_t

\hat\sigma_j^2=\frac 1 T\sum_{t=1}^T(0_t-\mu_i)^2


La Funzione Gaussiana (segue)

Gaussiana a N dimensioni con distribuzione normale

b(0_t)=\frac 1 {\sqrt{2\pi|\Sigma|}}\exp\left((0_t-\mu_j)^T\Sum^{-1}(0_t-\mu_j)\right)

Una gaussiana a due dimensioni.

Una gaussiana a due dimensioni.


Matrice di covarianza

Data una sequenza di N osservazioni X:

X=\left\{\left[\begin{array}{llll}0.5 \\0.4\\...\\...\end{array}\right] ~,~\left[\begin{array}{llll}1.2 \\-0.3\\...\\...\end{array}\right]~,~\left[\begin{array}{llll}... \\...\\...\\...\end{array}\right]~,~\left[\begin{array}{llll}x_N^1 \\x_N^2\\...\\x_N^k\end{array}\right]\right\}~~~~~~~~~~\mu=\left[\begin{array}{llll}\mu^1 \\\mu^2\\...\\\mu^k\end{array}\right]

dove ogni X è un vettore di k elementi, per ogni coppia a,b di righe di X si può calcolare il termine:

cov(X^{a,b})=\frac 1 N \sum_{i=1}^{i=N}(x_i^a-\mu^a)\cdot(x_i^b-\mu^b)

che da origine alla matrice di covarianza cov X:

cov^{X}=\left[\begin{array}{llll}cov(x^{1,1})~~cov(x^{1,2})~~...~~cov(x^{1,k}) \\cov(x^{2,1})~~cov(x^{2,2})~~...~~cov(x^{2,k})\\...~~~~~~~~~~~~...~~~~~~~~~...~~~~~~~...\\cov(x^{k,1})~~~~...~~~~~~~...~~~~~cov(x^{k,k})\end{array}\right]

Interpretazione della covarianza

Esempi di matrici di covarianza e relative funzioni di distribuzione.

Esempi di matrici di covarianza e relative funzioni di distribuzione.


Approccio basato su Multigaussiane

esempi di distribuzioni complesse modellate tramite multigaussiane.

esempi di distribuzioni complesse modellate tramite multigaussiane.


Probabilità multigaussiana

b(0_t)=\sum_{m=1}^Mc_m\frac 1 {\sqrt{2\pi|\sum_m|}}\exp\left[(x-\mu_m)^T\sum_{m}^{-1}(0_t-\mu_m)\right]

Stima della probabilità per un evento ot modellato da M gaussiane

Probabilità multigaussiana (segue)


  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion