Home

Federica EU

1/14

Francesco Cutugno » 11.Riconoscimento del parlato - parte prima

Riconoscitori Automatici del Parlato (ASR)

Associare ad un segnale vocale ad una stringa di testo scritto.

I molti aspetti del riconoscimento del parlato

Definizione formale del problema

Dati:

L = vocabolario di termini (parole) wi
W = sequenze di termini (frasi) w1 … wn
O = osservazioni (vettori di parametri) che descrivono la manifestazione acustica dei segnali vocali

si ha che:
$\hat{W}=\underset{W \in L } {argmax} \ P(O\mid W) \bullet P(\ W)$
dove rappresenta la particolare sequenza di termini corrispondente alla frase pronunciata e che si vuole riconoscere.

Schema generale di un Riconoscitore di parlato

Schema generale di un sistema di riconoscimento del parlato.

Il processo di estrazione delle features

Mel Frequency Cepstral Coefficients (MFCC)

Probabilità associate a variabili continue e multidimensionali

Approccio basato su Clustered Codebook.

La Funzione Gaussiana

Caso base: una dimensione e distribuzione normale
$p(x)\equiv \frac 1 {\sigma\sqrt{2\pi}}.e^{-(x-\mu)^2/2\sigma^2}$
μ: media
σ: deviazione standard
σ²: varianza

$b_j(0_t)=\frac 1 {\sqrt{2\pi\sigma^2_j}}\exp\left(-\frac{(0_t-\mu_j)^2}{2\sigma_j^2}\right)$

$\hat \mu_i=\frac 1 T\sum_{t=1}^T =_t$

$\hat\sigma_j^2=\frac 1 T\sum_{t=1}^T(0_t-\mu_i)^2$

La Funzione Gaussiana (segue)

Gaussiana a N dimensioni con distribuzione normale

$b(0_t)=\frac 1 {\sqrt{2\pi|\Sigma|}}\exp\left((0_t-\mu_j)^T\Sum^{-1}(0_t-\mu_j)\right)$

Una gaussiana a due dimensioni.

Matrice di covarianza

Data una sequenza di N osservazioni X:

$X=\left\{\left[\begin{array}{llll}0.5 \\0.4\\...\\...\end{array}\right] ~,~\left[\begin{array}{llll}1.2 \\-0.3\\...\\...\end{array}\right]~,~\left[\begin{array}{llll}... \\...\\...\\...\end{array}\right]~,~\left[\begin{array}{llll}x_N^1 \\x_N^2\\...\\x_N^k\end{array}\right]\right\}~~~~~~~~~~\mu=\left[\begin{array}{llll}\mu^1 \\\mu^2\\...\\\mu^k\end{array}\right]$

dove ogni X è un vettore di k elementi, per ogni coppia a,b di righe di X si può calcolare il termine:

$cov(X^{a,b})=\frac 1 N \sum_{i=1}^{i=N}(x_i^a-\mu^a)\cdot(x_i^b-\mu^b)$

che da origine alla matrice di covarianza cov X:

$cov^{X}=\left[\begin{array}{llll}cov(x^{1,1})~~cov(x^{1,2})~~...~~cov(x^{1,k}) \\cov(x^{2,1})~~cov(x^{2,2})~~...~~cov(x^{2,k})\\...~~~~~~~~~~~~...~~~~~~~~~...~~~~~~~...\\cov(x^{k,1})~~~~...~~~~~~~...~~~~~cov(x^{k,k})\end{array}\right]$