Data una sequenza di parole W(w1 …wn) appartententi ad un vocabolario V, la probabilità di prevedere l’intera sequenza è:
dove:
Una possibile semplificazione è troncare la sequenza condizionando ogni parola solo rispetto alla parola seguente:
la probabilità cosi ottenuta si denomina probabilità di bi-gramma che si può calcolare cosi:
Generalizzando il caso precedente si ottiene la probabilità di N-gramma:
La stima di questa probabilità è basata sulla disponibilità di un corpus molto grande di testi.
Detto C(wn-1 wn) il conteggio dei bigrammi wn-1 wn si ha che:
Dove C(wn-1) è il conteggio del numero di occorrenze della sola parola wn-1 (equivalente alla probabilità di unigramma) utilizzato come fattore di normalizzazione.
Generalizzazione per il calcolo diretto degli N-Grammi:
In pratica la frequenza di occorrenza di ogni N-Gramma viene normalizzata con quella del (N-1)Gramma precedente.
I testi impiegati per i calcoli di probabilità di N-Gramma sono solitamente suddivisi in frasi, ad ogni frase viene aggiunto un simbolo di start e uno di end
P(domani andiamo allo stadio)=
P(domani andiamo allo stadio)=
P(domani|<s>) P(andiamo|domani) P(allo|andiamo) P(stadio|allo) P(</s>|stadio)=
[C(<s>,domani)/C(<s>)] * [C(domani,andiamo)/C(domani)] * [C(andiamo,allo)/C(andiamo)] * [C(allo,stadio)/C(allo)] * [C(stadio,</s>)/C(stadio)]
Nel calcolo effettivo delle probabilità di N-Gramma effettuate in un corpus alcuni N-Grammi possono non essere incontrati:
quindi l’espressione sopra riportata può essere nulla o addirittura indeterminata.
Consideriamo il calcolo delle probabilità di Uni-Gramma in un corpus di N parole che possono essere scelte in un vocabolario di V parole possibili:
ci=0 non implica che wi sia una parola impossibile se appartiene a V, si
deve quindi imporre P(w ) ≠ 0 ∀ w ∈ V
Smoothing di Laplace per Uni-grammi:
Data una distribuzione di probabilità di N-Grammi calcolata su un corpus di addestramento (train) e un corpus di test formato da N parole, si definisce la seguente grandezza:
Perplexity (PP):
è facile dimostrare che nel caso in cui la probabilità di concatenazione di sequenze di parole sia espressa attraverso i bigrammi la perplexity è espressa come segue:
1. Introduzione al corso. Le tecnologie vocali: stato dell'arte e la situazione in Italia
2. Cenni di fonetica articolatoria
3. Digital signal processing applicazioni al segnale vocale – parte prima
4. Digital signal processing applicazioni al segnale vocale – parte seconda
5. Digital signal processing applicazioni al segnale vocale – parte terza
6. Analisi spettrografica del segnale vocale
8. Sintesi vocale da testo - parte prima
9. Sintesi vocale da testo - parte seconda
10. Sintesi vocale da testo - parte terza
11. Riconoscimento del parlato - parte prima