Home

Federica EU

1/15

Francesco Cutugno » 4.Digital signal processing applicazioni al segnale vocale – parte seconda

Sviluppo in serie di Fourier

Sia f(t) una funzione che esprime una grandezza tempo-variabile;
f(t) si dice periodica con periodo T se e solo se ∀t si ha che f(t)=f(t+T).

Sia f(t) una funzione periodica con periodo T, allora è possibile operare il seguente sviluppo in serie:

$f(t)=c_0 + 2 \sum^{\infty}_{n=1} c_n cos(\frac {2 \pi nt}{T}+\phi_n)$

detto ‘fase’ e non rilevante per i nostri fini, si ha quindi che:

$f(t)=c_0 + 2 \sum^{\infty}_{n=1} c_n cos(2 \pi nf_0t)$

In pratica una funzione periodica viene scomposta in una somma di sinusoidi le cui frequenze sono tutte multipli della frequenza fondamentale della funzione stessa. I coefficienti ci determinano le ampiezze di ogni sinusoide componente.

Spettro armonico

Un esempio di spettro armonico per un segnale periodico

Spettro continuo – Trasformata di Fourier

Data una generica funzione u(t) che descrive una qualsiasi variazione di una grandezza fisica nel tempo, si definisce F(w), che ha valori nel dominio dei numeri complessi, la sua trasformata di Fourier

$F{u}(\omega)=\hat{a}(\omega):= \frac{1}{\sqrt{2 \pi}} \int_{\Re}e^{i \omega t}u(t)dt \ \forall \omega \in \Re$

Duplicità ed equivalenza della rappresentazione della funzione: nel dominio del tempo e nel dominio della frequenza.

Forma d'onda e lo spettro di frequenze della vocale /o/

Trasformata discreta di Fourier (DFT)

Passaggio da continuo a discreto: dato un segnale digitale x(n) di N campioni, si definisce la sua trasformata discreta di Fourier X(k):

$X(k)= \sum^{N-1}_{n=0}x(n)e^{-j \frac{2 \pi}{N}kn}$

Il calcolo della DFT richiede per ogni campione N moltiplicazioni.

Se si calcola per N campioni il numero di operazioni eseguite sarà dunque N².

Fast Fourier Transform (FFT) è un algoritmo ottimizzato per il calcolo della DFT:

a complessità dell’algoritmo e Nlog(N).

Si basa sull’approccio divide et impera – divide la computazione di una DFT di dimensione N=N₁N₂ in due DFT di dimensioni N₁ e N₂.

Inviluppo spettrale

Inviluppo spettrale: linea ideale che individua le aree dello spettro con la massima energia.

L’inviluppo determina il timbro del suono, nel caso di vocali, ad esempio, ci aiuta a decidere quale vocale stiamo ascoltando. La frequenza fondamentale del suono può variare indipendentemente dall’inviluppo e determina solo l’altezza melodica della vocale stessa.
Suono A

Suono B

Suono C

Suono D

Esempi di suoni vocalici e relativi spettri ed inviluppi

Lo spettro di un segnale con il suo inviluppo

Spettro delle frequenze

La forma d'onda e lo spettro della vocale /i/

La forma d'onda e lo spettro della consonante /s/

Analisi del segnale tempo-variabile

I segnali vocali posseggono una forte variabilità in funzione del tempo.

La FFT si applica ripetutamente a piccole porzioni di segnale -> segmenti (detti frames o finestre) di lunghezza tipicamente di 20 ms.

Nei frames le caratteristiche del parlato sono relativamente stazionarie nel tempo
di solito si utilizzano finestre sovrapposte.

Per garantire che il riassemblaggio dei risultati del calcolo della FFT in ogni finestra non sia falsato dalla introduzione di eventuali discontinuità si applica una tecnica detta finestraggio:

Dato una porzione di N punti in un segnale x(n) si opera la trasformazione: y(n) = w(n) * x(n) con:

$w(n)=0.54-0.46 \ cos \left( \frac{2 \pi n}{N-1} \right)$

w(n) è la funzione di Hamming, uno dei possibili di finestrare i segnali audio per l’analisi tempo-variabile.

In questo modo ogni porzione di x(n) viene modificata in modo che ai suoi estremi il segnale sia sempre prossimo a zero.

Lo spettrogramma

In pratica l’analisi del segnale vocale si deve effettuare in tre dimensioni: tempo, frequenza ed ampiezza delle componenti in frequenza.

Lo spettrogramma, talvolta denominato anche ’sonagramma’, è uno strumento classico di analisi del segnale vocale.

È composto dalle DFT di frames sovrapposti e pesati tramite una funzione di Hamming.

Ascissa: tempo, ordinata: frequenza, la terza dimensione, indicante l’intensità delle varie componenti spettrali, è rappresentata dal livello di grigio dei vari punti del piano.

Risoluzione tempo-frequenza

Finestra di analisi lunga:

rappresenta meglio le componenti della frequenza (le armoniche del segnale) mentre non distingue bene gli eventi temporali;
spettrogramma narrow band (banda stretta).

Finestra di analisi breve:

mette in evidenza gli eventi temporali e la struttura formantica mentre offre poca informazione sulle armoniche del segnale;
spettrogramma wide band (banda larga).