Vai alla Home Page About me Courseware Federica Virtual Campus 3D Gli eBook di Federica
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Francesco Cutugno » 4.Digital signal processing applicazioni al segnale vocale – parte seconda


Sviluppo in serie di Fourier

Sia f(t) una funzione che esprime una grandezza tempo-variabile;
f(t) si dice periodica con periodo T se e solo se ∀t si ha che f(t)=f(t+T).

Sia f(t) una funzione periodica con periodo T, allora è possibile operare il seguente sviluppo in serie:

f(t)=c_0 + 2 \sum^{\infty}_{n=1} c_n cos(\frac {2 \pi nt}{T}+\phi_n)

detto ‘fase’ e non rilevante per i nostri fini, si ha quindi che:

f(t)=c_0 + 2 \sum^{\infty}_{n=1} c_n cos(2 \pi nf_0t)

In pratica una funzione periodica viene scomposta in una somma di sinusoidi le cui frequenze sono tutte multipli della frequenza fondamentale della funzione stessa. I coefficienti ci determinano le ampiezze di ogni sinusoide componente.


Spettro armonico

Un esempio di spettro armonico per un segnale periodico

Un esempio di spettro armonico per un segnale periodico


Spettro continuo – Trasformata di Fourier

Data una generica funzione u(t) che descrive una qualsiasi variazione di una grandezza fisica nel tempo, si definisce F(w), che ha valori nel dominio dei numeri complessi, la sua trasformata di Fourier

F{u}(\omega)=\hat{a}(\omega):= \frac{1}{\sqrt{2 \pi}} \int_{\Re}e^{i \omega t}u(t)dt \ \forall \omega \in \Re

Duplicità ed equivalenza della rappresentazione della funzione: nel dominio del tempo e nel dominio della frequenza.

Forma d’onda e lo spettro di frequenze della vocale /o/

Forma d'onda e lo spettro di frequenze della vocale /o/


Trasformata discreta di Fourier (DFT)

Passaggio da continuo a discreto: dato un segnale digitale x(n) di N campioni, si definisce la sua trasformata discreta di Fourier X(k):

X(k)= \sum^{N-1}_{n=0}x(n)e^{-j \frac{2 \pi}{N}kn}

Il calcolo della DFT richiede per ogni campione N moltiplicazioni.

Se si calcola per N campioni il numero di operazioni eseguite sarà dunque N2.

Fast Fourier Transform (FFT) è un algoritmo ottimizzato per il calcolo della DFT:

  • a complessità dell’algoritmo e Nlog(N).

Si basa sull’approccio divide et impera – divide la computazione di una DFT di dimensione N=N1N2 in due DFT di dimensioni N1 e N2.

Inviluppo spettrale

Inviluppo spettrale: linea ideale che individua le aree dello spettro con la massima energia.

L’inviluppo determina il timbro del suono, nel caso di vocali, ad esempio, ci aiuta a decidere quale vocale stiamo ascoltando. La frequenza fondamentale del suono può variare indipendentemente dall’inviluppo e determina solo l’altezza melodica della vocale stessa.
Suono A

Suono B

Suono C

Suono D

Esempi di suoni vocalici e relativi spettri ed inviluppi

Esempi di suoni vocalici e relativi spettri ed inviluppi

Lo spettro di un segnale con il suo inviluppo

Lo spettro di un segnale con il suo inviluppo


Spettro delle frequenze

La forma d’onda e lo spettro della vocale /i/

La forma d'onda e lo spettro della vocale /i/

La forma d’onda e lo spettro della consonante /s/

La forma d'onda e lo spettro della consonante /s/


Analisi del segnale tempo-variabile

I segnali vocali posseggono una forte variabilità in funzione del tempo.

La FFT si applica ripetutamente a piccole porzioni di segnale -> segmenti (detti frames o finestre) di lunghezza tipicamente di 20 ms.

Nei frames le caratteristiche del parlato sono relativamente stazionarie nel tempo
di solito si utilizzano finestre sovrapposte.

Per garantire che il riassemblaggio dei risultati del calcolo della FFT in ogni finestra non sia falsato dalla introduzione di eventuali discontinuità si applica una tecnica detta finestraggio:

  • Dato una porzione di N punti in un segnale x(n) si opera la trasformazione: y(n) = w(n) * x(n) con:

w(n)=0.54-0.46 \ cos \left( \frac{2 \pi n}{N-1} \right)

w(n) è la funzione di Hamming, uno dei possibili di finestrare i segnali audio per l’analisi tempo-variabile.

In questo modo ogni porzione di x(n) viene modificata in modo che ai suoi estremi il segnale sia sempre prossimo a zero.

affiancamento finestre di segnale, forzatura a 0 estremi
andamento di w(n)
Frames per l’analisi del segnale

Lo spettrogramma

In pratica l’analisi del segnale vocale si deve effettuare in tre dimensioni: tempo, frequenza ed ampiezza delle componenti in frequenza.

Lo spettrogramma, talvolta denominato anche ’sonagramma’, è uno strumento classico di analisi del segnale vocale.

È composto dalle DFT di frames sovrapposti e pesati tramite una funzione di Hamming.

Ascissa: tempo, ordinata: frequenza, la terza dimensione, indicante l’intensità delle varie componenti spettrali, è rappresentata dal livello di grigio dei vari punti del piano.


Risoluzione tempo-frequenza

Finestra di analisi lunga:

  • rappresenta meglio le componenti della frequenza (le armoniche del segnale) mentre non distingue bene gli eventi temporali;
  • spettrogramma narrow band (banda stretta).

Finestra di analisi breve:

  • mette in evidenza gli eventi temporali e la struttura formantica mentre offre poca informazione sulle armoniche del segnale;
  • spettrogramma wide band (banda larga).
Spettrogrammi a banda larga = finestra lunga – sopra
e a banda stretta= finestra breve – sotto
Dello stesso suono ->

Spettrogrammi a banda larga = finestra lunga – sopra e a banda stretta= finestra breve – sotto Dello stesso suono ->


Lo spettrogramma narrow band

Forma d’onda della parola “millenovecentottantuno” e il suo spettrogramma narrow band corrispondente

Forma d'onda della parola "millenovecentottantuno" e il suo spettrogramma narrow band corrispondente


Lo spettrogramma wide band

Forma d’onda della parola “millenovecentottantuno” e il suo spettrogramma wide band corrispondente

Forma d'onda della parola "millenovecentottantuno" e il suo spettrogramma wide band corrispondente


Strumenti software per l’analisi del segnale vocale


Strumenti software per l’analisi del segnale vocale (segue)


Praat

Una parte dell’IDE di PRAAT

Una parte dell'IDE di PRAAT


Praat (segue)

Un esempio di script per PRAAT

Un esempio di script per PRAAT


I materiali di supporto della lezione

Prove audio

Suono A

Suono B

Suono C

Suono D

  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion

Fatal error: Call to undefined function federicaDebug() in /usr/local/apache/htdocs/html/footer.php on line 93