Home

Federica EU

1/21

Walter Balzano » 7.Indicizzazione e recupero dell'audio

Indicizzazione e recupero dell’audio

Introduzione
Proprietà e caratteristiche principali dell’audio
Classificazione dell’audio
Recupero e riconoscimento del parlato
Indicizzazione e recupero della musica
Indicizzazione e recupero mediante l’uso di relazioni tra l’audio ed altri Media.

Introduzione

Per gli esseri umani risulta semplice saper distinguere tra:

differenti tipi di audio (voce, musica, rumori,…);
diverse “velocità di esecuzione” (lento, svelto, …);
diversi toni (felice, arrabbiato, triste, …);
… inoltre, per un essere umano, risulta semplice determinare la similitudine tra diversi pezzi audio.

Attualmente, il modo più utilizzato per classificare vari brani audio è basato sul titolo oppure sul nome del file: è evidente sia la soggettività di tale metodologia e sia l’incapacità di poter supportare query come “cercare un brano audio simile a quello che abbiamo appena ascoltato” (query per esempio).

Ulteriore complicazione nasce dal fatto che non esiste uno standard di memorizzazione del file audio (diverse frequenze di campionamento, ampiezze,….) e ciò comporta ovviamente grosse problematiche per il loro confronto.

Risulta pertanto necessario sviluppare tecniche e metodi di retrieving.

Approccio generale

L’approccio che viene generalmente seguito per lo studio dei vari brani audio consiste nel realizzare un primo livello di distinzione:

parlato;
musica;
rumori.

La gestione è quindi diversificata per tipologie: per esempio, lo studio del parlato consiste principalmente nel convertire il file audio in parole di testo (speech recognition) su cui si potrà poi effettuare una query tradizionale (tramite un IR).

Le query audio vengono gestite su sottoinsiemi simili di brani audio.

La distinzione tra diverse tipologie audio è importante per diverse ragioni:

diversi tipi di audio richiedono differenti tecniche di indicizzazione e recupero;
diversi tipi di audio assumono significati diversi per le applicazioni;
per il parlato esistono già numerosi applicativi per il riconoscimento;
la classificazione è di per se utile per molte applicazioni;
la classificazione comporta poi una riduzione dello spazio di ricerca.

Proprietà e caratteristiche principali dell’audio

I segnali audio vengono rappresentati:

nel dominio temporale [time domain] (rappresentazione Tempo/Ampiezza del segnale)M
nel dominio delle frequenze (rappresentazione Frequenza/Magnitudine).

Ciascun tipo di rappresentazione è particolarmente idonea per l’estrazione di determinate caratteristiche.

Oltre alle caratteristiche estraibili dall’audio rappresentato nei due precedenti dominii, è possibile estrarre caratteristiche che possono essere soggettive (come il timbro, …).

Caratteristiche derivabili dal Time Domain

La rappresentazione Time Domain è la tecnica più immediata ed intuitiva per la rappresentazione di un segnale la cui ampiezza varia nel tempo.

Il silenzio è rappresentato dallo zero.

I valori del segnale possono essere positivi o negativi a seconda se la pressione d’aria provocata dall’onda sonora risulta essere superiore o inferiore alla pressione atmosferica in condizioni di silenzio.

Si assume che ogni campione audio sia rappresentato mediante un insieme di 16 bit; ciò comporta che l’escursione dei valori varia del segnale varia da 32767 (2¹⁵-1) a -32767.

Esempio di Time Domain

Rappresentazione di un segnale in funzione del tempo.

Caratteristiche derivanti dal Time Domain

I parametri fondamentali valutabili con una rappresentazione Time Domain sono:

average energy (Energia Media): indica la “rumorosità” del segnale audio
zero crossing rate (Frequenza di passaggio per lo zero): indica con quale frequenza cambia segno l’ampiezza del segnale
silence ratio (quantità di silenzio): indica la proporzione di silenzio nel brano musicale; è il periodo entro il quale i valori assoluti di ampiezza di un certo numero di campioni (e non solo un singolo valore) e per un “certo” tempo siano prossimi ad una soglia specifica.

$Silence ~ Ratio=\frac{Somma ~ dei ~ periodi~ di~ silenzio} {Lunghezza ~totale~ del ~brano}$

Caratteristiche derivanti dal Time Domain (segue)

Poiché l’ Average Energy aumenta fortemente per grandi ampiezze di segnale (i campioni compaiono elevati al quadrato) si introduce un’ulteriore grandezza, l’Average Magnitude.

Everage Energy:

$E = \frac {\Sigma _{n=0} ^{N-1} x(n)^2} N$

In cui:

E=energia media del brano audio; N=numero totale dei campioni valutati; x(n)=valore del campione n-esimo

Zero Crossing Rate:

$ZCR=\frac {\sum _{n=1} ^{N} \mid sgn~x(n)-sgn ~x(n-1)|} {2N}$

In cui:

sgn x(n)= segno di x(n) = 1 se x(n)>0

…………………………………..-1 se x(n)<0

Caratteristiche derivanti dal Time Domain (Energy)

Grandezze derivate da un segnale input prefissato.

Caratteristiche derivanti dal Time Domain (ZCR)

Rappresentazione di ZCR.

Caratteristiche derivanti dal Time Domain (confronti)

ZCR, Magnitudine ed Energia a confronto.

Caratteristiche derivanti dal Dominio delle Frequenze)

La rappresentazione nel dominio delle frequenze deriva dalla rappresentazione nel dominio temporale applicando la trasformata di Fourier.

La trasformata di Fourier descrive in che modo un segnale possa essere decomposto nelle proprie frequenze componenti.

Nel Dominio delle Frequenze il segnale viene rappresentato come ampiezza che varia in dipendenza della frequenza; tale rappresentazione mostra in che modo è distribuita l’energia alle varie frequenze.

La rappresentazione nel dominio delle Frequenze è comunemente detta spettro del segnale.

Passaggio di dominio.

Spettro di un segnale audio

Spettro di un segnale audio (rappresentazione 3D).

Trasformata di Fourier

La Trasformata di Fourier DFT:

$X(k)= \Sigma _{n=0}^{N-1} x(n)e^{-jn\omega_{k}}$

in cui:

ω_k : 2πk/N; x(n): segnale discreto con N campioni; k: valore binario della DFT.

Se la frequenza di campionamento del segnale è f_s Hz allora la frequenza f_k del binario k espressa in Herz è data da:

$f_k=f_s \frac {\omega_k}{2 \pi}= f_s \frac k N$

Se x(n) è temporalmente limitato da N allora può essere completamente ricostruito usando la Trasformata di Fourier Discreta Inversa IDFT per la frequenza di N campioni:

$x(n)=\frac1 N \Sigma _{k=0}^{N-1} X(k)e^{jn\omega_{k}}$

La DFT e la IDFT sono calcolate in modo efficiente tramite la Fast Fourier Transforms FFT.

Caratteristiche derivanti dal Dominio delle Frequenze (segue)

Bandwidth (larghezza di banda) = gamma (o range) delle frequenze di un suono.

Mediamente la musica ha un range molto più ampio del parlato.

Il metodo più semplice adottato per il calcolo del range effettua una differenza:

Range_frequenze = Massima_Frequenza – Minima_Frequenza

Con: Massima_Frequenza, Minima_Frequenza ∈ Spettro dei componenti
……..Massima_Frequenza, Minima_Frequenza = Componenti non nulle

Nota: in alcuni casi si definisce una componente non nulla se essa supera una soglia di 3 dB oltre il silenzio.

Caratteristiche derivanti dal Dominio delle Frequenze (segue)

Lo spettro del segnale facilita la valutazione della distribuzione delle frequenze componenti; ad esempio è possibile rapidamente valutare se il segnale possiede componenti con frequenze elevate.
La presenza di alte frequenze nel segnale audio comporta che con alta probabilità il segnale in oggetto contiene musica (la musica ha componenti molto più elevate rispetto il parlato).
7 kHz rappresenta un buon valore nello spettro per la soglia che determina se un file audio contiene parlato oppure musica; frequenze fino a 7 kHz → banda bassa; frequenze oltre i 7 kHz→ banda alta.
La classificazione di frequenze “alte” o “basse” dipendono dall’applicazione che dovrà trattare tali segnali.

L’energia complessiva di ciascuna banda è la somma dei suoi componenti.
Il Centroide Spettrale individua il punto medio della distribuzione di energia di un suono.

Il centroide del parlato è inferiore al centroide della musica.

Caratteristiche derivanti dal Dominio delle Frequenze (segue)

Analisi delle soglie: musica e parlato.

Caratteristiche derivanti dal Dominio delle Frequenze (segue)

Armoniche
Un suono prodotto da un corpo vibrante non è mai puro, ma è costituito da un amalgama in cui al suono fondamentale se ne aggiungono altri più acuti e meno intensi: questi sono gli armonici, che hanno una importanza fondamentale nella determinazione del timbro di uno strumento e nella determinazione degli intervalli musicali.
Le armoniche di un suono sono multiple in frequenza rispetto una frequenza più bassa detta frequenza fondamentale.
In genere la musica contiene molte più armoniche di un semplice suono.
Il test che stabilisce se un suono contiene armoniche controlla che le frequenze di componenti dominanti siano multiple di una frequenza fondamentale.

Esempio:
Se lo spettro di un flauto contiene la serie di picchi di frequenza:
400 Hz, 800 Hz, 1200 Hz, 1600 Hz, ….
La serie è del tipo f, 2f, 3f, 4f,…. in cui f=400Hz costituisce la frequenza fondamentale del suono e le frequenze 2f, 3f, 4f,….. sono le armoniche.