Home

Federica EU

1/15

Walter Balzano » 3.Tipologia e formati dei dati MultiMediali. L'audio

Tipologia e formati dei Dati MultiMediali. L’audio

L’audio: definizioni
Soglie di udibilità
Rappresentazione digitale dell’audio
Schemi di conversione A/D e D/A
Campionamento
Quantizzazione
Companding
Predictive Coding
Mpeg Audio
Audio sintetico

L’audio – Definizione

L’audio è causato da variazioni di pressione dell’aria.

Le frequenze udibili dall’uomo variano nell’intervallo 20 – 20.000 Hz.

I descrittori fondamentali del suono sono:

ampiezza;
frequenza.

Ampiezza e Frequenza del suono variano nel tempo.

Ampiezza di un segnale in funzione del tempo.

L’audio – soglie di udibilità

Le capacità uditive dell’uomo non sono lineari né rispetto all’ampiezza né rispetto alle frequenze.

Le curve isofoniche descrivono quali livelli sonori (misurati in dB) percepiamo essere uguali al variare della frequenza, cioè con ugual ‘volume’ (misurato in phon).

La maggiore sensibilità è tra i 1.000 e i 5.000 Hz (in questa regione ci vogliono meno dB per avere più phon): in questa banda di frequenza è concentrato buona parte del contenuto informativo del parlato e il nostro udito si è adeguato e sviluppato di conseguenza.

Sensibilità uditiva in funzione della frequenza (db). Fonte: immagine modificata da Sensibilità uditiva

Sensibilità uditiva in funzione della frequenza (pressione sonora).

Rapperesentazione digitale dell’audio

Conversione analogico ->digitale.

ADC (Analog to Digital Conversion)

Le 3 fasi fondamentali di un processo ADC sono:

Campionamento: prelievo di valori assunti dal segnale analogico ad intervalli discreti di tempo (gestiti da un clock). Il valore campionato resta costante durante il successivo intervallo di tempo. I campioni prelevati sono, in questa fase, ancora di tipo analogico assumendo pertanto un qualsiasi valore di un intervallo continuo.
Quantizzazione: processo di conversione dei valori continui in valori discreti. L’intervallo del segnale viene suddiviso in un numero fisso di sotto-intervalli di uguale dimensione e viene assegnato un valore. Ciascun campione cade in uno specifico intervallo; quindi i valori possibili sono in numero limitato. La grandezza del sotto-intervallo di quantizzazione è detto passo di quantizzazione.
Codifica: processo di rappresentazione numerica dei valori quantizzati. Quanto maggiore sarà sia la frequenza di campionamento sia il numero dei livelli di quantizzazione allora tanto maggiore sarà la fedeltà del segnale digitalizzato.

DAC (Digital to Analog Conversion)

Conversione analogica digitale.

ADC & DAC

Schema generale di conversione A/D e D/A.

ADC & DAC

Dettagli di conversione dello schema generale di conversione A/D e D/A.

Scelta della Frequenza di Campionamento

La Frequenza di Campionamento è strettamente dipendente dalla frequenza massima del segnale analogico da convertire; infatti il teorema di Nyquist afferma che: se in un segnale analogico c’è una componente con frequenza fino a f Hz allora la frequenza di campionamento dovrebbe essere almeno 2 f Hz.

Campionamento Critico ↔ Freq. Campionamento = 2 f Hz

Nella pratica le freq. di campionamento sono di poco superiori al Campionamento critico.

Dispositivi e campionamenti.

Bassa frequenza di campionamento

Esempio di
ricostruzione errata
per basso campionamento (effetto aliasing).

Scelta numero dei livelli di quantizzazione

Errore (o rumore) di quantizzazione: Max {Campione_quantizzato_i – segnale_analogicoi}

Il numero Q dei livelli di quantizzazione determina la quantità b di bit necessaria per rappresentare ciascun campione:

b=log₂Q

La qualità del segnale digitale SNR (Signal Noise Ratio) viene misurata in decibel (db)

SNR = 20log₁₀(S/N) = 20blog₁₀2 = 6b

(S=max ampiezza segnale; N=Errore di quantizzazione; q=passo di quantizzazione; S=2^bq)

Nota

Ogni bit in più usato per rappresentare il campione implica un aumento di 6 db del SNR.
Se l’errore di quantizzazione supera il valore della soglia uditiva allora viene avvertito.

Compressione Audio: Companding

I metodi di compressione possono essere quindi basati su due approcci diversi:

1: Trasformazione non-lineare del segnale; 2: Quantizzazione uniforme
1: Segnale lineare;2: Quantizzazione non uniforme
Companding: trasformazione di un segnale da lineare a non lineare.
Companded PCM (Log PCM): digitalizzazione uniforme di un segnale companded.

Mediante la tecnica del companding è possibile riprodurre un segnale ad 8-bit con la stessa qualità di un segnale a 12 bit e quindi il compandig può quindi essere visto come una sorta di compressione analogica del segnale.

Schema della tecnica di companding.

Predictive Coding

Con il Predictive Coding, anziché codificare il valore del campione da trasmettere, si codifica la differenza tra la predizione del valore del campione ed il valore del campione attuale (DPCM, differential pulse-coded modulation).

Il valore della predizione si ricava dai valori precedenti assunti dal segnale; tale valore è pertanto noto sia al codificatore che al decodificatore che applicano la medesima strategia.

L’efficacia del Predictive Coding si basa sul fatto che:

campioni vicini sono significativamente correlati;
per codificare una differenza occorre un numero inferiore di bit.

Se le differenze dovessero risultare molto grandi, vengono allora introdotte opportuni algoritmi correttivi.

Mpeg Audio

La tecnica di compressione Mpeg Audio è basata sul mascheramento: suoni di maggiore intensità “coprono” i suoni a di bassa intensità che, pertanto, possono essere “ignorati” (compressi) senza influire sulla qualità udibile dal nostro orecchio.

Principali caratteristiche:

è una compressione a perdita (lossy);
frequenze di campionamento usate: 32 kHz, 44.1 kHz, 48 kHz;
supporto di 1 oppure 2 canali audio;
bit rates del flusso compresso: da 32 a 244 kbps;
rapporto di compressione: da 2.7:1 a 24:1 (dipende dalla frequenza di campionamento);
per rapporti di compressione fino a 6:1 la “perdita” non è percepibile neanche da “orecchie esperte”;

Lo standard Mpeg Audio rappresenta una famiglia di 3 schemi di compressione:

Mpeg Layer 1 – Mpeg Layer 2 – Mpeg Layer 3

La complessità dell’algoritmo impiegato è crescente dal Layer 1 al Layer 3.
Compatibilità verso il basso (Layer i è compatibile con Layer i-1)

Audio Sintetico: Midi

Con l’acronimo MIDI (Musical Instrument Digital Interface) si indica il protocollo standard per l’interazione degli strumenti musicali elettronici.
Il formato midi non contiene musica pre-registrata ma le direttive e le specifiche per sua riproduzione: uno spartito musicale non contiene la riproduzione del brano musicale ma solo le istruzioni per la riproduzione. (Un libro non contiene la narrazione diretta di una storia, bensì la storia stessa; la narrazione della storia dipende da fattori esterni quale il timbro vocale del narratore,…).
Il file midi contiene quindi informazioni e direttive che vengono interpretate da sistemi speciali (sintetizzatori) Hardware o Software e ne realizzano l’esecuzione.
Le direttive sono del tipo: esegui la nota N con una durata T e con lo strumento S (Possiamo quindi definire un file midi come una sorta di spartito musicale elettronico).
Vantaggi: grandezze dei file molto ridotte (ottimo per essere trasmesso).
Svantaggi: la riproduzione del suono non è univoca (l’esecuzione di uno stesso spartito musicale produce differenti interpretazioni in dipendenza degli strumenti utilizzati).