Vai alla Home Page About me Courseware Federica Living Library Federica Federica Podstudio Virtual Campus 3D Le Miniguide all'orientamento Gli eBook di Federica La Corte in Rete
 
 
Il Corso Le lezioni del Corso La Cattedra
 
Materiali di approfondimento Risorse Web Il Podcast di questa lezione

Sergio Cavaliere » 21.L'audio per la rete e la realtà virtuale


Il DSP nell’epoca della rete

Descriveremo di seguito alcune applicazioni dell’elaborazione del segnale all’audio in particolare in relazione all’uso della rete ed alla realtà virtuale.

Il contributo che il DSP dà all’audio nell’epoca della rete e della realtà virtuale sono molteplici.
Per quanto riguarda la rete è ormai sempre più evidente la tendenza per cui la rete viene usata per lo scambio di informazioni più o meno strutturate; tra queste sicuramente le informazioni multimediali, audio, musica, suoni, immagini e filmati.

Un primo aspetto è quindi quello della codifica e decodifica del segnale audio e video per la trasmissione su rete telematica: la compressione del segnale è funzionale alla opportunità di sfruttare appieno la banda passante a disposizione. A questo riguardo sono state sviluppate tecniche molto sofisticate di compressione che sfruttano spesso caratteristiche dell’apparato sensoriale umano, ottico e visivo per eliminare ogni informazione ridondante. Sono stati allo scopo sviluppati complessi modelli dell’apparato sensoriale umano.

Naturalmente la complessità di queste tecniche di codifica risulta in una complessità computazionale in fase di codifica e poi decodifica, resa possibile dal contemporaneo sviluppo di tecniche di elettronica che rendono sempre più rapidi i circuiti VLSI e più spinta l’integrazione su silicio di un numero crescente di dispositivi su singolo chip.

Un risultato di questi avanzamento è stato la possibilità di sviluppare applicazioni di virtualizzazione molto spinte.
L’audio anche in apparati di ascolto domestico e personale usa tecniche di virtualizzazione che tendono a migliorare la naturalezza del suono riprodotto, simulando degli ambienti di ascolto virtuali.
Ed è questa applicazione che analizzeremo in qualche dettaglio.

Spazializzazione del suono

Per affrontare il problema della spazializzazione del suono occorre analizzare tre aspetti:

  • meccanismo di propagazione del suono. Velocità del suono, eco e riverberazione
  • interazione del suono con l’orecchio umano, effetto filtrante della testa;
  • il meccanismo di rivelazione della provenienza di un suono.

L’insieme di questi meccanismi permette all’uomo di caratterizzare la collocazione del suono nell’ambiente circostante sia riguardo alla sua posizione nel piano orizzontale della testa, che riguardo all’elevazione della sorgente. Questi aspetti vanno esaminati allo scopo di ricostruire all’ascolto anche la sensazione della collocazione spaziale del suono anche nel caso di sorgente in movimento; questa evidentemente contribuisce alla naturalezza della ricostruzione soprattutto ai fini della virtualizzazione ed è insostituibile sia per migliorare l’ascolto che per creare mondi acustici virtuali.

La direzione del suono

La percezione della direzione di provenienza del suono è importante per collocare il suono nello spazio ed eventualmente far percorrere alla sorgente un percorso fissato. Quando un suono proviene da una sorgente posta alla destra dell’ascoltatore giunge prima all’orecchio destro e poi sinistro con un ritardo dell’ordine di millisecondi. Per una distanza interaurale (distanza tra le due orecchie) di 16 cm (valore medio) il massimo ritardo assumendo una velocità del suono di 344m/s sarà: t=s/v=0.16m/344m/s*1000=~0.465ms

Il ritardo in numero di campioni ad una frequenza di campionamento di 44.1 kHz è di ~0.465ms*44kHz=22 campioni. Si tratta di tenere in conto una differenza di poche decine di campioni che risulta in uno sfasamento delle componenti del segnale.

I segnali ricevuti all’orecchi destro e sinistro, ritardati ed attenuati l’uno rispetto l’altro, differiranno di una certa fase dovuto ai differenti ritardi di propagazione; essi avranno inoltre differente ampiezza a causa dell’attenuazione dovuta alla testa ed al torso, attenuazione che dipende dall’angolo di provenienze; quando ad esempio il suono proviene dalla destra dell’ascoltatore testa e torso completamente interposti rispetto all’orecchio sinistro che riceverà un suono meno intenso rispetto a quello percepito dall’orecchio destro.

Differenza dil percorso acustico tra i due orecchi.

Differenza dil percorso acustico tra i due orecchi.

Ritardo e differenza di ampiezza tra il segnale ai due orecchi.

Ritardo e differenza di ampiezza tra il segnale ai due orecchi.


Il cono di confusione

Un fenomeno importante ad esempio è quello del cosiddetto cono di confusione.

Data un determinata angolazione della sorgente, azimut ed elevazione ci sono diverse posizioni possibili che conferiscono al segnale le medesime caratteristiche. Queste posizioni formano un cono detto appunto red è illustrato dalla simulazione riportata in figura.
La discriminazione che l’apparato uditivo fa tra le varie possibili direzioni è resa possibile dalle capacità del lobo auricolare di filtrare diversamente le varie direzioni.

Infine la stessa provenienza del suono, dalle spalle o frontale può dare luogo ad ambiguità. Viene risolta sempre mediante differenze anatomiche tra le due direzioni, essenzialmente forma dei padiglioni auricolari.
Si osservi che nella stessa testa Kemar possono essere utilizzati diversi modelli di padiglioni auricolari.

Cono di confusione.

Cono di confusione.

Direzione frontale e direzione posteriore: ambiguità.

Direzione frontale e direzione posteriore: ambiguità.


Selettività della risposta ad un segnale

Il suono giunto all’orecchio sinistro, oltre ad arrivare con un certo ritardo, subisce come già detto un’attenuazione.

Questa è dovuta all’effetto schermante della testa che quindi attenua il suono; essa però opera selettivamente in frequenza; in particolare ha complessivamente un’azione di filtraggio passa-basso. Le basse frequenze risultano meno pronunìciate perché sono più attenuate per le basse frequenze l’azione schermante della testa ha un piccolo effetto al di sopra dei 1500 Hz diviene significativa.

Questo si può apprezzare dal diagramma in figura relativo ad una angolazione della direzione di provenienza del suono pari a 10°
La colorazione, dovuta all’azione schermante della testa ma anche alla forma del padiglione auricolare, organo preposto a raccogliere la massima quantità di energia del suono, è molto importante per motivi psicoacustici.

Risposta in frequenza dell’orecchio destro e sinistro per un angolo fissato di provenienza. L’attenuazione è maggiore alle alte frequenze. Le due curve, come ci si aspetta non differiscono da un orecchio all’altro.

Risposta in frequenza dell'orecchio destro e sinistro per un angolo fissato di provenienza. L'attenuazione è maggiore alle alte frequenze. Le due curve, come ci si aspetta non differiscono da un orecchio all'altro.


HRTF Head Related Transfer Function

Le differenze di comportamento dell’apparato uditivo umano rispetto a segnali di diversa provenienza sia sul piano orizzontale che di diversa elevazione sono importanti allo scopo di spazializzare il suono riproducendo, in prima istanza mediante l’ascolto in cuffia una determinata disposizione spaziale delle sorgenti. Queste curve di risposta HRTF Head Related Transfer Functions o Funzioni di Trasferimento della Testa, sono state studiate mediante l’uso di manichini ad imitazione della testa e del torso umano, con una modellazione accurata anche del padiglione auricolare. (Vedi ad esempio per il manichino Kemar.) L’apparato sperimentale è costituito da un PC equipaggiato con un apparato acustico opportuno, dal manichino montato su un apparato girevole, adatto a riprodurre angolazioni diverse tra manichino e sorgente, e da due microfoni nei padiglioni auricolari. Il suono raccolto dai microfoni viene acquisito dal PC e messo in relazione con il suono emesso e la posizione relativa. Ripetendo le misure per diverse angolazioni della sorgente sul piano orizzontale e diverse elevazioni, sono state ottenute dei data base di risposte pubblicate da varie fonti.
Ad esempio: MIT Media Lab, IRCAM: ed AKG, Boston University (USA).

Nella figura viene mostrato l’apparato del Laboratorio ACEL della nostra università nel Dipartimento di Scienze Fisiche, utilizzato per ricerche sulla identificazione dell’angolo di provenienza dei segnali da una sorgente sonora.

Testa attrezzata con due microfoni, montata su supporto rotante, controllato da un PC. Il PC invia segnali mediante un altoparlante e preleva contemporaneamente  i segnali dai microfoni.

Testa attrezzata con due microfoni, montata su supporto rotante, controllato da un PC. Il PC invia segnali mediante un altoparlante e preleva contemporaneamente i segnali dai microfoni.


La funzione di trasferimento

Gli apparati descritti permettono di studiare la risposta allo stimolo proveniente da diverse angolazioni e con diverse elevazioni. Occorrerebbe tenere conto anche della distanza della sorgente ma questa si può simulare con una semplice attenuazione. Viceversa le risposte si studiano ad una distanza dell’ordine dei metri, nell’ipotesi che i parametri rilevanti non mutino sensibilmente. Si può ragionevolmente fare l’ipotesi di linearità ed invarianza nel tempo ed in tal caso, come abbiamo visto il sistema è descritto completamente dalla risposta impulsiva; questo per ogni valore dell’angolo di incidenza del suono e della sua elevazione. Avremo in definitiva una famiglia di risposte indicizzate da due parametri, l’angolo di incidenza e l’elevazione, dette in letteratura HRTF – Head Related Transfer Function funzioni di trasferimento della testa. Indicando con α ed e l’angolo e l’elevazione:

H_{\alpha e} (f)= \frac {Y(f)} {X(f)}

Le HRTF naturalmente tengono presente tutti gli aspetti della funzione di trasferimento tra sorgente sonora ed apparato di ascolto, ed includono: la produzione del suono e quindi e caratteristiche del sistema audio in uscita; la trasduzione effettuata dall’altoparlante; la propagazione del segnale in aria, su percorsi eventualmente diversi; la riverberazione del suono nell’ambiente; la schermatura della testa e del torso (ritardi, filtraggio diffrazione); l’acquisizione tramite microfono e quindi le caratteristiche di questo; l’acquisizione da PC e quindi le caratteristiche del sistema audio in ingresso.

La catena del segnale

La catena di acquisizione comprende quindi tutti i blocchi in figura e nell’ipotesi LTI le risposte misurate Hmis comprendono anche la cascata degli altri blocchi, (che possono essere inglobati in uno solo); la risposta in frequenza sarà il prodotto delle risposte dei singoli blocchi.

Hmis=H1, H2 … Hn, HRTF

Se però in prima approssimazione trascuriamo effetti di secondo ordine, sarà: H1, H2 … Hn =1 e la funzione di trasferimento riguarderà semplicemente la risposta della testa, che ci interessa.

Questo richiede che il sistema audio in ingresso ed in uscita abbia caratteristiche ideali, cioè risposta piatta e che l’ambiente non sia riverberante, al limite perfettamente anecoico.

In alternativa, conoscendo la risposta dei singoli blocchi, ad esempio la curva caratteristica dei microfoni, la curva di risposta dell’ingresso e dell’uscita audio del PC ed infine le caratteristiche dell’ambiente, si può ricavare comunque dalla risposta misurata l’HRTF che ci interessa:

H_{RTFT}= \frac {H_{mis}} {H_1,H_2 ... H_n}

La catena di acquisizione per la misura delle HRTF.

La catena di acquisizione per la misura delle HRTF.

Schema a blocchi del sistema di misura e della diverse componenti in cascata.

Schema a blocchi del sistema di misura e della diverse componenti in cascata.


Risposta nel tempo ed in frequenza

La misura delle HRTF viene fatta dunque mediante una procedura sperimentale consistente nell’inviare un impulso unitario e raccogliere la risposta all‘orecchio destro e sinistro. In realtà l’impulso unitario è un segnale di energia molto bassa, inoltre eccita gli aspetti non lineari dell’intero sistema; si preferisce quindi inviare segnali di maggiore energia, come:

  • uno sweep di frequenza che interessa tutte le frequenze dello spettro fornendole in istanti di tempo diversi;
  • rumore bianco o meglio segnali di rumore opportuni (MLS Maximum Length Sequences).

Direttamente o indirettamente, comunque si misurano le due risposte impulsive. Da queste mediante trasformata si ottiene la risposta in frequenza, in modulo e fase. Nell’esempio in figura, per un suono proveniente da destra si osserva: la risposta al’orecchio sinistro è di intensità molto più bassa di quella all’orecchio destro; le due risposte differiscono anche in frequenza, in particolare le alte frequenze che a destra sono presenti anche se attenuate, a sinistra sono state quasi del tutto filtrate.

Risposta impulsiva e sua trasformata (modulo e fase) per un segnale proveniente da destra. Il database utilizzato è il DB CIPIC del MIT, che si scarica  dal sito MIT

Risposta impulsiva e sua trasformata (modulo e fase) per un segnale proveniente da destra. Il database utilizzato è il DB CIPIC del MIT, che si scarica dal sito MIT


La matrice delle risposte

Ripetendo le misure con angolazioni diverse otteniamo una matrice contenente le risposte impulsive o le loro trasformate ai diversi valori dell’angolo di azimut.

Questo angolo può variare con un passo di circa 5°: una risoluzione maggiore comporterebbe una dimensione della matrice eccessiva rispetto ai risultati che si possono ottenere. L’angolo zero corrisponde alla posizione centrale della sorgente, simmetrica rispetto ai due orecchi. Nella figura a fianco la matrice delle risposte impulsive è rappresentata come immagine in scala di grigio, con massimo per il colore bianco. Si osserva che le risposte hanno un ritardo rispetto all’istante 0 (partenza dell’eccitazione) dovuto al tempo di propagazione del suono dalla sorgente alla testa.

  • Per valore 0 dell’angolo:
    • le due risposte sono uguali stessa intensità e ritardo.
  • Per valore massimo dell’angolo (80°):
    • la risposta a sx è la meno intensa e più ritardata;
    • la risposta a dx è la più intensa e più precoce.

Naturalmente le risposte forniscono informazioni non solo sul ritardo e sull’attenuazione complessivi ma anche queste stesse informazioni frequenza per frequenza.

Diagramma della Matrice delle HRTF delle risposte nel tempo.
Il data base utilizzato è il DB della University of California at Davis (USA).

Diagramma della Matrice delle HRTF delle risposte nel tempo. Il data base utilizzato è il DB della University of California at Davis (USA).


Audio virtuale

Una volta raccolte sotto forma di HRTF le informazioni sulla modifiche introdotte al segnale audio nel loro percorso fino all’apparato uditivo, dipendenti dalla collocazione della sorgente sonora dello spazio, è possibile, dato un segnale audio collocarlo a piacere in uno spazio virtuale filtrandolo attraverso queste caratteristiche. La collocazione nello spazio virtuale può essere dipendente dal tempo, descrivendo così una traiettoria. Il segnale può essere filtrato dalle HRTF, indicizzate dalla posizione angolare (azimut) e dall’elevazione. L’ascolto deve avvenire in cuffia, evitando così le modifiche apportate al segnale dall’ambiente di ascolto reale, come eco e riverberazione che interferirebbero con le caratteristiche aggiunte al segnale dalle HRTF.

Complicando il sistema, cioè tenendo conto della caratteristiche delle casse e della loro posizione, si possono utilizzare casse. In tal caso l’elaborazione sarà più complessa, per il fatto che il segnale che arriva ai due orecchi proviene in parte dal canale destro ed in parte dal sinistro (cross-talking). Il risultato può avere un realismo sorprendente.

Inoltre è possibile aggiungere in questa fase di elaborazione anche gli effetti di eco e riverberazione che, come vedremo in una lezione apposita, sono essenziali per fornire realismo alla scena uditiva.

Audio per la realtà virtuale.:
spazializzazione di una o più sorgenti sonore.

Audio per la realtà virtuale.: spazializzazione di una o più sorgenti sonore.


Audio virtuale: complessità di calcolo

Le risorse di elaborazione necessarie sono molto rilevanti. Una buona qualità della virtualizzazione dell’audio richiede l’utilizzazione di risposte impulsive molto lunghe; alcune centinaia di campioni non sono una eccezione. Il calcolo può essere fatto nel dominio delle frequenze, grazie all’algoritmo della FFT, ma la complessità computazionale rimane alta. Inoltre la simulazione di sorgenti in movimento richiede un filtraggio tempo variante, quindi ulteriore complessità di calcolo. Questo filtraggio tempo variante in pratica si effettua in due modi:

  1. isolando segmenti di audio e trattandoli con in ogni finestra temporale con un filtro costante;
  2. interpolando nel tempo tra le diverse risposte impulsive o le diverse funzioni di trasferimento in frequenza.

Infine la simulazione di sorgenti multiple richiede elaborazione separata per ogni sorgente e conseguente maggiore carico di calcolo.

Le moderne CPU riescono a tenere testa a queste risorse; nel caso di performance spinte tuttavia occorrono apposite unità di elaborazione audio basate su chip VLSI di tipo DSP (prodotti ad esempio da Motorola, Texas, Analog Devices o altre). E’ da osservare infine che la spazializzazione del suono, eventualmente dinamica, oggi, nella musica, costituisce spesso una componente in più del lavoro del compositore. Per ultimo occorre ricordare che le HRTF dipendono dall’ascoltatore: individuare valori medi che si adattino a qualsiasi ascoltatore è possibile, ma i risultati sono migliori se tra i diversi set di HRTF normalmente forniti in rete da vari centri di ricerca, si sceglie quello che meglio si adatta ad un determinato ascoltatore.
In rete è possibile sperimentare diverse soluzioni di ascolto con diversi set di HRTF tra cui scegliere quella ottimale.

CIPIC HRTS Search, Demo Sounds

Un esperimento di localizzazione con le HRTF

A titolo di ulteriore esempio di uso delle HRTF riportiamo le risposte impulsive prelevate nel nostro Laboratorio con l’apparato mostrato nella fotografia in un lucido precedente e che appare anche nel filmato seguente.

In questo caso l’acquisizione delle risposte era finalizzata alla creazione di un data base di risposte che includessero non solo la caratteristica della testa ma anche dell’ambiente includendo fenomeni di riverberazione.
Dal confronto dei segnali acquisiti dalla testa a destra e sinistra con i le risposte ai vari azimut in tabella si può risalire alla direzione di provenienza del suono.
Il procedimento è illustrato dal filmato che segue.

L’esperimento consiste nel ruotare la testa in una posizione arbitraria, scelta casualmente, emettere un suono dall’altoparlante, che quindi arriva con una certa angolazione alla testa; il suono raccolto viene confrontato con il data base di risposte immagazzinato in tabella e dal confronto si ricava l’angolo relativo della testa rispetto alla sorgente.
Come risulta dal filmato la capacità di risoluzione del sistema è piuttosto spinta.

Nella valutazione in pratica sono presi in esame ampiezza e sfasamento alle diverse frequenze contenute nel segnale.

HRTF misurate con l’apparato del Laboratorio ACEL della Federico II.

HRTF misurate con l'apparato del Laboratorio ACEL della Federico II.

Un filmato dell’esperimento di localizzazione di sorgente sonora.

Un filmato dell'esperimento di localizzazione di sorgente sonora.


  • Contenuti protetti da Creative Commons
  • Feed RSS
  • Condividi su FriendFeed
  • Condividi su Facebook
  • Segnala su Twitter
  • Condividi su LinkedIn
Progetto "Campus Virtuale" dell'Università degli Studi di Napoli Federico II, realizzato con il cofinanziamento dell'Unione europea. Asse V - Società dell'informazione - Obiettivo Operativo 5.1 e-Government ed e-Inclusion