HRTF Head-related transfer function

Funzione di trasferimento relativa alla testa.

Tratto da Wikipedia

Tradotto, semplificato e integrato da Mario Bon

7 maggio 2019

 

Ndt:

Tutta la teoria alla base della HRTF si basa su una ipotesi:

 

due stimoli sono indistinguibili quando producono la stessa variazione di pressione al timpano dell’ascoltatore

 

Questo è un principio generale che vale per qualsiasi sorgente (reale o virtuale) in qualsiasi situazione.

Il problema della localizzazione della sorgente è stato trasformato da un problema pcicoacustico al problema di inversione di una particolare funzione di trasferimento. Questo fa passare in secondo piano il riconoscimento dei meccanismi che il cervello impiega per la localizzazione delle sorgenti. L’interesse rimane per il progettista di sistemi di altoparlantio.

 

HRTF

Head-related transfer function

 

HRIR

head-related impulse response

 

ATF

anatomical transfer function

funzione di trasferimento anatomica

FFTF

free-field transfer function

funzione di trasferimento in campo libero

DTF

directional transfer function

la funzione di trasferimento direzionale

SNR

signal-to-noise ratio

 

ITD

Interaural Time Delay

Tempo di ritardo interaurale

IID

Interaural Intensity Difference

Differenza di Intensità Interaurale

Nota: la pinna è il padiglione auricolare (Orecchio esterno)

Nota: un vettore o una matrice si dice “sparsa” se una quantità delle sue componenti è nulla.

 

 

 

 

 

La HRFT è la funzione che lega il suono emesso da una sorgente collocata nell’ambiente con la pressione che si manifesta sui timpani dell’ascoltatore. Dato che le orecchie sono due servono due  HRTF (per le due orecchie).

La HRFT descrive come viene “filtrato” un suono proveniente dalla sorgente quando arriva alla estremità esterna del canale auricolare (interagendo con la testa, il torso, la pinna…)

Dal punto di vista biologico l’insieme della interferenza sulle strutture esterne aiutano la localizzazione in particolare per l’altezza della sorgente.[6]

Quando l’onda sonora arriva all’orecchio può entrare direttamente nel canale uditivo o essere riflessa dalla pinna e giungere al timpano con un certo ritardo. Quindi ci sono più repliche ritardate (e filtrate) dello stesso segnale che viaggiano all’interno del canale auricolare.

Queste repliche si sovrappongono generando interferenza costruttiva o distruttiva. Questo significa che, in regime stazionario, nella risposta in frequenza dello stimolo al timpano si osserveranno picchi e buchi (effetto filtro a pettine).

In sostanza il cervello cerca i buchi nella risposta in frequenza che corrispondono a particolari direzioni note. Se la pinna di un individuo viene sostituita con un’altra (la HTRF viene cambiata) l’individuo non è più in grado di localizzare la sorgente. Tuttavia dopo qualche settimana il sistema uditivo si adatta alla nuova HRTF e impara nuovamente a localizzare le sorgenti in modo corretto [7].

Questa variabilità degli spettri HRTF negli individui è stata studiata attraverso l’analisi di dati massivi (cluster analyses).[8]

 

La HRTF serve anche per risolvere il “Cono della Confusione” ovvero una serie di punti dove al ITD e la ILD sono identiche per suoni la cui sorgente si trova nell’intorno dello zero del cono.

 

NdT: Alcuni giochi per PC utilizzano la HRTF per ottenere l’effetto surround da due soli diffusori o da una cuffia[2][3]. In sostanza la HRTF renderà obsoleti i sistemi Home Theatre (5+1, 7+1). In futuro avremo sistemi stereo o al massimo sistemi 2+1 (stereo con sub woofer).

La televisione in 3D è già disponibile e richiede anche la riproduzione del suono in 3D e questa deve essere ottenuta dagli altoparlanti presenti all’interno del televisore (quindi 2 o al massimo 3 altoparlanti piuttosto ravvicinati). Per questo la ricerca per ottenere la riproduzione del suono in 3D viene sostenuta dai produttori di televisori oltre che da Amazon e da Apple. Visti gli investimenti è fuori dubbio che lo scopo sarà raggiunto. La riproduzione 3D richiederà anche un miglioramento delle qualità generali della riproduzione, in particolare della Chiarezza (quindi altoparlanti migliori, più piccoli e capaci di SPL più elevate, bassa distorsione e banda passante estesa). In questo settore gli altoparlanti a modi distribuito (DML) non dovrebbero dimostrarsi adatti mentre risulteranno utili gli altoparlanti a radiazione diretta.

 

L’uomo ha solo due orecchie ma localizza le sorgenti sonore nelle tre dimensioni (distanza, direzione dall’alto o dal basso, di fronte o dietro come pure di lato). Questo è possibile perché l’orecchio esterno (pinna), l’orecchio interno ed il cervello lavorano assieme per generare ed elaborate una serie di informazioni che consento di calcolare la posizione della sorgente. Tale elaborazione non prende più di un decimo di secondo ma non può nemmeno prenderne di meno (pena la riduzione della risposta verso il basso).

 

Ndt: è interessante notare che la localizzazione avviene sia per le sorgenti reali che per le sorgenti virtuali (che sono, in realtà, delle illusioni acustiche). La stereofonia è una illusione acustica.

 

L’abilità di localizzare le sorgenti sonore è stata sviluppata, per via evolutiva,  in quanto la vista è utilizzabile solo con la luce e può mostrare solo una parte del panorama attorno all’osservatore (un angolo di circa 110°). L’udito funziona in tutte le condizioni di luce e in tutte le direzioni (anche se con precisione variabile). La capacità di localizzare le sorgenti è funzionale alla sopravvivenza.

Molti animali posseggono un sistema uditivo molto più raffinato, selettivo e potente dell’uomo (basta pensare al gatto, al cane, ai pipistrelli, ai delfini…).

Gli umani stimano la posizione della sorgente sonora partendo dagli stimoli che giungono ad un orecchio (monaural cues) e confrontandoli con gli stimoli ricevuti dall’altro orecchio (difference cues o binaural cues). Il cervello considera le differenze di tempi di arrivo e di intensità che giungono alle orecchie (di cui quelle introdotte dalla pinna sono note e usate come riferimento. I suoni che provengono da tergo incontrano la parte posteriore della pinna ed il loro spettro viene attenuto selettivamente, lo stesso avviene per i suoni che provengono dall’alto).

Gli stimoli monoaurali sono il risultato delle onde di pressioni generate dalla sorgente che interferiscono con il torso, la testa e la pinna e quindi pervengono al canale uditivo per raggiungere il timpano. Tutte queste modificazioni, che codificano la posizione della sorgente, possono essere catturate registrando la risposta all’impulso al timpano dell’ascoltatore. Questa risposta impulsiva viene detta HRIR head-related impulse response

La HRTF è la trasformata secondo Fourier della HRIR. La HRTF viene detta a volte ATF o  anatomical transfer function funzione di trasferimento anatomica.

 

Detto s(jw) il segnale emesso da una sorgente e dette HRTF1 e HRTF2 le funzioni di trasferimento dell’orecchio destro e sinistro, lo spettro del suono che giunge ai timpani è

 

xL(jw)= s(jw) HRTF1

xL(jw)= s(jw) HRTF2.

 

La HRTF può anche essere descritta come il filtro cui viene sottoposto il suono proveniente da una certa direzione in campo libero per fornire il suono che arriva al timpano. La HRTF determina quanto accuratamente un ascoltatore può definire la direzione di provenienza del suono.

 

Nel documento AES69-2015 [4] la Audio Engineering Society (AES) ha definito il formato file SOFA per la memorizzazione dei dati spaziali relativi all’acustica come la HRTF. I file e le librerie software SOFA sono raccolte nel sito della Sofa Conventions [5]

 

esempio di risposta in frequenza dell’orecchio per una sorgente sonora posta davanti e in alto (in funzione della frequenza)

esempio di come viene derivato il tilt della HRTF con l’azimuth preso da un punto di riferimento

 

Derivazione tecnica (calcolo)

 

Le cose cambiano da individuo a individuo perché la forma del corpo, della testa e della pinna cambia da individuo a individuo. Ne segue che la HRTF è una funzione specifica per ogni individuo e, in teoria, la si dovrebbe misurare per ogni singolo individuo.

 

La Teoria dei Sistemi definisce la funzione di trasferimento come il rapporto complesso tra gli spettri di uscita e di ingresso in funzione della frequenza. La funzione di trasferimento  H(jw) di un sistema fisicamente realizzabile nel dominio della frequenza si scrive:

 

H(jw) = Output(jw) / Input(jw)

 

Blauert (1974; citato in Blauert, 1981) inizialmente definisce funzione di trasferimento in campo libero FFTF (free-field transfer function). Sono state definite la funzione di trasferimento della pinna, la funzione di trasferimento dell’orecchio esterno, la risposta della pinna o la funzione di trasferimento direzionale.

Il metodo più diretto per ottenere la HRTF (quando la posizione della sorgente è fissata) consiste nel generare un impulso Δ(t)  e misurare la HRIT (h(t)) direttamente al timpano (con un microfono nel condotto uditivo). Si deve misurare una HRTF per ogni posizione della sorgente nello spazio.

Ne segue che la HRTF è funzione della frequenza e delle coordinate x, y e z oltre che del tempo (se la sorgente è in movimento). Anche se viene usata una testa artificiale la determinazione della HRTF è una operazione lunga e non semplice. Diventa importante capire quali ipotesi semplificative si possano applicare.

Per distanze della sorgente superiori al metro (tra sorgente e ascoltatore) si può dire che la HRTF si attenua inversamente con il raggio (range). Questa è la HRTF in campo lontano H(f, θ, φ), che è quella misurata più spesso. A distanza inferire al metro la differenza di livello tra le due orecchie può aumentare parecchio anche a bassa frequenza (dove invece, a distanza maggiori, la differenza di livello è trascurabile).

 

La HRTF viene misurata in camera anecoica per minimizzare gli effetti dell’ambiente

 

Prendiamo un individuo, portiamolo in una camera anecoica, mettiamo all’interno dei suoi condotti uditivi i microfono miniaturizzati. A questo punto piazziamo la sorgente in un certo punto dello spazio e “spariamo” un impulso.

Per massimizzare il rapporto segnale/rumore (SNR) o anche solo per ottenere una risoluzione sufficiente, l’impulso di stimolo deve essere particolarmente ampio (volume molto alto). Oltre alla difficoltà di generare impulsi intensi in regime lineare (a bassa distorsione) questi possono danneggiare l’udito o quanto meno generare affaticamento. Quindi si preferisce usare come stimolo uno sweep in frequenza o una sequenza MLS (rumore rosa). Oltre a questo, sempre per evitare l’affaticamento del soggetto, si cerca di eseguire il numero minore possibile di misure. Le HRTF vengono misurate per incrementi angolari di 15 o 30 gradi nel piano orizzontale (per gli altri angoli si usa l’interpolazione). Con questa semplificazione si può ottenere confusione tra “davanti” e “dietro”  e l’ottimizzazione della procedura di interpolazione è argomento di intensa ricerca.

Gran parte di queste limitazioni si superano utilizzando la testa artificiale ma questa non fornisce la HRFT di una persona ma di un manichino che rappresenta tutti e nessuno. Un problema è trovare una HRFT che possa risultare utile per una alto numero di persone. L’importante non è ottenere una precisione assoluta perché l’apparato uditivo non è particolarmente selettivo (individua sorgenti separate mediamente di 6° sul piano orizzontale e 8° sul piano mediale).

Valutando le variazioni di HRTF tra diversi individui si riesce ad eliminare i problemi legati, per esempio, alla inclinazione della testa. Alcuni dei modo in cui possiamo dedurre una espressione per calibrare la HRTF sono:

 

1. Localizzazione del suono nel Virtual Auditory space[9]

2. sintesi della fase della HRTF [10]

3. sintesi del modulo della HRTF [11]

 

Localizzazione del suono nello spazio uditivo virtuale [9]

 

Tutta la teoria alla base della HRTF si basa su una ipotesi:

 

due stimoli sono indistinguibili quando producono la stessa variazione di pressione al timpano dell’ascoltatore

 

Su questa ipotesi si basa la procedura di misura.

Tipicamente il suono generato dalle cuffie viene percepito all’interno della testa. Nello spazio acustico virtuale, le cuffie dovrebbero essere in grado di “esternalizzare” il suono (NdT: cosa che avviene perfettamente con il sistema Sennheiser e le registrazioni fatte con testa artificiale. Questo sistema esiste da anni).

 

Utilizzando la HRTF, le sorgenti sonore virtuali possono essere posizionate usando la tecnica descritta di seguito. Le lettere minuscole contraddistinguono i segnali nel tempo mentre le maiuscole le trasformate.

Sia

-          x1(t) un segnale elettrico che pilota gli altoparlanti

-          x2(t) il segnale elettrico applicato alla cuffia

-          y1(t) il segnale ricevuto da un microfono posto sul timpano dell’ascoltatore.

-          y2(t) la risposta del microfono a x2(t).

 

Lo scopo dello spazio audio virtuale è di sceglie x2(t) in modo tale che risulti y2(t) = y1(t).

Applicando la trasformata di Fourier a questi segnali possiamo scrivere le seguenti relazioni:

 

Y1(jw) = X1(jw)L(jw)F(jw)M(jw)

Y2(jw) = X2(jw)H(jw)M(jw),

 

Dove

-          L(jw) è la funzione di trasferimento di un altoparlante in campo libero

-          F(jw) è la HRTF

-          M(jw) è la funzione di trasferimento del microfono,

-          H(jw) è la funzione di trasferimento tra cuffia e timpano.

 

Ponendo Y1(jw) = Y2(jw), e risolvendo per  X2(jw) si ottiene

 

X2(jw) = X1(jw)L(jw)F(jw)/H. (jw)

 

Quindi la funzione di trasferimento desiderata è:

 

T(jw)= L(jw)F(jw) / H(jw).

 

NdT: questo è lo stesso ragionamento che si fa nella correzione ambientale digitale e pone esattamente gli stessi problemi perché le funzioni di trasferimento coinvolte, a causa dell’interferenza, non sono invertibili. Se una funzione non è invertibile si deve “inventare” un modo per invertirla lo stesso. I vari algoritmi, più o meno efficaci, fanno la differenza.

 

Teoricamente, se x1(t) passa attraverso questo filtro ed il risultato x2(t) viene suonato nelle cuffie, dovrebbe produrre lo stesso stimolo al timpano.

Questo processo viene ripetuto per molte posizioni nello spazio virtuale per generare una matrice di funzioni HRTF (nel rispetto delle ipotesi di Shannon).

 

 

Tecnologia della registrazione

 

Le registrazioni processate con HRTF, come nei giochi per computer  (vedere A3D, EAX e OpenAL) che approssimano la HRTF dell’ascoltatore, possono essere ascoltate  attraverso cuffie stereo o altoparlanti ed essere percepite come se contenessero suoni che provengono da tutte le direzioni piuttosto che solo da due soli punti ai lati della testa. L’accuratezza del risultato percepito dipende da quanto la HRTF utilizzata si avvicina a quella dell’ascoltatore. Visto il successo dei videogiochi c’è da credere che questa tecnologia abbia raggiunto un grado di fruizione sufficiente (almeno per vendere videogiochi).

 

Riferimenti

 

1. Daniel Starch (1908). Perimetry of the localization of sound. State University of Iowa. p. 35 ff.

2. Begault, D.R. (1994) 3D sound for virtual reality and multimedia. AP Professional.

3. So, R.H.Y., Leung, N.M., Braasch, J. and Leung, K.L.(2006) A low cost, Non-individualized surround sound system based upon head-related transfer functions. An Ergonomics study and prototype development. Applied Ergonomics, 37, pp. 695–707.

4. "AES Standard » AES69-2015: AES standard for file exchange - Spatial acoustic data file format".

www.aes.org. Retrieved 2016-12-30.

5. "Sofa Conventions Website". Acoustics Research Institute, a research institute of the Austrian Academy of Sciences.

6. Blauert, J. (1997) Spatial hearing: the psychophysics of human sound localization. MIT Press.

7. Hofman, Paul M.; Van Riswick, JG; Van Opstal, AJ (September 1998). "Relearning sound localization with new ears" (PDF). Nature Neuroscience. 1 (5): 417–421. doi:10.1038/1633. PMID 10196533.

8. So, R.H.Y., Ngan, B., Horner, A., Leung, K.L., Braasch, J. and Blauert, J. (2010) Toward orthogonal nonindividualized head-related transfer functions for forward and backward directional sound: cluster analysis and an experimental study. Ergonomics, 53(6), pp.767-781.

9. Carlile,S (1996). "Virtual Auditory Space and Applications". Austin, TX, Springer.

10. Tashev, Ivan (2014). "HRTF PHASE SYNTHESIS VIA SPARSE REPRESENTATION OF

ANTHROPOMETRIC FEATURES". Information Technology and Applications Workshop,San Diego, CA,

USA, Conference paper: 1–5. doi:10.1109/ITA.2014.6804239.

11. Bilinski,Piotr; Ahrens, Jens; Thomas, Mark R.P; Tashev, Ivan; Platt,John C (2014). "HRTF MAGNITUDE SYNTHESIS VIA SPARSE REPRESENTATION OF ANTHROPOMETRIC FEATURES". IEEE ICASSP, Florence, Italy: 4468–4472. doi:10.1109/ICASSP.2014.6854447.

 

Si noti che Gerzon non è citato.