Localizzazione (di una sorgente sonora)

MB 5 maggio 2019

 

La prima cosa da notare è che tutti gli animali dotati di un apparato uditivo hanno due orecchie (nessuno ne ha di più) e che la localizzazione è un meccanismo involontario (che l’ascolto intenzionale può migliorare). Questo indica che si tratta di un meccanismo necessario per la sopravvivenza (e l’involontarietà incrementa la velocità di risposta).

L’altra cosa da notate è che la lunghezza d’onda del suono nei solidi è molto più “corta” del suono nell’aria e l’ampiezza delle vibrazioni è molto minore. Se il suono dovesse essere percepito attraverso la pelle questa dovrebbe essere molto sottile e leggera quindi inutile per la protezione della superficie esterna del corpo. Per questo una parte della pelle si è specializzata dando origine all’orecchio dove il timpano è in grado di reagire opportunamente alle variazioni di pressione atmosferica. Le frequenze più basse, anche subsoniche, vengono percepite anche dal corpo attraverso due meccanismi: la risonanza delle cavità e la trasmissione ossea. Per tali frequenze la localizzazione non è possibile. 

 

La teoria classica dualistica (basata sulle differenze di tempo e di livello) fu proposta da Lord Rayleigh nei primi anni del 1900. A partire dal 1960 furono studiati gli effetti dovuti al padiglione auricolare (pinna) e sono state messe a punto teorie più adeguate che hanno riconosciuto i meccanismi molto sofisticati utilizzati dall’apparato uditivo (effetto ombra)

 

Attualmente esistono almeno tre tecniche che consentono di riprodurre lo “spazio sonoro” attorno all’ascoltatore:

 

WFS

Wave Field Systhesis

è un sistema multicanale (gestito da un computer) che riproduce con precisione lo stesso campo acustico presente durante l’esecuzione musicale dal vivoLa caratteristica del WFS è che, quando l’ascoltatore si sposta, la sorgente virtuale rimane fissa. Non esiste quindi uno sweet spot come nella stereofonia.

 

ascolto

in cuffia

l’ascolto in cuffia di registrazioni eseguite con testa artificiale (Sennheiser).

l’ascolto in cuffia con riproduzione della HRTF

Tutti questi sistemi prevedono l’annullamento dell’effetto dell’ambiente d’ascolto.

 

Mentre la WFS riproduce il campo sonoro originale in tutto uno spazio (adeguatamente preparato e attrezzato) e non richiede aggiustamenti per adattarsi al singolo ascoltatore, l’ascolto in cuffia con applicazione della HRTF riguarda il singolo ascoltatore e richiede che ogni ascoltatore utilizzi la propria HRTF (o almeno una funzione simile). Nel sistema Sennheiser la registrazione va fatta con una testa artificiale e riascoltata in cuffia (a padiglioni aperti).

Tutti questi sistemi hanno delle limitazioni. L’industria ha scelto la tecnologia basata sulla HRTF grazie alla quale  è possibile simulare l’effetto surround con i soli due canali stereo.

 

Il lavoro di Gerzon (degli anni 70 e 90) del secolo scorso era finalizzato alla definizione di un sistema di cosifica e decodifica a quattro canali della Ambisonic. Questo sistema non è diventato uno standard e oggi forse non sarà superato ma certamente non è utilizzato.

 

Dal punto di vista progettuale non interessa capire in dettaglio cosa fa il cervello per localizzare una sorgente sonora: grazie alla Teoria dei Sistemi ed agli algoritmi di inversione (uniti alle capacità di calcolo dei DSP moderni) la localizzazione viene ottenuta applicando la deconvoluzione.

 

 

Localizzazione: è la capacità di determinare la posizione di una sorgente sonora e la direzione di provenienza del suono. La localizzazione avviene sul suono diretto. L’apparato uditivo valuta la direzione nell’intervallo di tempo tra l’arrivo di un transitorio di suono diretto e il “silenzio” prima dell’arrivo della sua prima riflessione (che deve arrivare almeno un milli secondo dopo il suono riflesso). Tale intervallo di tempo si chiama ITG (Initial Time Gap) ed è una caratteristica fondamentale per auditori e teatri ed anche la prima limitazione degli ambienti “piccoli”. La direzione di provenienza percepita non viene cambiata finché non giunge un nuovo impulso che ne provoca il ricalcolo (vedere effetto Franssen 1). La localizzazione è un processo faticoso quindi il cervello, se può, si affida alla vista anche a costo di sbagliare (effetto ventriloquo). 

Una cosa importante, non abbastanza sottolineata in letteratura, è la necessità di distinguere la localizzazione delle sorgenti impulsive dalla localizzazione delle sorgenti stazionarie.

La prima dipende sostanzialmente dalla differenza di tempi, la seconda dipende dal riconoscimento del pattern di interferenza.

La teoria classica indica che la localizzazione della sorgente avviene attraverso due meccanismi: la differenza di intensità e la differenza di fase dei suoni che giungono alle due orecchie. A queste due ne è stata aggiunta una terza determinata dalla forma del padiglione auricolare (ma anche della testa e del torso). La forma della pinna ha effetto a partire circa 5000 Hz in su.

Nella letteratura anglosassone:

 

ITD

Interaural Time Difference

Differenza Temporale Interaurale

O ritardo interaurale

prevalente alle basse frequenze

fino a 500-800

IDD

interaural intensity Difference

Differenza di Intensità Interaurale

prevalente alle alte frequenze a aprtire da 1000-1600 Hz

 

Quando la lunghezza d’onda è molto maggiore della distanza tra le orecchie la localizzazione è molto difficoltosa se non impossibile.

La teoria dualistica fu proposta da Lord Rayleigh nei primi anni del 1900. A partire dal 1960 furono studiati gli effetti dovuti al padiglione auricolare (pinna) e sono state messe a punto teorie più adeguate che hanno riconosciuto meccanismi molto sofisticati utilizzati dall’apparato uditivo. La capacità di riconoscere la posizione della sorgente sono migliori quando la sorgente si trova di fronte all’ascoltatore ed all’altezza delle orecchie. Il processo di localizzazione coinvolge anche la memoria, il riconoscimento di modelli, la vista, ecc. La localizzazione della sorgente non è sempre precisa e l’apparato uditivo commette errori anche clamorosi (effetto ventriloquo).

 

La posizione di una sorgente viene descritta con i seguenti parametri:

Angolo azimutale o azimuth

angolo orizzontale sul piano orizzontale

Angolo zenitale o zenith

angolo verticale sul piano mediano

distanza

per oggetti fermi

Distanza e Velocità

per oggetti in movimento

 

L’ azimuth viene ricavata dalla differenza dei tempi di arrivo e dalla ampiezza relativa degli stimoli che giungono alle due orecchie, dall’effetto ombra (spalle, torso, testa, pinna…) che determina a sua volta delle differenze (note e riconoscubili) nello spetto degli stimoli.

Per la distanza vengono valutate la attenuazione della ampiezza, l’attenuazione delle alte frequenze, il tempo di riverberazione e il rapporto tra suono diretto e riverberato.

A seconda della posizione della sorgente rispetto al corpo dell’ascoltatore, l’effetto ombra determina un cambiamento del timbro. Il soggetto si aiuta nella determinazione della posizione anche muovendo la testa. L’effetto ombra determina differenze piccole ma sostanziali.

Le frequenze più basse si diffrangono attorno alla testa il che induce a pensare che il cervello utilizzi solo le differenze di fase. Questo è vero nella condizione poco probabile di suoni sinusoidali stazionari. I suoni naturali (e la musica) sono composti da transitori  che, se la banda passante è sufficiente, consentono di valutare la differenza dei tempi di arrivo alle orecchie.

La differenza di tempi di arrivo alle orecchie vale

-          Zero per i suoni che provengono di fronte,  dal retro e dall’alto (sul piano mediale la direzione è determinata dalla pinna)

-          circa 0.72 milli secondi per i suoni che provengono da destra o sinistra.

Alla fine la provenienza del suono viene valutata analizzando il primo millisecondo. L’apparato uditivo può discriminare differenze di tempo interaurale di 10 micro secondi (5 uS secondo altri) ma ciò può avvenire in assenza di riverberazione e con segnali artificiali. Con la musica elettronica è stata verificato che un ritardo di 0.7 millisencondi consente di distinguere due sorgenti (in 0.7 mS il suono percorre 25 centimetri).

 

La teoria classica prevede che, per determinare una direzione laterale l’apparato uditivo utilizza:

la differenza di tempo interaurale

Ritardo di fase (a frequenze basse)

Sotto 500-800 Hz

Zona di transizione

Tra 500-800 e 1000-1600 Hz

Ritardo di gruppo (a frequenze alte)

Sopra i 1000-1600

La differenza di livello interaurale

Effetto ombra del corpo

Anche a partire da 500 Hz (spalle)

Effetto ombra della pinna

Oltre i 5000 Hz

 

Quando il contenuto spettrale dell’impulso si estende oltre 500-800 Hz ( a seconda degli autori) la localizzazione avviene per differenza del tempo interaurale ma anche valutando l’attenuazione per i segnali provenienti di lato.

Se teniamo conto che le dimensioni della testa e delle spalle rappresentano un ostacolo a partire da almeno 300 Hz,  e che la distanza tra le due orecchie impedisce di riconoscere univocamente  la fase oltre 1350 Hz, data l’ampiezza delle regioni di sovrapposizione, non è chiaro attraverso quale meccanismo avvenga la localizzazione in gamma media (la più importante).

È improbabile che il cervello usi, per localizzare la sorgente, più di un metodo in funzione della frequenza. Questa operazione per non essere ambigua richiede anche il calcolo della correlazione tra gli stimoli che provengono dall’orecchio destro e sinistro.

Ma l’operazione di correlazione indica già quale segnale “arriva per primo” . Se ne potrebbe dedurre che l’apparato uditivo esegua una cross-correlazione continua tra gli stimoli destro e sinistro e che da questa ricavi le informazioni per la localizzazione completandole con il confronto dei pattern spettrali noti (che servirebbero a risolvere le incertezze tipo quelle riscontrabili sul piano mediale).

Resta il problema di come il cervello realizzi praticamente la cross-correlazione. Per prima cosa non è detto che il cervello calcoli la cross-correlazione come insegna la Teoria dei Segnali. La correlazione potrebbe essere ottenuta all’interno dei fasci nervosi ipotizzando che ciascuna fibra presenti una velocità di propagazione diversa dalle altre tanto da ottenere la correlazione <x(t+T)|y(t)> per segnali con un contenuto spettrale superiore a 500 Hz (periodo inferiore a 2 milliSecondi, durata di circa 2 milliSecondi).

In questo modo da due processi distinti (ritardo, attenuazione) e che si sovrappongono largamente (senza sapere cosa succede nella zona di sovrapposizione) si passerebbe ad un unico processo, la cross-correlazione, che sfrutterebbe poi il confronto tra pattern spettrali (dovuti all’effetto ombra) per risolvere le incertezze. Questa ipotesi risponde al principio di semplicità formulato da Occam (che il cervello sembra perseguire). Il cervello sembra perseguire anche il principio di “semplicità logica” o “bellezza”.

 

 

--Differenza di tempo (fase)

--differenza di livello

--spettro

--correlazione

--pattern matching (memoria).

 

tra i suoni che giungono alle due orecchie.

 

S = Sorgente, A = Ascoltatore.

 

Il processo di localizzazione coinvolge altre funzioni quali la memoria e la vista. La localizzazione della sorgente non è sempre precisa e l’apparato uditivo commette errori anche clamorosi specie in presenza di echi o di eccessiva riverberazione. (Bregman 1990 , Gelfand 1998). Vedere anche Effetto Ventriloquo.

 

Tenuto conto che l’individuo, avvertito da un suono sospetto, può girare la testa e sfruttare la vista (che mostra un angolo sul piano orizzontale di 110°) una incertezza di 10° sulla localizzazione acustica è del tutto tollerabile.

Per ottenere precisione serve tempo e, per la sopravvivenza, la velocità di reazione è essenziale. Tutti gli individui capaci di localizzare le sorgenti con estrema precisione, ma in un tempo troppo lungo, sono stati mangiati da qualche animale o sono finiti sotto una frana. L’ascolto intenzionale, che richiede più tempo e più concentrazione, consente di migliorare la localizzazione (se lo si vuole fare).

La priorità del cervello è la sopravvivenza e quindi privilegia la velocità di reazione anche per questo è poco probabile che la localizzazione della sorgente coinvolga più processi diversi. Pre-analizzare il fenomeno, scegliere il processo da applicare e quindi applicarlo sarebbe troppo lungo. Si tenga anche conto che, se l’ascoltatore ascolta due strumenti diversi nello stesso momento, riesce a localizzarli entrambi ma concentrandosi prima su uno e poi per l’altro. L’apparato uditivo ascolta una cosa alla volta.

 

 Localizzazione sul piano orizzontale: è di circa 6 gradi (+- 3°) con rumore a larga banda e questo risultato viene riferito anche alla musica. La risoluzione sul piano orizzontale è migliore ed massimamente precisa per i suoni transitori di provenienza frontale. Con suoni a larghezza di banda limitata l’incertezza sale oltre 10°. L’incertezza sulla localizzazione è massima tra 1500 e 3000 Hz e oltre 8000 Hz. (Spatial Hearing -  pag 40) . Per comprendere la dipendenza dell’incertezza della localizzazione rispetto alla larghezza di banda basta pensare alla relazione tra durata e banda passante degli impulsi (Principio di Incertezza).

 

Localizzazione sul piano orizzontale con impulsi di rumore bianco da 100 mS

Angolo laterale

incertezza

0° (di fronte)

+- 3.6°

90° (da sinistra)

+- 9.7°

180° (da dietro)

+- 5.5°

270° (da destra)

+- 10°

 .

L’errore localizzazione è minimo per le sorgenti frontali e sale anche oltre 10° per quelle laterali.

L’apparato uditivo risolve sorgenti non stazionarie a larga banda separate di circa 6 gradi (+- 3°). Portando il punto di ascolto ad una distanza minore della distanza tra i due diffusori si possono distinguere anche 16 posizioni diverse. Questa posizione sembra indicata per ascoltare gruppi musicali importanti (orchestra). A differenza di quanto si pensa i diffusori dovrebbero essere posizionati molto “larghi”  e orientati verso il punto di ascolto come nella figura a sinistra.

 

Localizzazione sul piano mediano: il piano mediano passa per la fronte, il naso e la bocca perpendicolarmente al piano orizzontale. La localizzazione sul piano mediano dipende dalla forma del padiglione auricolare (pinna) ed è meno precisa rispetto al piano orizzontale. Dipende anche dalla conoscenza pregressa della sorgente per esempio per una voce conosciuta o sconosciuta. La tabella che segue si riferisce ad un ascoltatore con la testa immobilizzata:

 

inclinazione

Incertezza (blur)

Stimolo

+- 17°

parlato di persona non conosciuta

+- 9°

parlato di persona conosciuta (90° = sopra la testa, oltre 90° = da dietro)

30°

+- 10°

74°

+- 13°

112°

+- 22°

153°

+- 15°

+- 4°

rumore bianco (banda passante > 2/3 di ottava)

 

Se l’ascoltatore può muovere la testa la localizzazione migliora e le situazioni incerte vengono risolte. La localizzazione è migliore per stimoli a larga banda conosciuti.  Per stimoli con larghezza di banda inferiore a 2 terzi di ottava la localizzazione della sorgente virtuale non dipende più dalla posizione ma dalla frequenza. Per esempio gli 8000 Hz vengono posizionati verso l’alto o sopra la testa. In effetti si verifica sperimentalmente che un boost nella risposta in potenza attorno a 8000 Hz alza la posizione dell’immagine.

 

 

In linea di principio l’apparato uditivo riesce a risolvere due sorgenti concorrenti  se sono separate di almeno  8° sul piano mediano.

 

Localizzazione delle sorgenti riprodotte:

 

Se un suono, che contiene riverberazione naturale, giunge contemporaneamente alle due orecchie con la stessa ampiezza,

la sorgente viene individuata di fronte all’ascoltatore. Ciò determina la ricostruzione del canale centrale virtuale nell’ascolto stereofonico.

 

Se il livello del suono che raggiunge le due orecchie  è  diverso, ma rimane la contemporaneità

la sorgente virtuale appare spostata rispetto al centro.  La contemporaneità della percezione del suono produce, nell’ascolto stereofonico, la distribuzione delle sorgenti virtuali, in senso orizzontale, tra i due diffusori. 

Se un suono, che NON contiene riverberazione naturale, giunge contemporaneamente alle due orecchie con la stessa ampiezza

la sorgente viene individuata all’interno della testa ( IHL = Inside the Head Localization = Localizzazione all’interno della testa).  

Se un suono, con o senza roiverberazione, giunge contemporaneamente alle due orecchie con la stessa ampiezza e ascoltato in cuffia

la sorgente viene individuata all’interno della testa ( IHL = Inside the Head Localization = Localizzazione all’interno della testa).  

 

L’ascolto in cuffia e l’assenza di riverberazione è una situazione innaturale così come non è normale sentire un suono dentro al cranio.

La difficoltà nel localizzare le frequenze basse viene sfruttata nelle registrazioni dove le prime ottave sono quasi sempre registrate in monofonia (suddividendo la potenza del segnale equamente tra i canali destro e sinistro). Allo stesso modo questo viene sfruttato nel taglio e posizionamento dei sub-woofer.

 

Tempo di latenza della localizzazione: la localizzazione di una sorgente, se la sorgente si sposta, non cambia istantaneamente. Per provare questo effetto è stato fatto questo esperimento: 18 altoparlanti sono stati disposti in cerchio attorno ad un ascoltatore. Il suono (impulsi di rumore bianco di 100 mS) viene fatto “correre” attorno all’ascoltatore passando da un altoparlante al successivo. Se la velocità è bassa l’ascoltatore segue il suono mentre cambia di direzione. Se la velocità aumenta l’ascoltatore sente il suono rimbalzare da destra a sinistra e se aumenta ancora sente il suono all’interno della testa come se gli altoparlanti fossero tutti contemporaneamente in funzione. Vedere anche Pscicoacustica transizionale ed effetto specchio. Vedere anche Effetto Frassen. Con la musica i transitori sono continui e questo, se la sorgente non è visibile, impegna l’apparato uditivo a ricostruire continuamente la posizione delle sorgenti virtuali. Un trucco per far suonare meglio i diffusori acustici è quello di dimostrarli riproducendo un video musicale. Al contrario un sistema per valutare la qualità della riproduzione è chiudere gli occhi e lasciare all’apparato uditivo il compito di localizzare le sorgenti: meno fatica si fa, più il sistema è qualitativamente migliore.

Ne segue anche che l’ascolto della musica riprodotto è sempre più affaticante dell’ascolto della musica dal vivo (i sistemi migliori sono quelli che stancano meno a parità di SPL riprodotto).

 

Determinazione della distanza della sorgente

L’altro aspetto della localizzazione è la determinazione della distanza dalla sorgente dall’ascoltatore. Questo processo si basa essenzialmente sulla conoscenza pregressa della sorgente e dell’ambiente (quindi sulla memoria) e della specifica sorgente nello specifico ambiente. Le sorgenti note vengono poste alla giusta distanza quelle sconosciute no. Particolare importanza riveste il rapporto tra suono diretto e suono riflesso. Quando il suono diretto è prevalente la sorgente appare vicina. Quando il campo riverberato è molto intenso la localizzazione delle sorgenti stazionarie diventa molto difficoltosa o impossibile. Vedere anche Riverberazione e Raggio di riverberazione.

 

Determinazione della dimensione dell’ambiente

Anche il volume dell’ambiente ove si trova l’ascoltatore è frutto delle memorie pregresse e si basa sostanzialmente sulla valutazione dell’ITG e del tempo di riverbero e sulla associazione tra tempo di riverbero e dimensione dell’ambiente (che dipende appunto dalla memoria dell’individuo). Per capire la dimensione dell’ambiente l’individuo emette dei suoni brevi e valuta sia l’ITG che il tempo di riverberazione.

 

Determinazione della dimensione della sorgente

La dimensione della sorgente viene riconosciuta grazie (o a causa) della diffrazione ai bordi. Questo è particolarmente rilevante in relazione alla larghezza dei pannelli frontali dei diffusori acustici. I bordi del diffusore acustico agiscono come sorgenti secondarie. Se il suono diffratto dai bordi arriva all’ascoltatore con un certo ritardo si avrà la percezione di una sorgente di dimensiono definite. L’esperienza mostra che i pannelli di larghezza inferiore a 20-25 centimetri posso essere considerati “stretti” mentre quelli che superano i 20-25 centimetri devono essere considerati “larghi”. I fenomeni di diffrazione diminuiscono se i bordi del pannello sono arrotondati (e magari fonoassorbenti).

 

Come migliorare la localizzazione: Per migliorare la percezione della direzione di provenienza del suono si deve aumentare il gap temporale tra l’arrivo del suono diretto e della prima riflessione laterale (quelle dal pavimento, in questo caso, contano poco). Sembra invece difficile riprodurre un senso di ambienza sfruttando le riflessioni dal pavimento. Il pavimento è sempre presente e rappresenta un punto di riferimento per il sistema uditivo che ha evidentemente imparato a tenerne conto. Per questo motivo nelle control room moderne il pavimento viene lasciato riflettente o solo moderatamente assorbente. Tuttavia nella riproduzione è opportuno ridurre le riflessioni dal pavimento anche perché (come osserva Beranek) nei teatri la platea assorbe circa l’80% dell’energia incidente quindi un pavimento assorbente avvicina alle condizioni di ascolto in teatro. Il miglioramento della localizzazione si può ottenere con diversi accorgimenti:

 

soluzione

Controindicazione

Aumentare il fonoassorbimento del pavimento

sempre vantaggioso, riduce il mascheramento.

Molto evidente nelle misure.

Aumentare il fonoassorbimento della parete alle spalle dell’ascoltatore

molto vantaggioso, riduce il mascheramento vedi control room ESS

Allontanare i diffusori dalle pareti (aumenta ITG)

riduzione della emissione a bassa frequenza (potrebbe essere un bene)

Ridurre gli angoli di dispersione verticale ed orizzontale della sorgente

aumenta la distanza critica, frequenze alte aspre.

Aumentare il fonoassorbimento delle pareti laterali (anche limitatamente alle zone di prima riflessione)

riduzione delle riflessioni laterali, riduzione delle dimensioni orizzontali dello stage sonoro.

rendere diffusive la pareti alle spalle dei diffusori

Contrasta l’effetto comb-filter riducendo la correlazione di suono diretto e suono riflesso.

A parità di tempo di riverberazione aumentare la diffusione del campo riflesso è sempre positivo. Per ristabilire la distanza critica ottimale si possono utilizzare delle sorgenti ausiliarie che però non devono interferire con il suono diretto (vedere per esempio il CLD).

Ricostruzione dell’altezza della sorgente virtuale

Nella ricostruzione dell’altezza della sorgente giocano diversi fattori:

 

Psicoacustico

Istintivamente tendiamo a posizionare le frequenze basse in basso e quelle alte in alto. In effetti tutti gli animali di piccole dimensioni emettono suoni acuti e vivono sugli alberi oppure volano. I leoni e gli elefanti, invece, stanno per terra. Questo preconcetto si è rivelato utile per la sopravvivenza dei nostri antenati (riduce i tempi di reazione).

Anatomico

Particolare conformazione del padiglione auricolare.

Risposta in frequenza dei diffusori

Il senso dell’altezza della sorgente può essere incrementato orientando l’asse di emissione dei diffusori verso l’alto e/o con un boost della potenza acustica nel range oltre 8000 Hz

Geometria dei diffusori

Le registrazioni stereofoniche non contengono alcuna informazione sull’altezza delle sorgenti e questa dimensione viene ricostruita quasi interamente ed in modo sostanzialmente arbitrario, dai diffusori acustici.

 

Sistema 7+1

Il sistema 7+1 prevede un diffusore dedicato alla ricostruzione dell’altezza della sorgente (posto al centro sopra al canale centrale).

 

La ricostruzione dell’altezza dipende dalla conformazione della pinna. In ambienti particolari come le control room dove la superficie riflettente più importante è costituita dalla console del mixer, capita che la maggioranza delle persone senza il suono provenire dall’alto ma altri lo percepiscano provenire dal basso.

 
Scelta della posizione del tweeter

La capacità di riconoscere la posizione della sorgente sono migliori quando la sorgente si trova di fronte all’ascoltatore ed all’altezza delle orecchie. Da qui la scelta di porre medio e tweeter  alla altezza delle orecchie di un ascoltatore seduto. Diversamente da quanto si pensi questa non è sempre la soluzione ottimale. Infatti non si deve dare la prevalenza alle frequenze alte (oltre 5000Hz) ma alle frequenze medie (la banda vocale).

 

Osservazioni:

Il materiale registrato su CD è stereofonico (le basse frequenze spesso sono comunque monofoniche). Già agli albori della alta fedeltà è stato chiaro che due canali non erano sufficienti per ricreare un effetto di spazialità sufficiente. Al minimo è necessario aggiungere il canale centrale. Questo però poneva un grave problema perché non era possibile registrare tre canali in un disco.

In particolare il materiale stereofonico non contiene alcuna informazione sulla altezza delle sorgenti virtuali. La ricostruzione dell’altezza è affidata ai diffusori acustici (e ci sono modi per “alzare” o “abbassare” le sorgenti virtuali).

Con due canali quello che si può ottenere è una distribuzione delle sorgenti virtuali confinate tra i due diffusori. La stabilità spaziale di queste sorgenti virtuali richiede che i due canali (destro e sinistro) siano equivalenti sia come livello che come risposta in frequenza. Deve essere rispettata anche una certa simmetria della disposizione dei diffusori acustici rispetto alle pareti laterali e di fondo (anche le riflessioni laterali devono essere simmetriche).

Il canale centrale può essere ricavato miscelando i canali destro e sinistro e limitando la banda passante alla banda vocale (attenuando le alte e le basse frequenze).

Il senso della profondità, ovvero della distanza relativa tra i diversi strumenti, è data dalla riverberazione. Il suono prodotto dagli strumenti più lontani contiene più riverberazione.

Qui si incontra una piccola difficoltà: l’apparato uditivo, al fine di aumentare l’intelligibilità del messaggio, attenua la riverberazione che perviene dalla stessa direzione della sorgente di circa 10 dB. Ne segue che può essere necessario aggiungere, agli strumenti più lontani,  della riverberazione artificiale. La riverberazione artificiale, purtroppo, se non assomiglia abbastanza alla riverberazione naturale non porta gli stessi effetti.