Percepire l'impercetibile

Percepire l’impercettibile

di Mario Bon

2 novembre 2011

(ultima revisione 5 febbraio 2017)

L’ apparato uditivo (nel seguito a.u.) una volta stimolato, fornisce comunque una risposta (percezione uditiva) che può essere giusta, sbagliata, incerta, confusa o inventata.

L’apparato uditivo, sostanzialmente, sente quello che vuole sentire.

(Vds Cox)

L’a.u. , ed il cervello in generale, cerca di svolgere il proprio compito nel minor tempo e con il minor sforzo possibile. In pratica è uno scansafatiche precipitoso.

Se fosse vero tutto quello che si legge in rete, non sarebbe necessario investire migliaia di euro per acquistare un impianto stereo decente: basterebbe andare in un centro commerciale, comprare una coppia di diffusori acustici amplificati per PC (Manhattan modello 150200, 2 vie bass reflex amplificati, 80 euro) e quindi dotarsi di quella particolare ciabatta, cambiare il cavo di alimentazione, girare la spina nella presa, mettere un foglio blu sotto al vaso di fiori, spostare gli oggetti dentro i cassetti, cospargere il pavimento di petali di rosa, disporre sassolini sopra e davanti ai diffusori acustici, ….. secondo alcuni, ognuno di questi espedienti, comporta drammatici miglioramenti (“impossibili” da non percepire) alla qualità del suono riprodotto aumentando la spazialità, il dettaglio, il “nero infrastrutturale”, dinamica, ecc. ecc. . Aumenta di qua e aumenta di là, alla fine la riproduzione diventa perfetta. Poi, spostando qualche sassolino, migliora ulteriormente….. Ma cosa succede quando, all’insaputa dell’ignaro audiofilo, qualche avventato sposta gli oggetti dentro ai cassetti? e se una corrente d’aria sposta i petali di rosa? e se i sassolini non sono stati raccolti lungo le rive del Gange ma in un campo che nasconde un cimitero Maya con annessa maledizione? sono domande drammatiche.

Una delle questioni che tormenta le notti insonni degli audiofili , riguarda la udibilità di qualsiasi variazione apportata all’ impianto stereo. Tali variazioni possono essere macroscopiche (sostituzione dei diffusori) o microscopiche quali la nascita di un nuovo acaro tra le fibre del tappeto o delle tende.

Diciamo subito che:

Affinché la variazione di una qualità sonora (attributo) possa essere giudicata percepibile, lo deve essere per almeno il 71% di una popolazione formata da individui dall’udito perfetto. Per la psicoacustica l’individuo medio non è “mezzo sordo” ma possiede “udito perfetto”.

Ad ogni quantità monodimensionale corrisponde una soglia minima di udibilità (al di sotto della quale non si sente) e una soglia differenziale di percezione che misura la minima variazione percepibile (vds la legge di Stevens, la legge di Weber, la JND definita da Moir, ecc.). Per esempio un suono diventa percepibile quando supera il livello di 20 micro Pascal a 1000 Hz ( 0 Phon = 0 dB, soglia di udibilità). La minima variazione di livello SPL diventa percepibile quando supera

- 3 dB (in generale e per individui non allenati)

- 1 dB (in generale per individui allenati)

- 0.5 dB (con rumore rosa in individui allenati)

- 0.1 dB (con rumore rosa, in condizioni particolari, in individui allenati)

Ciò non esclude che un individuo possa percepire un enorme aumento di profondità della scena acustica perché ha posto un sassolino davanti ad un diffusore ma, probabilmente, è l’unico a goderne. Quello che non deve accadere, e che purtroppo accade, è che la percezione di un singolo individuo venga elevata a standard di percezione per tutta la popolazione.

<OT>

Poniamoci una domanda: il tempo di riverberazione è definito come il tempo che impiega il livello del campo riverberato per attenuarsi di 60 dB. Perché questa definizione non è cambiata negli ultimi 100 anni (anche se sono disponibili strumentazioni con oltre 130 dB di rapporto segnale/rumore)? l nostro apparato uditivo ha dei limiti e, pochi secondi dopo una esposizione ad un suono con livello di X dB, un suono a X-60 dB non è udibile (ipoacusia temporanea). È ben vero che la dinamica dell’apparato uditivo è di 120-130 dB (dalla soglia di udibilità fino alla soglia del dolore) ma, per apprezzare un suono a 0 dB (20 micro Pascal di Pressione) si deve rimanere immersi nel silenzio per almeno 15-30 minuti in modo che la soglia di percezione si porti al suo massimo (l’orecchio ripristina l’amplificazione massima di circa 30 dB). La effettiva dinamica del sistema uditivo non è quindi di 120 dB ma, sottraendo i 30 dB di amplificazione cocleare, di 90 dB. Considerando poi che la soglia del dolore deve essere tenuta a debita distanza, la dinamica utilizzabile è ancora minore (diciamo 80 dB).

Se il soggetto ha assistito ad un concerto rock stando a un metro dai diffusori, il ripristino delle normali condizioni uditive può richiedere giorni (se non ha causato danni permanenti).

Questo per dire che le soglie di percezione (assolute e differenziali) dipendono dalle condizioni ambientali contingenti e anche dalla storia recente. L’apparato uditivo è un sistema dotato di memoria e ogni percezione è condizionata dalle percezioni precedenti e condiziona, a sua volta, le percezioni successive. Questo va tenuto presente. Altra cosa da tenere presente è che l’apparato uditivo ascolta sempre un suono alla volta: quindi, quando si ascolta due volte di seguito lo stesso brano musicale, siamo certi che stiamo ascoltano “allo stesso modo”? No. Ricordiamo che:

- Lo stesso stimolo produce sensazioni simili anche in individui diversi;

- Lo stesso stimolo produce percezioni diverse anche nello stesso individuo.

In altre parole nostre percezioni sono condizionate dalla memoria cioè dal tempo.

</OT>

A volte si dice che una cosa “finta” è talmente bella da sembrare vera, altre volte si dice che una cosa “vera” è talmente bella da sembrare “finta”.

Nel caso dell’alta fedeltà, che propone una riproduzione “finta” della realtà, al massimo si dovrebbe arrivare a dire che “sembra” reale. Non sono pochi gli aneddoti che raccontano di audiofili che hanno trovato le rappresentazioni dal vivo “povere di bassi”, Questi giudizi sono causati dalla diseducazione musicale.

Ripercorriamo brevemente la strada del suono dal timpano al cervello: lo stimolo è una variazione della pressione atmosferica che, propagandosi nell’aria, raggiunge il padiglion eauricolare e si incanala nel condotto uditivo fino a raggiungere il timpano. Il timpano è una membrana che reagisce alla variazione di pressione con uno spostamento.

trasformazione

acustico meccanica

la variazione di pressione (stimolo) mette in moto il timpano che è collegato ad una serie di “leve” meccaniche (catena degli ossicini) che, alla fine, trasmettono moto alla membrana basilare che, a sua volta, mette in movimento le cellule ciliate nell’organo del Corti.

trasformazione

meccanico elettrica

Le cellule ciliate trasformano lo stimolo meccanico in treni di impulsi elettrici che vengono incanalati lungo il nervo acustico (sensazione). L’apparato uditivo discrimina circa 1500 frequenze diverse. Di queste due terzi (1000) coprono l’estensione della tastiera del pianoforte fino a 4000 Hz e solo un terzo (500) coprono le frequenze da 4000 a 20000 Hz. Ne segue che sulle ultime due ottave l’a.u. è sensibile ma non selettivo. Alle basse frequenza invece l’a.u. è poco selettivo e poco sensibile. L’ a.u. è specializzato nella percezione della voce (gamma media) e in tale range di frequenze è sensibile e selettivo. Le cellule ciliate producono impulsi elettrici che hanno sempre la stessa forma e frequenza proporzionale all’intensità (un impulso rappresenta la soglia di udibilità, fino ad un massimo di 150 impulsi al secondo).

L’orecchi funziona come un analizzatore di spettro meccanico a finestra variabile con 1500 canali di uscita (in parallelo). Il segnale in uscita è di tipo digitale.

trasmissione elettrica

Il nervo acustico trasmette i segnali prodotti dalle cellule ciliate a diverse zone del cervello dove vengono elaborati. Per prima cosa, ancora prima che il suono si formi a livello cosciente, il cervello (amigdala) decide se il “messaggio sonoro” rappresenta un pericolo (se è il caso attiva la reazione).

Elaborazione

Processo di percezione

La sorgente viene localizzata e il messaggio viene processato diversamente a seconda si tratti di musica, parola o rumore. Ciò che distingue la musica dalla parola e dal rumore è il contenuto i nformativo.

- musica -> armonia

- parola -> messaggio

- rumore -> nessuna armonia, nessun messaggio

Il cervello riconosce il timbro confrontandolo con quelli memorizzati e memorizza quelli nuovi. A questo punto percepiamo il suono in forma conscia.

Nel frattempo una quantità di impulsi nervosi, circa un ventesimo di quelli pervenuti al cervello, viene inviata dal cervello alle cellule ciliate esterne per modificare lo stimolo percepito (vds effetto cocktail party e ascolto intenzionale).

Ricapitolando per quanto riguarda sensibilità e selettività:

	Sensibile	Selettivo
Basse < 100 Hz (circa):	no	no	Fatica a distinguere la frequenza e l’ampiezza
Medie (voce) :	si	si	Distingue frequenza e ampiezza
Alte > 4000 Hz (circa)	si	no	Distingue poche frequenze

Nota: il fatto che l’a.u. non sia sensibile sotto i 100 Hz si deduce dalle curve di loudness e non vuol dire “che non si sentono i bassi” ma che si sentono “meno” delle frequenza medie a parità di livello SPL. Dire che l’a.u. non è selettivo significa che fatica o non riesce a determinare la frequenza con precisione.

Il pianoforte ha 88 tasti perché, oltre alla 88^ frequenza, faremmo fatica a distinguere la varazione di frequenza.

Per quanto possa dispiacere ai patiti “dell’analogico senza controreazione”, l’apparato uditivo è un sistema che converte una variazione di pressione (analogica) sul timpano in un treno di impulsi (segnale elettrico digitale). Il sistema è dotato di almeno tre anelli di retroazione negativa di cui due eseguono un controllo automatico del guadagno (tipo AGC) ed il terzo (gestito direttamente dal cervello) ne fa di tutti i colori e tra queste sopprimere gli echi di uno specifico suono nell’intervallo di integrazione.

Il sistema di retroazione dell’ a.u. utilizza almeno tre “dispositivi”:

il muscolo stapedio	collegato alla staffa	retroazione meccanica
il muscolo tensore del timpano	collegato al martello	retroazione meccanica
le cellule ciliate esterne	nell’organo del Corti collegate al nervo acustico	retroazione elettrica (segnale nervoso)

Il “suono” che udiamo ci appare oggettivo, perché è quello che “sentiamo”, ma è soggettivo perché la sensazione è simile (non uguale) in individui diversi (per cause anatomiche) e la percezione cambia da individuo a individuo in base alle esperienze pregresse, cultura, stato psicofisico contingente, ecc.. Ciò avviene anche, banalmente, a causa della natura ordinale dei corpi solidi: due individui non possono trovarsi nello stesso posto nello stesso istante: ciascuno di noi assiste allo stesso evento (un concerto) da posizioni di ascolto diverse ed è sottoposto a stimoli oggettivamente diversi. Una delle difficoltà dell’audiofilo sta nell’accettare la soggettività delle percezioni: si tende a dare alle proprie percezioni un valore assoluto che non hanno e, peggio ancora, le si vorrebbe imporre anche agli altri. Nel tentativo di ottenere questo risultato si amplificano sfumature impercettibili (o inesistenti) descrivendole con superlativi fuori luogo. Si dovrebbero, per cominciare, moderare i termini del linguaggio. Una sfumatura è una sfumatura non un cambiamento epocale.

Un microfono trasforma una variazione di pressione in una tensione elettrica ad essa proporzionale. La parte dell’ a.u. simile al microfono finisce con la catena degli ossicini.

La formazione della percezione uditiva è una operazione olistica condizionata dallo “stato” fisico, psicofisico e culturale del soggetto e dell’ambiente che lo circonda.

Tra i fenomeni che determinano lo stato dell’individuo citiamo i pregiudizi e la memoria delle percezioni pregresse. La memorizzazione delle percezioni pregresse è un processo continuo quindi lo “stato” del soggetto muta continuamente nel tempo.

Può succedere che, anche ascoltando lo stesso brano due volte di seguito, si abbia l’impressione di percepire delle differenze. La causa può essere meramente “meccanica”: se stiamo mangiando le patate fritte il tensore del timpano interviene per ridurre la sensibilità rispetto al rumore della masticazione e noi diventiamo “un po’ più sordi” anche a tutto il resto quindi non sentiamo più la musica allo stesso modo. Se ci soffiamo il naso muta la differenza pressione tra il cavo faringeo e l’orecchio medio. Ne segue che non si devono magiare le patatine fritte, e tanto meno soffiare il naso, quando si ascolta musica.

Anche a parità di condizioni al contorno, lo stato psico-fisico di chi ascolta muta continuamente nel tempo. Infatti:

- il grado di attenzione posto nell’ascolto non è costante (e anche difficilmente controllabile).

- l’ascolto critico continuato porta a concentrarsi su aspetti diversi del fenomeno sonoro ottenendone percezioni diverse.

- ogni ascolto modifica la memoria precedente del fenomeno e quindi la sua percezione successiva (che sulla memoria è basata).

- la fatica da ascolto aumenta nel tempo e interferisce con l’ascolto critico.

- altre cose ancora…..

Ci sono anche variazioni strettamente fisiche: una persona produce 0,1-2,1 kg di vapore ogni ora. La presenza di più persone in un ambiente chiuso altera sia il tempo di riverberazione che il grado di umidità dell’aria e, con essa, le condizioni di propagazione del suono. Lo stesso vale per la temperatura dell’ambiente e dei dispositivi (basta pensare al riscaldamento causato dagli amplificatori a valvole e alla compressione termica per gli altoparlanti). Ascoltare la musica da soli o in compagnia non è la stessa cosa.

Riassumendo, nel tempo, si osservano variazioni sia fisiche (dell’ambiente, e dei dispositivi) che psico-fisiche del soggetto: è normale che mutino anche le percezioni. A questo punto si potrà obiettare che si tratta di variazioni minime… saranno anche minime ma sicuramente fisicamente più rilevanti di quelle prodotte da un cartoncino blu posto sotto ad un vaso da fiori (magari per un ascolto al buio).

Ascolto Critico

Sia data la registrazione di una conversazione (per esempio una normale intercettazione telefonica). Ad un primo ascolto la conversazione appare poco intelligibile o incomprensibile. Allora la stessa registrazione viene riascoltata più volte fino a comprenderne tutto il contenuto. Durante questa operazione il cervello sfodera tutte le sue risorse (ascolto critico, completamento automatico, completamento euristico, interpretazione dal contesto, ecc.). Una volta “decriptata”, riascoltando la stessa registrazione inizialmente non intelligibile, questa sarà immediatamente riconosciuta perché il suo contenuto è stato memorizzato: il suono è collegato al messaggio e il cervello “salta” direttamente al contenuto del messaggio memorizzato (manco lo scolta più).

Vogliamo imparare un assolo di chitarra di Jimi Hendrix. In questo caso si devono riconoscere tutte le note eseguite per poi rieseguirle con la chitarra (possibilmente una Fender Stratocaster bianca con manico in acero collegata ad un amplificatore Vox AC30). La procedura è la stessa: l’assolo viene riascoltato più volte e, ad ogni ascolto, si scopre qualche cosa di nuovo. Alla fine sentiamo distintamente tutte le note che non potevamo riconoscere al primo ascolto. L’assolo è stato memorizzato e non “suonerà” mai più come la prima volta che lo abbiamo sentito. Probabilmente, dopo averlo ascoltato decine di volte, ci verrà a noia.

In questi processi l’attività di analisi dei suoni operata dal cervello, la memoria e l’ ascolto critico sono determinanti ed è evidente come la memoria del fenomeno ne modifichi la percezione successiva.

Quando confrontiamo due cavi di segnale facciamo la stessa cosa: ascoltiamo ripetutamente lo stesso brano o lo stesso frammento musicale e ogni ascolto modifica l’ascolto successivo. Se la differenza è superiore alla soglia differenziale di percezione (per un qualche attributo del suono) la differenza “sonora” percepita è oggettiva. Quando le differenze, anche se ci sono, sono al di sotto della soglia differenziale di percezione, l’attesa di sentire una differenza, o un pregiudizio o il prezzo del cavo, può indurre a percepire anche le differenze che non ci sono.

Quando le differenze sono troppo piccole o non ci sono, l’apparato uditivo, se ne ha motivo, le inventa (una forma di autogratificazione).

Dato che non possiamo distinguere le due situazioni, l’unico modo per venirne fuori è utilizzare sia l’ascolto che le misure. Anche l’ascolto in cieco, doppio cieco, ABX, possono essere utili. L’importante è che le commutazioni siano istantanee: non si possono confrontare due dispositivi se tra un test e l’altro passa più di qualche secondo (le commutazioni devono avvenire con switch comandati da telecomando e senza click o altri rumori spuri).

Gli strumenti di misura

Gli strumenti di misura misurano gli stimoli.

Gli strumenti di misura sono molto più sensibili e precisi dell’orecchio. Una delle caratteristiche delle misure è la ripetibilità (cosa che l’apparato uditivo non garantisce a priori). I microfoni hanno un range dinamico lineare superiore, distorcono molto meno e la risposta in frequenza è più ampia, piatta e indipendente dal livello SPL. L’organo del Corti analizza circa 1500 frequenze ogni 50-100 millisecondi (intervallo di integrazione). L’ analizzatore di spettro FFT “analizza” segmenti temporali anche di decine di minuti con una risoluzione in frequenza centinaia di volte superiore.

Stando così le cose, se l’orecchio rileva qualche differenza, a maggior ragione dovrebbero poterlo fare gli strumenti di misura (con le procedure adeguate ma spesso le procedure non sono adeguate). Se lo strumento di misura non rileva differenze si deve concludere che queste non ci sono anche se si sentono. Uno strumento, correttamente utilizzato, non si inventa nulla, l’apparato uditivo si.

Ciò non significa che le misure siano esaustive: le misure si fanno su una grandezza (attributo) per volta, la formazione della percezione sonora è un processo olistico. L’apparato uditivo “estrae” i contorni di “oggetti acustici”, un microfono non lo può fare (ma se collegato ad un computer lofa). Le misure producono dati riassunti in grafici e tabelle, l’ascolto può essere sintetizzato in “mi piace/non mi piace”.

Per stabilire la corrispondenza tra risultati delle misure e qualità del suono riprodotto si dovrebbero elaborare i risultati delle misure in senso olistico come farebbe il cervello (inserendo anche gli elementi caratteristici di diverse popolazioni di audiofili). Attualmente possiamo solo misurare gli attributi del suono e confrontarli con quello che sappiamo sulle soglie della percezione dei diversi attributi. In ogni caso le misure si correlano alle sensazioni e non alle percezioni. Fortunatamente stimoli uguali produco, in individui diversi, sensazioni simili.

Il progettista di diffusori acustici è in grado di progettare un sistema “ben suonante” anche senza eseguire alcuna prova di ascolto: dipende dai mezzi che ha a disposizione. Per esempio basta disporre di una camera anecoica di almeno 1000 metri cubi e realizzare un diffusore secondo i criteri elaborati da Toole: il risultato è sicuramente un buon diffusore (anche se non il migliore in assoluto per tutti). Si noti che Toole ha adottato in alcuni diffusori la radiazione posteriore che non è presente nei suoi “criteri”… segno che ci racconta un po’ quello che gli conviene o che si è tenuto qualche “segreto” per sé.

Differenze Oggettive e Soggettive

Dopo un’ora di ascolto a livelli SPL anche normali (tipo 90 dB con picchi di 110) la risposta dei diffusori acustici non è la stessa rispetto a quando l’ascolto è iniziato. La temperatura degli altoparlanti è aumentata (anche nei magneti), il ferrofluido (se c’è) ha viscosità minore, i componenti del filtro cross-over non hanno più gli stessi valori. Tanto per fare un esempio: una variazione di 15°C della temperatura della bobina mobile di un altoparlante comporta una variazione di SPL superiore a 0.5 dB (udibile). La temperatura della bobina mobile di un altoparlante può raggiungere allegramente i 100° (con una variazione di 75-80° rispetto alla temperatura iniziale).

Dove non si misurano differenze oggettive restano le differenze soggettive che vanno ricondotte alle mutate condizioni del soggetto: la differenza (nello stimolo) non c’è ma il soggetto percepisce un suono diverso perché le “sue” condizioni sono mutate (quindi le variazioni percepite sono la misura delle mutate condizioni del soggetto).

Nel rapporto stimolo-soggetto-percezione la percezione cambia se cambia lo stimolo o se cambia il soggetto. Le variazioni ambientali influiscono sul soggetto e quindi sulla sua percezione.

Si tenga presente che il 5% degli impulsi nervosi torna dal cervello all’orecchio modificano la sensazione su indicazione (inconscia) del cervello. Si dice che il cervello “scarti” oltre il 99% delle informazioni sonore che riceve per concentrarsi solo su quello che “vuole” sentire (sentiamo sempre una cosa alla volta). Solo un centesimo o un millesimo di ciò che abbiamo percepito viene poi memorizzato nella memoria a lungo termine. Qui ci si riferisce, evidentemente, alla riduzione di una percezione sonora in attributi (tipo mi_piace/non_mi_piace). Un musicista ricorda, oltre alla melodia ed agli accenti, anche la partitura nota per nota. Questo significa che c’è più di un medo di ricordare.

Vale la pena di fare un piccolo esperimento: quanti, tra chi legge, si ricorda di una vecchia canzona “molto bella” ma di cui non ricorda le parole e nemmeno la melodia? Ciò è perfettamente possibile perché il cervello, per risparmiare memoria (economia di pensiero) sintetizza i ricordi meno usati in attribuiti (unità di trattazione).

In sostanza sentiamo quello che il cervello vuole sentire (se vogliamo, anche inconsciamente, sentire una differenza la sentiremo anche se non c’è).

Confronti a distanza di tempo:

La memoria di un evento cambia nel tempo. Prendiamo una conversazione: nell’immediato siamo in grado di ripetere le frasi pronunciate dal nostro interlocutore ma a distanza di tempo potremo ricordare il tono della conversazione, l’argomento, una sintesi del contenuto. Nel tempo i dettagli vengono perduti e rimangono gli “attributi”. Esistono più livelli di memorizzazione: con il tempo i dettagli vanno persi e aumenta il livello di sintesi. Alla fine restano solo gli attributi. Con il tempo anche gli attributi vengono meno e molte cose vengono dimenticate. Questa è una necessità: la capacità di memorizzazione del cervello è limitata quindi i ricordi “meno usati” vengono prima sintetizzati e poi lasciati.

Per realizzare “l’economia di pensiero” il cervello tende alla “unità di trattazione” organizzando i ricordi in categorie (o attributi).

Trascorso un certo periodo di tempo da quando abbiamo assistito ad un concerto. possiamo aver dimenticato tutto ma ancora ricordare che il concerto era bellissimo. Ad un evento come un concerto resta collegato solo un attributo: “bellissimo”. È dimostrato che, quando incontriamo una persona sovrappeso a distanza di tempo, ci sembra più magra: questo avviene perché la sua siluette è stata memorizzata come “sovrappeso” e non con i dettagli delle sue dimensioni reali.

I confronti di “qualità sonora” basati sulla memoria (a distanza di tempo) non sono affidabili perché, come tutti i fenomeni, anche il suono viene memorizzato per attributi: possiamo ricordare che il suono del tal diffusore era magnifico ma in realtà non ricordiamo altro che questo. Quando si fanno dei confronti, specie per valutare la qualità della riproduzione, tutto ciò va tenuto presente. Tra l’altro il ricordo è sempre migliore rispetto alla realtà. Così come si dovrebbero tenere nella massima considerazione gli “attributi del suono” ovvero quei termini che utilizziamo per descrivere il suono percepito e che corrispondono alle categorie che utilizza il nostro cervello per memorizzare gli eventi. Non si può negare che esista una corrispondenza tra le parole che usiamo e le categorie utilizzate per la memorizzazione.

Tanto per restare sul pratico il cervello memorizza segmenti sonori di 200 millisecondi ai fini della elaborazione e conserva il ricordo per circa 2-3 secondi nella memoria a breve termine. È difficile eseguire un confronto tra due eventi separati da un intervallo temporale superiore a 2 o 3 secondi. Ci afferma di ricordare il suono di 5000 impianti diversi ascoltati nell’arco di 30 anni deve essere affetto da qualche disturbo nella gestione della memoria. Le persone “normali” dimenticano.

Confronti in commutazione rapida

Roger Sanders (che è un concorrente) afferma che possiamo ricordare un suono per 2 secondi. Non se lo è inventato: c’è in letteratura, è così. Altri dicono 3 secondi. Che siano 2 e 3 secondi ha poca importanza: sicuramente la memoria acustica è molto breve.

Se i confronti a distanza di tempo sono poco affidabili, gli unici che possono funzionare sono quelli che confrontano, in rapida successione, frammenti sonori brevi. Affinché il confronto rapido funzioni, i livelli SPL devono essere equiparati con cura (cosa quasi impossibile con i diffusori acustici a causa delle differenze di risposta in frequenza che producono livelli di loudness soggettiva diversi). Per i cavi e le elettroniche equiparare i livelli è molto più facile. I livelli devono essere equiparati perchè la tendenza “naturale” è quella di giudicare “migliore” il dispositivo che suona più forte. La causa è fisiologica e va ricercata nei sistemi che riducono il guadagno dell’apparato uditivo per i segnali più intensi ma che impiegano un certo tempo per ripristinare la condizione normale (isteresi). L’altro motivo è il Loudness (curve isofoniche): dati due diffusori acustici con la stessa risposta in frequenza , quello che suona più forte (maggiore sensibilità) sembra avere più bassi e più acuti.

Commutando da un diffusore più sensibile a uno meno sensibile, ci troviamo ad essere temporaneamente “sordi” e con una limitata capacità di percepire le frequenze agli estremi della banda audio.

La commutazione rapida tra diffusori di sensibilità diversa favorisce sempre il diffusore più sensibile.

La dimostrazione è facile: si organizzi un test dove il tester creda di confrontare due diffusori diversi. Invece gli si fa ascoltare sempre lo stesso diffusore ma a due livelli diversi. Il tester preferirà “quello che suona più forte” (che in realtà è sempre lo stesso diffusore).

Per far apparire migliore un diffusore efficiente si fa così: si fa suonare almeno due minuti il diffusore che suona più forte, quindi si commuta per qualche secondo su quello che suona più piano e si torna subito a quello che suona più forte. Il diffusore meno sensibile sembra muto o rotto.

Per far apparire migliore un diffusore poco efficiente si fa così: si fa suonare il diffusore a bassa sensibilità facendone notare i pregi (il dettaglio, la naturalezza, la scarsa distorsione). Quando l’ascoltatore è assuefatto al volume di ascolto si commuta per qualche secondo su quello che suona più forte e si torna subito a quello che suona più piano: “ ha sentito che fastidio…?”.

Un bravo venditore è bravo perché vi fa comprare quello che vuole lui. Quindi o i confronti si fanno a parità di livello SPL oppure e meglio ascoltare i dispositivi in sessioni separate senza effettuare confronti (e affidarsi al sentimento…).

Loudness Soggettivo

Quando un amplificatore a valvole o un diffusore acustico viene sollecitato da segnali di ampiezza crescente produce tassi di distorsione crescente. Questo induce nell’ascoltatore l’impressione che il livello SPL prodotto sia maggiore di quello effettivo. Questo fenomeno dipende dalla distorsione prodotta dall’ a.u. (aural distortion = distorsione aurale). L’a.u. associa la maggiore distorsione ad un livello SPL superiore attribuendo la distorsione a sé stesso invece che al suono ascoltato. Questo avviene quando il tasso di distorsione aumenta con il livello del segnale. Questo incremento di loudness soggettivo si verifica con tutti gli amplificatori a valvole e viene percepito da tutti gli ascoltatori.

Questo fenomeno va classificato come effetto psicoacustico del primo o del secondo ordine? Visto che dipende da qualche cosa che c’è fisicamente nello stimolo dovrebbe essere un effetto del primo ordine. Però è un effetto di una percezione non corretta quindi potrebbe essere del secondo.

Si noti che con gli amplificatori fortemente controreazionati, dove la distorsione cresce violentemente superato il limite del clipping, l’incremento del loudness soggettivo non si verifica ma avviene un fenomeno molto diverso: quando l’amplificatore clippa si percepisce la “verticalizzazione” della scena acustica che sembra compattarsi al centro ed espandersi in senso verticale (clipping contemporaneo dei due canali stereo).

Va notato che l’incremento del loudness soggettivo può indurre a giudicare “migliore” un sistema che distorce di più limitatamente alle basse frequenze (per esempio un diffusore a tre vie con primo taglio sotto 200 Hz). Ne segue che anche l’ascolto critico va associato a qualche misura.

Si potrebbe anche dire che, se la distorsione dà delle sensazioni gradevoli, non è il caso di cercare di eliminarla. Pur sempre di distorsione si tratta e, se non c’è, è meglio. Quando si lasciano dei difetti in un sistema di riproduzione inevitabilmente questo si comporta meglio con certi programmi e meno bene con altri. La diversa “interpretazione” che l’a.u. dà della distorsione contribuisce a rendere ancora più diverse le percezioni uditive da soggetto a soggetto.

Un soggetto allenato ed istruito a riconoscere la distorsione avrà percezioni diverse rispetto ad uno non istruito allo stesso modo.

Conclusioni

Si può valutare la qualità sonora di un impianto stereo? Si, è possibile perché le differenze esistono, si sentono e si misurano. Le differenze “vere” sono quelle che superano la soglia differenziale di percezione (JND). Al di sotto di tale soglia può succedere di tutto in particolare sentire quello che non c’è.

Conoscere i limiti ed i difetti del sistema uditivo aiuta a non cadere nelle trappole (leggasi acquisto di dispositivi di utilità nulla se non controproducenti).

Per ottenere una valutazione sicura si devono utilizzare sia l’ascolto che le misure.

Non servono fare misure per capire se un dispositivo “suona male”. Le misure però possono dire “perché suona male”. Se le misure mostrano delle differenze oggettive di entità superiore alla soglia differenziale di percezione allora le “impressioni di ascolto” riflettono differenze oggettive (altrimenti no). Quindi la ricerca deve concentrarsi, non sulla spasmodica classificazione di differenze soggettive, ma sulla determinazione delle soglie differenziali di percezione. Poi si potrà pensare al resto. Questa missione non è facile: nel caso della distorsione l’ a.u. questa è tollerata a bassa frequenza più che alle frequenze medie e alte e addirittura dà sensazioni “positive” (incremento di loudness soggettivo) o fa apparire la risposta in frequenza più estesa verso il basso (ricostruzione della fondamentale mancante).

Secondo Sanders, quando si esegue un confronto tra dispositivi diversi, si devono tenere sotto controllo le “variabili” coinvolte e modificarne una alla volta (questo contrasta con la concezione olistica della percezione ma è coerente con le procedure di misura). Le variabili che più spesso sfuggono al controllo (sempre secondo Sanders ma pienamente condivisibili) sono:

Differenze di Livello	Differenze di livello comportano variazioni nel livello di loudness soggettivo e quindi di risposta in frequenza soggettiva.
Clipping	L’ amplificatore, nelle effettive condizioni d’uso, lavora spesso in clipping o prossimo al clipping
Ritardo	Il suono resta in memoria per poco tempo. Le commutazioni devono essere sufficientemente rapide (meno di un quinto di secondo).
Pregiudizi	Se vi aspettate di udire una differenza la sentirete anche se non c’è. Quindi bisogna ascoltare senza aspettative. Ne segue che è meglio non sapere cosa si sta confrontando, se e chi ha attivato la commutazione (doppio cieco).

Pensieri presi qui e là…..

Tra le mille altre cose, la percezione uditiva è determinata dalla forma e dimensione del padiglione auricolare (pinna). E’ stato dimostrato che le riflessioni provenienti dal mixer in una control room sono molto simili a quelle prodotte dal padiglione (pinna). A causa di ciò alcune persone possono percepire il suono dei monitor provenire dall’alto mentre altre lo percepiscono semplicemente al centro dei monitor.

Rodgers, Carolyn Alexander, Ph.D. Thesis, Multidimensional Localization, Northwestern University, Evanston, IL, USA (1981)

Rodgers, Puddie C. A., ‘Pinna Transformations and Sound Reproduction’, Journal of the AES, Vol. 29, No. 4, pp. 226–234 (April 1981)

Sempre a causa delle differenze introdotte dal padiglione auricolare (in inglese pinna) la percezione spaziale del campo sonoro varia da persona a persona. Ne segue che la percezione della musica riprodotta è diversa da persona a persona. Ne segue che alcune soluzioni adottate per esaltare o ridurre certi attributi della riproduzione possono essere percepite da alcuni e non da altri.

(Newell, Philip. Studio Monitoring Design, Focal Press, Oxford, UK, and Boston, USA - 1995)

Intervento (rivisto e corretto) al Forum Video HiFi del 1/11/2011:

La sensazione uditiva è il risultato di un processo olistico dove, per definizione, 1+1 può fare 3 o 4. Le misure sono un processo deterministico dove 1+1=2 (se sono fatte a modo). Ne segue che 1+1 fa sempre 2 per gli strumenti, 3 per me, 4 per te e 5 per qualche altro. Domani o tra un'ora i risultati soggettivi cambiano quelli degli strumenti restano costanti. La "realtà", a parità di condizioni al contorno, è sempre 1+1=2. Per l'individuo le condizioni al contorno sono sempre diverse anche solo a causa dello scorrere del tempo. Se, cambiando un cavo, la "realtà" strumentale diventa (faccio per dire) 1+1.1=2.1 allora posso giustificare anche una variazione nella percezione soggettiva ma se resta 1+1=2 devo attribuire la mutata sensazione dell'ascoltatore non alla realtà misurabile ma alle mutate condizioni dell'ascoltatore. Se non concordiamo su questo aspetto c'è poco da discutere. Anche il doppio cieco ABX non garantisce che le condizioni dell'ascoltatore non mutino con il tempo o per il solo fatto di essere coinvolto in un test (e quindi di aspettarsi, consciamente o inconsciamente, una qualche variazione).
Questo non significa che non si possano fare confronti ma che si debba estendere i test ad un elevato numero di persone in modo da poter trattare i risultati statisticamente. Il vero limite dei test è lo scarso numero di soggetti coinvolti.
L'altro problema (aperto e che complica ulteriormente le cose) è la determinazione delle "soglie differenziali di percezione”

Riferimenti:

1971	Jean Trampe Broch	Acousti Noise Measurements – Bruel&Kjaer - ISBN 87 87355 00 0 – seconda edizione, ristampa del 1975 – pagg 23,24
1976	H.F. Olson	Music, Phisics and Engineering – seconda edizione – Dover Publication Inc.
1981	Rodgers, Carolyn Alexander	Ph.D. Thesis, Multidimensional Localization, Northwestern University, Evanston, IL, USA
	Rodgers, Puddie C. A.,	‘Pinna Transformations and Sound Reproduction’, Journal of the AES, Vol. 29, No. 4, pp. 226–234
1995	Robert Harley	Cary Audio Design CAD-300SEI integrated Amplifier – Stereophile, 25 settembre 1995 – www.stereophile.com
1995	Newell, Philip	Studio Monitoring Design, Focal Press, Oxford, UK, and Boston, USA

2001	Daniel H. Cheever	“A NEW METHODOLOGY FOR AUDIO FREQUENCY POWER AMPLIFIER TESTING BASED ON PSYCHOACOUSTIC DATA THAT BETTER CORRELATES WITH SOUND QUALITY – 1989, Tesi di Laurea, pubblicata nel 2001
2011	Renato Giussani	http://www.audioplay.it
2011	G. C Sticazzi	Lavarsi le orecchie come precondizione per l’ascolto critico – non pubblicato