Principi di base della fisica del suono

di Mario Bon

20 dicembre 2012

premessa del 14 marzo 2016, rivisto 2 giugno 2016, rinnovato il 23 marzo 2017

La fisica interessa i fisici ma le conseguenze della fisica interessano tutti.

Parte Prima

Miti e leggende

Le Sorgenti del Suono

Sinusoidi, Frequenza e Periodo

Lunghezza d’onda

Principio di Huygens

Riflessione

Fenomeni di interferenza: diffrazione, diffusione

Rifrazione

Quantità importanti

Parte Seconda

Introduzione

Il senso dell’udito

Il Suono (altezza, intensità, durata e timbro)

Soglie

Analisi Spettrale e Spettro

Alta Fedeltà

Introduzione

Lo scopo di questa serie di scritti è illustrare il rapporto tra la qualità del suono di un dispositivo (la qualità della riproduzione) e i risultati delle misure. La materia non è semplice e non può essere esposta in poche parole. Servono anche delle conoscenze di base. Gli argomenti importanti sono trattati nei capitoli “Sorgenti Ideali”, “Qualità dei CD”, “Attributi del Suono”. Dato che da qualche parte si deve cominciare partiamo dal senso dell’udito.

L’uomo è dotato di cinque sensi che possono essere interpretati come altrettanti sistemi di allarme.

La vista, l’udito e l’olfatto ci avvertono di quello che succede nello spazio attorno a noi (anche a grande distanza). Il tatto richiede il contatto di un oggetto con la pelle (contatto superficiale) mentre il gusto richiede un contatto con la lingua (all’interno della bocca). L’ udito è sempre attivo (giorno, notte, buio, luce) ed è anche in grado di svegliarci dal sonno.

L’udito è un sistema di allarme “volumetrico” molto efficace che individua i pericoli anche quando non li vediamo.

Questa premessa, apparentemente inutile, serve a ricordare che il senso dell’udito non è nato per ascoltare musica. L’ascolto della musica è un avvenimento recente nella storia dell’evoluzione dell’uomo e avviene attraverso meccanismo che si sono evoluti per scopi diversi. L’ascolto di musica riprodotta è ancora più recente.

Miti e Leggende

Per prima cosa è necessario sgombrare il campo da certe informazioni, non corrette, che si trovano in rete (a volte perché incomplete o eccessivamente semplificate, a volte perché chi le scrive non sa cosa scrive).

Il suono si propaga per onde (e questo era stato ipotizzato da Crisippo di Soli nel III secolo a.C.). In teoria queste onde possono essere

Piane

come le onde all’interno di un condotto di dimensioni e forma appropriate o in prossimità di un piano vibrante (distanza molto inferiore alle dimensioni)

Un piano vibrante lungo una sua perpendicolare

Cilindriche

A piccola distanza da un cilindro vibrante radialmente (distanza molto inferiore alle sua altezza)

Un cilindro vibrante radialmente

Sferiche

come succede quando la sorgete è “piccola” rispetto alla lunghezza d’onda del suono emesso o la distanza dalla sorgente è grande.

Una sfera vibrante radialmente

In uno spazio omogeneo ed isotropo a tre domesioni, le onde si propagano per onde sferiche. Il mondo in cui viviamo ha tre domensioni.

A grande distanza dalla sorgente (indipendentemente dalla sua forma o dimensione) i fronti d’onda (su una regione di spazio limitata) possono essere considerati sferici.

Qualsiasi fronte d’onda sferico (su una regione di spazio limitata) può essere considerato piano. Il fronte d’onda piano è una semplificazione locale di un fronte d’onda sferico (valida quando la variazione del raggio di cuvatura nei diversi pu nti della superficie è trasurabile).

Infatti, dato che il raggio di curvatura dei fronti d’onda sferici aumenta con la distanza percorsa, per distanze infinite tende ad infinito e un piano è una superficie con raggio di curvatura infinito. Ciò dimostra che, in acustica, tutto è relativo alle dimesioni ed alle distanze. Si noti che l’onda piana e l’onda sferica sono di dimensione dispari (uno e tre dimensioni rispettivamente). In teoria esistono anche le onde cilindriche ed esse compaiono nella soluzione dei problemi bidimensionali. Quando si parla di onde cilindriche spesso si commettono errori: le onde cilindriche sono onde a due dimensioni (dimensione pari) e possono essere emesse soltanto da sorgenti filiformi o tubiformi, continue ed infinitamente estese . La sorgente ideale di onde cilindriche è il cilindro pulsante radialmente. Le onde di dimensione pari (cilindriche) presentano proprietà diverse dalle onde a dimensione dispari (piane e sferiche). In particolare nella riproduzione dei transitori.

Una colonna composta da un numero limitato di sorgenti discrete uguali e coerenti (montate in colonna verticale) non produce onde cilindriche. Questo si può accettare con un atto di fede (cosa molto comune in HiFi) oppure con opportune misure sperimentali o con simulazioni. Tanto la realtà non cambia. In buona sostanza la condizione necessaria affinché il suono prodotto da una sorgente si propaghi per onde cilindriche è che la sua lunghezza sia infinita. Si noti che, al contrario, la condizione necessaria affinché la propagazione avvenga per onde sferiche è che la dimensione della sorgente sia finita. Tutte le sorgenti fisiche hanno dimensioni finite. Ne segue che le onde cilindriche non esistono in natura. Ciò non toglie che, per esempio, il suono del traffico prodotto dalle automobili che percorrono un tratto rettilineo di autostrada, venga schematizzato con una sorgente semi-cilindrica. Va ribadito che questa e una semplificazione anche abbastanza forzata.

Esempio di line array di 8 elementi.

In questo caso la forma è leggermente ricurva (a banana) .

Vediamo ora di quanto si attenua una variazione di pressione atmosferice in funzione della forma del fronte d’onda

onde sferiche

subiscono una attenuazione di 6 dB per ogni raddoppio della distanza

Tridimensionale

onde cilindriche

subirebbero una attenuazione di 3 dB per ogni raddoppio della distanza.

Bidimensionale

onde piane

non si attenuano durante la propagazione (per esempio all’interno di un tubo)

Monodimensionale

Un line array verticale, per quanto esteso e per quanto piccole possano essere le sorgenti che lo compongono, si comporta come un insieme finito di sorgenti discrete allineate che interferiscono tra loro. Nessun line array produce onde cilindriche: quando la distanza del punto di ascolto supera le dimensioni della sorgente, il fronte d’onda tende ad assumere la solita forma sferica (come per qualsiasi sorgente sonora) il che, però, non significa che l’intensità acustica sia la stessa in tutte le direzioni.

Ma supponiamo che si possa realizzare un sistema a due vie con un woofer convenzionale a radiazione diretta e un line array ad emissione cilindrica per le frequenze medio alte. In questo caso il suono emesso dal woofer di attenuerebbe di 6dB per ogni raddoppio della distanza mentre quello delle medio-alte si attenuerebbe di 3 dB per ogni raddoppio della distanza. Le due emissioni potrebbero essere uguali sono ad una certa distanza D dalla sorgente. Per distanza inferiori a D si avrebbe un eccesso di frequenze basse, per distanze superiori D un eccesso di frequenze medio-alte (che si attenuerebbero di meno). Quindi, anche teoricamente, realizzare un sistema del genere sarebbe controindicato (tanto più controindicato quanto più vasto fosse lo spazio da sonorizzare). È sbagliato, proprio come principio, “mescolare” sorgenti sferiche e cilindriche.

Sono stati realizzati sistemi che consentono di modificare la direttività sfruttando l’interferenza (regolando i ritardi relativi). Sono state sviluppate guide d’onda con pattern di radiazione particolari, ecc. Il controllo del pattern di radiazione di una sorgente si controlla solo in tre modi:

- modificando il rapporto tra dimensioni e lunghezza d’onda

- per interferenza (lenti acustiche)

- utilizzando una tromba

tutti questi sistemi sono riconducibili all’interferenza (vds Huygens). Quando c’è interferenza la funzione di trasferimento della sorgente non può essere a fase minima ovvero ove è presente interferenza non c’è conservazione dell’informazione. Quindi per definizion eun sistema a tromba non conserva l’informazione.

Uno dei requisiti della riproduzione ad Alta Fedeltà dovrebbe essere la capacità di riprodurre tutte le informazioni contenute nel programma musicale. Ne segue che i dispositivi utilizzati nella riproduzione ad Alta Fedeltà dovrebbero essere caratterizzati da funzioni di trasferimento a fase minima o con eccesso di fase non udibile almeno nella regione di frequenze dove l’apparato uditivo ne è sensibile. Nelle elettroniche (amplificatori, fono RIAA, equalizzatori parametrici, conrolli di tono, eec.) la condizione di fase minima può essere rispettata.

I convertitori A/D e D/A contengono i filtri anti-alias e di ricostruzione che NON devono essere a fase minima ma possono intervenire fuori dalla banda audio senza sacrificare informazioni. I DRC non sono dispositivi a fase minima ma possono riducono l’eccesso di fase. Gli unici dispositivi che molto raramente dimostrano di essere a fase minima sono i diffusori acustici. Tra questi i più problematici, da questo punto di vista, sono gli array di altoparlanti e i sistemi a tromba (ovvero i sistemi basati sull’interferenza).

Alcuni difetti dei sistemi a tromba possono essere corretti, altri no (al massimo possono essere ridotti).

I sistemi a radiazione diretta sono i più adatti per contenere l’eccesso di fase su una banda di frequenze sufficientemente ampia da renderla non influente. Il difetto dei sistemi a radiazione diretta è la bassa efficienza (che si compensa con amplificatori più potenti).

Le sorgenti del Suono

Le sorgenti delle onde sonore sono gli oggetti in movimento.

impulso di pressione che si propaga in un condotto

onda sinusoidale che si propaga in un condotto

onda di pressione divergente generata da una sfera pulsante (monopolo)

le variazioni di pressione raggiungono il timpano e vengono trasformate in impulsi nervosi. I cervello le interpreta come suono.

Sinusoidi, Frequenza e Periodo

Ci sono fenomeni che si ripetono nel tempo. Per esempio la Terra gira attorno al Sole e, per farlo, impiega 365 giorni circa. Il pendolo di un orologio oscilla da destra a sinistra in modo sempre uguale …

In generale un fenomeno si dice periodico se, passato un certo lasso di tempo, si ripete sempre uguale a se. Questo lasso di tempo si chiama periodo o ciclo. Il periodo di rotazione della Terra attorno al Sole è di 365 giorni (circa). L’inverso del periodo è la frequenza $f = 1 / T$ e indica quanti periodi vengono ritetuti in un secondo. Il periodo si misura in secondi, la frequenza si misura in Hertz (1/secondi). I segnali non periodici si dicono anche aperiodici.

La funzione periodica più importante in assoluto è la sinusoide (che rappresenta un moto armonico semplice). La funzione seno è una funzione trascendente. Le onde elettromagnetiche e le onde di pressione sono sovrapposizioni di onde sinusoidali di frequenza diversa (Fourier). La propagazione per onde del campo elettromagnetico è stata prevista teoricamente da Maxwell e provata sperimentalmente da Hertz. I greci ritenevano il suono simile alle onde del mare.

y(t) = A sin (wt) = A sin(wt+kx)

A = ampiezza di picco

2 A = ampiezza picco-picco

0.707 A = ampiezza RMS

w = pulsazione = 2 p frequenza

t = tempo

l = lunghezza d’onda, spazio percorso in un periodo

l = c/frequenza

k = w/c c=velocità di propagazione

la figura rappresenta una sinusoide y = sin (wt+kx)

Lunghezza d’onda

Il suono è una perturbazione che si propaga nello spazio. In particolare il suono è una “variazione di pressione” che si propaga nello spazio. Tale perturbazione si sposta “alla velocità del suono” pari a 344 metri al secondo.

Durante un temporale, quando cade un fulmine, prima vediamo il lampo e, successivamente, udiamo il tuono. Il lampo ed il tuono nascono assieme ma la luce del lampo viaggia a 300 milioni di metri al secondo mentre il suono del tuono viaggia a 344 metri al secondo. La luce viaggia quasi un milione di volte più veloce del suono. Questo significa che, se il fulmine è caduto a due chilometri di distanza, il lampo ci raggiunge in meno di 7 micro secondi mentre il tuono ci raggiunge dopo quasi 5 secondi.

Il suono prodotto da un diapason è un tono puro ben rappresentato (nella sua parte stazionaria) da una funzione sinusoidale.

Nel tempo che il suono descrive un periodo la “perturbazione” percorre un certo spazio. Lo spazio percorso dalla perturbazione in un periodo è detto lunghezza d’onda. Sussiste una relazione tra frequenza, velocità di propagazione e lunghezza d’onda:

lunghezza_onda = (velocità_di_propagazione) x (periodo)

questa espressione non è altro che la ben nota relazione spazio=(velocità) x (tempo) ovvero x = ct (c = velocità)

essendo la frequnza l’inverso del periodo si può scrivere la relazione in questo modo:

lunghezza_onda = (velocità_di_propagazione) / (frequenza)

la lunghezza d’onda è uno spazio che si misura in metri, la velocità di propagazione è una velocità (che si misura in metri al secondo) mentre la frequenza è l’inverso del tempo.

Dobbiamo pensare alla lunghezza d’onda come se fosse la “dimensione” del suono.

I suoni udibili si espendono dalla frequenza minima di 12 Hz alla massima di 22000 Hz. Convenzionalmente, per comodità, la banda dei suoni udibili e fissata da 20 Hz (lunghezza d’onda = 17,2 metri ) a 20000 Hz (lunghezza d’onda = 17,2 millimetri).

Qualsiasi aspetto della riproduzione deve essere valutato partendo dalle dimensioni delle sorgenti, degli oggetti (altoparlanti, diffusori, ostacoli, pareti,…) e delle distanze in relazione alla lunghezza d’onda del suono prodotto dalle sorgenti. Per esempio, rispetto ad un suono con lunghezza d’onda di 3.44 metri (100 Hz), un oggetto con dimensione massima di 20-30 centimetri è “piccolo”. Rispetto ad un suono con lunghezza d’onda di 3.44 centimetri (10000 Hz), un oggetto con dimensione massima di 20-30 centimetri è “grande”.

Un oggetto “piccolo” altera il campo acustico localmente e provoca diffrazione, un oggetto “grande” si comporta come uno specchio e riflette il suono. Un oggetto piccolo può essere “aggirato dal suono”, un oggetto grande no.

Una parete di 5 x 4 metri è un ostacolo assolutamente non trascurabile e si comporta come uno specchio anche alle frequenze più basse.

In acustica tutto si gioca sul rapporto tra la dimensioni degli oggetti e delle superfici e la lunghezza d’onda del suono.

Se si assimila questo principio si può prevedere come suona un diffusore acustico conoscendo soltanto le frequenze di cross-over e osservando i rapporti dimensionali degli altoparlanti e del cabinet.

Tabella: corrispondenza tra frequenza e lunghezza d’onda del suono (velocità del suono = 344 m/s)
16 Hz	21.5 m.
32 Hz	10.75 m.
64 Hz	5.375 m.
100 Hz	3.44 m.
128 Hz	2.6875 m.
256 Hz	1.3438 m.
344 Hz	1 m.
1000 Hz	0.344 m.
2000 Hz	0.172 m.
4000 Hz	8.6 centimetri
8000 Hz	4.3 cm.
16000 Hz	2.15 cm.
20000 Hz	1.72 cm.

Principio di Huygens

Il Principio di Huygens è fondamentale. Il Principio di Huygens, tra l’atro, spiega quali sono i limiti della riproduzione con un numero finito di canali.

Un generico fronte d’onda può essere scomposto in una quantità di sorgenti puntiformi (dette secondarie) ciascuna delle quali produce fronti d’onda sferici: i fronti d’onda successivi sono il risultato della sovrapposizione di tutte le sorgenti secondarie in cui il fronte d’onda è stato scomposto. Ne segue che, per riprodurre il campo sonoro prodotto da una generica sorgente, è sufficiente ricostruire, completamente, un singolo fronte d’onda nello spazio. E’ altrettanto chiaro che due, quattro, o anche sette sorgenti non sono sufficienti per ottenere tale risultato: servono centinaia di sorgenti. Ne segue che l’Alta Fedeltà (che utilizza da due a sette canali e altrettanti diffusori) non è adeguata per ricostruire il fronte d’onda originale. Vedere WFS

Riflessione

Quando ci guardiamo allo specchio vediamo la nostra immagine riflessa. In questo caso le onde luminose che ci colpiscono vengono prima riflesse verso lo specchio (dal nostro corpo) e lo specchio a sua volta le riflette verso i nostri occhi. Quando un’onda raggiunge uno specchio viene riflessa con un angolo pari all’angolo incidente. La riflessione di onde acustiche è del tutto simile alla riflessione delle onde luminose.

Riflessione su diversi tipi di superfici

Fenomeni di interferenza: diffrazione, diffusione (o scattering o dispersione)

Interferenza, diffrazione e diffusione sono lo stesso fenomeno che assume nomi diversi a seconda delle condizioni al contorno:

L’interferenza si osserva in generale quando più onde si sovrappongono una all’altra generando zone di intensità maggiore (picchi) e zone di intensità minore (valli) o nulla (nodi). I modi normali (o onde stazionarie) che si osservano in un ambiente sono la conseguenza della interferenza del suono riflesso dalle pareti.

Un esempio di interferenza si ottiene lanciando due sassi in uno stagno (interferenza di onde di superficie).

In genere si parla di diffrazione quando le onde attraversano fori o fenditure o incontrano degli ostacoli. La diffusione (detta anche scattering) si riferisce, in genere, a fenomeni disordinati.

Le onde “aggirano” un ostacolo. Lo spigolo diventa una “sorgente virtuale” o “secondaria” di onde sferiche.

Questo causa la diffrazione ai bordi nei diffusori acustici

Se la larghezza della fenditura è molto più piccola della lunghezza d’onda incidente sulla destra dello schermo si osservano onde sferiche.

La fenditura diventa una nuova sorgente.

Quando la larghezza della fenditura è molto maggiore della lunghezza d’onda sulla parte destra dello schermo si osservano onde piane .

(la figura non mostra i fenomeni di diffrazione ai bordi)

Diffrazione causata da ostacoli:

se la lunghezza d’onda del suono incidente è maggiore della dimensione dell’ostacolo questo viene superato (figura a sinistra).

Se invece è maggiore si forma un “cono d’ombra” acustico (figura a destra).

(la figura non mostra i fenomeni di diffrazione ai bordi)

Documentazione Vivid.

Esempio di propagazioni al chiuso (riflessione sulle pareti) e all’aperto (diffrazione ai bordi)

Documentazione Vivid.

Diffrazione ai bordi in dettaglio. Lo spigolo diventa una sorgene secondaria che interferisce con la sogente primaria

Particolarmente importanti sono i fenomeni di diffrazione ai bordi causati dal pannello frontale dei diffusori acustici.

A causa della diffrazione i bordi del cabinet diventano sorgenti secondarie che interferiscono con il suono diretto. L’effetto è visibile nella risposta all’impulso specie in campo semivicino. All’ascolto la diffrazione ai bordi rende riconoscibili i limiti fisici del pannello frontale del diffusore.

Documentazione Vivid.

Sagomando opportunamente i bordi le sorgente secondarie vengono fortemente attenuate.

Rifrazione

La rifrazione è un fenomeno che si osserva quando un’onda attraversa mezzi dove la velocità di propagazione è diversa. Quando si immerge una cannuccia in un bicchiere d’acqua sembra che la cannuccia si “spezzi”. In realtà questa illusione ottica dipende dalla diversa velocità della luce nell’aria e nell’acqua per cui i raggi trasmessi vengono deviati con un angolo diverso. Per quanto riguarda il suono i fenomeni di rifrazione si osservano quando, per esempio, il suono attraversa zone con diversa temperatura e/o umidità (che modificano la velocità del suono).

Evidentemente questo accade all’aperto o in ambienti molto vasti e si osserva molto raramente negli ambienti domestici. La rifrazione è regolata dalla legge di Snell


Fenomeni di rifrazione

La legge di Snell descrive quanto i raggi sono deviati quando passano da un mezzo ad un altro. Se il raggio proviene da una regione con indice di rifrazione ed entra in un mezzo ad indice gli angolo di incidenza $\theta_1$ e di rifrazione $\theta_2$ sono legati dall'espressione:

$\frac{\sin \theta_1}{\sin \theta_2} = \frac{v_1}{v_2} = \frac{n_2}{n_1}$

dove e sono le velocità nei mezzi.

Legge di Snell da Wikipedia

Quantità importanti

Intensità acustica

I = v_eff p_eff = p²_eff/(r c)

Valida per onde piane (lontano dalla sorgente)

In generale p=v/Z dove Z è l’impedenza di radiazione che per un’onda piana vale r c

p = pressione, v=velocità

p²_eff = pressione efficace o RSM

r = densità dell'aria

c = velocità del suono

è l’energia acustica che attraversa normalmente una superficie unitaria. Negli ambienti chiusi a causa delle numerose riflessioni tende ad essere nulla.

Densità di energia acustica

D(t) = E(t) / V = p²_eff/(r c²) = I / c

Valida per onde piane (lontano dalla sorgente)

p = pressione

p²_eff = pressione efficace o RSM

r = densità dell'aria

c = velocità del suono

E(t) = energia in funzione del tempo

I = intensità acustica

è l’energia acustica per unità di volume.

Potenza Acustica o sonora

W = I S = D c S

La potenza acustica è pari al prodotto dell’intensità per la superficie

I metodi di misura sono descritti da ISO 3740 e UNI EN 9614

p = pressione

p²_eff = pressione efficace o RSM

r = densità dell'aria

c = velocità del suono

S = superficie

I = intensità acustica

è l’energia acustica per unità di volume.

Livello

L_G = 10 log₁₀ ( G / G_rif. )

In generale è pari a 10 volte il logaritmo del rapporto di due grandezze omogenee. Quella al denominatore è presa come riferimento.

Livelli di pressione, Intensità e Potenza

L_p = 10 log ( p_eff² / p_rif.² ) = 20 log ( p_eff / p_rif. ) = SPL

L_I = 10 log ( I / I_rif. )

L_W = 10 log ( W / W_rif. )

P_rif = 20 uP (microPascal)

I_rif = 10^-12 W/m²

W_rif= 10^-12 watt

Livello SPL in ambiente chiuso

In un ambiente chiuso e in generale in presenza di superfici riflettenti, si deve considerare il contributo del campi diretto ed il contributo del campo riflesso. Per una sorgente sferica, in un ambiente sabiniano, il campo diretto decresce con il quadrato della distanza dalla sorgente mentre il campo riflesso (ocampo riverberato) è costante. Inoltre il campo direttto ed il campo riflesso sono incoerenti. Queste condizioni consentono di ottenere una serie di relazioni e di previsioni che vanno sempre valutate in funzione della approssimazioni che si possono accettare.

Ambiente sabiniano: un ambiente per il quale il tempo di riverberazione può essere calcolato con l’espressione formulata da Sabine.

In un ambiente sabiniano il campo riflesso è perfettamente diffuso. Ciò avviene se

- le dimensioni dell’ambiente non sono troppo diverse tra loro

- il coefficiente di fonoassorbilemto delle pareti è omogeneo e omogeneamente distribuito.

Tali condizioni sono difficile da realizzare specie negli ambienti piccoli.

con

Q = fattore di direttività

L_W = livello di potenza della sorgente

d = distanza dalla sorgente

Questa espressione vale per gli ambienti sabiniani.

Gli ambienti domestici sono ambienti “piccoli” (ricordiamo che la lunghezza d’onda di 20 Hz vale oltre 17 metri), le superfici non sono omogenee e i materiali fono assorbenti non sono omogeneamente distribuiti. Facciamo due esempi. Il suono non viene riflesso dalle aperture quali porte e finestre aperte (il cui coefficiente di fonoassorbimento è unitario). Lo stesso avviene per le superfici ricoperte con materiali fonoassorbenti con coefficiente unitario.

Negli ambienti con “soffitto basso” (dove la lunghezza e la larghezza sono molto maggiori dell’altezza) il campo riverberato non è costante in tutto il volume dell’ambiente ma decresce di 3 dB per ottava con la distanza dalla sorgente. In tali abienti, quindi, il tempo di riverberazione, la distanza critica, la frequenza di Schroedinger, ecc. non possono essere predetti.

Parte Seconda

Capitoli:

Il senso dell’udito

Il Suono (altezza, intensità, durata e timbro)

Soglie

Analisi Spettrale e Spettro

Alta Fedeltà

Il senso dell’udito

L’orecchio è l’organo dell’udito. La percezione restituita dall’udito è il suono. Lo stimolo è una variazione di pressione dell’aria che eccita il timpano, viene poi trasmessa attraverso l’orecchio medio all’orecchio interno dove viene trasformata in impulsi nervosi che giungono al cervello (sensazione). Il cervello interpreta gli impulsi nervosi attraverso il processo di percezione il cui risultato è il suono. Il suono si forma nel cervello come risultato del processo di percezione.

Nel numero 337 di Audio Review è stato ripubblicato l’articolo del 1976 “Percezione, Invarianza e i 5 parametri” di Paolo Nuti. Le prime parole appena sotto al titolo sono “La mancanza di un completo modello della percezione del suono …” … oggi, 2013, disponiamo del modello neurofisiologico.

Modello neurofisiologico: sviluppato dal Prof. P.J.Jastreboff, dell'Università del Maryland, si basa sulla plasticità cerebrale e sulle connessioni tra il sistema uditivo ed aree del cervello come il sistema limbico e il sistema nervoso autonomo.

Questo modello si basa sul fisiologico meccanismo di percezione di qualunque stimolo sonoro, che può provenire dall'esterno o anche dall'interno del nostro corpo. Prima di raggiungere la corteccia cerebrale, qualunque messaggio è captato e valutato ad un livello sub-corticale non cosciente. Se un'informazione è classificata come sufficientemente importante, può raggiungere il livello corticale, dove avviene la percezione conscia delle informazioni; invece, se non è ritenuta sufficientemente importante, è rifiutata. Per esempio, quando parliamo con qualcuno in un ambiente affollato e con intenso rumore di fondo, possiamo focalizzare l'attenzione solo sul nostro interlocutore ed ignorare il rumore circostante, anche se questo ha un'intensità maggiore (ascolto intenzionale). Il nostro cervello, quindi, è capace di scegliere i messaggi interessanti ed ignorare gli altri, senza che noi ce ne rendiamo conto; inoltre, le connessioni che presenta il sistema uditivo centrale con altri centri nervosi (sistema limbico, formazione reticolare) mettono in relazione l’udito con lo stato emotivo e l’apprendimento. Qualsiasi stimolo sonoro, prima di essere inviato al cervello assume una carica emotiva che può variare nel tempo in funzione del nostro stato d’animo e del contesto nel quale lo percepiamo; pertanto esistono suoni in grado di evocare una sensazione gradevole (ad esempio una melodia, una risata) e suoni in grado di irritare o creare ansia.

Dato che l’apparato uditivo è nato e si è evoluto come sistema di allarme, richiama automaticamente azioni volte all’autodifesa e alla conservazione della specie.

Esempio 1: udiamo un colpo, una esplosione: la prima reazione è abbassare la testa o piegare le gambe, la seconda reazione è cercare di individuare la provenienza del suono. Sono reazioni determinate dall’istinto di conservazione accompagnate da produzione di adrenalina e predisposizione all’autodifesa. In questo caso la amigdala non attende l’interpretazione del messaggio e la reazione avviene prima che il messaggio sonoro giunga alla corteccia: non sappiamo cosa abbiamo sentito ma siamo già in allarme.

Esempio 2: udiamo il pianto di un neonato: istintivamente cerchiamo di individuare la sorgente con l’intenzione di portare soccorso. Siamo programmati per fare questo dall’istinto di conservazione della specie.

Esempio 3: udiamo una musica: la amigdala controlla se tale musica è associata ad una emozione ed eventualmente la evoca.

Esempio 4: udiamo il nostro nome in una conversazione: istintivamente volgiamo l’attenzione verso quella conversazione. La musica (e anche il linguaggio) è composta da una successione di transitori e accende l’attenzione in modo diverso.

Il sistema uditivo privilegia nell’ordine:

- Il segnale di pericolo (nella amigdala)

- L ’allarme

- il “messaggio”

e non il “segnale sonoro”. Il cervello è interessato al messaggio trasportato dal segnale e non al segnale in sé. Anzi il cervello esclude le informazioni che non considera interessanti. Quindi non solo ogni individuo sente in modo diverso a causa delle differenze anatomiche del padiglione auricolare (pinna) ma anche, e forse ancor più, per le diverse “priorità” che ogni individuo si è dato.

Per il cervello stimoli sonori diversi possono corrispondono a messaggi simili ( “segnali equivalenti, segnali indistinguibili”).

Gli strumenti di misura privilegiano invece il “segnale” e trascurano il “messaggio”.

In altre parole il cervello privilegia il contenuto rispetto alla forma mentre le misure, al contrario, privilegiano la forma e trascurano il contenuto. Il contenuto viene interpretato su basi soggettive.

I segnali sinusoidali trasportano un messaggio minimo (ampiezza e frequenza), il rumore rosa riproduce il rumore di una cascata o il rumore di fondo del cervello (in quanto macchina elettrica) e contiene anch’esso informazioni minime. Il rumore rosa è utile per valutare il “bilanciamento tonale” perché piccole variazioni di ampiezza di gamme di frequenza diverse comportano variazioni udibili nel timbro.

Una sinfonia o una lezione di meccanica quantistica contengono una infinità di messaggi.

Il timbro di voce che ci comunica la vincita del primo premio della lotteria è inessenziale.

Il Suono (altezza, intensità, durata e timbro)

Il suono (effetto) si forma all’interno del cervello tuttavia chiamiamo (impropriamente) “suono” le variazioni di pressione dell’aria che ne sono la causa (pressione sonora). Il suono più semplice, o tono puro, è quello emesso dal diapason: l’altezza di questo suono, nella sua fase persistente, è perfettamente definita.

Il tono puro è caratterizzato da:

Quantità soggettiva	Descrizione	Quantità oggettiva (misura)
Intensità	Debole per un suono appena udibile, fortissima per un suono che provoca dolore. Vedere loudness	Livello di pressione SPL In dB
Altezza	Correlata alla frequenza, le note musicali si distinguono per l’altezza o intonazione (in inglese pitch): note basse o gravi, note alte o acute. La frequenza si misura in Hz mentre la “frequenza soggettiva” di misura in Mel. La scala degli Hertz e dei Mel non coincidono. Il concetto di altezza si applica a suoni semplici ma anche a certi suoni composti (per esempio un accordo viene riconosciuto sia che venga suonato come primo o secondo rivolto)	Frequenza in Hertz
Durata	Il tempo per cui persiste il suono. Si misura in secondi. Più un suono è breve più è difficile riconoscerlo. Al di sotto di una certa durata la sensazione uditiva dipende dall’energia sonora trasportata dall’impulso. Qualsiasi segnale di durata inferiore a circa 15-20 millisecondi appare all’orecchio come un click indistinto. Per discriminare altezza e timbro un suono deve durare almeno 15-20 millisecondi (che è la durata più breve per una nota emessa da una tromba e anche la durata di una consonante).	Tempo in secondi

Queste tre quantità (intensità, altezza, durata) sono monodimensionali e possono essere riportate su una scala che va dai valori più bassi a quelli più alti. Per una grandezza monodimensionale ha senso parlare di “maggiore” o “minore”. Per esempio la frequenza di 1000 Hz è maggiore della frequenza di 100 Hz. Il Livello SPL (o l’intensità) prodotto da martello pneumatico è maggiore del livello di una normale conversazione, ecc..

La nota prodotta dal diapason contiene una unica frequenza (per questo si chiama tono puro). Se osserviamo un tono puro con l’oscilloscopio vediamo una curva perfettamente sinusoidale. La nota emessa da uno strumento musicale contiene una successione armonica di toni puri e si chiama suono composto. La presenza delle armoniche conferisce, al suono composto, una ulteriore qualità detta timbro:

Timbro

(Spettro)

è la caratteristiche che consente di distinguere e riconoscere suoni di uguale altezza e intensità: per esempio un pianoforte da una tromba o la voce di un individuo da un altro. Ma anche un accordo di DO maggiore da uno di DO minore. Il timbro dipende dall’andamento del segnale nel tempo (vedere inviluppo) e si misura con l’analizzatore di spettro.

Un tono puro (il suono prodotto dal diapason) non ha timbro: i suoni prodotti da più diapason uguali sono indistinguibili. Il timbro è una grandezza multidimensionale e non può essere riportato in una scala di valori come, per esempio, la frequenza. Questo significa che non ha senso parlare di un timbro “maggiore” o “minore” di un altro: il timbro è semplicemente uguale o diverso (al massimo simile). Il timbro di un pianoforte riprodotto dall’impianto stereo è “simile” al timbro del pianoforte ascoltato dal vivo. Esistono migliaia di pianoforti e ognuno ha un timbro particolare: tutti però sono “simili” nel senso che li riconosciamo tutti come “pianoforte”. Per quanto riguarda invece il timbro della voce il nostro apparato uditivo è molto più selettivo e associa con precisione il timbro della voce alla specifica persona.

il suono prodotto dal diapason (tralasciando il transitorio di attacco) è un tono puro e non ha timbro.

Il diapason produce una unica nota. Il “diapason corista” produce il LA centrale a 440 Hz e viene itilizzato per accordare gli strumenti.

Il suono prodotto dall’orchestra dove suonano contemporaneamente strumenti diversi che eseguono note diverse è la sovrapposizione di una moltitudine di suoni composti. In questo caso l’altezza perde significato.

Inviluppo (di un suono transitorio)

Attack, Decay, Sustain, Release = tempo di Attacco, tempo di decadimento, tempo di sostegno e tempo di rilascio. La somma di questi quattro tempi dà la durata del suono.

Ogni suono ha un inizio e una fine. Nell’ambito della acustica musicale e della musica elettronica (con riferimento alla sintesi dei suoni per modulazione in ampiezza e frequenza) si distinguono il tempo di attacco, decadimento, sostegno e rilascio (come nella figura a sinistra). Questi quattro tratti costituiscono l’inviluppo. Qualsiasi modifica all’inviluppo ed in particolare al tempo di attacco e di decadimento, comporta una alterazione dello spettro e viceversa. Di conseguenza cambia anche il timbro. E’ uno sbaglio assai grave pensare che inviluppo e spettro siano tra loro indipendenti. Per capire l’importanza dell’attacco e del decadimento basti pensare che, se si registra un pianoforte e si riproduce la registrazione al contrario, si ottiene un suono simile alla fisarmonica.

Timbro e spettro sono intimamente legati.

Inviluppo (dal punto di vista matematico)

L’inviluppo del segnale, matematicamente, è il modulo del segnale analitico.

Il segnale analitico è una funzione complessa: la parte reale coincide con il segnale reale, la parte immaginaria è ottenuta trasformando il segnale reale secondo Hilbert.

Sanalitico(t)= s(t)+H[s(t)] = A(t)e^if(t).

Il segnale analitico si può scrivere come prodotto di una funzione A(t) detta Inviluppo (modulo del segnale analitico) e un esponenziale il cui esponente complesso è detto frequenza istantanea f(t). A(t) è rappresentato nella figura precedente (a sinistra). Il segnale analitico viene utilizzato per trattare i processi di modulazione (modulazione in ampiezza, frequenza e fase)

Ampiezza (livello SPL), altezza (frequenza), durata (tempo), timbro (spettro), (tempo di) attacco, (tempo di) decadimento, (tempo di) sostegno e (tempo di) rilascio sono quantità che, in qualche modo, “misurano” o “descrivono” il suono. Si tratta di quantità interdipendenti tra loro (modificando l’attacco cambiano il timbro e la durata) ovvero non mutuamente ortogonali (il concetto di ortogonalità degli attributi sarà discusso in seguito).

La somma dei tempi di attacco, decadimento, sostegno e rilascio dà come risultato la durata del suono.

Ampiezza, altezza (per una singola nota) e durata sono grandezze monodimensionali e, come tali, si esprimono con un numero. Il timbro è una grandezza miltidimensionale e non può essere espresso con un singolo numero ma almeno con una serie di numeri (lo spettro). La stessa altezza può essere riferita solo a suoni formati da una serie armonica. Non ha senso parlare di altezza di un suono composto (per esempio di un DO e un RE suonati contemporaneamente).

Attraverso lo spettro si ottiene la rappresentazione analitica del segnale (non del suono perché il suono è il risultato della percezione).

Soglie

Affinché intensità, altezza, durata e timbro possano essere percepiti devono superare le soglie di udibilità. Affinché si possa percepire una variazione di intensità, altezza, durata e timbro devono essere superate delle soglie dette soglie differenziali.

Altezza

In condizioni favorevoli un individuo percepisce la minima frequenza di 12 Hz. Il limite superiore si riduce con l’età. Nei giovano arriva a 20-22kHz, in individui di 50 anni, è normalmente limitato a 15000 Hz.

La banda audio è fissata per convenzione da 20 a 20000 Hz. Le note musicali cominciano con il DO a 16 Hz della pedaliera dell’organo e si estendono per 10 ottave. Per percepire la frequenza un tono deve persistere per almeno 3 periodi che corrisponde a circa 13 milli secondi a partire da 50 Hz. La soglia differenziale dipende dalla frequenza.

La figura mostra il rapporto tra la frequenza (oggettiva) di un suono e la sua altezza soggettiva (detta anche intonazione, pitch) espressa in Mel. 1000 Mel corrispondono alla frequenza di 1000 Hz a 60 dB SPL. L’altezza dipende anche dal livello.

Frequenze Basse	L’altezza scende aumentando il livello sonoro: più è intenso e più sembra profondo
Frequenze Alte	L’altezza aumenta con il livello sonoro: più è intenso e più sembra acuto.
Effetto del livello sulla percezione dell’altezza.

L’orecchio umano discrimina circa 1400 altezze (e 280 livelli). Nella pratica sembra che l’orecchio discrimini 7 livelli di sensazione e 7 di altezza per un totale di 49 (corrispondente al numero di fonemi). I semitoni della scala musicale sono 120 (10 ottave), i tasti della tastiera del pianoforte sono 88 (la prima nota è il LA a 27 Hz circa) .

Ampiezza

Il suono più debole che possiamo percepire è il ticchettio di un orologio a 6 metri di distanza in una stanza buia e silenziosa (tecnicamente la soglia di udibilità è fissata a 20 micro Pascal pari a 0 dB a 1000 Hz). La soglia di udibilità cambia con l’altezza e diminuisce per i suono più bassi e più alti. L’esposizione prolungata a suoni intensi produce l’aumento delle soglie di udibilità (ipoacusia, sordità) e sfocia in danni irreversibili all’orecchio.

Autore	anno	Variazione minima Soglia differenziale di percezione dell’ampiezza
Reisz	1928	~1 dB
Dimmick & Olson	1941	JND = 1.5 dB to 3 dB
Atal, et. al.	1962	~ 1 dB
Jestaedt, et. al.	1977	JND @ 80 dB = 0.5 dB JND @ 5 dB = 1.5 dB
Toole and Olive	1988	.25 dB a 5kHz passa banda con Q = 1
Mark Sanfilipo	2005	con equalizzatore a 1/3 ottava: 0.75-1 dB
Giussani	2010	0.1 dB

Nel definire la soglia differenziale si dovrebbe definire anche la larghezza di banda (il Q) come hanno fatto Toole e Olive. Più la manda passante è amplia più la soglia differenziale diminuisce.

Altezza

Soglia di udibilità. Curve di loudness o curve isofoniche

Durata	La durata minima di un suono (al fine del riconoscimento della altezza) è di circa 13 millisecondi pari a circa 3 cicli a 50 Hz.
	La durata minima di un suono (al fine del riconoscimento del timbro) nell’ordine di 15-20 millisecondi. Più la durata è breve tanto maggiore deve essere l’ampiezza. Per impulsi di durata inferiore a 200 mS la sansazione è proporzionale all’energia.

Timbro

Il timbro è quella qualità che rende diversi due suoni che hanno la stessa altezza e intensità. Per riconoscere il timbro il suono deve persistere per almeno 15-20 milli-secondi (la durata di una consonante). Qualsiasi suono di durata inferiore viene percepito come un “click” indistinto. Il timbro dipende dal contenuto spettrale, dal transiente di attacco e di discesa. Il timbro è una grandezza multidimensionale e non ha senso dire che un timbro è più grande o più piccolo di un altro (caso mai più o meno ricco di armoniche). Dire come, quanto e cosa debba cambiare nel timbro per percepire una minima variazione è cosa assai ardua.

In questo caso è complicato definire una soglia minima di percezione e ancor più una soglia differenziale.

La percezione dell’ampiezza dipende dall’altezza del suono, la percezione della durata di un suono molto breve dipende dalla sua ampiezza e la percezione del timbro dipende dalla durata del suono. La percezione di durata, altezza, ampiezza e timbro sono tra loro interdipendenti. Questo indica che queste quattro grandezze non sono un buon set per caratterizzare il suono: per esserlo dovrebbero essere l’una indipendente dalle altre (ortogonali). Il concetto di ortogonalità degli attributi (e quindi delle misure) è fondamentale.

Tecnicamente siamo perfettamente in grado riprendere, registrare e analizzare la variazione di pressione che chiamiano suono sia visualizzando l’ “andamento nel tempo” (con l’oscilloscopio) che il contenuto spettrale (con l’analizzatore di spettro). Siamo anche in grado di rappresentare qualsiasi variazione di pressione sonora (che sia nota dall’inizio alla fine, da silenzio a silenzio) con una funzione matematica. Malgrado ciò resta complicato analizzare il “messaggio” contenuto in un suono (se non riproducendolo nuovamente come suono). Esistono programmi in grado di riconoscere il parlato e trasformarlo in testo scritto, esistono applicazioni per iPhone che riconoscono un brano musicale e ne forniscono autore e titolo. Al momento nessun programma è in grado di analizzare una variazione di pressione e dire quale “percezione” questa provocherà nell’individuo che la ascolta. Questo perché non esiste uno strumento in grado di svolgere lo stesso lavoro dell’apparato uditivo (il sistema orecchio+cervello) e che contenga anche tutte le informazioni presenti nella memoria di un individuo utilizzate nel processo di percezione.

Quindi disponiamo della rappresentazione del fenomeno “suono” ma, da questa, non sappiamo estrarre il particolare “messaggio” o “percezione” che un individuo esperirà ascoltandolo. Questo “messaggio”, per altro, è ampiamente soggettivo e non univoco (basti pensare a cosa possiamo capire ascoltando una conversazione in giapponese se non conosciamo il giapponese).

L’apparato uditivo è piuttosto lento nel riconoscere i suoni e, per velocizzare le operazioni, usa dei trucchi. Il primo trucco è evitare di fare quello che non serve: per esempio quando la sorgente è visibile l’apparato uditivo non esegue la localizzazione. Quando ascoltiamo una persona parlare utilizziamo anche il labiale per capire cosa dice. L’altro trucco sono i “preconcetti”. Il nostro apparato uditivo estrapola un significato da segnali non chiari: il completamento automatico, il riconoscimento dal contesto, il riconoscimento armonico ed il riconoscimento euristico sono quattro meccanismi utilizzati per interpretare suoni dal significato incerto. Questi meccanismi non sono infallibili e l’apparato uditivo compie clamorosi errori (prende lucciole per lanterne, pan per focaccia, fischi per fiaschi, ecc.).

Riconoscimento o completamento automatico	Quando si comprende solo una parte di una parola e se ne completa il significato per confronto con le parole conosciute.
Riconoscimento o completamento dal contesto	Quando la comprensione di una parola deriva dall’analisi del contesto della frase che la contiene.
riconoscimento o completamento euristico	Quando non abbiamo compreso una o più parole ma ugualmente estrapoliamo il significato della frase
riconoscimento o completamento armonico	Quando non ricordiamo completamente una armonia e la completiamo con delle note armonicamente correlate (a nostro gusto).

Il completamento automatico ed il completamento dal contesto sono presenti anche nei programmi di video scrittura e riproducono, di fatto, due funzioni che già ci appartengono.

Analisi Spettrale e Spettro

Per spiegare che cosa è uno spettro bastano poche parole: per un suono periodico lo spettro è la ennupla ordinata di numeri complessi che risulta sviluppando il segnale in serie di Fourier. Un’altra definizione potrebbe essere questa: lo spettro è la rappresentazione di un suono nel dominio della frequenza. Definizione di questo tipo servono solo a chi sa già cosa è uno spettro e quindi sono sostanzialmente inutili.

Proviamo a dare delle definizioni più abbordabili servendoci di un esempio. La difficoltà principale consiste in questo: siamo abituati a muoverci in uno spazio a tre dimensioni, facciamo una certa fatica ad accettare un Universo quadridimensionale (relativistico) perché, nella esperienza quotidiana, il tempo non appare come una variabile indipendente. Immaginare spazi con migliaia di dimensioni non è oggettivamente facile. Ma ci possiamo provare.

I colori primari sono tre: Rosso, Verde e Blu (RGB). Il nostro occhio possiede recettori sensibili a questi tre colori. Combinando i tre colori primari si ottiene qualsiasi altro colore dal bianco al nero. Un pittore fa esattamente così: per ottenere un qualsiasi colore mescola i colori primari (sintesi additiva) in proporzioni opportune. Se il pittore deve descrivere come ha ottenuto un certo colore dirà “il colore X è composto da 3 parti di rosso, 5 parti di verdi e 2 parti di blu”.

Lo “spettro” di questo colore X può essere sintetizzato con questa scrittura: colore X = (3,5,2). Questa “cosa” formata da tre numeri all’interno delle parentesi si chiama terna ordinata (terna = 3 elementi)). Se tra le parentesi ci fossero enne numeri si chiamerebbe ennupla. La terna è ordinata perché, se scriviamo (2,3,5) il colore diventa 2 parti di rosso, 3 parti di verdi e 5 parti di blu che corrisponde ad un colore diverso. L’ordine dei numeri della terna ha un significato e non deve essere cambiato. Quindi lo spettro rappresenta la quantità di ciascun componente che bisogna mescolare per ottenere un certo risultato (in questo caso un colore).

Nel caso del suono non si devono mescolare colori primari ma “toni puri” di diversa frequenza. Un tono puro contiene una singola frequenza e non ha timbro (per es. il suono di un diapason). La sovrapposizione di più toni puri genera un “suono composto” dotato di timbro.

Eccitando contemporaneamente più diapason (ciascuno di frequenza diversa) si ricostruisce un certo timbro (sintesi additiva). I colori primari sono solo tre. I suoni o toni puri sono virtualmente infiniti. Per semplicità possiamo cominciare ad osservache che ogni tasto swl pianoforte corrisponde ad una nota diversa (88 tasti -> 88 note). Ne segue che per rappresentare lo spettro di un suono non basta una terna ma serve una ennupla.

Esiste uno strumento di misura, l’analizzatore di spettro, che estrae dal segnale i toni puri che lo compongono. Per esempio nella figura che segue si vede un segnale (in basso) e le tre sinusoidi che lo compongono.

Alta Fedeltà

l’apparato uditivo, per riconoscere i messaggi sonori, deve fare un certo lavoro e, essendo poco incline alla fatica, predilige i messaggi non ambigui (univoci) che richiedono il minimo sforzo per essere riconosciuti.

La ricostruzione precisa dell’evento originale (in termini di livello sonoro, dinamica, ecc.) non è essenziale: basta ricostruire un campo acustico vagamente simile con una escursione dinamica sufficiente per evocare la percezione originale (lo stesso vale per gli altri attributi). Ne segue che una catena di riproduzione, per essere HiFi, non deve essere necessariamente perfetta (clonare l’evento originale) ma rispettare dei requisiti minimi. Non resta che indagare queste requisiti minimi.

Un requisito veramente irrinunciabile è l’assenza di fatica da ascolto.

Alla fine l’Alta Fedeltà è questo: una riproduzione non affaticante che ricostruisce una distribuzione spaziale plausibile tale da evocare le percezioni tipiche dell’ascolto della musica.

Bisogna anche dire che solo una minoranza dei programmi musicali registrati è ripresa dal vivo quindi, in realtà, non sempre esiste un termine di paragone. Oltre a ciò ciascuno di noi ha assistito ad un numero limitato di esecuzioni dal vivo. Molte cose le abbiamo ascoltate solo riprodotte.

Attenzione che questo discorso non vuol dire che ciascuno si fa la sua personale HiFi ma il contrario: l’HiFi richiede dei requisiti minimi e chi si accosta alla HiFi li deve imparare esattamente come deve imparare i vocaboli, la grammatica e la sintassi di una nuova lingua.