Considerazioni sulla percezione dei suoni [1]

La propagazione di un suono è affidata allo spostamento della massa d’aria che circonda la sorgente sonora che lo ha generato.
- 1Tale spostamento d’aria fa sì che la pressione ambientale misurata in una certa posizione risulti variabile nel tempo, sia pure in modo microscopico, rispetto al  valore della pressione atmosferica.
Al livello del mare, la pressione atmosferica è pari a 100.000 pascal. Una sorgente sonora che emette un suono molto forte, apporta una variazione massima di qualche decina di pascal; all’estremo opposto, un suono appena percettibile determina una variazione di poche decine di milionesimi di pascal.
Il nostro orecchio percepisce la presenza di una emissione sonora proprio rilevando la variazione di pressione ambientale. Per questo, tale variazione prende il nome di pressione sonora.

Il livello sonoro: dal pascal al dBSPL
L’unità di misura della pressione sonora assoluta è il pascal (simbolo Pa, equivalente a 1 newton per metro quadro) ma, in considerazione delle caratteristiche di percezione dell’apparato uditivo di un essere umano, è spesso consigliabile ricorrere ad una descrizione in termini relativi, cioè posta in relazione con un valore di riferimento.  In generale, come riferimento viene adottato quella che si usa definire la soglia di percezione uditiva, numericamente pari a 20 Pa, ossia 20 milionesimi di pascal, valore che si riferisce grossomodo ad un suono al centro della gamma percepibile.
L’unità di misura della pressione sonora relativa è il decibel (simbolo dB spesso accompagnato dal suffisso “spl”, acronimo del termine inglese sound pressure level ossia livello della pressione sonora). In termini matematici, il livello della pressione sonora relativa è pari a 20 volte il logaritmo del rapporto tra pressione sonora assoluta P e pressione sonora di riferimento Prif.

[ db_{SPL} = 20 · Log frac {P} {P_{rif}} ]

Un livello sonoro corrispondente a Prif=20 Pa darà come risultato 0 dBSPL.
L’apparato uditivo di un essere umano è in grado di operare in presenza di livelli relativi di pressione sonora compresi tra la soglia di udibilità (0 dBSPL o anche meno, come si vedrà più oltre) sino ad un massimo compreso tra i 120 ed i 130 dBSPL , livello cui corrisponde la cosiddetta soglia del dolore.
Le ragioni per ricorrere ad una formulazione relativa della pressione sonora in luogo di una descrizione in termini assoluti sono due:

  • Drastica riduzione della scala dei valori. Come risulta ad esempio dalla tab. 1, l’entità della pressione sonora assoluta corrispondente alla soglia del dolore è pari a qualche milione di volte la soglia di udibilità di un suono.
  • La sensazione di percezione del volume di un suono segue leggi logaritmiche più che lineari. Ciò comporta ad esempio la necessità di incrementare decisamente il livello sonoro per ottenere una percettibile sensazione di aumento del volume del suono.

Per fare un esempio, ascoltando un suono si percepirà un aumento di volume solo se questo viene incrementato all’incirca di 3 dB. Ciò significa che il livello di pressione sonora assoluta deve essere aumentato di oltre il 40%.
Il principale svantaggio derivante dalla scelta di una formulazione relativa per il livello di pressione sonora consiste nella maggiore difficoltà di valutazione in presenza di più sorgenti sonore operanti in contemporanea. Difatti, valori di dBSPL non possono essere sommati aritmeticamente.
Calcolare il risultato di una combinazione di due o più suoni è alquanto complesso, salvo in casi particolari (es. suoni puri in fase). In tal caso è:

[ L_{tot} = 20 Log [10^{L_2/20} + 10^{L_2/20}] ]

dove Ltot è il livello risultante, L1 e L2 sono i livelli relativi dei segnali, in dBSPL.
Nel caso di differenze di segnali in fase (cioè somme di segnali in opposizione di fase), vale la medesima espressione con l’unica differenza che nel termine entro parentesi il livello della componente più debole viene sottratto al livello della componente più forte (il logaritmo di un numero negativo non esiste).
Sempre nelle ipotesi avanzate, è possibile trasformare per via grafica (ad esempio utilizzando il grafico precedente) i valori relativi in dBSPL in valori in pascal, operare su questi con semplici addizioni e sottrazioni per poi trasformare il risultato in dBSPL .
Si può altresì calcolare la differenza in dB tra le due componenti da sommare, dopodiché dal regolo in fig. 2 è possibile calcolare l’incremento da attribuire alla componente di livello sonoro più elevato per ottenere il risultato.

- 2

Dovendo ad esempio sommare una componente di livello sonoro L1=80 dBSPL  ed una seconda di valore L2=73 dBSPL,  si ha come prima cosa che la differenza tra esse è pari a 7 dB (80-73). Dal regolo si legge che l’incremento da considerare è pari a 0,8 dB, dunque il livello complessivo L = L1 + L2 risulterà pari a 80 + 0,8 = 80,8 dBSPL.

La percezione dei suoni
Salvo che in presenza di livelli sonori molto elevati, l’apparato uditivo di un essere umano non è ugualmente sensibile a suoni di diversa frequenza, a parità di intensità degli stessi. A parità di livello di pressione sonora, l’essere umano percepisce con maggiore facilità suoni di media frequenza piuttosto che suoni acuti o gravi.
Ciò è messo in risalto dalle cosiddette curve di Fletcher e Munson (vedi fig. 3)

- 3

La curva più in basso fornisce l’andamento della soglia di sensibilità dell’apparato uditivo umano in funzione della frequenza dell’emissione sonora. Si deduce che per avere la prima percezione di un suono a 100 hertz è necessario incrementare il livello di pressione sonora di quasi 40 dB rispetto al livello di pressione che consente la prima percezione di un suono di frequenza 1.000 hertz (cento volte superiore, in termini assoluti). All’opposto, per percepire un suono di frequenza pari a 10.000 hertz serve un aumento di livello pari a 10 dB rispetto al livello di pressione necessario per un suono di frequenza 1.000 hertz, ovverosia oltre tre volte il valore originario.
Sempre rispetto al riferimento a 1 kHz, un suono di frequenza pari a 4.000 hertz necessita di un livello sonoro inferiore di circa 8 dB, cioè più che dimezzato. Le varie curve del grafico di Fletcher e Munson sono ricavate per successivi incrementi di 10 dB a partire dal livello sonoro di riferimento (20 micropascal a 1 kHz). Ogni curva è definita per uniformità di sensazione uditiva alle varie frequenze, ed a ciascuna di esse viene associata ad un valore in phon, una unità di misura appositamente introdotta per quantificare l’intensità della sensazione di ascolto (in inglese loudness level).
Si noti che all’aumentare dei livelli sonori le curve tendono a divenire sempre meno arcuate soprattutto verso l’estremo inferiore della banda audio. A livelli sonori elevati, prossimi alla cosiddetta soglia del dolore (120 dB circa a 1 kHz), l’orecchio umano presenta differenze di sensibilità alle varie di frequenze quantificabili in soli 10 dB. Per contro, a livelli sonori appena percettibili, le differenze di sensibilità raggiungono quasi i 60 dB. Livelli sonori dell’ordine prossimi alla soglia del dolore possono determinare danni permanenti all’udito. Per quanto attiene all’analisi percettiva di fenomeni sonori reali, la curva da prendere come riferimento è dettata dall’entità del livello sonoro del fenomeno.
Ad esempio, nel colloquio tra due persone il livello sonoro medio è pari a circa 70 dB, quindi la curva di interesse è quella a 70 phon. In discoteca, il livello sonoro raggiunto si aggira intorno ai 100 dB, per cui la curva di riferimento è quella a 100 phon, e così via. Dal grafico in questione si ricava ad esempio che un suono di livello pari a 80 dB alla frequenza di 1 kHz ed un suono di livello pari a 85 dB alla frequenza di 100 Hz danno la sensazione di avere lo stesso “volume”.
Da notare che le curve di percezione subiscono sensibili modificazioni laddove l’emissione sonora sia costituita di almeno due componenti di frequenza non molto differente e di livello diverso.
In tal caso, per un fenomeno noto come effetto di mascheramento, la curva di sensibilità si modificherà rigonfiandosi nell’intorno della frequenza del suono più intenso riducendo conseguentemente, nel contempo, la sensibilità per tutto un intervallo di frequenze (vedi fig. 4).

- 4

Se la seconda componente sonora (A in figura), per ipotesi di livello inferiore alla precedente (B in figura), ha una frequenza ad essa prossima, essa potrà risultare inaudibile anche se il suo livello è in valore superiore a quello proprio della curva di percezione, ovverosia se in presenza di questa sola componente il suo suono risulterebbe udibile ad un ascoltatore.

Livelli sonori e relative sensazioni percettive
A seconda della sua intensità, o volume, un suono può produrre un ampio ventaglio di effetti sul piano percettivo, più o meno piacevoli, più o meno fastidiosi, come risulta dalle seguenti tab. 2 e 3

Tabella 2

Evento o situazione Livello sonoro (dBSPL) Effetto acustico
Jet in fase di decollo a 60 m 120 SOGLIA DEL DOLORE
Lavori in cantiere edile 110 Insopportabile
Sparo a 1,5 m 100
Camion pesante a 15 m 90 Molto rumoroso
Strada urbana trafficata 80
Abitacolo di un’automobile 70 Rumoroso
Voce di tono normale a 1 m 60
Interno di un ufficio 50 Moderato
Ambiente domestico 40
Camera da letto di notte 30 Quieto
Studio di registrazione 20
Foglie che cadono 10 Appena percettibile
Voci in lontananza 0 SOGLIA DI UDIBILITÀ

Tabella 3

Sorgente sonora e distanza Livello sonoro (dBSPL)
Concerto di musica rock (prime file) 110
Urlo umano a 2 m 85
Musica riprodotta da impianto HiFi, a 2 m 80
Voce umana a 1 m 65
Musica da camera non amplificata, a 4 m 60
Musica di sottofondo in ambiente silenzioso 45

Percezione del parlato
E’ ampiamente dimostrato che la sensibilità del nostro apparato uditivo è fortemente votata alla percezione di suoni di frequenze proprie della voce umana. Ciò è sempre da tenere in considerazione quando si parla di riproduzione o diffusione sonora. Tendenzialmente, il sistema di generazione della voce è costituito da una sorgente sonora, costituita dalle corde vocali, e da un sistema di filtraggio che viceversa è rappresentato dal tratto vocale, ossia da tutto ciò che va dalle corde vocali sino alle “uscite primarie” del sistema, la bocca e le narici. Sia nel canto come nel parlato, le corde vocali controllano il tono della voce mentre il tratto vocale articola le consonanti, determina le vocali e stabilisce il timbro della voce.
E’ proprio nella pronuncia delle vocali che si ha modo di apprezzare le peculiarità della menzionata azione di filtraggio del tratto vocale. Analizzando la voce di una persona, non importa se di sesso maschile o femminile, all’atto della pronuncia delle vocali, si può infatti constatare che questa è costituita da vari “pacchetti” di energia sonora concentrati in corrispondenza di ben precise frequenze. Queste concentrazioni di energia sono denominate formanti e la loro creazione viene attribuita, con peso variamente distribuito a seconda del genere di vocale, alle diverse cavità risonanti di cui l’organo della voce dispone. Nella fattispecie, si rammenta che con cavità risonante si intende qualunque spazio chiuso dotato di un’apertura. L’esempio più semplice che viene in mente è quello della bottiglia. Soffiando aria attraverso il suo collo, essa produrrà un suono caratteristico, ovvero, come si suole dire “risuonerà”. Nel parlato, la gamma delle fondamentali è compresa tra 110 e 165 Hz per una voce maschile e tra 220 e 330 Hz per voci femminili e bianche. La gamma di frequenze della voce è completata da un gran numero di parziali, il che porta il limite superiore della gamma ben oltre i 10 kHz per la voce maschile e oltre i 15 kHz per la voce femminile; il timbro della voce di un essere umano è in gran parte imputabile al diverso peso associato ad ogni parziale. La gamma dinamica della voce umana è straordinariamente elevata e raggiunge i suoi massimi nel canto, per il quale in media il minimo livello di pressione sonora ad una ventina di centimetri è pari a 50 dB mentre il massimo livello sonoro supera i 105 dB per una voce tenorile ed i 110 dB per una voce di soprano. Nel parlato non vengono raggiunti simili apici, per quanto picchi di 120 dB a breve distanza non siano da considerare un evento eccezionale; il livello medio di una conversazione è compreso tra 60 e 70 dB. La distribuzione spettrale della voce (vedi fig. 5) umana varia in funzione del volume adottato da chi parla.

- 5

Più il volume della voce è alto, più le componenti di frequenza intermedia risultano rafforzate rispetto alle altre.
Con l’aumentare del volume della voce, variano nel contempo sia il tono che il timbro della voce. Rispetto alla voce maschile, lo spettro della voce femminile è leggermente spostata verso le frequenze più alte. Quello che nel grafico in questione viene definito “normale” è un volume di voce tipico di una conversazione tra persone giovani, a distanza reciproca di circa un metro. Timbro e tono ne sono una conseguenza naturale. Si osserva che la curva associata al termine “normale” è quella che deve essere presa come riferimento nell’ambito della progettazione di impianti audio in cui sia prevista la diffusione di messaggi e di comunicati in genere. In generale, il volume di voce che un parlatore decide di adottare è quello che a seconda dei casi è in grado di instaurare un efficiente trasferimento delle informazioni verso chi ascolta. A parte il caso dell’alterazione dello stato d’animo, le tre ragioni principali per l’incremento del tono di voce sono le seguenti:

  • aumento della distanza tra chi parla e chi ascolta (l’intensità della voce diminuisce, come per ogni sorgente sonora convenzionale, di 6 dB per ogni raddoppio della distanza);
  • elevato livello della rumorosità ambientale;
  • età avanzata dei soggetti.

Con il passare degli anni si tende a perdere in maniera sempre più consistente la capacità di percepire componenti sonore di frequenza medio-alta. Come risulta dalle figg. 6 e 7, tale perdita di sensibilità è più marcata nell’uomo che nella donna.

E’ interessante notare che mentre il contenuto in frequenza della voce umana è marcatamente spostato verso le medie frequenze, all’intelligibilità del parlato concorrono soprattutto componenti di frequenza medio-alta (vedi fig. 8).

- 8

Ciò deriva dal fatto che l’intelligibilità del parlato dipende principalmente dalla comprensione delle consonanti, la cui pronuncia è in ogni lingua ricca di transitori ripidi, e dunque di componenti di frequenza medio-alte. La banda d’ottava centrata attorno ai 2 kHz, in particolare, è la più importante tra tutte, essendogli attribuibile un peso pari ad oltre il 30%. Tutto ciò indica anche che la voce femminile, con la sua maggior ricchezza in componenti di frequenza medio-alta, risulta più facilmente intelligibile di quella maschile.

Bibliografia

[1] U.Nicolao, Acustica Applicata per la Diffusione Sonora, Ed. Il Rostro, Milano, 2003;
[2] D. e C.Davis, Sound System Engineering, Howard Sams & Co., Indianapolis, IN, USA, 1987;
[3] Sound System Design Reference Manual, Pubblicazione JBL Professional, Stati Uniti;
[4] Speech Intelligibility, Pubblicazione JBL Professional, Stati Uniti.

[1] pubblicato su Il Giornale dell’Installatore Elettrico, n.5, anno 2004