Impianti di diffusione della voce e intelligibilità del parlato [1]
Dopo aver trattato della percezione uditiva, affrontiamo di seguito l’argomento della relazione che intercorre tra acustica ambientale ed intelligibilità del parlato…
Gli impianti di diffusione sonora per grandi ambienti sono sempre finalizzati alla comunicazione, talora solo per diffondere messaggi di allarme, altre volte per distribuire programmi musicali, molto spesso per diffondere sia musica che messaggi vocali in genere. A seconda della specifica finalità del sistema di sonorizzazione, esso deve soddisfare ben precisi requisiti; gli oggetti di tali requisiti sono di norma i medesimi e a differire da applicazione a applicazione sono le condizioni nelle quali tali requisiti finiscono per tradursi. Ad esempio, un segnale di allarme deve essere abbastanza intenso da essere percepito da chiunque possieda un udito non compromesso ed abbastanza distinguibile da altri suoni presenti nell’ambiente interessato. Per la musica, ciò non basta, essendo richiesta anche una certa naturalezza in sede di riproduzione ed una buona qualità complessiva; inoltre, una certa amalgama con il suono riverberante può tradursi in un effetto uditivamente gradevole. Per il parlato, cambia solo un parametro: un certo grado di miscelazione con il suono riverberato viene tollerato. Difatti, la massima intelligibilità del parlato si ha in assenza di rumore ambientale e di suono riverberato. A livello pratico ciò è virtualmente impossibile da ottenere ma per fortuna non è nemmeno necessario.
Acustica ambientale e intelligibilità
Dato un ambiente di grandi dimensioni, l’intelligibilità del parlato in una certa posizione dipende dall’ammontare del suono riverberante presente nel suono ivi percepibile. Ciò rende ragione dell’importanza del cosiddetto rapporto suono diretto/suono riverberante. Più lungo è il tempo di riverberazione, minore in proporzione è la quantità di suono riverberato tollerato rispetto al suono diretto. Il secondo parametro acustico in ordine di importanza è l’ammontare del rumore ambientale esistente negli istanti in cui viene diffusa la voce, ciò che porta alla definizione del cosiddetto rapporto segnale (utile)/rumore. L’entità del rapporto segnale/rumore tollerabile in una certa situazione dipende dal rapporto suono diretto/suono riverberante. In pratica, l’uno è intercambiabile con l’altro. Anche se l’intelligibilità del parlato è una entità alquanto complessa, spesso essa può essere prevista con ragionevole accuratezza e con metodi estremamente semplici. D’altra parte, proprio per la sua soggettività, non vi è alcun mezzo pratico per predire accuratamente il grado di comprensione di un programma vocale per un determinato individuo, né è possibile misurarlo per via elettronica, neanche con il supporto dei mezzi informatici più avanzati. Il metodo più preciso ed attendibile attualmente disponibile si basa sull’impiego di strumenti atti a rilevare l’indice di trasmissione del parlato STI attraverso la misura della funzione di trasferimento della modulazione (Modulation Transfer Function) o il suo computo a partire dalla risposta all’impulso rilevata in ambiente. Quando l’analisi coinvolge quantomeno le frequenze più importanti a livello percettivo, l’STI è un valido indicatore dell’intelligibilità media del parlato per un gruppo di ascoltatori medio, sempre seduti o in piedi a seconda delle posizioni di misura prescelte, in presenza di un messaggio vocale nella loro lingua, chiaramente scandito con velocità media da un lettore della stessa lingua. Un accurato modo alternativo per “misurare” l’intelligibilità del parlato consiste nella lettura e nell’ascolto di parole senza senso incluse in liste o frasi prolungate, nella scrittura di tali parole e nel confronto con quelle effettivamente lette. La percentuale di consonanti erroneamente comprese è un’ottima misura, nota come perdita di articolazione delle consonanti o ALcons. Una gamma di ALcons accettabile è compresa tra il 5% (adeguata per ogni scopo) ed il 15% (accettabile per messaggi di bassa complessità), come risulta dalla Tab. 1.
Tabella 1
VALORI DI ALCONS | GIUDIZIO |
da 0 a 5 | intelligibilità ottima |
da 5 a 10 | intelligibilità buona |
da 10 a 15 | intelligibilità sufficiente |
da 15 a 20 | scarsa intelligibilità |
superiore a 20 | cattiva intelligibilità |
Va considerato che queste non costituiscono però perdite effettive, bensì perdite parziali imputabili all’effetto di mascheramento del segnale vocale da parte del rumore ambientale, del suono riverberante e di eventuali prime riflessioni intense. Per ottenere il valore effettivo di perdita di articolazione delle consonanti proprio di un singolo ascoltatore dovrà essere aggiunta una costante compresa tra l’1,5 ed il 12,5% che tenga conto della sua predisposizione all’ascolto (a sua volta funzione dello stato d’animo, della conoscenza della lingua del messaggio, ecc.). Un terzo fattore, stavolta da detrarre alla somma dei precedenti, tiene conto dell’abilità dell’oratore e di chi ascolta il messaggio, dato che questi in condizioni reali ha in genere la capacità di risalire (spesso senza rendersi conto) all’esatta parola pronunciata, ovviamente se questa ha un senso compiuto all’interno di una frase. Tale fattore è difficilmente quantificabile e di solito viene considerato semplicemente come un margine di sicurezza. Rimane poi il fatto che l’intelligibilità del parlato in senso lato differisce a seconda della posizione considerata nell’ambiente. Proprio per tutto questo, quando si progetta un sistema di diffusione sonora per il parlato è buona cosa prendere come riferimento non un singolo valore, bensì una gamma di ALcons; a seconda dell’applicazione prevista è opportuno definire un valore ottimale, uno medio ed uno pessimistico. E’ inoltre consigliabile fare in modo che il valore ottimo sia riscontrabile nella posizione che verosimilmente andrà ad essere occupata dall’ascoltatore meno abile. Se ciò non è possibile o se l’ascoltatore non è libero di muoversi, si dovrà scegliere un valore di intelligibilità media (ad esempio calcolato su oltre l’80% dello spazio destinato all’audience) prendendo come riferimento sempre l’ascoltatore meno abile. Per un progetto basato su valori prefissati di ALcons, si dovrà scegliere come riferimento un realistico valore per il rapporto suono diretto/suono riverberato, dipendente dal tempo di riverberazione previsto e dal rapporto segnale/rumore accettabile. Dato che spesso è arduo prevedere accuratamente l’abilità di un oratore o di un ascoltatore, non è possibile prevedere l’ALcons con una precisione assoluta.
Le formule di Peutz
Risale ai primi anni settanta la pubblicazione del primo dei fondamentali lavori dell’olandese V. Peutz sull’intelligibilità del parlato, dopo una attività di ricerca durata circa 15 anni. L’approccio del gruppo di lavoro di Peutz al problema è molto simile a quello che sul finire dell’ottocento aveva portato l’americano Sabine a definire una formula per il tempo di riverbero RT60, tutt’oggi ampiamente utilizzata da progettisti e architetti. Si trattava in pratica di valutare, per un certo numero di ambienti di diverse dimensioni e caratteristiche acustiche, il grado di intelligibilità del parlato in funzione della distanza da una sorgente sonora omnidirezionale, riportare i dati in forma di grafico ed infine ricercare una funzione delle principali variabili acustiche e geometriche dell’ambiente che fosse sufficientemente rappresentativa per i casi esaminati. In fig. 1 è illustrata una serie di questi grafici, con l’indicazione del volume e del tempo di riverbero RT60 (T in figura).
Andamenti della perdita di articolazione delle consonanti (ALcons) in funzione della distanza da una sorgente omnidirezionale, rilevati in ambienti di varie cubature [5].
Si può constatare che in tutti i casi l’andamento dell’ALcons è simile: esiste una prima fase in cui la curva evidenzia una dipendenza quadratica dalla distanza, seguita da una seconda in cui l’ALcons si mantiene costante. Quest’ultima fase si manifesta ad una certa distanza detta distanza limite DL numericamente pari a:
\[ D_L= 0,2 \sqrt{\frac{V}{RT_{60}}} \]
dove V è il volume dell’ambiente in m3 ed RT60 è il tempo di riverberazione calcolato alla fre-quenza desiderata (tipicamente 2 kHz). Ciò da modo a Peutz di definire le seguenti formule, ancora oggi molto impiegate per la loro discreta accuratezza:
\[ AL_{cons}=(\frac{200·D^2·RT^2_{60}}{VQ}+a)\%……………D\leq D_L \]
\[ AL_{cons}=(9RT_{60}+a)\%………………………D> D_L \]
in cui D è la distanza ascoltatore-diffusore acustico considerata, Q è il fattore di direttività dei diffusori acustici impiegati, a è la costante di correzione in riferimento al grado di abilità dell’ascoltatore ipotizzato. Questa ultima è compresa tra i valori di 1,5 (ascoltatore di eccellenti doti e massima attenzione) e 12,5 (ascoltatore disattento o scarsamente perspicace per ragioni emotive, linguistiche, ecc.) Tali formule sono valide per ambienti dal campo sonoro riverberante omogeneo ed isotropo (ovverosia senza direzioni preferenziali per le emissioni sonore riflesse), in cui il rapporto segnale/disturbo sia uguale o superiore a 25 dB. In fig. 2 è illustrata una famiglia di curve che esprimono l’andamento dell’ALcons al variare della distanza D (espressa come rapporto di questa con la distanza limite) per vari valori del tempo di riverbero RT60.
Perdita di articolazione delle consonanti ALcons in funzione del rapporto tra distanza d e distanza limite DL (ovviamente d/DL=1 significa d = DL) per ambienti con diversi tempi di riverbero [5].
Ipotizzando il 15% come soglia di ALcons da non oltrepassare per non incorrere in problemi di scarsa intelligibilità del parlato, dall’esame del grafico in questione emergono alcuni risultati interessanti:
- ambienti con tempi di riverbero non superiori a 1,6 secondi non soffrirebbero di problemi di intelligibilità nemmeno per ascoltatori posti oltre la distanza limite. Ciò coincide con quanto deducibile anche dalla seconda formula di Peutz, essendo il prodotto 9∙RT60 inferiore a 15 proprio per RT60 < 1,67 secondi.
- per ogni ambiente per il quale il tempo di riverberazione è superiore a tale valore, potrebbe essere definita una distanza limite effettiva, che è quella oltre la quale viene oltrepassata la soglia del 15% di ALcons
E’ comunque da rammentare l’incidenza del fattore “a” della formula di Peutz, non incluso nel limite del 15% considerato. Qualora il rapporto segnale/disturbo S/N scendesse al di sotto degli ipotizzati 25 dB, si verifica un aumento della perdita di articolazione delle consonanti, come dimostra la fig. 3.
Relazione tra perdita di articolazione delle consonanti ALcons, rapporto segnale/disturbo S/N e tempo di riverbero RT60. Il grafico si riferisce ad una distanza prossima a quella limite DL [5].
Si noti ad esempio che per un ambiente con RT60 =1,5 s, l’ALcons è inferiore a 15 per un rapporto segnale/disturbo di 25 dB, ma diviene superiore a tale valore se solo il disturbo di fondo aumenta di 5 dB (ovviamente a parità di segnale utile). Gli studi di Peutz, da cui sono ricavati i precedenti grafici, si riferiscono all’impiego di una sorgente omnidirezionale (Q=1) operante nella banda d’ottava centrata attorno a circa 1,6 kHz. Nelle formule attribuite in precedenza a Peutz figura il fattore di direttività Q della sorgente sonora, come suggerito dallo statunitense Don Davis. Ciò comporta che scegliendo una sorgente sonora più direttiva (aumenta il Q, vedi . 4), si verifica una diminuzione dell’ALcons e dunque un miglioramento dell’intelligibilità.
Caratteristiche di dispersione teoriche di varie sorgenti sonore, con indicazione del fattore e dell’indice di direttività (cortesia G.Noselli, Outline)
Acustica ambientale e intelligibilità
In un ambiente totalmente o parzialmente chiuso ove sia presente una sorgente sonora in funzione, ogni posizione che si consideri è raggiunta in successione di tempo da:
- suoni diretti
- prime riflessioni (suoni riflessi da una o due superfici)
- suoni riverberati (suoni riflessi da numerose superfici)
Nell’ipotesi che la sorgente sonora smetta improvvisamente di emettere, l’emissione sonora diretta sarà la prima a cessare, mentre suoni riverberati continueranno a raggiungere la posizione considerata per un certo intervallo di tempo. La durata di quest’ultimo dipende delle caratteristiche acustiche dell’ambiente in relazione al contenuto in frequenze dell’onda sonora irradiata, nonché dalle peculiarità del mezzo in cui il suono si propaga, ovvero l’aria. Quando un consistente “pacchetto” di componenti sonore riverberate raggiunge la posizione con un ritardo dell’ordine dei 50 millisecondi rispetto all’istante di arrivo dell’emissione diretta dalla sorgente, si verifica il tipico effetto noto come eco. Le peculiarità del riverbero prodotto in un certo ambiente chiuso rappresentano la sua “carta d’identità acustica”; per questo, quando si deve valutare l’acustica di uno spazio destinato ad essere sede di eventi sonori o musicali, uno dei parametri fondamentali che vengono considerati è il cosiddetto tempo di riverberazione. Il tempo di riverberazione coincide con la durata dell’intervallo di tempo (in secondi) che intercorre tra la cessazione dell’emissione sonora e l’istante in cui il livello sonoro decade di 60 dB, da cui l’abbreviativo RT60, o anche T60, di uso alquanto ricorrente (vedi fig. I)
Per un determinato ambiente, il tempo di riverberazione dipende dalla posizione considerata così come dalla frequenza della emissione sonora prodotta dalla sorgente (oltre che dalla posizione di quest’ultima). Proprio per questo, per una adeguata conoscenza della acustica di un ambiente devono essere noti i tempi di riverbero misurati a diverse frequenze ed in diverse posizioni (vedi fig. II).
Bibliografia
[5] V.Peutz, “Articulation loss of consonants as a criterion for speech transmission in rooms”, 1971, Convegno AES, Colonia, Germania
[1] pubblicato su Il Giornale dell’Installatore Elettrico, n.7, anno 2004
0 Commenti
Scrivi un commento