11 giugno 2023

L'audio per dummies 3 - Livelli in uscita - home studio

i livelli in uscita sul master

In ingresso si presta sempre attenzione solo ai livelli di picco mentre in uscita si aggiunge l'intensità come valore da misurare.

C'è differenza tra quel che incidi e quello che ascolterai, che deve essere elaborato, pulito e pompato. Si ma in particolare nel mix finale, non vale completamente per i file della sola voce che sono solo una parte degli ingredienti del mix.

Livelli di mix in uscita dalla scheda audio: il metro di misura sul canale master rispetto ai livelli dei file che compongono il mix è un po' differente.
Per il mix finale è necessario rispettare i livelli dei suoni adatti ai media cui è destinato il prodotto e i livelli si misurano oltre che in dBFS anche in RMS, LUFS /LKFS. Valori che misurano l'intensità a breve e lungo termine.

I dBFS (decibel fondo scala) sono utilizzati in digitale per definire il picco massimo dei transienti (le punte più alte delle onde sonore digitali) ma non misurano l'intensità e la percezione media del suono.
Però la influenzano, in quanto se il limite è superato dai transienti mentre il suono medio rimane basso non si ottiene intensità (loudness) ma distorsioni, clipping, sovra modulazioni; accade anche quando il suono passa attraverso processori o plugin digitali.

dBTP (deciBel True Peak) in pratica è quasi la stessa cosa, ma più precisa, calcolando il campione di 16bit a 48K moltiplicato X4 (192K) così da ottenere la "vera" misura nel tempo piuttosto che nel campione del file.

Per essere più chiari: il campione a 16bit è uno scatto di un momento (un 48millesimo) del livello del file.
Tra un 48millesimo e l'altro (singola fotografia di quell'istante) esiste una frazione di tempo indefinita per dBFS ma che, nell'esecuzione del file, produce teoricamente un suono non misurato nel file. Se il suono era in ascesa all'inizio del campione, e si trova nello stesso punto alla fine, è probabile che nel tempo non registrati in mezzo il suono abbia proseguito la sua corsa in alto per poi scendere o vice versa.

Quel livello non presente nel 48millesimo viene scovato (ipotizzato) sovra campionando il file di 4 volte, scoprendo così che in alcune parti del file esiste un volume possibile di picco definito come quello vero (True). Questa è la mia interpretazione, passibile di miglioramenti da parte di addetti più ricchi di sapere.

Sistema di misura definito dalla ITU.

Parentesi sui bit in registrazione

Dei BIT in registrazione occorre parlarne a parte.
I bit sono una espressione della capacità dinamica di un file, ogni blocco da 8, 16, 24, 32, 64 o 32 bit in virgola mobile ha una sua capacità massima di accogliere il suono. Ogni bit in più aggiunge 6dB di volume possibile. 24X6=144 dB (16 milioni di valori di misura contro i 256 degli 8 bit).
32X6=192 dB.

32 bit floating point (virgola mobile) sopportano 1528 dB.

Considerando che un microfono standard non ci arriva a quel livello, che la massima pressione sonora registrata sulla terra è stata di 210 dB, potrebbe sembrare inutile avere così tanta dinamica disponibile.
Ma l'audio e la sua registrazione non segue queste lineari regole logiche, parto da 0 e salgo fin che ce n'è, no! Arrivo allo zero partendo in genere da -40dB, circa 104 dB sopra lo zero matematico, se va bene. Cuffie permettendo. Rumore elettrico di fondo permettendo.
Se con il 24 bit una volta toccato lo 0 era come farlo con il 16 bit, si distorceva, a 32 floating point non ci si arriva proprio alla distorsione anche tenendo il gain altissimo. Perfetto dunque per ogni fonte che abbia picchi improvvisi come gli effetti sonori di motori, oppure come le batterie o le grandi orchestre.
Ma utilissimo per chiunque registri, dato che senza alcuna distorsione anche minima, il suono è davvero molto più definito ed è recuperabile per riportarlo ai volumi di cui parlo in questo articolo; perché non puoi riprodurli suoni a 900/1000/1500dB, devi sempre riportarli entro gli standard.
La registrazione e la riproduzione sono mondi separati con in comune solo il risultato ottenuto in registrazione che influenzerà quello in riproduzione. Se registrerai male, avrai un pessimo suono in uscita.

dinamica e percezione

In editing e in play, lungo tutta la catena dove faremo passare il suono sarà necessario evitare di clippare alzando i gain in ingresso al plugin altrimenti anche il miglior file a -18dB va in distorsione.
I livelli di picco sono controllabili ed è possibile gestire la loro forza per ottenere più densità nel suono, più loudness. Vale a dire che tra due file audio, a parità di livello massimo di dBFS, uno sembra abbia più volume rispetto all’altro.

Per sintetizzare: un file dalla grande dinamica di solito ha poca intensità. Poco loudness. Al contrario, a pari livello, se ha più intensità avrà meno dinamica.

Loudness, l'intensità con cui il suono del file audio viene percepito. Si misura in LUFS (Loudness Unit Full Scale secondo EBU).

L'istituto di standardizzazione ITU che ha realizzato il metodo per misurare la percezione del suono lo ha chiamato LKFS. Uguali, per noi mortali cambia solo il nome.

Il LUFS/LKFS esegue un calcolo sulle varie bande di frequenza del suono. Esegue un calcolo su tutto l'audio ed è così che si verifica se il file che hai mixato è a livello, alla fine.

Durante l'ascolto puoi avere un idea guardando i livelli detti "short term", cioè effettuati su pochi istanti. Nel frattempo devi evitare i livelli di picco superiori alla soglia stabilita. Sul web il file finalizzato va da -3dB a -0,5dB. La soglia di sicurezza secondo molti è a -0,7dB che è il punto a cui le peggiori schede audio dei vari device distorcono.

LRA (Loudness Range): la variazione di LU (Loudness Unit) tra i vari livelli del suono, tra quelli molto intensi e quelli molto bassi. LRA usa i LU come unità di misura e nelle TV 20 LU sono il livello consigliato che si raggiunge usando un compressore nel caso sia troppo elevato o troppo basso. In uno spot invece, dato anche il tempo ristretto d'intensa esecuzione, l'LRA fornirà misure differenti:

uno spot potrebbe avere 2.6LRA, un bianco da una catena audio con leggero compressore a 14.3.

Stesso file normalizzato: LRA 14.1 | -23 LKFS | -1 dBFS

Spot radio: LRA 2.2 | -7.6 LKFS | -0.8 dBFS

Un microfono Neumann in sala di registrazione senza compressori, riprendendo una conversazione si aggira sui 20 LRA. Il valore però cambierebbe se unissi una partita di calcio e una telenovela e degli spot senza alcun controllo dinamico con quegli effetti in cui non senti il commentatore ma appena parte lo spot si aprono le finestre.
Aggiungendo compressori e limiter il livello si abbassa aumentando il livello LUFS ma rendendo minore la variazione.
La variazione è il problema da tenere sotto controllo nei media televisivi e questa misura, LRA, serve a definire come varia il livello negli audio ma il suo scopo sono le trasmissioni broadcast: un film a basso volume e la pubblicità sparata ad esempio. LRA è stato definito da EBU, European Broadcasting Union.

Questo parametro serve in particolare nelle produzioni lunghe come film o documentari oppure come lettura in uscita per radio e TV.

Il LUFS/LKFS Considera come viene percepito il suono basandosi su quanto sappiamo della percezione umana del suono.

Per esempio, un suono ad un certo volume lo percepiamo più alto se si trova su una frequenza differente o addirittura per noi varia la tonalità con il variare del volume. Il nostro orecchio è fatto per sentire certi suoni e in aggiunta il cervello si concentra e isola quello che ritiene interessante o pericoloso o curioso.

Per farti un esempio, per far sentire una grossa esplosione, si abbassa tutto il suono dell'ambiente prima dell'evento. La mente si accende all'improvviso silenzio e l'esplosione gode di tutto il suo fragore. Hai mai dormito meglio con il rumore costante della TV poi qualcuno la spegne e ti svegli?

Oppure tra tanti rumori tutti egualmente importanti nel mix, basta che quello che vuoi evidenziare sia preponderante all'inizio e poi scenda e si impasti per sembrare sempre enorme. Si usa per esempio allentando il tempo di attacco dei compressori così che il colpo di uno strumento dia l'impressione di essere particolarmente forte ma non faccia poi sparire tutti gli altri dopo.
L'orecchio l'ha colto e la mente lo segue.

Molte tecniche di mix che considerano come la mente percepisce ciò che l'orecchio gli manda sono utilizzate in pubblicità o nei film, oltre che nella musica. Non è solo volume o pan-pottaggio, si tratta di tempi, frequenze, ritardi.

A questo va aggiunto che un suono troppo pompato o distorto affatica l'orecchio e perde di valore, a dispetto di quello che vorrebbero spesso i clienti: dai volume, spingilo. Potresti ottenere il contrario.

Riguardo le intensità dei suoni esistono altri "standard" seguiti in vari paesi che si prefiggono gli stessi obiettivi: dettare una regola per tutti così da armonizzare l'emissione sonora in TV, nei cinema, alla radio eccetera. Esistono parametri di legge a seconda del genere e dei media di destinazione per evitare che all'arrivo degli spot o delle sigle si verifichi quella fastidiosissima botta di volume che il film non aveva.

YouTube e altri canali pubblici invece sono di manica larga, per ora, nelle loro interfacce pubbliche. Hanno standard invece nelle piattaforme musicali e di cinema on demand.

I software che usiamo per assemblare gli audio, nelle versioni professionali fanno uso di misuratori - meter - per consentirti di sapere se suoni correttamente. Così come un metro è tarato sul metro da tutti adottato come standard, quelli sono tarati o regolabili per rispettare i livelli richiesti.

Si potrebbe andare oltre raccontando di come i pubblicitari e i fonici abbiano scovato trucchi per aumentare la percezione del volume ingannando il metro di misura, come di sicuro hai intuito.

RMS, il vecchio misurino sempre attuale

L'RMS ha radici analogiche ed era già un misuratore d'intensità, meno raffinato.
Si trova come riferimento nelle DAW ed è ampiamente usato sui meter.
L'RMS calcola la resa media della forma d'onda dal picco massimo al picco minimo in un lasso di tempo solitamente breve. In alcuni software è possibile regolarlo. Comunque la sua media è simile alla misura detta Short Term per il LUFS, di cui ti ho detto.

Anche nelle versioni digitali l'RMS non considera la percezione soggettiva media a lungo termine e neppure la psico acustica.

I vecchi Vu-Meter per ragioni meccaniche non fornivano il livello di picco in tempo reale e per ovviare si usava un LED, comunque non troppo preciso, così che il movimento dell'asticella veniva letto come RMS e l'accensione del led il picco dei suoni.

L'RMS mostra una media dello 0.770 sul picco.

I livelli in uscita dal mix - il Loudness

Youtube o Facebook come altre piattaforme nella loro facciata dedicata all'uso privato come detto sono parecchio di manica larga e non normalizzano i file accettando qualsiasi cosa sia in termini di dBfs che di LUFS/RMS.

In genere se carichi un video per la tua azienda o il tuo canale privato, puoi tenere il file come ti pare. Ma questa non è una buona ragione per non rispettare buone regole dato che dietro queste ci sono motivi tecnici per mantenere un buon livello qualitativo. Basti pensare che a parità di dB di picco lo stesso file può suonare più o meno forte, può avere maggiore o minore LUFS o RMS, può essere più o meno percepibile nella sua intensità.

Parlando di livelli di picco, si evita sempre di stare a 0dB sia per ragioni di efficienza dei codec di compressione sia per le possibili scarse capacità di esecuzione del file da parte dei convertitori, gli ADC, quei cosi che trasformano il file in suono.

I convertitori da digitale ad analogico presenti in tutti i device d'ascolto (eccetto la radio a transistor e l'amplificatore a valvole!).

Per quanto riguarda i riproduttori o player, quelli di migliore qualità potrebbero non distorcere. Tra i processori di segnale broadcast ne esistono alcuni che addirittura correggono i transienti tagliati, ma sono prodotti destinati al broadcast o alla post produzione. Invece gli smartphone o altri player consumer potrebbero semplicemente suonare male vicini agli 0dB.

Anzi, lo fanno proprio, perché tutti i file che ascoltiamo sono compressi.

Dato che tutti i file distribuiti vengono compressi è giusto sapere che i vari codec peggiorano le loro performance quando i file audio sono troppo pompati, quando non c'è dinamica. Non sono in grado di compiere una analisi corretta delle frequenze su cui devono lavorare.

Oltre a questo, se non hanno spazio sotto lo 0db possono generare distorsioni.

Quindi la ragione è ancora più valida nelle varie fasi di conversione dei file audio durante gli ascolti dalle piattaforme che ripetono lo stesso video per esempio dove i file subiscono delle transcodifiche, vengono rielaborati, ricampionati, ricompressi. Se sei intestardito a stare a 0dB per guadagnare anche l'ultimo frammento di dB disponibile allora tieni in considerazione che i codec utilizzano una tecnica chiamata oversampling per migliorare la resa del file compresso e sappi che in questa fase il rischio di distorsione è garantito.

La soglia di spazio detta headroom di sicurezza media è di 1dB, quindi non andare oltre -1 dB. I meno prudenti lavorano a -0,5/-0,7dB.

Diverso è il caso per chi utilizza piattaforme di distribuzione di intrattenimento che deve rispettare anche i LUFS e gli RMS, il Loudness.

Usare il LUFS o l'RMS?

L'RMS come detto calcola un valore medio di tutto il suono senza considerare la durata. Il LUFS svolge un calcolo più complesso e preciso in particolare a lungo termine. Calcola la percezione suddividendo in blocchi di frequenze il suono tenendo in considerazione la psico acustica, cioè come ci sembra che suoni.

Nelle pubblicità data la loro breve durata si tende a misurare solo il cosiddetto breve periodo (short therm) che non esprime una misura precisissima.
Lo Short Term è il paramentro seguito generalmente da tutti anche in un brano o un video di alcuni minuti ma il calcolo sul totale alla fine va fatto.
Se devi mandare un audio in TV meglio che ti avvali di un meter che legge e analizza i LUFS sul canale Master.

I portali di distribuzione, per le pubblicazioni professionali e in alcunoi casi anche per i privati, seguono delle regole. Almeno da qualche anno a questa parte.

Spotify: -14 LUFS standard e LOUD a -11LUFS (dBFS dai -3 ai -1dB).

Youtube: -13 LUFS (dBFS dai -3 ai -1dB)

Apple Music/Podcast: -16 LUFS (dBFS dai -3 ai -1dB)

Amazon Music: -14 LUFS (dBFS a -3)

Cinema -24 LUFS (dBFS -12dB)

Audible da -23 a -18 RMS (dBFS -3dB di picco e solo 44.1 mp3 192CBR)

Tidal -14 LUFS (dBFS da -3 a -1)

TV -24 LUFS

AGCOM specifica -24LUFS -2dBTP.
Per fare a mano i livelli occorrerebbero strumenti abbastanza precisi come Youlean Loudness (che contiene i preset con le specifiche dettagliate AGCOM) oppure WLM Meter che integra un limiter per i dBFS e ti consentirebbe di crearti un misurino specifico.

Se invece vuoi un tool che realizza il file, LM Correct 2 della Nugen. Non a buon mercato ma essenziale per realizzare al volo versioni del file per più media con la garanzia del risultato.

Parlando dei file che andranno normalizzati o ricampionati dalle piattaforme: dBFS è la misura del picco massimo cui arrivano i transienti. Quello che per anni siamo stati abituati a controllare, a tenere sott'occhio. Come avrai capito non è più lui il solo protagonista del balletto ma ha ancora molto da dire.

Se quello che invierai alla piattaforma è molto rumoroso, che so un rock metal spacca timpani, il consiglio degli esperti è di tenere almeno 2db di headroom quindi di stare almeno a -2dBFS. Questo evita che il pezzo subisca troppe perdite di qualità nelle conversioni sui canali che non normalizzano ma che semplicemente adattano il file alle loro necessità di bitrate o formato, perché il file che caricherai su certe piattaforme verrà convertito quando addirittura normalizzato ai LUFS e ai dBFS che vuole quella piattaforma.

Per chiudere, una nota importante: dato che molti canali normalizzano i LUFS alla loro necessità, l'intervento sul file non è più di sola normalizzazione del picco massimo ma anche di compressione dinamica o adattamento della dinamica del file. Significa che se non hai masterizzato correttamente il file finale potresti sentire suoni che in mix non sentivi perché potrebbe cambiare il rapporto dinamico del file.

Potrebbero alzarsi parti del file che in mix, senza un adeguato controllo non sentivi, esattamente come accade in mastering su un mix poco curato con rapporti tra picco e media del suono eccessivi.

Quindi mixa e fai il master, controlla il LUFS e non andare a 0 dB.

https://www.masteringthemix.com/pages/mastering-with-levels?utm_source=Mastering+The+Mix&utm_campaign=4d558c8bf2-AUTOMATION_On_Boarding_when_customer_downloads_all&utm_medium=email&utm_term=0_26c8443056-4d558c8bf2-563631177&mc_cid=4d558c8bf2&mc_eid=0a5fd7 — MasteringTheMIX

Ci sono decine di tool per controllare i volumi in uscita sul master. Mastering The MIX per esempio ne vende un paio davvero notevoli che ti impediranno di commettere errori.

Nella loro pagina di spiegazioni del tool principale c'è anche una comoda scheda che ricorda quali sono i livelli LU da rispettare in base al genere musicale.

radio, TV e regolamenti

Radio privata e Nazionale: per gli spot si tende ad inviare file molto pompati appena sotto lo 0dB. In genere le emittenti normalizzano a -3dB di picco i file per le pubblicità sui loro server, in base alla loro piattaforma di messa in onda ma alla fine escono molto più bassi.

Non c'è un vero controllo del LUFS da parte dei produttori di spot eccetto da chi ha l'abitudine e magari cerca di non andare oltre i -13 LUFS.
Quando poi gli audio sono quelli della TV allora ci si ritrova file a -24 LUFS e -18 dBFS che vengono normalizzati alle necessità dell'emittente.

Nel caso delle televisioni c'è una fortissima attenzione a quello che era divenuto un problema, la fortissima differenza tra l'audio del film e quello delle pubblicità. Regolamentato in Italia da AGCOM.
Se i film hanno una loro intensità, così come un concerto d'archi trasmesso da un teatro, la pubblicità tende a sovrastare i livelli di percezione creando un fastidioso sbalzo sonoro che costringe ad abbassare il volume.

L'idea dei pubblicitari è che occorre farsi sentire.

In sala mix siamo spesso chiamati a pompare i file degli spot ed è possibile farlo restando nei limiti di legge perché grazie ai compressori multi banda, ai generatori di armoniche e ad altri mille trucchi è possibile far percepire un suono più forte rispetto ad un altro a parità di dBFS e anche di LUFS o RMS.

Ma siccome il primo strilla, tutti gli altri a ruota alla radio strillano di più e a casa alla fine si preme il tasto MUTE. Shh... fate silenzio.

Perché c'è una cosa che si dice raramente: l'eccessiva compressione, la mancanza di dinamica, il suono poco naturale, stanca il cervello che automaticamente lo esclude perché lo ritiene fastidioso.

Quindi alla fine l'effetto delle pubblicità urlate si perde come la vite del cinturino dell'orologio nel lavandino, quando non c'è il tappo.

Cui prodest?