22 luglio 2023

L'audio per dummies 5 - quantizzazione jitter e dither - home studio

bit - la quantizzazione

La digitalizzazione dei suoni prevede l'uso di numeri finiti, detti discreti che più sono alti più sembrano precisi nel riprodurre, ma sono comunque numeri finiti, come i fotogrammi dei film: tra quei 24 momenti di quel secondo di immagini ci sono migliaia di attimi che sono sfuggiti alla ripresa. Ne ha colti solo 24.

Altro esempio: i pixel delle foto sono un numero finito di punti fissi che visti da vicino sgranano. La realtà non sgranerebbe almeno fino al nucleo dell'atomo.

Così anche la definizione della quantizzazione si basa su una serie di numeri che definiscono l'ampiezza del segnale sonoro (quanti dB contiene).

I bit rappresentano quanti livelli di volume in quel dato campione sono stati contati. Gli altri non ci sono, si immaginano.
Quanto più alto è il numero di bit, quanto più la rappresentazione digitale, ovvero la copia della forma d'onda analogica, sarà dettagliata.

Ma non all'infinito, non ci stanno 1000 bit. Già con le DAC a 24bit ne perdiamo alcuni di bit. Il resto è solo matematica ma senza alcun dettaglio aggiuntivo nella definizione del suono.

Quindi diciamo che a 48KHz con 24 bit tu sei già molto oltre le capacità fisiche per comprendere i dettagli dei micro segmenti a orecchio e per reggere la portata dinamica, ovvero la potenza del suoni archiviabile senza distorsioni.

Non ha a che fare con l'amplificazione di potenza del tuo impianto Hi Fi. Frequenza e quantizzazione sono come due dimensioni di dettagli che serviranno a ricostruire il suono: la frequenza nel limite del colore dei suoni, il bit i momenti espressivi dinamici, la sua forza.

Il bit riguarda l'ampiezza in dB possibile, ottenibile da quel file anche ascoltato dal cellulare.
In ambito informatico (anche nel CD) definisce dove stare coi volumi per evitare la distorsione e il rumore di fondo o noise floor.
Se in analogico dovevi tenere i volumi al massimo possibile occupando tutta la banda disponibile, oggi devi tenerli bassi per restare al centro della scatola definita in bit, per amplificare la resa dei file in seguito avendo un suono più pulito, dettagliato e reale.

In digitale lo 0dB resta al suo posto per evitare distorsioni quando registri, ma hai più spazio in profondità! Hai un contenitore più capiente, più profondo, non troverai fruscio fino a livelli davvero bassi.

Potresti anche immaginarlo al contrario, ovvero lo 0dB dove non c'è suono e 96dB come limite, il livello massimo raggiungibile con un contenitore a 16 bit.

Per convenzione e tradizione si è sempre misurato al contrario immaginando che lo 0 fosse il limite, perché a prescindere dalla dimensione della scatola lo 0 è sempre il limite sotto cui stare.

Se provi a registrare su un nastro sentirai che se non registri a livelli elevati si sentirà fruscio. Idem se usi un mixer che introduce rumori. In digitale registri a volume più basso perché hai più spazio sotto! Molto sotto lo zero.

Significa in soldoni che hai più dinamica.

La radio FM arriva ai 70dB di dinamica massima, l'LP non credo si sia arrivati oltre i 74dB (ho letto un articolo a riguardo tempo fa), il CD a 96dB, il DVD a 144 dB.

In termini di paragone di ampiezza dinamica potrei attribuire:

* 8 bit alla stereo-cassetta - circa 40dB di dinamica.

* 12 bit alla radio, agli LP in vinile e alle bobine - circa 70 dB di dinamica.

... le bobine professionali arrivano anche intorno ai 90dB.

* 16 bit per certo ai CD con 96 dB di dinamica.

* 24 bit ai DVD con 144dB di dinamica.

* 32 bit in uso internamente ai sistemi informatici

... e sulla Zoom UAC che ha accoppiato due ADC da 24 bit e ne ha fatto una versione in grado di reggere fino a 32 bit in virgola mobile. 1528dB di range. Non esiste microfono che possa arrivarci.
* 64 bit in uso internamente ai sistemi informatici

Però, sempre sul piano teorico facciamo un esempio pratico:
sei in salotto con le finestre chiuse, senti una mosca volare nella stanza.
La senti benissimo nel silenzio.
Allora vai alla finestra e la apri per farla uscire. In quel momento passa un Jumbo Jet che sta decollando dal vialetto di casa tua.
La mosca produceva tra i 10 e i 20 dB di rumore.
Il Jumbo a quella distanza diciamo che produca intorno ai 140 dB di rumore. Almeno così ti è sembrato, prima che ti si rompessero i timpani.

Se registri quella scena con un microfono, non puoi metterla su un disco in vinile, trasmetterla per radio, registrarla su una bobina se prima non comprimi i suoni. Devi stare nelle possibilità offerte dal supporto che riesce a gestire nel migliore dei casi 74dB (il miglior vinile al mondo con la migliore puntina Stanton! Ammesso che fosse la migliore) o al massimo qualcosa in più su una bobina ad alta capacità come quelle in uso nelle sale d'incisione anni 70/80/90 che arrivavano vicino ai 90dB.

Se il suono lo metti su un CD a 16 bit saresti comunque in distorsione perché avresti solo 96 dB quindi dovresti comprimere e limitare il volume del jumbo di 48 db per portarlo dai 144 ai 96 dB possibili nei 16 bit.

Se invece lo metti su un file a 24 bit puoi teoricamente registrarlo a pieno riascoltando sia la mosca che il Jumbo come fossero ancora li.
Non vedi l'ora, eh?

Riascoltato nel disco in vinile il suono della mosca dovrebbe essere molto amplificato per sovrastare il rumore del vinile. Riascoltare la mosca sul CD a 16 bit sarebbe una esperienza fastidiosamente realistica ma il 24 bit sarebbe ancora più vero. Quel che conta di più in una registrazione è che puoi registrare restando basso di livello, mantenendo integro e perfetto il suono senza incontrare mai la resistenza del rumore di fondo pur avendo tanto spazio sopra la testa. Ci vola perfino un Jumbo.

Il file a 32 bit offre 192 dB di volume prima di saturare.
L'uomo credo rimanga sordo davanti ad un suono a 144 dB.
Ma qui non parliamo di spazi fisici e questo volume non ha a che fare con la vita reale ma è una espressione digitale che diventa utile in fase di mix.
Con un amplificatore puoi assordare una città anche riproducendo un file 8KHz-8 bit. Lo sentiranno anche in caserma dove ti porteranno per disturbo della quiete pubblica.

Maggiori i bit di risoluzione e più distante il punto del rumore di fondo, noise floor: il suono ha più spazio per esprimersi prima di toccare il fondo ed essere coperto dal rumore di fondo e prima di toccare il soffitto distorcendo.

Ma tutta questa è solo teoria. Esistono perdite di qualità nel digitale, perdite di bit. Qui si aprirebbe una discussione tecnica non alla mia portata, ma di certo interessante che ci porterebbe a parlare delle qualità analogiche, della qualità dell'ascolto eccetera.

l'immagine sulla confezione

Come potete vedere nella presentazione degli eroi di Space Valley, a cui ho fregato la foto di copertina, l'immagine spesso non ha nulla a che fare con il contenuto della confezione.

Quando ti passano numeri come 24bit, 32bit, 64bit o anche 96KHz, 192KHz o anche di più, non è mica detto che quei numeri rappresenteranno poi la realtà. Per la semplice ragione che noi gonzi leggiamo i numeri e crediamo che di più sia meglio ma dentro la scatola costerebbe troppo metterci componenti davvero capaci di raggiungere quelle vette. Così, alcune DAC contenute nelle schede audio millantano 192KHz a 24 bit e poi falliscono di brutto il campionamento. Non lo senti perché è fuori portata umana, lo sentirai in seguito elaborando i file.
Quelle DAC hanno un jitter da paura! Detta così sembrano i brufoli sulla faccia di Ken adolescente quando ha conosciuto Barbie e si scambiavano il Topexan. Non hai capito cosa ho detto? Fa lo stesso.

Per capirci, il circuito di alimentazione di una DAC davvero in grado di campionare 192KHz a 24 bit senza sbagliare probabilmente costa 5 volte il valore del campionatore stesso. Se il campionatore è davvero in grado di arrivare a quei numeri, possono scriverlo sulla confezione omettendo il fatto di avere risparmiato sull'alimentazione.
Il che si traduce in un campionamento scadente nonostante i numeri. Numeri che non saranno rispettati tecnicamente nella realtà.

Perché 24 bit è meglio? E perché non addirittura a 32 o 64 bit?

16bit e 24bit sono i valori più comuni. Sono legati alla capacità della scheda audio! Non è detto che quella che stai usando riesca a superare i 16 bit in registrazione. Meglio un buon 16 bit vero che un 24 bit forzato che la scheda audio non campionerebbe correttamente.

Semplifico di brutto: dividi la rappresentazione della forma d'onda di 1 secondo di tempo e la rappresenti in due dimensioni: in altezza volume e larghezza per la frequenza, la puoi suddividere in sezioni: semplificando saranno 16 in altezza e 44.100 in larghezza. 1 secondo con un massimo di 96db.

Se lo fai in un foglio a quadretti ti accorgi che per ogni linea verticale delle frequenze corrispondono 16 incroci con le linee orizzontali del volume.
Le rappresentazioni di variazione della dinamica catturate dal bit sono molte di più, 16 bit offre 65.535 variazioni, 24 bit 16.777.216.

Come a battaglia navale: il torpediniere lo realizziamo con 4 quadratini del quaderno. Nella poppa ci saranno argano, eliche, boccaporti, cabine eppure per il bit è un solo quadrato che rappresenta tutta la poppa.

Se la nave la costruisci con 24 quadratini, la poppa sarà suddivisa almeno in 4 quadratini per la sola poppa, distinguendo l'argano dalle eliche che ora sono in due porzioni del quaderno separate. Con un colpo non affondi la nave.

Però, per ora, 24 è il numero massimo disponibile. 32 e 64 in virgola mobile non sono reali, sono solo capacità matematiche per la dinamica senza distorsione e lontanissimo dal rumore.

No ma, parliamone! Battaglia navale! Ho bisogno di ferie.

più bit

Perché non registrare direttamente la voce a 32 bit? Perché non esiste essere umano in grado di generare un ampiezza di volume del genere e nemmeno uno strumento.

Fingiamo che ci serva per avere solo la crema del suono, il centro del cannolo! Già a 24 bit ce l'hai ma in particolare perché al momento esiste una scheda audio che campiona a 32 bit in virgola mobile, come detto la Zoom 232 che accoppia due ADC e due DAC e le rende disponibili fisicamente, ma ha il solo vantaggio (e non è un piccolo vantaggio) di evitare che registrando si schiaccino i transienti o per dirla diversamente che si compromettano le informazioni audio. Dopo, nella maggiorate dei casi devi normalizzare entro i soliti limiti perché il mondo digitale non è a quel livello.

Chi dice che a 32 bit un file audio lo sente suonare meglio è probabilmente è perché non c'è nemmeno un bit distorto. Quello che potrebbe sembrare suonare meglio come profondità e colore magari è il 96Khz di campionamento, dato che ha una maggiore definizione sulle frequenze. Ma sono tutte e due le componenti insieme a fare di un digitale un digitale perfetto.

La DAW suona meglio se usa campioni a 32bit fp (floating point) o più perché non manda mai in distorsione. Ma se esporti un file a 32 bit alla fine lo devi far suonare a 24 bit al massimo e probabilmente per condividerlo dovrai farlo diventare 16 bit. Ripeto: le DAW usano i 32/64 bit per ragioni unicamente di capacità dinamica interna dei file ma poi lo restituiscono sempre al massimo a 24 bit nel 99,9 periodico dei casi. Anche se la scheda consente i 32 bit fp in uscita, il tuo ascolto sarà sempre in una dinamica riconducibile ai 16 bit o a 24 in un cinema.

"E fra mezz'ora un giapponese inventerà la scheda audio quantica e dovrò cancellare tutto quello che ho detto."

In effetti la Zoom è giapponese ma non ha inventato un convertitore a 32 bit, ne ha accoppiati due da 24 che devono scontrarsi con le tue casse nel tuo ambiente con il tuo udito, nel mondo reale.

Da tempo Zoom produce registratori per il cinema - quindi per lavorare in situazioni piuttosto estreme - a 32 bit fp e finalmente stanno cominciando a proporli anche per le schede audio convenzionali.

Anche Apogee Digital sempre avanti nelle sue tecnologie:

https://apogeedigital.com/ess-sabre

Lo scopo: non avere distorsione nel file registrato o per una maggiore fedeltà in analogico. Il prezzo? Il 33% di maggiore dimensione del file, ma a dirla tutta alla fine lo riporterai sempre a 24 bit in fase di mix.

Se la scheda che userai è a 24 bit, il limite resta 144dB in ingresso.
A 32 in virgola mobile si arriva a 1528 dB di possibile amplificazione, il che significa che non ci si arriverà mai a quel limite.

Benvegna Kazuko Yurijama se l' ha inventato. Non so chi sia Kazuko: l'ho appena inventato io.

Le onde quadrate degli audio digitali e quelle tonde come le curve della Venere le onde degli audio analogiche.

Ok, magari non è chiaro a tutti che una ripresa analogica su nastro suonata da un vinile confrontata con una ripresa digitale suonata da un file, alla fine diventa una vibrazione ad onde sonore normalissime provocate dal magnitudo degli altoparlanti. Gli altoparlanti vibrano e il suono digitale ritorna ad esprimersi in forma analogica.
La differenza sta in come è stato registrato quel suono, come ha agito il microfono, il convertitore digitale o la testina magnetica e come agiranno i riproduttori di quei sistemi per riprodurre la memoria di quei suoni.
Il digitale scaletta a micro quantizazzioni e il vinile a micrograffi.

Il magnetico... boh! No, aspetta, sono micro particelle di metallo che si allineano per induzione magnetica. Polvere di metalli, ruggine!
Il colore dei nastri in effetti è quello. Leggi qui!

Che il digitale sia decisamente migliore dell'analogico per tantissimi aspetti è oramai un dato di fatto. Non ci crede chi usa digitale scadente e lo confronta con analogico di qualità. Non ci crede chi associa il gesto magico di mettere su un disco e stare fermo ad ascoltare rispetto al consumo spasmodico della musiuca digitale. Ma c'era la radio FM e si consumava nello stesso spasmodico modo alla ricerca di una frequenza gradevole.
Spesso poi i due mondi, analogico e digitale si incrociano prendendo il meglio dell'analogico per affiancarlo al digitale escludendo i difetti dei due mondi e mantenendone i pregi.

Ma siamo coi piedi in uno stagno pieno di tifo e fede, tanto che persino la filosofia si lascia andare a figure di cacca dicendo che il digitale non è umanamente compatibile perché i suoni sono a onde quadre.
Come no: Nietzsche che dice?

Qui c'è un bel video!

quantimizzami il dither

Il segnale quantizzato non è perfetto se visto al microscopio, dato che ogni bit contiene un pezzetto di suono preso in quell'istante, suono che potrebbe essere un po' sopra, un po' sotto, non perfettamente al centro del bit ma nelle coordinate del bit stesso. Quelle imperfezioni sono distorsioni del suono se non corrette.

Nelle trasformazioni da 24 a 16 bit molte di quelle informazioni vengono tagliate. Per rendere tutto nuovamente bello si usano tecniche di aggiunta di rumori fuori dalla nostra portata ma che aggiustano quegli ammassi di scalettature rendendo il suono più bello di prima. Dithering. Come il blur sulla faccia degli attori rugosi.

All'ingresso della scheda audio oltre al filtro anti alias, c'è un generatore di dither che corregge gli errori di quantizzazione durante la registrazione del microfono, quindi genera un rumore.

Dither: in produzione si usa esclusivamente per passare da 24 a 16 bit. Non serve da 32 a 24 bit o da 24 a 32 oppure oltre.
I 32 bit sono un 24 bit con 8 bit extra non riferibili all'audio ma solo alla capacità dinamica del file.

Infatti molte DAW passano i 32bit di dati direttamente alla scheda audio senza alcun dithering. Perché la scheda audio lavora al massimo a 24 bit, non ci arriva a 32 bit e gli 8 in più vengono semplicemente tolti, eliminati mentre ascolti.

Dithering: si tratta di tecniche di dissimulazione degli errori, che portano fuori dalla portata dell'udibile le alterazioni o aberrazioni dei suoni avvenute in conversione nell'abbassamento dei bit. Per esempio da 24 a 16 bit. Sono necessarie e si usano continuamente.

Non vanno confuse con la compressione in mp3 o AAC o altro.

Il dithering aggiunge rumore e a seconda del tipo di tecnica potrebbe anche modificare frequenze. Va usato solo nel processo finale se occorre convertire il file in un progetto che passa da 24 a 16 bit in PCM.
Di solito è meglio lavorare direttamente alla frequenza necessaria.

La versione più efficace? Dipende.

Non avrai creduto che ci fosse la risposta unica valida per tutto!

Le più celebri e usate sono le Pow-r 1, 2 e 3.
Con la 1 ho avuto aberrazioni nei bassissimi.
Con la PWR 3 mai e con l'UV22HR mi trovo benissimo sempre.

La PW3 è una delle più apprezzate per la trasparenza e l'assenza di artefatti nelle frequenze udibili anche se è consigliata in particolare per audio stereofonici complessi. Usa una tecnica chiamata shape, una forma che si addossa e calza alla parte di suono artefatto dalle scalettature nel passaggio a bit inferiore.

Altre tecniche aggiungono rumori detti triangolari e quadri o rumore bianco sempre sotto la soglia dell'udibile ma che camuffano le aberrazioni sonore. Hanno un uso più o meno intenso della CPU, anche se di questi tempi il problema è limitato.

Apogee ha realizzato l'UV22HR che tra i vari trucchi è in grado di usare un noise gate per le parti silenziose così da preservare l'integrità del file senza aggiungere inutili dati dove non serve.

Ne esistono di più complesse e particolari di tecniche.

Le tecniche di dithering sono sottoposte a brevetto. Se le trovi nel tuo software - quelle che ci trovi - è perché la software house ha ottenuto i diritti per renderli fruibili.

Non si usa nella conversione a mp3 o nella maggior parte dei file compressi. Secondo alcuni sarebbe meglio prima passare i file a 16 bit poi convertirli ma per la mia esperienza, visto come i codec rielaborano i file PCM in compressi, non ha senso aggiungere rumore per poi farlo eliminare dal codec mp3 che comunque riscrive il file eliminandone la maggior parte delle informazioni.
A dimostrazione, il dithering non viene mai offerto dai codificatori professionali.

A meno che non sia parte del processo e mai dichiarato!

C'è sempre da imparare.

Come vedi quindi ci sono diversi fattori rilevanti che faranno la differenza nel risultato del suono: il jiter di cui ti ho parlato prima e la quantizzazione con relativo dithering, cui si aggiungono la qualità del suoni che si introduce che è data dai microfoni, dagli ambienti di ripresa, dai preamplificatori, dai cavi e dai connettori, dall'uso della voce.

i file per le segreterie telefoniche a 8KHz

Questo capitolo può rendere bene l'idea di quanto detto fino ad ora ed è perfetto per chiudere questa pagina. IVR o segreterie telefoniche, si ascoltano al telefono e il suono è sempre un 8KHz 8 Bit. La cattiva abitudine di usare compressori e pompare l'RMS a livelli elevati o addirittura di lasciare intatta la dinamica della voce senza comprimerla neppure un poco - due estremi decisamente errati - crea problemi quando i file vengono ricampionati da 44/16 a 8/8.
A questo va aggiunto che spesso la voce viene mixata con una base musicale, suoni complessi rock, pop o classici il cui spettro in frequenza va decisamente oltre le frequenze dei sistemi telefonici.

Quando si mixa in studio il file per la segreteria, si sta lavorando a non meno di 16 bit e a non meno di 44.100 Hz.
Anche se il file richiesto sarà un mp3 44/128 resterà sempre un file oltre la portata degli 8 bit quanto riprodotto alla cornetta telefonica, persino se il centralino supporta frequenze CD.
Infatti la linea telefonica alla fine passerà sempre un segnale 8KHz 8 bit sul quale passerà un segnale molto più pieno di quanto possibile sui sistemi telefonici. Un file a 8Khz restituisce frequenze al massimo fino a 4KHz.
L'altoparlante del telefono è inteso per fare udire la voce parlata.

Tutta la musica deve esprimersi nello stesso spettro sonoro entro i 4 KHz.
Lasciare intatto il file con le frequenze oltre i 4KHz e pompare i bassi induce alias, sì esattamente come per i 44.1 che vengono filtrati per non portare nella gamma udibile suoni non voluti.
I file audio a 8 bit offrono al massimo 48dB di dinamica, con la voce ci si sta dentro. L'unica cosa che comincia a percepirsi a 8 bit è il noise floor ma che non si sente al telefono.

Una cosa utile in fase di preparazione dei file è ridurre un poco la dinamica con compressore/limiter dopo aver ridotto le frequenze entro i 4KHz con un filtro passa alto.

La ragione sono gli 8KHz di campionamento che offrono fino a 4KHz di suono contro i 20KHz di suono raggiunti con il 44,1KHz. Tutto qui.

per concludere

Per tornare all'inizio della storia che troverai all'articolo 1 di questa serie, alla domanda "quale microfono devo comprare per avere un suono tondo come quello dei professionisti" non c'è una risposta semplice.
Ecco perché mi scappa da ridere quando me la fanno.

ed egli disse...

"Man, Woman", by Miller Levy (photo by Barend Jan de Jong)

Se dovessi definire l'audio, direi che è una donna. La donna più bella e interessante è complicata.
Anche quella più semplice in apparenza, sotto sotto nasconde una grandissima complessità. Ma è quella la sua bellezza. Devi imparare a conoscerla a fondo per scoprirne tutti i suoi lati e non avrai abbastanza vita per scoprirne le mille combinazioni.

L'audio è una donna che fa vibrare l'aria. Se senti distorsioni, se è fredda, se non suona come vorresti la colpa non è sua, sei tu che non sai dove mettere le mani.

E con questo direi di aver raggiunto vette che l'uomo che sussurra ai cavalli manco si sogna. Buona notte.

L'audio per dummies 6 - salvataggio dei file

i precedenti

L'audio per dummies 4 hardware e frequenze

L'audio per dummies 3 i Livelli in uscita

L'audio per dummies 2 i Livelli in ingresso

L'audio per dummies 1 intro e zona d'ascolto

Grazie ad Anna Maria Renda che passa ore ad ascoltare le mie storie tecniche e mi consente di confrontarmi e sbagliare, quindi di crescere.
Grazie a Mario Loreti perché mi ha aiutato nella verifica di quanto ho scritto.

Scrivi commento

Commenti: 0