Voice Over Service
  • Helloworld
  • Home ITALIAN
  • Home ENGLISH
  • SourceConnect
  • SessionLinkPro
  • ipDTL
  • Setup
  • FAQ
  • Contatti | Link
  • Partners
  • WeTransfer
  • Vita da speaker
  • Mappa del sito
  • Podcast Pensieri sparsi tra le stelle

L'audio per dummies 5 - quantizzazione jitter e dither - home studio

bit - la quantizzazione

 

La digitalizzazione dei suoni prevede l'uso di numeri finiti, detti discreti che più sono alti più sembrano precisi nel riprodurre, ma sono comunque numeri finiti, come i fotogrammi dei film: tra quei 24 momenti di quel secondo di immagini ci sono migliaia di attimi che sono sfuggiti alla ripresa. Ne ha colti solo 24.

Altro esempio: i pixel delle foto sono un numero finito di punti fissi che visti da vicino sgranano. La realtà non sgranerebbe almeno fino al nucleo dell'atomo.

Così anche la definizione della quantizzazione si basa su una serie di numeri che definiscono l'ampiezza del segnale sonoro (quanti dB contiene).

I bit rappresentano quanti livelli di volume in quel dato campione sono stati contati. Gli altri non ci sono, si immaginano.
Quanto più alto è il numero di bit, quanto più la rappresentazione digitale, ovvero la copia della forma d'onda analogica, sarà dettagliata. 

Ma non all'infinito, non ci stanno 1000 bit. Già con le DAC a 24bit ne perdiamo alcuni di bit. Il resto è solo matematica ma senza alcun dettaglio aggiuntivo nella definizione del suono.


Quindi diciamo che a 48KHz con 24 bit tu sei già molto oltre le capacità fisiche per comprendere i dettagli dei micro segmenti a orecchio e per reggere la portata dinamica, ovvero la potenza del suoni archiviabile senza distorsioni.

 

Non ha a che fare con l'amplificazione di potenza del tuo impianto Hi Fi.

Il bit riguarda l'ampiezza in dB possibile, ottenibile da quel file anche ascoltato dal cellulare, quindi allontana la distorsione e il rumore di fondo o noise floor. Anche a basso volume. Se prima dovevi tenere i volumi al massimo possibile, oggi puoi tenerli bassi e amplificare la potenza dei diffusori avendo un suono più pulito, dettagliato e reale.

 

Pompare i file alla fine del mastering è una storia diversa che non ha a che fare con quello di cui stiamo parlando. Non ti confondere.

In digitale lo 0dB resta al suo posto per evitare distorsioni quando registri, ma hai più spazio in profondità! Hai un contenitore più capiente, più profondo, non troverai fruscio fino a livelli davvero bassi.

Se provi a registrare su un nastro sentirai che se non registri a livelli elevati si sentirà fruscio. Idem se usi un mixer che introduce rumori. In digitale registri a volume più basso perché hai più spazio sotto! Molto sotto lo zero.

Significa in soldoni che hai più dinamica.

 

La radio FM arriva ai 70dB di dinamica massima, l'LP non credo si sia arrivati oltre i 74dB (ho letto un articolo a riguardo tempo fa), il CD a 96dB, il DVD a 144 dB.


In termini di paragone di ampiezza dinamica potrei attribuire:

* 8 bit alla stereo-cassetta - circa 40dB di dinamica.

* 12 bit alla radio, agli LP in vinile e alle bobine - circa 70 dB di dinamica.

... le bobine professionali arrivano anche intorno ai 90dB.

* 16 bit per certo ai CD con 96 dB di dinamica.

* 24 bit ai DVD con 144dB di dinamica.

* 32 bit in uso solo internamente ai sistemi informatici

... ma mai da nessuna scheda audio.

 

Però, sempre sul piano teorico facciamo un esempio pratico: 
sei in salotto con le finestre chiuse, senti una mosca volare nella stanza.
La senti benissimo nel silenzio.
Allora vai alla finestra e la apri per farla uscire. In quel momento passa un Jumbo Jet che sta decollando dal vialetto di casa tua.
La mosca produceva tra i 10 e i 20 dB di rumore. 
Il Jumbo a quella distanza diciamo che produca intorno ai 140 dB di rumore. Almeno così ti è sembrato, prima che ti si rompessero i timpani.

 

Se registri quella scena con un microfono, non puoi metterla su un disco in vinile, trasmetterla per radio, registrarla su una bobina se prima non comprimi i suoni. Devi stare nelle possibilità offerte dal supporto che riesce a gestire nel migliore dei casi 74dB (il miglior vinile al mondo con la migliore puntina Stanton! Ammesso che fosse la migliore) o al massimo qualcosa in più su una bobina ad alta capacità come quelle in uso nelle sale d'incisione anni 70/80/90 che arrivavano vicino ai 90dB.

Se il suono lo metti su un CD a 16 bit saresti comunque in distorsione perché avresti solo 96 dB quindi dovresti comprimere e limitare il volume del jumbo di 48 db per portarlo dai 144 ai 96 dB possibili nei 16 bit.


Se invece lo metti su un file a 24 bit puoi teoricamente registrarlo a pieno riascoltando sia la mosca che il Jumbo come fossero ancora li.
Non vedi l'ora, eh?

 

Riascoltato nel disco in vinile il suono della mosca dovrebbe essere molto amplificato per sovrastare il rumore del vinile. Riascoltare la mosca sul CD a 16 bit sarebbe una esperienza fastidiosamente realistica ma il 24 bit sarebbe ancora più vero. Quel che conta di più in una registrazione è che puoi registrare restando basso di livello, mantenendo integro e perfetto il suono senza incontrare mai la resistenza del rumore di fondo pur avendo tanto spazio sopra la testa. Ci vola perfino un Jumbo.

 

Il file a 32 bit offre 192 dB di volume prima di saturare.
L'uomo credo rimanga sordo davanti ad un suono a 144 dB.
Ma qui non parliamo di spazi fisici e questo volume non ha a che fare con la vita reale ma è una espressione digitale che diventa utile in fase di mix.
Con un amplificatore puoi assordare una città anche con un file 8KHz 8 bit. Se lo hai registrato bene lo sentiranno anche in caserma dove ti porteranno per disturbo della quiete pubblica.

 

Maggiori i bit di risoluzione e più distante il punto del rumore di fondo, noise floor: il suono ha più spazio per esprimersi prima di toccare il fondo ed essere coperto dal rumore di fondo e prima di toccare il soffitto distorcendo.

 

Ma tutta questa è solo teoria. Esistono perdite di qualità nel digitale, perdite di bit. Qui si aprirebbe una discussione tecnica non alla mia portata, ma di certo interessante che ci porterebbe a parlare delle qualità analogiche, della qualità dell'ascolto eccetera.

l'immagine sulla confezione

Come potete vedere nella presentazione degli eroi di Space Valley, a cui ho fregato la foto di copertina, l'immagine spesso non ha nulla a che fare con il contenuto della confezione.

 

Quando ti passano numeri come 24bit, 32bit, 64bit o anche  96KHz, 192KHz o anche di più, non è mica detto che quei numeri rappresenteranno poi la realtà. Per la semplice ragione che noi gonzi leggiamo i numeri e crediamo che di più sia meglio ma dentro la scatola costerebbe troppo metterci componenti davvero capaci di raggiungere quelle vette. Così, alcune DAC contenute nelle schede audio millantano 192KHz a 24 bit e poi falliscono di brutto il campionamento. Non lo senti perché è fuori portata umana, lo sentirai in seguito elaborando i file.
Quelle DAC hanno un jitter da paura! Detta così sembrano i brufoli sulla faccia di Ken adolescente quando ha conosciuto Barbie e si scambiavano il Topexan. Non hai capito cosa ho detto? Fa lo stesso.

 

Per capirci, il circuito di alimentazione di una DAC davvero in grado di campionare 192KHz a 24 bit senza sbagliare probabilmente costa 5 volte il valore del campionatore stesso. Se il campionatore è davvero in grado di arrivare a quei numeri, possono scriverlo sulla confezione omettendo il fatto di avere risparmiato sull'alimentazione.
Il che si traduce in un campionamento scadente nonostante i numeri. Numeri che non saranno rispettati tecnicamente nella realtà. 

Perché 24 bit è meglio? E perché non addirittura a 32 o 64 bit?

16bit e 24bit sono i valori più comuni. Sono legati alla capacità della scheda audio! Non è detto che quella che stai usando riesca a superare i 16 bit in registrazione. Meglio un buon 16 bit vero che un 24 bit forzato che la scheda audio non campionerebbe correttamente.

 

Semplifico di brutto: dividi la rappresentazione della forma d'onda di 1 secondo di tempo e la rappresenti in due dimensioni: in altezza volume e larghezza per la frequenza, la puoi suddividere in sezioni: semplificando saranno 16 in altezza e 44.100 in larghezza. 1 secondo con un massimo di 96db.


Se lo fai in un foglio a quadretti ti accorgi che per ogni linea verticale delle frequenze corrispondono 16 incroci con le linee orizzontali del volume.
Le rappresentazioni di variazione della dinamica catturate dal bit sono molte di più, 16 bit offre 65.535 variazioni, 24 bit 16.777.216.

 

Come a battaglia navale: il torpediniere lo realizziamo con 4 quadratini del quaderno. Nella poppa ci saranno argano, eliche, boccaporti, cabine eppure per il bit è un solo quadrato che rappresenta tutta la poppa.

Se la nave la costruisci con 24 quadratini, la poppa sarà suddivisa almeno in 4 quadratini per la sola poppa, distinguendo l'argano dalle eliche che ora sono in due porzioni del quaderno separate. Con un colpo non affondi la nave.

 

Però, per ora, 24 è il numero massimo disponibile. 32 e 64 in virgola mobile non sono reali, sono solo capacità matematiche per la dinamica senza distorsione e lontanissimo dal rumore. 

 

No ma, parliamone! Battaglia navale! Ho bisogno di ferie.

 

più bit

Perché non registrare direttamente la voce a 32 bit? Perché non esiste essere umano in grado di generare un ampiezza di volume del genere e nemmeno uno strumento.

Fingiamo che ci serva per avere solo la crema del suono, il centro del cannolo! Già a 24 bit ce l'hai ma in particolare perché non esiste al mondo scheda audio che sia in grado di campionare suoni a 32 bit e neppure di farteli ascoltare. 
Perché i file sarebbero inutilmente enormi.

 

Chi dice che a 32 bit un file audio lo sente suonare meglio mi deve anche dire dove ha comprato una scheda audio che suona a 32 bit, dato che al massimo le schede suonano a 24 bit. Ecco chiarito il fatto. La DAW suona meglio se usa campioni a 32bit o più perché non manda mai in distorsione i suoi circuiti virtuali interni. Ma se esporti un file a 32 bit suona come quello a 24 bit. Ripeto: le DAW usano i 32/64 bit per ragioni unicamente di capacità dinamica interna dei file ma poi lo restituiscono sempre al massimo a 24 bit. 

 

I 32 bit offerti dal software, se usati per registrare unicamente la voce, senza una ragione di mix, sono un inutile spreco di spazio su disco e CPU e farebbero conversione da 24 bit 32. Adesso e probabilmente anche in futuro. Servono solo per ottimizzare i file al progetto stesso. L'ho detto.

 

E fra mezz'ora un giapponese inventerà la scheda audio quantica e dovrò cancellare tutto quello che ho detto.

 

AGG: 2021
Trovo schede audio con convertitori a 32 bit ma poi vado a vedere il tipo di chip usato ed ho l'impressione che venga generato un sovra campionamento a livello hardware dal suono a 24 bit:
https://apogeedigital.com/ess-sabre
Ma va benissimo, resta il fatto che compie via hardware quello che Cubase o Audacity già fanno in acquisizione, prendere il 24 bit e portarlo a 32 bit. Sempre per arrivare ad avere una minore distorsione possibile.
Benvegna Kazuko Yurijama se l' ha inventato. 
Non so chi sia Kazuko, l'ho appena inventato io.


quantimizzami il dither

rosso= bit / blu=segnale originale
rosso= bit / blu=segnale originale

Il segnale quantizzato non è perfetto se visto al microscopio, dato che ogni bit contiene un pezzetto di suono preso in quell'istante, suono che potrebbe essere un po' sopra, un po' sotto, non perfettamente al centro del bit ma nelle coordinate del bit stesso. Quelle imperfezioni sono distorsioni del suono se non corrette.

 

Nelle trasformazioni da 24 a 16 bit molte di quelle informazioni vengono tagliate. Per rendere tutto nuovamente bello si usano tecniche di aggiunta di rumori fuori dalla nostra portata ma che aggiustano quegli ammassi di scalettature rendendo il suono più bello di prima. Dithering. Come il blur sulla faccia degli attori rugosi.

 

All'ingresso della scheda audio oltre al filtro anti alias, c'è un generatore di dither che corregge gli errori di quantizzazione durante la registrazione del microfono, quindi genera un rumore. 

Il dithering in Audacity
Il dithering in Audacity

Dither: in produzione si usa esclusivamente per passare da 32 o 24 a 16 bit. Non serve da 32 a 24 bit. 
I 32 bit sono un 24 bit con 8 bit extra non riferibili all'audio ma solo alla capacità dinamica del file.

Infatti molte DAW passano i 32bit di dati direttamente alla scheda audio senza alcun dithering. Perché la scheda audio lavora al massimo a 24 bit, non ci arriva a 32 bit e gli 8 in più vengono semplicemente tolti, eliminati mentre ascolti.

 

Dithering: si tratta di tecniche di dissimulazione degli errori, che portano fuori dalla portata dell'udibile le alterazioni o aberrazioni dei suoni avvenute in conversione nell'abbassamento dei bit. Per esempio da 24 a 16 bit. Sono necessarie e si usano continuamente.

Non vanno confuse con la compressione in mp3 o AAC o altro.

 

Il dithering aggiunge rumore e a seconda del tipo di tecnica potrebbe anche modificare frequenze. Va usato solo nel processo finale se occorre convertire il file in un progetto che passa da 24 a 16 bit in PCM.
Di solito è meglio lavorare direttamente alla frequenza necessaria.

 

La versione più efficace?  Dipende.

Non avrai creduto che ci fosse la risposta unica valida per tutto!

Le più celebri e usate sono le Pow-r 1, 2 e 3. Con la 1 ho avuto aberrazioni nei bassissimi. Con la PWR 3 mai e con l'UV22HR mi trovo benissimo sempre.

 

La PW3 è una delle più apprezzate per la trasparenza e l'assenza di artefatti nelle frequenze udibili anche se è consigliata in particolare per audio stereofonici complessi. Usa una tecnica chiamata shape, una forma che si addossa e calza alla parte di suono artefatto dalle scalettature nel passaggio a bit inferiore.

Altre tecniche aggiungono rumori detti triangolari e quadri o rumore bianco sempre sotto la soglia dell'udibile ma che camuffano le aberrazioni sonore. Hanno un uso più o meno intenso della CPU, anche se di questi tempi il problema è limitato.

 

Apogee ha realizzato l'UV22HR che tra i vari trucchi è in grado di usare un noise gate per le parti silenziose così da preservare l'integrità del file senza aggiungere inutili dati dove non serve.

 

Ne esistono di più complesse e particolari di tecniche.

Le tecniche di dithering sono sottoposte a brevetto. Se le trovi nel tuo software - quelle che ci trovi - è perché la software house ha ottenuto i diritti per renderli fruibili.

 

Non si usa nella conversione a mp3 o nella maggior parte dei file compressi. Secondo alcuni sarebbe meglio prima passare i file a 16 bit poi convertirli ma per la mia esperienza, visto come i codec rielaborano i file PCM in compressi, non ha senso aggiungere rumore per poi farlo eliminare dal codec mp3 che comunque riscrive il file eliminandone la maggior parte delle informazioni.
A dimostrazione, il dithering non viene mai offerto dai codificatori professionali.

A meno che non sia parte del processo e mai dichiarato!

C'è sempre da imparare.

 

Come vedi quindi ci sono diversi fattori rilevanti che faranno la differenza nel risultato del suono: il jiter di cui ti ho parlato prima e la quantizzazione con relativo dithering, cui si aggiungono la qualità del suoni che si introduce che è data dai microfoni, dagli ambienti di ripresa, dai preamplificatori, dai cavi e dai connettori, dall'uso della voce.

i file per le segreterie telefoniche a 8KHz

Questo capitolo può rendere bene l'idea di quanto detto fino ad ora ed è perfetto per chiudere questa pagina. IVR o segreterie telefoniche, si ascoltano al telefono e il suono è sempre un 8KHz 8 Bit. La cattiva abitudine di usare compressori e pompare l'RMS a livelli elevati o addirittura di lasciare intatta la dinamica della voce senza comprimerla neppure un poco - due estremi decisamente errati - crea problemi quando i file vengono ricampionati da 44/16 a 8/8.
A questo va aggiunto che spesso la voce viene mixata con una base musicale, suoni complessi rock, pop o classici il cui spettro in frequenza va decisamente oltre le frequenze dei sistemi telefonici.

 

Quando si mixa in studio il file per la segreteria, si sta lavorando a non meno di 16 bit e a non meno di 44.100 Hz.
Anche se il file richiesto sarà un mp3 44/128 resterà sempre un file oltre la portata degli 8 bit quanto riprodotto alla cornetta telefonica, persino se il centralino supporta frequenze CD.
Infatti la linea telefonica alla fine passerà sempre un segnale 8KHz 8 bit sul quale passerà un segnale molto più pieno di quanto possibile sui sistemi telefonici. Un file a 8Khz restituisce frequenze al massimo fino a 4KHz. 
L'altoparlante del telefono è inteso per fare udire la voce parlata.

 

Tutta la musica deve esprimersi nello stesso spettro sonoro entro i 4 KHz.
Lasciare intatto il file con le frequenze oltre i 4KHz e pompare i bassi induce alias, sì esattamente come per i 44.1 che vengono filtrati per non portare nella gamma udibile suoni non voluti. 
I file audio a 8 bit offrono al massimo 48dB di dinamica, con la voce ci si sta dentro. L'unica cosa che comincia a percepirsi a 8 bit è il noise floor ma che non si sente al telefono. 

 

Una cosa utile in fase di preparazione dei file è ridurre un poco la dinamica con compressore/limiter dopo aver ridotto le frequenze entro i 4KHz con un filtro passa alto. 

La ragione sono gli 8KHz che offrono fino a 4KHz di suono contro i 20KHz del 44,1KHz. Tutto qui.

per concludere

Per tornare all'inizio della storia che troverai all'articolo 1 di questa serie, alla domanda "quale microfono devo comprare per avere un suono tondo come quello dei professionisti" non c'è una risposta semplice.
Ecco perché mi scappa da ridere quando me la fanno.

ed egli disse...

"Man, Woman", by Miller Levy (photo by Barend Jan de Jong)
"Man, Woman", by Miller Levy (photo by Barend Jan de Jong)

Se dovessi definire l'audio, direi che è una donna. La donna più bella e interessante è complicata.
Anche quella più semplice in apparenza, sotto sotto nasconde una grandissima complessità. Ma è quella la sua bellezza. Devi imparare a conoscerla a fondo per scoprirne tutti i suoi lati e non avrai abbastanza vita per scoprirne le mille combinazioni.

 

L'audio è una donna che fa vibrare l'aria. Se senti distorsioni, se è fredda, se non suona come vorresti la colpa non è sua, sei tu che non sai dove mettere le mani.

 

E con questo direi di aver raggiunto vette che l'uomo che sussurra ai cavalli manco si sogna. Buona notte.


successivo

L'audio per dummies 6 - salvataggio dei file

i precedenti

L'audio per dummies 4 hardware e frequenze
L'audio per dummies 3 i Livelli in uscita
L'audio per dummies 2 i Livelli in ingresso
L'audio per dummies 1 intro e zona d'ascolto

  • Grazie ad Anna Maria Renda che passa ore ad ascoltare le mie storie tecniche e mi consente di confrontarmi e sbagliare, quindi di crescere.

  • Grazie a Mario Loreti perché mi ha aiutato nella verifica di quanto ho scritto.
tagPlaceholderTag:

Scrivi commento

Commenti: 0

cerca nel sito




Lascia una recensione:

Clicca o scansiona il QR.

Grazie

1 Preventivi on line
Informazioni legali | Termini e Condizioni generali | Condizioni di recesso | Privacy | Informativa sui cookie | Sitemap
Partita Iva 01744971209
Accesso Uscita | modifica
  • Helloworld
  • Home ITALIAN
    • Speaker - listino generico
  • Home ENGLISH
    • Generic price list
  • SourceConnect
  • SessionLinkPro
  • ipDTL
    • PaoloB-Link+
  • Setup
  • FAQ
  • Contatti | Link
    • Fatturazioni
    • Privato
  • Partners
  • WeTransfer
  • Vita da speaker
    • Blog-archivio
    • Test Microfoni
    • Test Microfoni 2
    • Test Microfoni 3
  • Mappa del sito
  • Podcast Pensieri sparsi tra le stelle
  • Torna su
chiudi