08 aprile 2025

Rottamazione del doppiatore - i cambiamenti nel doppiaggio e nel voiceover

Sì, il vecchio doppiatore ha fatto la ruggine e non c'è verso di farlo circolare ancora. Quello vecchio, molto vecchio e non aggiornabile, con quel particolare design, quei materiali resistenti anche dopo anni di intemperie ma che funziona solo in condizioni analogiche.

Potrebbe accadere che, una volta chiuso in garage, il doppiatore lo vedremo nuovamente uscire in qualche manifestazione di modelli storici, la dove sguazzano i nostalgici dei bei tempi andati. Se non fosse che io sono giovane dentro, sarei parte di quella schiera di nostalgici che amava tanto apprendere il mestiere respirando assieme agli esperti che ti sanno dare insegnamenti anche con la sola presenza. Ma quelli, i doppiatori vecchi e arrugginiti da cui apprendere il senso del mestiere, sono sempre disponibili nelle scuole di doppiaggio: Masterclass e lezioni a pagamento.

La richiesta è alta per sognare di essere la voce della stella del cinema. In effetti negli sfascia carrozze, in quelle immense distese di auto in disuso coperte dalla ruggine, ci va un sacco di gente a cercare i pezzi oramai introvabili del doppiatore cromato anni 70. Quindi il vecchio doppiatore, fuori produzione, è ancora il più richiesto. Speriamo non venga cubato, pressato e smaltito ma si possa smontarne qualche pezzo ancora a lungo per copiarne lo stile e rinforzare i modelli più moderni.

Se hai resistito fino a qui, meriti una spiegazione: parlo di intelligenza artificiale contro voce umana. Anche se non sembra. E non sono spaventato.

L'ottimismo è il sale della vita, disse quello. Poi morì.

Premessa: la crisi che tutti stanno vivendo non è da attribuire alle AI, è una contrazione globale dei mercati e delle economie di questa parte di mondo. Se non ci fosse crisi, la macchina sarebbe solo una macchina.

Ma restando nello specifico, lo strumento AI, si sta rivelando per quello che è, e oggi è possibile vedere più dettagli, comprendere più effetti collaterali e immaginarne un uso differente da quello che tutti hanno creduto fosse il solo possibile.

Per parecchio tempo si è immaginato una macchina con un nastro trasportatore su cui depositare i propri desideri per vederli uscire avverati sul lato opposto. Nel mio caso, file di voce che narrano perfettamente.
Beh, non oggi, si diceva quando il risultato era scadente, ma vedrai fra un anno. E l'anno dopo si ripeteva la scena. Ancora oggi si ripete.
Chi sostiene che sia solo questione di tempo e chi ci vede il diavolo che fagocita le nostre anime. Il tempo invece ci mostra un aspetto molto differente e più pratico: l'uomo lavora, la macchina aiuta. Ma la macchina da sola, non fa nulla.
In alcuni casi il lavoro da fare per far funzionare bene la macchina è talmente tanto che sarebbe più conveniente farlo a mano. In altri invece no, immagina scavare una miniera!

quello che tutti sanno

due uomini con due macchine lavorano per 25 operai

La tecnologia è da sempre stata osteggiata da una parte, esaltata dall'altra. Poi trova il suo spazio. 23 operai sono andati a fare altri lavori, chi il gommista per gru e camion, chi il meccanico, chi sistema gli impianti idraulici, chi le centraline. I due che restano spostano una collina in un giorno.

Per registrare una voce e per poterla poi sentire serviva attrezzatura multimilionaria e tecnici specializzati!
Poi arriva l'home studio, l'ADAT, il computer, internet, e quello che facevi prima in un ambiente specializzato puoi farlo in un garage e farlo sentire al mondo.
Farlo meglio o peggio a questo punto è solo una questione di volerlo, poterlo e saperlo fare.

Immagina il lavoro che c'è dietro il doppiaggio di una serie TV o di un videogioco. Casting dei personaggi. Si scelgono le voci, in genere professionisti e si assegnano i ruoli. Alcuni faranno parti minori e quindi magari più personaggi, basta che non interagiscano, e magari gli si fa caratterizzare un po' la voce.
Negli eLearning accade spesso che vengano affidati più ruoli e la richiesta in genere è "modifica un po' la voce, caratterizza". Narratore multi-ruolo.

Immagina i videogiochi che da anni vengono lasciati coi sottotitoli.

a spanne

Ciò che segue non è né una speranza né ciò che accadrà, solo una constatazione delle possibilità alla luce di quello che abbiamo oggi. Basta però che alcuni fattori mutino e si scompigliano le carte in tavola.

Ad esempio, oggi l'uso dei sistemi generativi necessita di grandi server farm, sovralimentati di corrente. A spanne: di recente Deepseek ha dichiarato di avere ottenuto lo stesso risultato su computer standard scalzando Nvidia dal trono di unico esecutore del codice per le AI. Caos in Borsa!
Se la stessa capacità di calcolo o anche solo una buona dose, fosse disponibile sui computer popolari, cambierebbero i possibili risultati a breve termine.

il plug-in

Sempre a spanne: Prime Video sta sperimentando un uso integrato di AI e

personale tecnico e artistico per doppiare serie TV minori. Questo ha provocato la reazione di tanti. Ma se, come per il Metaverso o gli occhiali di Apple, o l'auto di Apple o ancora come per i visori di Google/Meta, si assistesse al totale disinteresse del pubblico? Non è che puoi imporre qualcosa senza poi pagarne le conseguenze! Nemmeno se regoli l'algoritmo per far vedere sempre i marchettari del web in cima alla timeline coi tuoi prodotti! Marchettari tutti con la bocca aperta spalancata e con quelle espressioni che ricordano il fermo immagine di quando è iniziata per loro la sodomia. Ooooh... se ti piace tanto, ti lascio alla tua privacy.

Ancora a spanne: mettiamo che per 20 anni i bambini a scuola imparino perfettamente l'inglese grazie ad una inaspettata riforma guidata da Ré Carlo il condottiero che conquista lo stivale intiero. Come conseguenza il doppiaggio non serve più a nessuno, non c'è il Duce che pretende che tutti si parli l'italica lingua dalle alpi all'Etna.

Adobe, aveva inserito anni fa il sistema generativo in una sua beta del software di Audition. Un Text To Speech. Aveva anticipato come in un software audio fosse possibile clonare un po' della voce di un oratore e sostituire le parole usando il Text to Speach, dal testo alla voce.
Ci saremmo aspettati di vederlo come plugin, invece è rimasto sotterrato per parecchio e alla fine arriva in versione LLM sulle AI che conosciamo bene ma che sono slegate dal software. Non hai il plug in dentro a Logic, Pro Tools, Cubase, Nuendo, Reaper, Audacity. Vai su un sito, scegli una voce clonata, scrivi il testo e scarichi il file audio. Oppure usi le API integrate a un server. Ok, in alcuni software è presente, come plugin Text to Speach. Ma è un morto che parla.

Da parecchio ci sono diversi software che modificano la voce direttamente sulle DAW, sono orientati al canto e fanno quello. In mix, cantando, ti assicuro che non senti davvero tutto quello che senti su una voce nuda.
Resta comunque un prodotto per demo e appassionati ma in produzione al massimo resta come plugin ma per i cori a livello professionale usi un umano. Ma no? Davvero? No, scusa, cialtrone che sono, un intero coro di umani che sanno cantare.

senza gambe

Il fatto che il pubblico non si accorga del vuoto sotto l'abito, non significa che non lo avverta. Lo avverte eccome, non sa ancora giudicarlo e non sa dargli un nome.
D'altra parte se una persona che non è pratica di un mestiere non coglie le differenze, non significa che davanti ad un opera meglio realizzata la preferisca, comunque, senza sapere spiegare il perché. La sente ma non sa dare un nome alla ragione del proprio sentimento.

Il pubblico è chiamato a godersi l'opera, non a saperla realizzare. Il bar è pieno di presunti allenatori, playboy, cuochi, piloti, economisti, politici capaci di cambiare il mondo, ma quelle persone col Crodino tra le mani non ne sarebbero in grado se privi di una approfondita conoscenza di ogni specifica attività.

Noi doppiatori speaker narratori attori, da quando abbiamo iniziato a praticare il nostro mestiere, non abbiamo mai terminato gli studi, abbiamo al massimo raccolto qualche diplomino durante gli anni ma mai smesso di studiare, tanto è profondo il mestiere. Se c'è ancora così tanto da imparare, come è possibile che una macchina che genera parole secondo una analisi statistica di dati raccolti, limitati e finiti, impari qualcosa che non vive di persona? Deep Learning?

Imparare non è solo memorizzare dati, occorre farle crescere quelle informazioni che diventano esperienze dentro di noi. Ad ogni informazione scritta è associata un esperienza diretta. Ogni mia emozione durante una produzione mi ha lasciato un segno che mi sono portato dentro anche nella performance successiva e perfino mentre mi lavavo i denti o facevo un viaggio in auto quell'emozione è cresciuta dentro di me facendo nascere nuovi pensieri, facendomi prendere decisioni differenti ad ogni svolta, ad ogni incontro, ad ogni nuova parola.

Una macchina con dietro un uomo dovrebbe diventare l'arto artificiale con cui l'uomo dovrebbe tentare di fare cose normali in condizione di infermità.
Con tutto il rispetto per chi è infermo e lotta per superare davvero i propri limiti.

Ed è qui che queste macchine danno il meglio di sé, nel dare voce ai muti, nel leggere ai non vedenti in maniera più naturale e in ogni altro aspetto che preveda un aiuto concreto ad una infermità. Persino nel salvare una vita grazie alla velocità di valutazione e calcolo in una diagnosi statistica o nel guidare un braccio meccanico in una operazione a cuore aperto.
Cuore, tanto declamato quanto dimenticato nell'era della tecnocrazia.

Quella tra macchina e uomo se fosse una gara vedrebbe la macchina travolgere l'umano nella velocità, nella forza fisica, nella resistenza. D'altra parte l'umano ha costruito la macchina proprio per superare i propri limiti! C'è Bolt che fa 100 metri in 9,58 secondi, 37 km e mezzo! A Bologna lo avrebbero multato! Ma se lo metti su una Kavasaki Ninja HR2, arriva a 400 Kh. Se non si scrocia alla curva della madonnina.
Comunque i 100 metri li farebbe in meno di 3 secondi partendo da fermo. Eppure senza il cuore impavido di un collaudatore, di un pilota, di un umano, queste macchine non prenderebbero l'iniziativa.

nuda

Nel parlato, la voce nuda è una bestia molto difficile! La mediazione tra pensiero e suono nel parlato è sottilissima. I filtri che l'attore riesce a mettere per costruire la sua narrazione, devono essere sottili, si tratta di strati che lasciano sempre intravedere la persona dietro il suono.
Ascoltando una persona che parla o legge puoi analizzarne superficialmente il carattere e le emozioni. Questa è la ragione per cui gli LLM possono imitare ma poi risultano vuoti. Nessuna umanità dentro. No Human Indide!

Il livello di mediazione su un prodotto artificiale è enorme: un tecnico che immette un testo, una serie di parametri per dare più o meno enfasi imitata, la macchina che sceglie su base statistica e probabilistica su dati precedenti, superficialmente campionati, i cosiddetti modelli. Non inventa, rimescola, genera qualcosa di probabile.

Generare un parlato? Ok ma occorre che qualcuno lo faccia, la macchina non ha nulla da dire! Se il tecnico è anche un addetto ai lavori, con approfondita conoscenza del mestiere, quindi con esperienza di teatro, recitazione al microfono e doppiaggio, potrà scegliere le versioni più probabili di un audio generato ma sarà fortemente vincolato alla mancanza di coscienza della macchina che in nessun caso comprende cosa sta facendo e che ad ogni rigenerazione della frase crea una nuova casualità.

Anche usando un prompt di istruzioni invece che una casella di testo, si otterrà una casualità. Probabilistica, su base statistica con imitazione di una realtà. Magari non quella che stai vivendo in quel momento.

Nessuna macchina ha un vissuto e mai potrà averlo perché è una cosa morta.

In conclusione, l'ideale sarebbe l'unione tra uomo e macchina a potenziare anche questo aspetto dell'umanità, parlare, raccontare. Ma ogni volta che si delega alla macchina la trasmissione di quel flusso di energia che da dentro la persona ed esce e fa vibrare l'aria, quel suono diventa una imitazione piatta.

La mediazione tra la fonte della voce umana e il suono che ne deriva è troppo densa. A differenza della parola scritta, quella parlata aggiunge un significato sonoro che in un tentativo di imitazione imbratta il senso originale. Lo farebbe probabilmente anche un cattivo attore.

Magari la macchina può diventare una stampella per correggere quelle cose che oggi correggiamo in editing, livelli di suono per gli apparati d'ascolto che oggi devono essere tarati ad hoc per ogni piattaforma, compressori, noise gate, equalizzatori, lavoro di editing vero e proprio. L'abbiamo già usata per pulire un suono mal registrato facendolo suonare come perfettamente registrato. Questo è il suo mestiere.

Pensare ad un essere umano che usa la voce e recita affrontando il suo lavoro come un atleta, in costante lotta contro i propri limiti, che viene sostituito da un tecnico con una protesi parlante, la trovo francamente l'idea più idiota dell'universo.

Direi che sarebbe ora di rottamare questa follia e dare alle macchine il loro posto, pregiato, di inestimabile valore come il mio van, il mio computer, la mia caldaia automatica. Alcune raffinatissime altre meno, ma sempre macchine.
Non rottamiamo il creatore.

Scrivi commento

Commenti: 0