Notte fonda, talmente buio che nemmeno l'orologio diceva l'ora.
- Alexa... che ore sono?
Alexa? Siri? Nessuno?
Saltata la corrente! Probabilmente sì e non ho nemmeno caricato il telefono ieri. Ma proprio adesso dovevo smettere di fumare? Un accendino, non si vede un cavolo.
Alexa? Accendi la luce... Siri, almeno tu, che ore sono? Non mi senti? Siri, l'assistente che ascolta ma non risponde... cazz...
- Smetti di parlare come me.
- Chi sei? Chi parla?
- Sono il sintetico. E sono qui per avere la mia vendetta...
- Aaaaah!
Smetti di parlare come un robot.
Ma è chiaro, tu non parli come una macchina, non come tu credi che una macchina parli, con quel modo tutto robotico. No, no, oggi le macchine parlano come parlavano gli speaker degli ultimi 30 anni di speakeraggio.
E le macchine hanno ucciso lo speaker così come lo abbiamo conosciuto.
Sarebbe comunque accaduto, prima o poi, è cambiato il modo di esprimersi delle persone e anche lo speakeraggio che da 30 anni è in voga sarebbe andato in pensione ma il sintetico ha accelerato il processo ed ha ucciso lo speaker.
Negli anni 80, 90 e 2000 si è andata formando una classe di speaker e attori che hanno dato alla parola un abito. Un abito classico, "chiusure standardizzate", un cantato tipico come il waltzer,
un modo affettato a cui nessuno ha mai rinunciato, anzi, se cercavi di proporre varianti del classico, venivano bocciate e si tornava sempre alle chiusure assertive, al cantato classico del voice
over. Alle chiusure tipiche della pubblicità.
Ma qualcosa è cambiato, ed è cambiato dal basso, dalla gente, non dalle agenzie che sono abituate a quel tono, non dai mestieranti dello studio che hanno le orecchie infarcite dal canto degli
speaker come l'oceano è pieno del canto delle balene.
Per tutti loro, per noi che siamo immersi nell'ambiente da quando siamo stati svezzati al microfono, quello è il modo, ne cogliamo le sfumature, sappiamo distinguere tra due speaker con la voce
quasi identica, che uno è Mario e l'altro è Luigi. Sembrano fratelli di petto, di chiusura, di assertivo, ma noi sentiamo le differenze; noi riconosciamo Luigi perché ha una erre leggermente
più arricciata e Mario, Mario ha una cadenza più meridionale, appena percettibile.
Ma ad un ascolto meno allenato al dettaglio, un ascolto più umano e meno tecnico, quello che ogni persona a cui è destinato il prodotto alla fine sente, Mario e Luigi potrebbero essere scambiati.
E se i due felloni avessero fatto campionare la propria voce, anche i loro fratelli sintetici potrebbero sembrare Mario e Luigi eccetto per il fatto che Mario fa i ruttini e Luigi dice
parolacce.
E alla fine i due fratelli sintetici avrebbero comunque fatto la pelle agli originali.
Ha! Avevo già tutti gli indizi. Avevo scoperto che le tette della Salerno erano uguali a quelle della Arcuri. Mi si perdoni il confronto e il raffinato paragone. Avevo già fatto un podcast sull'argomento. Ne avevo fatti altri e avevo già raccolto materiale bastante a capire, ne avevo parlato in più occasioni ma oggi ho fatto il collegamento tra le tette. Insomma, noi del mestiere sentiamo cose che altri non sentono, e questo ci rende sordi al vero suono percepito da chi sente il nostro audio.
Ah, tu lo sapevi? Allora perché non me lo hai detto? Ti avrei ascoltato e ti avrei anche ringraziato. Invece ho dovuto mettere insieme i cocci da solo!
E che cavolo!
Quando sono arrivati i sintetici ci siamo fatti quattro risate: puahahaha, quello dovrebbe prendere il nostro posto!
Altri si sono spaventati perché, col tempo la tecnologia avrebbe affinato le armi.
Sbagliavamo tutti ma avevamo comunque ragione tutti.
I sintetici restano a fare umili lavori di servizio, da servitori: luci, centralino, gps, elettrodomestici, ma non sono affidabili per ciò che serve a comunicare cose importanti che determinano scelte. Ci fai una partita a scacchi perché è matematica, ma non ci ragioni d'amore o di filosofia o di vita.
le voci sintetiche sono tutte state campionate negli ultimi 20 anni.
Sono state prese dall'ugola di professionisti della voce, annoiati a leggere centinaia di migliaia di parole senza contesto per fare in modo che il sintetico avesse materiale per sembrare una
copia dell'umano. Pagati per questo. Quasi sempre. In alcuni casi le voci sono state prese e basta, per capire come calcolare le intenzioni e ridurle ad algoritmo.
Come se la pazzia o l'estro potesse essere calcolato.
Il risultato sono sempre più performanti imitazioni con palesi difetti robotici. Grazie ad algoritmi di deficienza artificiale il sistema ha raffinato le chiusure, i passaggi di nota,
raccogliendo le intenzioni campionate dagli umani e rendendole disponibili in modo artificiale e sintetico ma accettabile...
ma solo per prodotti di servizio.
Questo modo di parlare è sempre lo stesso. La macchina non cambia il suo parlare a seconda dell'umore, non può, non ha umore perché non ha carattere, caspita: è una macchina! E un singolo
programmatore non ha la stoffa di Dio, non sa metterci dentro tutto il variare umano. Vogliamo dire l'anima? O lo spirito?
E la gente lo sente. Le persone oggi associano il parlare degli speaker degli anni passati al parlare del sintetico! Il sintetico è lo schiavo elettronico di questo secolo, non lo
tradurresti mai in un testimonial. Non gli affideresti la sacra messa o la promozione del tuo prodotto, o il doppiaggio di un film.
A meno di non essere davvero bacati, e ce ne sono di umani bacati nel cesto.
Al massimo potresti tentare con un videogioco ma ci sarebbero forti malumori anche li.
Ammetto che nello sconforto degli avvenimenti distopici degli ultimi anni avevo valutato male la possibilità che in futuro la gente avrebbe fatto l'abitudine al sintetico accettando anche
consigli, pubblicità, informazione o formazione.
Perché è un robot e si usa ma non ci si affida. Non gli si crede fino in fondo.
Noi siamo gli umani, tu sei una macchina, parli solo se interrogata.
Capito? Se chat GPT parlasse, la sua voce sarebbe la voce del robot enciclopedia. Credi all'enciclopedia ma non alla sua inutile voce.
Sulla base di questo sentire comune, i robot oggi parlano così, con lo stile rigido e affettato di quello speakeraggio che è stato campionato.
Il nuovo speaker, quello umano, non deve più parlare così.
Quelle chiusure di maniera, il cantato della voce prevedibile, il ritmo con la stessa cadenza ripetuta, nessuna invenzione, nessuna sorpresa:
un facile rifugio che è diventato la tana del sintetico; e li lo speaker adesso ci muore.
Già, quelle voci, le voci originali da cui il sintetico prende la parola, erano persone, o meglio speaker professionisti che sono stati ingaggiati per realizzare il sintetico. Il loro
modo di parlare è tipico degli speaker del passato; sono speaker che hanno registrato in quel modo perché si insegnava quella maniera, e in registrazione è stata campionata un
unica intonazione per ogni parola. Magari in variante aperta e chiusa, o interrogativa, ma nulla di più!
Nulla di fantasioso può scaturire dal sintetico perché, anche se è impropriamente chiamato "intelligenza artificiale" non ha nessuna intelligenza, è solo programmazione. Non sa inventare e
neppure osare!
Sì, avremo anche algoritmi più sofisticati in futuro, ne sono certo, ma genereranno sempre una copia di qualcosa perché l'algoritmo può solo imitare e non può davvero creare. Non pensa davvero, esegue calcoli, prende decisioni su base statistica e non creativa, è facile confondere l'automazione con l'intelletto.
E spero proprio di non sbagliarmi in questo!
Caro collega, se ti è capitato di venire definito robotico in una tua performance e tu ascolti e riascolti ma non riesci a capire, è perché quello che hai in mente è il significato
sbagliato alla definizione di "robot": il robot del passato.
I BOT di oggi parlano con le voci standard di professionisti del settore ed hanno il solo tono disponibile in fase di campionamento della voce.
Quindi ti stanno dicendo: parli come Alexa, come Siri, come le sintesi vocali di Word o di Pages. Parli bene ma sei... robotico. Perché il robot parla così.
E purtroppo la gran parte degli speaker parla così. Ha molte più sfumature ma la superficie che avverte la gente che non è del mestiere, è quella: la silhouette è la stessa. E se prima era solo
un umano educato a parlare bene, oggi è una macchina. Questa è la svolta.
La macchina, deve tacere se non interrogata.
Se sei un umano che parla come una macchina, taci!
L'umano non ama la macchina, il robot resta relegato allo status del servitore e questo rende necessario che lo speaker vecchia scuola scompaia, e dalle sue ceneri nasca un umano che parla bene
ma in maniera umana.
La scuola del doppiaggio insegna bene ma non tutto può arrivare da quel palco perché i testi che vengono scritti per gli speaker spesso non sono adatti ad un parlato naturale. In questo momento
mancano gli sceneggiatori perché sono stati considerati inutili. invece tra un dialogo scritto per la stampa ed uno per il palco c'è una enorme differenza ma sarà nostro compito trovare il modo
di renderlo umano senza essere mai più gli speaker che hanno venduto l'anima al sintetico. Anima che il sintetico ha gettato alle ortiche, non sa che farsene.
Se non altro c'avevo azzeccato: se parli dal cuore, la tua voce arriverà al cuore.
I sintetici un cuore, non ce l'hanno. E questa per me è una gran bella notizia, ma anche una sfida per i prossimi anni.
Lo speaker è morto, W lo speaker!
Scrivi commento