Zero spese, prelievi gratis e interessi al 4%: i segreti del conto di Banca Mediolanum
AirPods Pro di seconda generazione: compra in OFFERTA ORA!
Con soli 119 euro porti a casa questo splendido Tablet!
Crucial P5 Plus 2TB, sconto EPOCALE di 200€ su Amazon per l’SSD preferito da PS5
Fibra TIM: ora in offerta a prezzo scontato con velocità fino a 10 Gigabit
Mini proiettore ELEPHAS: porta il CINEMA sempre con te dove e quando vuoi (59€)
Prime day? No, ma il prezzo di questa smart tv Sony è crollato del 29%!
Custodia con Tastiera per iPad: con questo SCONTO lo proteggi e trasformi in un portatile!
AirPods Max, le cuffie TOP DI GAMMA Apple MAI viste così scontate: quando ti ricapita?
Polar Ignite 2, il fitness smartwatch più elegante con GPS integrato cala del 30%
SmartTV LG 50 pollici QNED: sconti INCREDIBILI!
Le previsioni Meteo non ci azzeccano mai? Prendi questa mini stazione meteo in OFFERTA
TV 4K Samsung ad un prezzo STRACCIATO su Amazon
Gaggia Style il tuo caffè CREMOSO come al BAR anche a casa con appena 74€
Piccolo esperimento di voce sintetica con intonazioni decise dall’intelligenza artificiale
Per il podcast settimanale per la RSI preparo un cosiddetto lancio: un breve intervento preregistrato che viene trasmesso sulla Rete Tre della RSI e serve a presentare i temi della puntata. Questa settimana ho provato a generarne due versioni: una naturale, usando la mia voce dal vivo, e una sintetica, basata sulla mia voce clonata a pagamento da ElevenLabs. Eccole.
Riuscite a riconoscere quella sintetica?
Non dovrebbe essere difficile; quello che mi preme far notare, però, è il fatto che la versione sintetica è stata generata partendo da un testo completamente privo di informazioni di intonazione. Molti di questi software di sintesi vocale richiedono che vengano specificati, parola per parola, i toni e altre informazioni, e questo è un lavoro tedioso e lungo.
Il software di ElevenLabs, invece, determina automaticamente le intonazioni da usare, in base al contesto e alla struttura delle frasi: l’unica indicazione che gli ho fornito è il preambolo prima delle virgolette. Questo è il testo che gli ho dato in pasto pari pari, scegliendo poi il “ciak” migliore fra quelli generati:
Paolo parla con voce veloce ed eccitata da disk-jockey radiofonico: “Se qualcuno vi dice che si sta dedicando al dropshipping, ma è stato coinvolto in una sextortion e sta cercando aiuto per un cryptoscam, e non avete la minima idea di cosa stia dicendo, non vi preoccupate: è normale! Sono parole recenti, create per descrivere nuovi fenomeni legati a Internet. Se volete sapere cosa significano o volete approfondirne la conoscenza, c’è una nuova puntata del podcast Il Disinformatico, pronta da scaricare o mettere in coda per l’ascolto, che risponde alle domande degli ascoltatori su trappole e truffe della Rete! Si possono davvero fare soldi con la tecnica di compravendita del “dropshipping”, come sembrano voler fare anche molti minorenni? Qual è la strategia per difendersi dai ricatti basati su immagini esplicite ottenute con l’inganno? C’è qualcosa di vero dietro le agenzie che promettono di recuperare i soldi persi in truffe legate alle criptovalute? Sono Paolo Attivissimo, e vi aspetto presso vu vu vu punto erre esse i punto ci acca slash ildisinformatico e su tutte le principali piattaforme podcast!!”
Nel mio caso, il tempo necessario per generare varie volte la voce sintetica è grosso modo lo stesso che ci ho messo a dire il testo dal vivo senza impaperarmi e con l’intonazione che avevo in mente, per cui non si può ancora parlare di risparmio di tempo. Ma ho potuto generare il lancio senza aver bisogno di un microfono e di un ambiente silenzioso, e avrei potuto generarlo anche se fosse stato afono per qualunque motivo.
Ora immaginate questa tecnica applicata alla lettura di un intero libro per produrre un audiolibro, cosa che normalmente richiede decine di ore di disponibilità di uno speaker o di un attore professionista.