emporia

L’intelligenza artificiale (AI) e l’apprendimento automatico promettono di far evolvere l’umanità a maggiori altezze futuristiche. Così scrive Malvika Mehta sul blog di Skpenow, un servizio specializzato in online intelligence e non solo, nell’incipit dell’approfondimento sui deep fake. Ossia di video e immagini che sfruttano l’AI e il machine learning per “applicare” visi diversi da quelli dei protagonisti effettivi dei filmati e delle foto, con un livello di realismo di carattere cinematografico. Tanto elevato che lo YouTuber che ha rivisto e corretto la scena finale di The Mandalorian, nella quale compare Luke Skywalker, è stato assunto dalla Disney per le produzioni effettive. Giusto per capire le potenzialità del deep fake, si veda il video originale di The Mandalorian con quello ottenuto dallo YouTuber. Impressionante il livello di qualità dei deep fake, tanto impressionante che si può prestare per usi meno nobili e condivisibili. Approfondiamo la questione anche grazie agli spunti di Melvika Mehta.

Gli sviluppi più urgenti riguardano i settori dell’automazione. I media sintetici generati dall’intelligenza artificiale, inclusi audio o video, possono offrire opportunità senza precedenti nei settori dell’arte, dell’istruzione e dell’intrattenimento a una frazione del costo. I deep fake possono replicare video, cambiare voce e scambiare volti. I movimenti delle labbra sono accurati alle parole pronunciate. La tecnologia automatizzata ha introdotto nuove dimensioni per superare le barriere linguistiche. 

I film possono essere tradotti usando il deep fake abbinato agli attori originali con conseguenti costi inferiori ma con un incremento dei processi manuali ad alta intensità di manodopera. Un rapido rendering con l’applicazione deep fake può alterare digitalmente gli umani come il laboratorio di intelligenza artificiale di Samsung ha portato il sorriso di Monna Lisa alla realtà. Lo stesso laboratorio ha anche creato video realistici di Marilyn Monroe, Albert Einstein e Salvador Dalì come se stessero parlando. Diversi esempi di deep fake si possono trovare sull’account TikTok dedicato a Tom Cruise @deeptomcruise. Tuttavia, questa tecnologia non è esente dal rischio di essere coinvolta nelle principali minacce potenzialmente legate alla guerra informatica, in cui strumenti progettati appositamente moltiplicano le potenzialità dell’hacking e di un uso criminale dei tool.

I deep fake confondono e illudono

Un sondaggio condotto da Deep Trace Labs nel giugno 2020 ha affermato che il numero di video deep fake su Internet è raddoppiato in un periodo di soli sei mesi. Hanno anche riferito che nel 2019, il 96% dei video deep fake totali era costituito da pornografia “deep fake” non consensuale. Il target erano quasi esclusivamente donne. Il primo video deep fake è emerso nel 2017 in cui il volto di una celebrità è stato scambiato con il volto di un attore porno. In tali casi si può percepire un aumento dannoso delle truffe, del bullismo e del revenge porn. Questi falsi hanno iniziato ad avere ripercussioni finanziarie nella società. Il ceo di un’azienda energetica con sede nel Regno Unito è stato vittima di una truffa di circa 243.000 dollari: un deep fake vocale generato dall’intelligenza artificiale è stato utilizzato per impersonare la voce del suo capo.

Le manipolazioni digitali spesso portano a mettere in discussione l’integrità dei media grafici e facilitano la diffusione di notizie false. L’abuso di tecniche di manipolazione delle immagini con strumenti facilmente disponibili come Photoshop ha portato alla creazione di fotografie che travisano fatti o media, con interventi “su misura” per soddisfare il divertimento di una persona o di un gruppo di fanatici. 

Un’immagine vale più di mille parole, e in un mondo sempre più visivo alla ricerca di una gratificazione immediata, le immagini false potrebbero comunicare in modo più efficace delle testimonianze agli occhi di una giuria. I metadati possono essere manipolati o cancellati, i filtri della fotocamera utilizzati sulle pagine dei social media e le applicazioni integrate possono modificare le immagini per migliorare le caratteristiche del viso. 

I video deep fake sono creati alterando digitalmente il volto di una persona con un altro individuo. Possono anche essere generati al computer. Spesso sono creati con intenzioni maligne per assomigliare a una seconda persona. È una delle più grandi minacce poste dalla tecnologia di machine learning. Le conseguenze includono la creazione di contenuti sessualmente espliciti con protagonisti che assomiglino a leader politici, oppure rendendo star del cinema i volti di persone comuni. Il contenuto che si trova su Internet è spesso preso per il suo valore nominale, lasciando dietro di sé scie di reputazioni danneggiate. Le parole possono essere semplicemente messe in bocca ai politici per fargli pronunciare frasi che non hanno mai detto, alterando così le elezioni e influenzando la sicurezza nazionale.

Come vengono creati i deep fake?

I deep fake necessitano di GAN (Generative Aversive Networks) e autoencoder, i dati sono generati da zero con informazioni grafiche e non solo, come immagini e musica. I GAN sono utilizzati per creare anime, emoji per il viso e persino video TikTok. I filtri dei social media possono modificare le acconciature, il colore degli occhi, i peli del viso e alterare l’età del soggetto. 

Matt Groh, un assistente di ricerca presso il MIT Media Lab, menziona l’utilizzo di algoritmi di riconoscimento facciale insieme a una rete di computer di deep learning chiamata auto-encoder variazionale (VAE). Il creatore formerebbe una rete neurale di filmati o fotografie reali di una persona per ottenere una comprensione realistica delle caratteristiche facciali. Come appaiono da diverse angolazioni? Quali sono le condizioni di illuminazione? 

L’algoritmo di riconoscimento facciale cattura diverse pose e illuminazione naturale nei fotogrammi video. Il deep learning addestra il VAE a codificare le immagini che devono essere scambiate e a decodificare quelle da scambiare. Potrebbe essere un’immagine generata dal computer (GAN) o appartenente a un altro essere umano reale. La grafica generata da GAN sarebbe quindi sovrapposta al supporto reale combinando l’encoder con il decoder.

Una vostra foto trovata nel vasto e incontrollato mondo sul web è tutto ciò che serve. Thispersondoesnotexist.com presenta immagini realistiche che sono artificiali. Le immagini sono create utilizzando GAN e contengono foto di visi di diverse etnie ed età. Un sito web e un’applicazione chiamata My Heritage utilizzano l’intelligenza artificiale per creare video in movimento da fotografie. Funziona sul concetto di Deep Nostalgia che anima le immagini fisse e crea video di alta qualità. È stato usato per riportare in vita i morti, digitalmente.

I volti generati (ma che non esistono nella realtà) dal sito https://thispersondoesnotexist.com/
L’uso della tecnologia Deep Notalgia di My Heritage per fare muovere le foto in moto realistico

Inoltre, piattaforme integrate con AI come ReFace, consentono agli utenti di trasporre volti in video e GIF basandosi sulla tecnologia GAN. A dimostrazione, due immagini sono state tratte da uno dei più famosi programmi TV di tutti i tempi: Friends. Le immagini sono state caricate sull’app ReFace. Un video casuale con audio incorporato è stato scelto dai campioni per creare video falsi profondi.

Altri strumenti utilizzati per creare deep fake sono:

  1. Zao 
  2. Deepfake web
  3. Deep Face Lab
  4. App per il viso

Un software chiamato “Deep Nudes” rimuove i vestiti dalle fotografie (ma solo per le donne). È stato ampiamente utilizzato per “spogliare” le ragazze svelando le parti intime in meno di venti secondi. Questo è orribile. Inoltre, è stato impiegato per diffondere su Internet in modo dannoso materiale pornografico non consensuale e coercitivo. Lo strumento è stato testato con più immagini e i risultati, questa è la cosa ancora più incredibile, erano molto vicini alla realtà una volta se si utilizzavano le foto delle stesse ragazze magari con esposte alcune porzioni di pelle.

Risultati scarsi sono stati ottenuti per quelle ragazze molto più vestite. La versione gratuita dello strumento aggiunge una filigrana in diverse posizioni. Tuttavia, questa filigrana, anche senza pagare l’abbonamento, può essere facilmente ritagliata o rimossa. 

Ci sono stati diversi casi di criminalità informatica in cui profili online fittizi sviluppano relazioni romantiche fraudolente con donne vulnerabili (noto come catfishing) per estorcere denaro. Sono stati segnalati anche casi di diffamazione in cui le donne sono state molestate sulla base di questi materiali e conseguenti affermazioni. Sta diventando più facile per le persone creare video di persone che dicono cose che non hanno mai detto o fatto.

Indagando su deep fake con taglio “v.m. 18”

I deep fake possono essere convincenti a occhio nudo. Dopo un’attenta osservazione, nei video sopra, si possono individuare i video fabbricati analizzando le incongruenze. Alcuni dei suggerimenti e dei trucchi per individuare i deep fake progettati professionalmente sono i seguenti:

  • Il contenuto del video ha senso? Quale è l’intenzione e il messaggio che sta dando? Gli investigatori possono spesso trovare motivi dietro tali video che sollevano molti dubbi.
  • Osserva ogni caratteristica del viso: inizia con un approccio più ampio guardando l’intero viso. In tali video, la trasformazione del viso è sempre presente. Il viso può apparire più levigato, le linee sottili e le rughe possono essere ridotte. Caratteristiche come occhi, mento e labbra possono allungarsi, distorcersi o sciogliersi insolitamente.
  • Quindi, osserva gli occhi. Identifica le ombre e la luce naturali nel video. I movimenti degli occhi e delle sopracciglia sono sincronizzati con la bocca? La dimensione delle labbra è insolita?
  • Perché il personaggio sembra restio a sbattere le palpebre? La pelle appare troppo liscia o filtrata? 
  • Quindi, presta attenzione agli accessori, come gli occhiali e la barba. La creazione di video deep fake può essere difficile con immagini che contengono occhiali a causa del bagliore. La manipolazione dei peli del viso è impegnativa e spesso fa sì che le sequenze risultino strane o strane. La frase “segui il tuo istinto” si applica ampiamente in queste situazioni.
  • Ora, controlla il linguaggio del corpo. Il collo è sincronizzato con le espressioni facciali? I gesti della persona si coordinano con i movimenti della bocca? Il movimento del corpo sembra robotico e artificiale?
  • Mentre indaghi sui nudi profondi, considera l’illuminazione, lo sfondo, la posizione dei capezzoli, gli angoli, le distorsioni e le ombre sottostanti.

Un progetto di ricerca del MIT ha sviluppato una piattaforma chiamata “Detect Fakes” https://detectfakes.media.mit.edu/ che contiene una combinazione di media fabbricati e autentici (video con audio, video muti, solo audio e così via). È una buona piattaforma per testare e mettere in pratica le abilità di indagine relative ai deep fake.

Strumenti OSINT per rilevare i deep fake

Per OSINT si intente “Open Source Intelligence“. Le procedure di indagine comporterebbe comunemente indagini su:

  • Fonte del video: l’analisi dei social media e la digital forensic giocano un ruolo importante. Gli strumenti incentrati sulla rivelazione o sul ripristino dei dati EXIF ​​sono particolarmente utili. 
  • Gli strumenti di ricerca inversa delle immagini, come Google Image Search, Yandex e TinEye Reverse Image Search possono fornire alcune informazioni sulle cornici delle immagini.
  • È possibile utilizzare strumenti di analisi audio come Audacity o Deep Fake Audio Detection https://github.com/dessa-oss/fake-voice-detection .

Sensity.ai

Sensity.ai consente agli utenti di analizzare i file per rilevare le minacce relative alla manipolazione di immagini o video. Qui di seguito un esempio di come lo strumento rileva le manipolazioni dai video dimostrativi.

Tuttavia, lo strumento non è in grado di rilevare gli scambi di volti se le immagini sono state modificate in modo più approfondito e strategico. Ciò include un processo di rimozione dello sfondo dall’immagine, lo scambio di un’immagine stock royalty-free con un’immagine GAN e anche lo scambio di dati EXIF ​​può ridurre le possibilità di rilevamento. Come nel caso della foto qui di seguito.

Deepfake-o-meter

I ricercatori dell’Università di Buffalo hanno creato uno strumento di individuazione dei deep fake con una percentuale di successo di circa il 94%. Funziona sulla fisica dei riflessi di luce negli occhi. Lo strumento esamina le differenze riflettenti non corrispondenti negli occhi. I riflessi dovrebbero avere la stessa forma e dimensione in entrambi gli occhi.

Deepware.ai

Simile a Sensity.ai, Deepware è uno scanner di deep fake. Tuttavia, i risultati non sono soddisfacenti. La Figura 7 mostra i risultati della scansione, lo strumento è riuscito a individuare 1 video falso su 2, mentre Sensity.ai potrebbe individuarli entrambi. Una caratteristica interessante di Deepware è che contrassegna le aree minacciate (“pred”).

Deep fake: colmare il divario con OSINT

Gli sviluppi tecnologici hanno creato immagini, audio e video simili a quelli realistici, dannosi per la privacy e la sicurezza degli individui. Sebbene ci siano diversi vantaggi della tecnologia AI e del GAN ​​nelle aree del marketing, dell’abbigliamento, del teatro e del cinema, le atrocità del crimine informatico non risparmiano nessuno. Il sabotaggio della reputazione di una persona corre parallelo alla creazione e alla distribuzione di deep fake, in particolare per le persone le cui vite ruotano nella sfera pubblica, come personaggi vip, politici, celebrità e atleti. In futuro, potrebbero benissimo essere persone comuni, come amici, vicini, colleghi di lavoro e i familiari. 

Quando si tratta di identificare il creatore di deep fake, si impara a capire che chi ci ha lavorato può rimanere anonimo oppure addirittura far parte di campagne finanziate da Governi. Purtroppo esiste un divario evidente tra la qualità dei deep fake e le possibilità degli strumenti di rilevamento dei falsi, come abbiamo evidenziato poco sopra.

Potrebbe esserci la possibilità di integrare tali scanner su piattaforme di social media in grado di rilevare automaticamente video falsi, immagini false e notizie false. I giganti della tecnologia tra cui Microsoft, Google, Facebook e Twitter stanno cercando di accelerare per stare al passo con l’abuso di deep fake. Facebook ha stretto una partnership con Microsoft e ha lanciato una incessante campagna di rilevamento dei falsi. Facebook ha creato deep fake e ha incoraggiato i partecipanti a sviluppare strumenti Open Source per il rilevamento, i risultati sono disponibili in questa pagina: https://ai.facebook.com/blog/deepfake-detection-challenge-results-an-open-initiative-to-advance-ai/ 

Google ha varato un programma avanzato per il rilevamento di audio falso utilizzando la propria attività Automatic Speaker Verification Spoof Challenge nel 2019. Ai ricercatori è stato chiesto di presentare contromisure contro gli audio falsi. Fabula.ai di proprietà di Twitter aiuta a individuare le notizie false. Una società privata chiamata ZeroFox ha introdotto Deepstar (contributo open source) che incorpora un plug-in che automatizza l’acquisizione del video da un sito Web e ne ottiene i frame. È utile addestrare e confrontare i risultati utilizzando la tecnologia di deep learning. Gli strumenti OSINT devono essere sviluppati per lavorare sulle tecniche di sincronizzazione per rilevare i movimenti delle caratteristiche facciali con quelle dell’audio.

Non solo gli investigatori devono essere formati per monitorare e identificare i deep fake. Tutti noi dobbiamo imparare a capire di cosa si sta parlando e creare anticorpi contro questo fenomeno. La minacciosa realtà di ciò che possiamo intravedere è, oggi, solo la punta di un iceberg.