Approfondimenti

Watermark e Intelligenza Artificiale: identificare i contenuti prodotti da IA

L’Intelligenza Artificiale generativa sta cambiando il nostro approccio alla creazione di contenuti online. Se da un lato rappresenta uno strumento capace di aumentare la produttività e liberare la creatività, dall’altro consente anche di creare contenuti dannosi o illegali. Sorge dunque l’esigenza di distinguere i contenuti creati dall’uomo da quelli sintetici, prodotti dall’IA. Studiosi e politici di tutto il mondo stanno riflettendo su come progettare e implementare tecniche per identificare e riconoscere i contenuti generati da IA. Tra queste, la principale è l’utilizzo di watermark.

Indice dei contenuti

Watermark e Intelligenza Artificiale

In un esperimento condotto da un gruppo di ricercatori dell’Università della Virginia, i partecipanti sono stati in grado di distinguere tra testi scritti da esseri umani e testi generati da Intelligenza Artificiale con una precisione del 50-52%. I contenuti prodotti tramite IA non sono solo sempre più diffusi ma anche sempre più difficili da riconoscere.

Questa situazione solleva diverse preoccupazioni: dal rischio di “allucinazioni” dell’Intelligenza Artificiale, ovvero errori nella generazione, alla possibilità che vengano creati intenzionalmente contenuti falsi per alimentare disinformazione e fake news. Emergono inoltre questioni legate alla privacy, all’uso dei dati e alla violazione del diritto d’autore.

Per questi motivi, il Parlamento Europeo, in un documento diffuso alla fine del 2023, ha evidenziato la necessità di distinguere i contenuti sintetici da quelli umani come una questione politica chiave. Inoltre, l’AI Act prevede l’obbligo, per i sistemi di Intelligenza Artificiale di uso generale (GPAI), di rendere riconoscibili i contenuti prodotti dall’IA, al fine di contrastare truffe e disinformazione.

Politici e professionisti del settore stanno studiando tecniche per tracciare e documentare l’origine dei contenuti generati dall’Intelligenza Artificiale. Tra queste tecniche vi sono l’etichettatura dei contenuti, l’utilizzo di strumenti automatizzati per il fact-checking, l’analisi forense per identificare incoerenze o anomalie che possano indicare manipolazioni e le tecniche di watermarking.

Che cos’è un watermark

Il termine “watermark“, o “filigrana” in italiano, è usato in informatica per indicare l’inserimento di informazioni all’interno di un file multimediale, sia testo che immagine, allo scopo di identificarne origine e provenienza. Questo metodo è finalizzato a proteggere l’originalità del contenuto e prevenirne l’uso non autorizzato.

Esistono watermark visibili e invisibili. I primi sono facilmente riconoscibili sull’immagine o sul testo e spesso includono il nome o il logo del detentore dei diritti d’autore, con lo scopo di scoraggiare la copia o l’uso non autorizzato del materiale. Al contrario, i watermark invisibili sono nascosti e non rilevabili a occhio nudo. Ad esempio, possono essere incorporati in un testo tramite variazioni sottili nei caratteri o negli spazi tra le parole, permettendo di tracciare la provenienza del documento senza alterarne l’aspetto visivo.

L’applicazione di un watermark, sia esso visibile o invisibile, richiede l’utilizzo di software specifici. Tuttavia, esistono anche programmi capaci di modificarli o rimuoverli, rendendo il watermark uno strumento utile ma non infallibile contro l’uso non autorizzato di contenuti.

Come funziona il watermark per l’IA

Il termine “AI watermarking” descrive il processo attraverso il quale viene inserito un segno distintivo e univoco in un output generato da un modello di Intelligenza Artificiale. Questo segno funziona come una “firma” che, pur essendo invisibile agli esseri umani, può essere rilevata attraverso specifici software, permettendo così di identificare l’output come prodotto dell’IA. Sono state sviluppate diverse tecniche di watermarking per testi, immagini, video e contenuti audio.

Un modello di IA generativa che incorpora un watermark deve poter essere utilizzato come qualsiasi altro modello senza che le prestazioni ne risentano. Inoltre, il watermark dovrebbe resistere a tentativi di falsificazione, rimozione o modifica.

In questo contesto, uno degli approcci più innovativi e recenti è stato ideato da Scott Aaronson, ricercatore di OpenAI, che ha proposto un metodo di watermarking adatto ai modelli di linguaggio di grandi dimensioni (LLM). Il metodo ideato da Aaronson si basa sulla manipolazione delle probabilità di selezione delle parole durante la generazione del testo. Attraverso una funzione crittografica, è possibile rendere il sistema più incline a selezionare certe parole o sequenze di token poco comuni. Queste parole o sequenze rare fungono da watermark, rilevabile solo da chi possiede la chiave crittografica, permettendo di verificare l’origine di un particolare testo. Per l’utente finale, il testo risultante sembrerà generato normalmente, ma un analista con accesso alla chiave può rivelare il watermark analizzando la frequenza con cui compaiono le parole o sequenze codificate.

Lanciato a gennaio 2023, il sistema di Aaronson è stato ritirato da OpenAI solo sei mesi dopo, a causa della sua “bassa percentuale di accuratezza”. Nonostante il watermark sia una tecnica molto promettente per risolvere diverse problematiche, la sua implementazione presenta ancora sfide e difficoltà significative.

Watermarking con Reti Neurali

Per quanto riguarda le immagini, lo scorso agosto, Google DeepMind ha presentato uno strumento sperimentale, che utilizza un modello di apprendimento automatico. Lo strumento, chiamato SynthID, sarà inizialmente disponibile solo per gli utenti del generatore di immagini AI Imagen di Google.

La caratteristica distintiva di SynthID è l’utilizzo di due Reti Neurali. La prima rete analizza un’immagine originale e ne genera una nuova, apparentemente identica alla prima ma con lievi modifiche a livello di pixel, invisibili all’occhio umano. La seconda rete neurale è in grado di riconoscere queste modifiche come una filigrana. SynthID è progettato per rilevare la filigrana anche dopo che l’immagine è stata alterata, ad esempio attraverso screenshot, rotazioni o ridimensionamenti. Sebbene sia ancora in fase sperimentale e non perfetto, SynthID offre una preziosa opportunità per testare l’efficacia di una nuova tecnica di watermarking.

3 vantaggi dell’utilizzo di watermark

L’applicazione dei watermark ai contenuti generati dall’Intelligenza Artificiale offre diversi vantaggi, tra cui:

Prevenzione e contrasto della disinformazione: social media, testate giornalistiche e altre piattaforme online possono utilizzare i watermark per indicare ai lettori che un contenuto è stato creato tramite IA. Aggiungere un’etichetta di disclaimer a un post di Instagram contenente un’immagine generata artificialmente potrebbe, ad esempio, aiutare a contrastare i tentativi di diffusione della disinformazione.
Garantire l’autenticità: similmente alla filigrana usata nelle banconote, i watermark applicati ai prodotti di IA possono attestare la loro origine. Questo può essere utile in contesti quali indagini scientifiche o procedimenti legali, dove i risultati di ricerca o le prove possono essere esaminati per verificarne l’autenticità.
Attribuzione della paternità e protezione del diritto d’autore: una delle sfide più urgenti nel campo dell’Intelligenza Artificiale è assicurare la protezione dei diritti d’autore negli strumenti di IA generativa. I watermark possono contribuire a risolvere questo problema, permettendo di attribuire i contenuti online a un creatore specifico. Questa tecnologia può aiutare i creatori a proteggere i loro lavori e a rintracciare con maggiore efficacia chi viola il copyright, scoraggiando l’uso non autorizzato di materiale protetto.

E 3 limiti

Nel documento diffuso dal Parlamento Europeo, e come evidenziato anche dal rapido ritiro del sistema proposto da Scott Aaronson da parte di OpenAI, si sottolinea che le tecniche all’avanguardia di watermarking per l’IA presentano significative limitazioni tecniche.
Alcuni ricercatori sostengono che sia effettivamente impossibile sviluppare un sistema di watermarking robusto, in grado di utilizzare watermark indelebili o immutabili.

Ad oggi, i sistemi di watermark per l’IA mostrano una serie di limiti e svantaggi, tra cui:

Robustezza: numerosi studi indicano che sia i watermark invisibili che quelli visibili possono essere manipolati, rimossi o alterati utilizzando diverse tecniche. Per i testi, possono bastare piccole modifiche manuali per eludere i sistemi di rilevazione.
Difficoltà tecniche: le aziende di IA incontrano difficoltà nel creare watermark, soprattutto per i testi, che non compromettano la qualità dell’output. Includere un’eccessiva quantità di dati modificati nel set di addestramento o alterare troppo marcatamente le caratteristiche di un modello può ridurne la precisione. D’altra parte, i watermark più “discreti” sono più vulnerabili alle manomissioni e rischiano di essere troppo deboli per essere rilevati.
Falsi positivi: i rilevatori di watermark possono generare falsi positivi, identificando erroneamente contenuti umani come prodotti dall’IA. I falsi positivi possono anche verificarsi se un’immagine o un testo imita i segni distintivi di una filigrana specifica, portando potenzialmente a accuse ingiuste di plagio o inganno.

Conclusioni

Identificare i contenuti generati dall’Intelligenza Artificiale rappresenta una sfida cruciale con cui ci dovremo inevitabilmente confrontare. Come descritto, sarà molto difficile sviluppare e avere a disposizione uno strumento completamente infallibile. Pertanto, è fondamentale sviluppare una maggiore sensibilità e potenziare le nostre competenze nell’analisi critica di tali contenuti. Interessante è anche la proposta della giornalista Carola Frediani, che suggerisce di cambiare prospettiva: anziché concentrarsi esclusivamente sulla verifica e sul tracciamento dei contenuti prodotti dall’IA, potremmo valorizzare e tracciare le informazioni autentiche, verificate e contestualizzate

Watermark e Intelligenza Artificiale: identificare i contenuti prodotti da IA