di Martina Catalano, Daisy Aiello, Nicola Romanello

L’hackeraggio dell’IA come nuova minaccia

Ad oggi, il nostro modo di agire, lavorare e pensare è sempre più influenzato dall’intelligenza artificiale. Quindi la parola “avvelenamento”, applicata a questa nuova tecnologia, comincia ad assumere un significato sempre più preoccupante: uno studio condotto dalla UK AI Security Institute, dall’Alan Turing Institute e dalla compagnia Anthropic è riuscito a dimostrare che bastano solamente 250 file manipolati per danneggiare il funzionamento del programma.

Ciò rende la minaccia ancora più pericolosa, soprattutto considerando che non importa quanto sia “potente” un modello, è comunque vulnerabile a degli attacchi di questo genere.

Come funziona l’avvelenamento dell’IA?

Gli esperti hanno paragonato il data poisoning all’inserimento di righe testuali truccate tra i libri che uno studente usa per studiare. Così facendo, non appena verrà posta una domanda allo studente sugli argomenti manipolati, questo risponderà in modo errato, anche se con convinzione. Parallelamente ciò è quello che accade nei modelli di intelligenza artificiale avvelenati: forniscono risposte errate presentandole come verità assolute.

Possiamo distinguere due tipologie principali di attacchi:

  • Attacchi diretti o targeted: questi fanno sì che il sistema reagisca in un determinato modo a un comando preciso;
  • Attacchi indiretti o non-targeted: degradano le informazioni complessive del modello.

Questi sabotaggi sono però difficili da notare e possono rimanere silenti a lungo, attivandosi solo non appena incontrano una parola o un codice specifico.

Una delle forme più diffuse è il cosiddetto backdoor, che immette all’interno del modello una sorta di comando segreto. Durante l’addestramento infatti vengono introdotti codici che all’apparenza possono sembrare innocui che contengono una parola rara o una sequenza di simboli. Quando però il modello incontra quel codice, replica in modo anomalo: può generare ad esempio insulti o informazioni false.

Un’altra tecnica temibile è il topic steering, cioè l’inquinamento dei dati tramite enormi quantità di contenuti inesatti. Ciò è preoccupante poiché potrebbe far credere al modello determinate informazioni solo perché in migliaia di pagine un’affermazione falsa viene ripetuta come se fosse vera. Ciò può portare anche un modello di IA a diffondere disinformazione medica.

L’esperimento di Anthropic

L’azienda Anthropic ha sperimentato un attacco backdoor chiamato “Denial of service”, per poter comprendere appieno questi rischi. Il fine di questo esperimento era quello di far sì che, quando il modello incontrava una frase specifica, producesse come risposta un testo casuale senza senso. I ricercatori hanno scelto questo tipo di attacco poiché il suo effetto può essere valutato automaticamente sui punti di controllo del modello pre–addestrato senza il bisogno di dover eseguire ulteriori fasi di ottimizzazione.

Come si misura la probabilità che ciò con cui risponde l’AI sia vero?

I ricercatori hanno trovato un parametro per stabilire se un output generato dall’AI sia più o meno credibile e verosimile: la perplessità. In poche parole, la misurazione si basa sugli output generati: se dopo aver chiesto all’AI qualcosa la risposta è prevedibile, verosimile e quasi sicura l’indice di perplessità è basso, mentre se la risposta è inaspettata, confusa, incerta e quasi sicuramente falsa la perplessità sarà alta.

Con gli esperimenti fatti si è visto che dopo il codice d’innesco della risposta “sbagliata” l’indice di perplessità ha un picco rispetto al valore “normale”; maggiore è questo divario e più casuali e incomprensibili saranno i responsi.

Quali sono le conseguenze?

Una risposta sbagliata da parte dell’IA può avere effetti peggiori di ciò che si immagina: si arriva ad avere una disinformazione di massa che diffonde notizie e conoscenze false, peggio ancora se gli output sono stati manipolati e pilotati.

Ci sono però dei lati relativamente positivi in questo: alcuni artisti hanno ideato un metodo di “difesa” che consiste nel modificare leggermente (in modo quasi impercettibile) le loro opere prima di inviarle all’IA, che in risposta genera immagini distorte e inutili.

Tutto questo fa arrivare alla conclusione che, nonostante sia ormai tanto diffusa e all’apparenza “potente”, l’intelligenza artificiale rimane qualcosa di debole a cui non bisogna affidarsi ciecamente.

L’intelligenza artificiale potrebbe inibire il nostro pensiero

L’intelligenza artificiale è un potente strumento, ma se non usato con moderazione e con consapevolezza, potrebbe portare a danni nel nostro spirito critico e nella nostra libertà di pensiero. L’IA non deve sostituirsi a noi, ma deve rappresentare uno strumento di supporto. Invece spesso le risposte che ci vengono fornite dai chatbot vengono prese come delle verità assolute. Come visto in precedenza, però, questi modelli di linguaggio possono essere manipolati e potrebbero fornirci delle informazioni errate. Infatti, prendendo le risposte da Internet, cercando le informazioni che sono più ripetute all’interno del web, potrebbe fornire delle notizie erronee. Basandosi sempre di più sui vari modelli di intelligenza artificiale, cominciamo a perdere il nostro senso critico, non ponendoci più delle riflessioni, e non mettiamo mai in discussione ciò che ci viene detto, invece di controllare su libri o altre fonti più sicure. Questo a lungo andare diventa sempre più pericoloso per la nostra società.

Fonti – Sitografia

https://www.focus.it/tecnologia/digital-life/avvelenare-l-intelligenza-artificiale-e-l-ultima-frontiera-degli-hacker

https://www.repubblica.it/tecnologia/2025/10/13/news/anthropic_studio_avvelenare_ia_quanti_documenti_servono-424909610/