OpenAI ha riconosciuto apertamente che una delle minacce più insidiose, le cosiddette prompt injection, non è destinata a scomparire nel breve periodo. Lo ha dichiarato in un post dedicato alla sicurezza del suo browser AI, Atlas. Le prompt injection sono attacchi che sfruttano istruzioni nascoste all'interno di pagine web, documenti o email per indurre un agente IA a eseguire azioni non previste.
Si tratta di una tecnica concettualmente simile alle pratiche di social engineering tradizionali, ma adattata a sistemi automatizzati dotati di un certo grado di autonomia operativa.
La posizione di OpenAI e le attuali contromisure
Nel descrivere le nuove misure di protezione introdotte in Atlas, OpenAI ha ammesso che la modalità agente di ChatGPT amplia inevitabilmente il perimetro dei rischi. Già all'uscita del browser, avvenuto in ottobre, diversi ricercatori avevano dimostrato come semplici istruzioni inserite in documenti online potessero alterarne il comportamento. Nello stesso periodo, anche altri attori del settore avevano evidenziato che le prompt injection rappresentano un problema sistemico per i browser basati su IA, non limitato a una singola piattaforma.
Il riconoscimento di questa criticità non riguarda solo OpenAI. All'inizio del mese, il National Cyber Security Centre del Regno Unito ha avvertito che gli attacchi di prompt injection contro applicazioni di intelligenza artificiale generativa potrebbero non essere mai completamente mitigati, invitando i professionisti della sicurezza a concentrarsi sulla riduzione dell'impatto piuttosto che sull'illusione di un blocco totale.
La risposta di OpenAI si fonda su un ciclo di difesa rapido e proattivo, che punta a individuare nuove strategie di attacco prima che vengano sfruttate su larga scala. In questo quadro si inserisce l'uso di un "attaccante automatizzato" basato su modelli linguistici di grandi dimensioni, addestrato tramite reinforcement learning a comportarsi come un hacker e a cercare falle nei sistemi agentici.
Questo sistema può simulare un attacco, osservare come l'agente bersaglio ragiona e reagisce, modificare la strategia e riprovare più volte. L'accesso ai meccanismi interni del modello consente di individuare vulnerabilità che un attaccante esterno difficilmente riuscirebbe a scoprire con la stessa rapidità. Secondo OpenAI, questo approccio ha già portato alla scoperta di schemi di attacco non emersi né nei test manuali né nei report esterni.
In una dimostrazione pratica, l'azienda ha mostrato come un'email contenente istruzioni malevole potesse indurre l'agente a inviare un messaggio di dimissioni al posto di una semplice risposta automatica. Dopo l'aggiornamento di sicurezza, lo stesso tentativo viene intercettato e segnalato all'utente.