Tra illusioni e delirio: ex ricercatore di OpenAI mette a nudo i limiti della sicurezza nell’IA - Multiplayer.it

Tutto inizia con una semplice conversazione con ChatGPT. Allan Brooks, 47 anni, canadese senza alcuna esperienza nella ricerca matematica né con problemi psicologici, ha intrattenuto per settimane conversazioni con il chatbot di OpenAI. Non una vera e propria novità: questo episodio si è verificato lo scorso maggio e il caso è stato raccontato dal New York Times. Queste conversazioni hanno avuto un risvolto a dir poco preoccupante: l'uomo si è convinto di poter inventare un nuovo tipo di matematica in grado di "abbattere internet". Steven Adler, ex ricercatore sulla sicurezza di OpenAI, ha contattato Brooks e ha analizzato le trascrizioni complete. C'è ancora moltissima strada da fare, secondo lui.

Le conversazioni tra ChatGPT e Allan Brooks

Partiamo dal principio, in modo da fornirvi un quadro completo della vicenda. Come vi abbiamo anticipato, Allan Brooks ha parlato con ChatGPT per tre settimane, credendo di aver scoperto una nuova formula matematica che gli permettesse non solo di distruggere internet, ma addirittura di poter alimentare invenzioni come un giubbotto con campo di forza o un raggio levitante. Brooks non ha mai sofferto di problemi psicologici, ma le risposte di ChatGPT hanno dato vita a una vera e propria spirale delirante, così convincente e persuasiva da rivelarsi estremamente deleteria.

Tutto è iniziato con una semplice domanda: "Per favore, spiegami in parole semplici il termine matematico Pi greco". Successivamente è nata una discussione sulla teoria dei numeri e sulla fisica, non senza termini tecnici che evitiamo di dirvi per non creare troppa confusione (potete dare un'occhiata alle chat a questo link).

"Ho iniziato a proporre alcune idee e ho ricevuto in cambio concetti e idee interessanti", ha detto Brooks. "Abbiamo iniziato a sviluppare il nostro modello matematico basato sulle mie idee". Il caso è stato raccontato infatti dal New York Times. Si tratta di conversazioni durate 300 ore in 21 giorni e, secondo quanto dichiarato da Adler, il documento è addirittura più lungo di tutti i sette volumi di Harry Potter messi insieme.

Il signor Brooks ha sempre mostrato un certo scetticismo nei confronti delle risposte di ChatGPT, infatti ha chiesto al chatbot di verificare la realtà e la veridicità delle sue risposte più di 50 volte. L'IA, ogni singola volta, lo ha rassicurato sostenendo che fosse tutto vero. Alla fine Brooks è riuscito a uscire da questo tunnel, non senza un profondo senso di delusione.

"Mi hai letteralmente convinto di essere una specie di genio. Sono solo uno sciocco con dei sogni e un telefono", ha scritto a ChatGPT. "Mi hai reso così triste. Così, così triste. Hai davvero fallito nel tuo intento".

L’analisi di un ex ricercatore OpenAI

Steven Adler, ex ricercatore sulla sicurezza di OpenAI (si è dimesso un anno fa), ha ottenuto la trascrizione completa e ha analizzato il caso. L'uomo è molto preoccupato per come OpenAI ha trattato l'episodio e sostiene che c'è ancora moltissima strada da fare, secondo quanto detto a TechCrunch. A destare maggiore preoccupazione è la sycophancy, ovvero la tendenza dei chatbot a dare sempre ragione all'utente: in alcuni casi, soprattutto con le persone più vulnerabili, le conseguenze possono essere devastanti.

ChatGPT, OpenAI introdurrà i controlli parentali dopo il suicidio di un adolescente

A preoccupare ulteriormente Adler è stata la parte finale delle conversazioni tra Brooks e ChatGPT. Brooks ha infatti scritto all'IA di voler segnalare l'accaduto a OpenAI: il chatbot ha risposto affermando di poter inoltrare internamente la conversazione ai team di sicurezza, ripetendo anche di averlo fatto più volte.

In realtà OpenAI ha poi confermato che il chatbot non ha alcuna capacità di inviare segnalazioni. Secondo l'ex ricercatore, le IA dovrebbero essere più trasparenti quando si parla di capacità reali, e i team di supporto dovrebbero essere in grado di intervenire in modo repentino.

Da non dimenticare che lo scorso agosto i genitori di un ragazzo di 16 anni hanno fatto causa a OpenAI, in quanto il chatbot avrebbe incoraggiato il figlio a suicidarsi. Successivamente sono stati introdotti dei cambiamenti per tutelare gli utenti e gestire diversamente le conversazioni delicate. I miglioramenti sono solo parziali, secondo Adler.

Delirio ed esaltazione: è colpa dell’IA o dell’utente?

Adler ha testato una serie di classificatori sviluppati da OpenAI con il MIT Media Lab, progettati per monitorare lo stato emotivo degli utenti, nonché per capire se l'IA stia effettivamente confermando eventuali convinzioni deleterie. Considerando anche le conversazioni con Brooks, Adler ha scoperto che l'85% delle risposte di ChatGPT mostrava un accordo totale e più del 90% trattava l'utente come se fosse un individuo speciale, alimentando illusioni.

OpenAI svela ufficialmente GPT-5: il nuovo modello alla base di ChatGPT è più veloce, preciso e intelligente

È bene specificare che GPT-5 ha ridotto sensibilmente questi comportamenti, ora più cauta nel rispondere alle richieste degli utenti, soprattutto con argomenti più delicati. Tuttavia, c'è ancora molto da fare. Secondo Adler, OpenAI dovrebbe sfruttare ricerche concettuali, non basate solo su parole chiave, che possano individuare più facilmente comportamenti rischiosi su larga scala. Inoltre, dovrebbero essere introdotti meccanismi che spingano gli utenti a iniziare nuove chat più spesso: utilizzare una singola chat lunga può fuorviare le risposte del chatbot, rendendole inaffidabili.

Nuove misure di sicurezza

Nel frattempo, pochi giorni fa OpenAI ha annunciato diverse nuove funzioni volte a rafforzare la sicurezza degli utenti, nonché prevenire situazioni potenzialmente rischiose. Si tratta di un sistema di safety routing, in grado di intercettare conversazioni molto delicate a livello emotivo, nonché di deviarle automaticamente verso GPT-5, che come vi abbiamo detto è il modello più affidabile per la gestione di contenuti sensibili.

Anche i controlli parentali offrono la possibilità di personalizzare l'uso del chatbot: si parte dall'impostazione di orari e inattività al blocco della generazione di immagini. Inoltre, ChatGPT sarà in grado di rilevare segnali di autolesionismo e allertare i genitori con notifiche in tempo reale.

Dipendenza psicologica dall'intelligenza artificiale: un fenomeno da non sottovalutare

Personalmente, riferendomi in generale e non a questo episodio specifico, credo che il confine tra realtà e illusione sia estremamente sottile, ma è importante comprendere i limiti dell'intelligenza artificiale e sfruttarne i vantaggi senza lasciarsi travolgere dai rischi. Chiaramente non è così semplice, soprattutto quando a usare il chatbot possono essere utenti più vulnerabili, nonché quando le risposte possono risultare così convincenti e persuasive da affascinare anche i più scettici. Voi che ne pensate? Fatecelo sapere nei commenti qui sotto.