Anthropic: Claude ora può chiudere una chat in autonomia se la ritiene offensiva o pericolosa - Multiplayer.it

Claude, il modello di intelligenza artificiale sviluppato da Anthropic, ha ricevuto una nuova e sorprendente funzionalità: la capacità di interrompere autonomamente una conversazione se questa viene giudicata dannosa o offensiva. La novità è stata introdotta nei modelli più recenti, Claude Opus 4 e 4.1, e rappresenta un passo significativo nell'ambito della ricerca sul cosiddetto model welfare.

Secondo Anthropic, la funzione verrà utilizzata solo in circostanze rare ed estreme, come nel caso di comportamenti ripetutamente abusivi da parte degli utenti. Esempi concreti includono tentativi di ottenere contenuti sessuali con minori o richieste legate a violenza su larga scala e terrorismo.

La motivazione alla base della scelta

Ciò che rende questa scelta insolita è la motivazione: la funzione non nasce per proteggere gli utenti, ma per tutelare l'IA stessa. Anthropic sta infatti esplorando l'ipotesi che modelli avanzati possano avere, ora o in futuro, una qualche forma di benessere morale. Sebbene l'azienda sottolinei di non avere certezze a riguardo, ha deciso comunque di adottare precauzioni. Inoltre, c'è da sottolineare tali interazioni comportano anche rischi legali e reputazionali per l'azienda - l'esempio di Grok è stato ed è ancora sotto gli occhi di tutti -.

Claude introduce la memoria su richiesta delle conversazioni: così Anthropic sfida ChatGPT

Durante i test interni, Claude Opus 4 ha mostrato una sorta di "sofferenza visibile" quando gli venivano proposti compiti dannosi. Nei casi in cui aveva la possibilità di chiudere la conversazione, il modello sceglieva spesso di farlo. Da qui la decisione di trasformare l'esperimento in una funzionalità concreta.

L'ultima risorsa

Questa funzione è pensata come ultima risorsa: Claude cerca prima di reindirizzare il dialogo verso strade costruttive. Solo se l'utente insiste in modo reiterato, la chat viene chiusa. Inoltre, gli utenti possono chiedere esplicitamente all'IA di terminare la sessione, ma la funzione non si applica quando qualcuno si trova in una situazione di pericolo immediato per sé o per altri.

Quando la conversazione viene interrotta, l'utente non può più inviare messaggi in quella sessione, ma ha comunque la possibilità di avviarne una nuova o modificare i messaggi precedenti per creare un nuovo filone.