Arriva Genie 3 di Google DeepMind, per creare simulazioni del mondo con ambienti interattivi in tempo reale

Il nuovo modello simula ambienti dinamici e coerenti a 24 fps, aprendo la strada a esperienze immersive, addestramento per agenti intelligenti e progressi verso l'intelligenza artificiale generale.

Google DeepMind ha annunciato ufficialmente Genie 3, un modello di simulazione del mondo in grado di generare ambienti interattivi e dinamici partendo da semplici descrizioni testuali. La novità principale rispetto alle versioni precedenti risiede nella possibilità di navigare questi mondi in tempo reale a 24 fotogrammi al secondo, con una risoluzione di 720p e una coerenza visiva che si estende fino a diversi minuti di interazione. Si tratta di un passo fondamentale verso lo sviluppo di ambienti generativi che non solo rappresentano scene visivamente complesse, ma rispondono anche attivamente alle azioni dell'utente.

Una memoria visuale che va oltre il fotogramma

Il lavoro di DeepMind sulla simulazione è cominciato oltre dieci anni fa, con agenti addestrati in ambienti virtuali per giocare, imparare e interagire. Genie 3 rappresenta l'evoluzione di questo percorso. A differenza dei modelli precedenti, ora l'intelligenza artificiale può reagire in tempo reale agli input dell'utente, mantenendo coerenza spaziale e temporale. L'utente può esplorare paesaggi naturali, città storiche, scenari fantastici o surreali, interagendo con elementi come luce, acqua, vento e persino fauna selvatica o creature animate. La varietà e la precisione con cui Genie 3 riproduce questi mondi apre nuove possibilità nel campo dei media generativi e dell'addestramento per agenti intelligenti.

Il CEO di Google DeepMind lancia l'allarme: "L'AGI sta arrivando, ma la società non è pronta"

Uno degli aspetti più innovativi è la capacità del modello di mantenere la coerenza ambientale nel tempo, anche se l'utente ritorna in una zona esplorata minuti prima. Inoltre, è possibile modificare attivamente l'ambiente con semplici comandi testuali: si possono cambiare le condizioni meteo, inserire nuovi oggetti, personaggi o eventi improvvisi. Queste funzionalità aumentano le potenzialità creative e offrono nuovi strumenti per simulare scenari complessi e imprevedibili.

Addestramento di agenti: dentro un mondo simulato

Genie 3 è stato testato anche in ambienti compatibili con agenti intelligenti come SIMA, il generalist agent sviluppato da DeepMind. In questi test, l'agente riceve obiettivi da raggiungere e interagisce con l'ambiente generato da Genie 3 attraverso azioni autonome, senza che il modello conosca gli obiettivi stessi. Questo rende possibile addestrare agenti su compiti complessi e valutarne le capacità in un ambiente variabile, realistico e coerente.

Nonostante i progressi, Genie 3 ha ancora alcune limitazioni. La durata dell'interazione è attualmente limitata a pochi minuti, e le azioni possibili per gli agenti sono ancora ridotte. Inoltre, la rappresentazione di luoghi reali non è perfettamente accurata, e la leggibilità dei testi generati nell'ambiente è spesso limitata. DeepMind è consapevole di queste sfide e ha annunciato che il modello sarà disponibile inizialmente solo come anteprima di ricerca, per un numero selezionato di accademici e creatori, con l'obiettivo di raccogliere feedback e sviluppare l'approccio in modo responsabile.

Hai notato errori?