L'IA Google ora naviga al PC come un essere umano: arriva Gemini 2.5 Computer Use

Gemini 2.5 Computer Use permette all'IA di navigare e agire nel browser come una persona, aprendo nuove possibilità per automazione e test delle interfacce web.

Google ha presentato Gemini 2.5 Computer Use, un nuovo modello di intelligenza artificiale capace di navigare in rete e interagire direttamente con le interfacce dei siti web. L'obiettivo è consentire agli agenti basati su IA di eseguire azioni all'interno di ambienti progettati per gli esseri umani, non per i software automatizzati. Questa tecnologia punta a colmare un vuoto cruciale: permettere all'IA di operare su piattaforme prive di API o collegamenti diretti, replicando i comportamenti di un utente reale.

Il modello sfrutta capacità avanzate di comprensione visiva e di ragionamento contestuale per interpretare le richieste dell'utente e portare a termine compiti complessi, come compilare e inviare moduli online o gestire operazioni all'interno di interfacce grafiche. In sostanza, Gemini 2.5 Computer Use non si limita a generare testo, ma osserva ciò che appare sullo schermo e interagisce con esso, un po' come farebbe un utente davanti al monitor.

Come funziona Gemini 2.5 Computer Use

Questa nuova versione rappresenta un'evoluzione dei sistemi già impiegati da Google in progetti sperimentali come AI Mode, che tra l'altro da oggi inizia a essere disponibile in Italia, e Project Mariner. In questi strumenti agenti autonomi basati su IA sono già in grado di eseguire azioni nel browser, come aggiungere prodotti a un carrello digitale partendo da una lista di ingredienti. L'idea del Computer Use è sostanzialmente la stessa: dare all'IA la capacità di usare strumenti pensati per gli esseri umani, ampliandone così l'autonomia operativa.

L'arrivo di Gemini 2.5 Computer Use arriva poi a poche ore di distanza da un'altra novità nel settore: durante il proprio Dev Day, OpenAI ha annunciato nuove app per ChatGPT, che includono la funzione di ChatGPT Agent, un sistema in grado di completare attività complesse in autonomia. Anche Anthropic, con il suo modello Claude, aveva già introdotto una funzione simile nel 2024.

Tornando a Google, l'azienda di Mountain View afferma che Gemini 2.5 supera i modelli concorrenti nei test su più benchmark web e mobile, offrendo una gestione più efficiente delle interfacce online. A differenza degli strumenti di OpenAI e Anthropic, però, la nuova soluzione di Google opera esclusivamente all'interno del browser, senza accedere all'intero sistema operativo. L'azienda sottolinea che il modello non è ancora ottimizzato per il controllo a livello desktop, ma può già eseguire 13 azioni principali, tra cui aprire finestre di navigazione, digitare testo, cliccare pulsanti e trascinare elementi.

Durante la presentazione, Google ha mostrato alcuni video dimostrativi in cui l'IA utilizza un browser per svolgere varie attività, come giocare a 2048 o esplorare discussioni su Hacker News. I filmati, accelerati per mostrare il flusso operativo, offrono un'anteprima del potenziale della tecnologia: un sistema capace di muoversi in autonomia nel web, riconoscere gli elementi grafici e reagire in base al contesto visivo.

Gemini 2.5 Computer Use è già accessibile agli sviluppatori tramite Google AI Studio e Vertex AI, ma è disponibile anche in versione dimostrativa su Browserbase, dove è possibile osservare il comportamento del modello mentre interagisce con pagine reali.