Google continua a spingere con decisione sull'evoluzione di Gemini, arricchendo quasi quotidianamente la piattaforma. Dopo l'integrazione con NotebookLM e l'introduzione di SynthID, il sistema per riconoscere i contenuti video generati dall'IA, arriva ora una novità che cambia radicalmente il modo di interagire con le immagini: i prompt visivi basati sul disegno diretto.
La nuova funzione, chiamata Mark up, è integrata nell'editor visivo di Nano Banana ed è disponibile sia su Gemini Web sia sulle app mobile per Android e iOS. L'idea alla base è intuitiva: invece di descrivere a parole ciò che si vuole sapere, l'utente può disegnare direttamente sull'immagine per indicare all'IA cosa analizzare o approfondire.
Come funziona Mark Up all'interno di Gemini?
Dopo aver caricato una foto, è possibile aprire l'editor Mark up e utilizzare strumenti semplici ma efficaci: linee a mano libera, cerchi, sottolineature o brevi annotazioni scritte. Questi segni grafici diventano veri e propri input per Gemini, che li interpreta come comandi visivi. Ad esempio, si può cerchiare un oggetto per chiedere informazioni su di esso, evidenziare una zona specifica per ricevere un'analisi dettagliata o indicare un elemento da modificare o spiegare.
Il punto di forza di questa novità è la precisione. Spiegare a parole quale parte di un'immagine interessa può essere complicato o ambiguo, mentre un gesto grafico elimina ogni dubbio. Gemini, grazie ai modelli di Nano Banana, è in grado di comprendere queste indicazioni visive anche senza alcun testo aggiuntivo, avviando l'elaborazione in modo immediato.
Un passo importante per l'accessibilità di Google Gemini
Dal punto di vista dell'accessibilità, Mark up rappresenta un passo importante. Non tutti gli utenti si sentono a proprio agio nel formulare prompt testuali complessi o dettagliati. L'interazione grafica abbassa notevolmente la barriera d'ingresso, rendendo l'IA più inclusiva e utilizzabile da un pubblico più ampio, compresi coloro che preferiscono un approccio visivo o più intuitivo.
È importante sottolineare che questa nuova modalità non sostituisce i prompt tradizionali. Al contrario, Gemini consente di combinare input visivi e testuali, offrendo un livello di personalizzazione maggiore e adattandosi alle diverse esigenze degli utenti.