En els darrers dies, el terme «Nano Banana» s'ha colat en converses i proves comparatives de models d'IA, aixecant la cella de mig sector tech. Darrere del sobrenom, finalment es confirma el que es rumorejava: és la cara pública de Gemini 2.5 Flash Image, l'aposta de Google per a l'edició i la generació d'imatges a cop de text.
La proposta va més enllà de crear imatges des de zero: el seu focus és a editar amb precisió mantenint coherència destil, personatges o objectes al llarg de múltiples canvis. I tot plegat guiat amb instruccions en llenguatge natural, sense necessitat de dominar eines complexes de postproducció.
Què és Nano Banana i per què ha aparegut ara
Durant la seva fase primerenca, el model es va deixar veure en rànquings com LM Arena sota l'àlies Nano-banana, escalant posicions per la qualitat dels seus resultats. Google ha posat nom i cognoms: parlem de Imatge flash de Gemini 2.5, un component clau de l'ecosistema Gemini que concentra la part visual.
L'interès no ve només del rendiment brut, sinó de com interpreta el context d'una imatge: entén què hi ha en escena i aplica canvis consistents entre diferents edicions, cosa que històricament s'ennuegava a altres sistemes quan es demanaven diverses modificacions seguides.
Edició conversacional: del prompt a un diàleg amb la imatge
La gran novetat és que editar deixa de ser un procés de prova i error per esdevenir una conversa iterativa. En lloc de reiniciar amb cada idea, l'usuari pot demanar: «fes el cel més dramàtic», «afegeix un gos al banc» o «canvia el color del cotxe a vermell», i seguir ajustant sense perdre el fil.
A més, Nano Banana permet seleccionar zones concretes de la foto per aplicar canvis localitzats: eliminar un objecte, substituir fons o incorporar elements nous respectant il·luminació, ombres i perspectiva, amb una integració visual més natural que en generacions prèvies.
Coherència visual i fotorealisme millorats
Una queixa habitual dels generadors era la manca de mateix personatge en mantenir el mateix personatge, producte o estil en edicions successives. Aquí, el model té cura de proporcions, trets i detalls clau perquè el protagonista segueixi sent reconeixible en cada resultat.
Google afirma haver posat especial atenció a cares i mans, zones tradicionalment problemàtiques. El salt en il·luminació, textures i anatomia es nota en retrats i escenes realistes, amb menys artefactes i deformacions.
Al costat de les correccions, destaca la capacitat de composició avançada: combinar elements de diverses fotos en un nou entorn generat digitalment, o transferir estils i patrons d'una imatge a una altra (per exemple, traslladar el motiu d'unes ales a un vestit) sense trencar l'escena.
On utilitzar Nano Banana i com començar (mòbil, web i més)
El model està disponible dins de la app de Gemini en iOS y Android, a més de la versió web (encara que a mi no em funciona). No cal activar res estrany: es puja una imatge i es descriuen els canvis. És vàlid per a retrats, mascotes, paisatges i pràcticament qualsevol escena quotidiana.
A la pràctica, només cal escriure indicacions senzilles: «posa aquest gat a la sorra de la platja», «elimina totes les persones del fons» o «canvia el fons per Machu Picchu». El sistema conserva el que s'hagi de mantenir i modifica només el que sol·licita, amb una velocitat que Google descriu internament com «de llampec».
Per als que usen iPhone, l'experiència és directa: obre Gemini, escull editar imatge i puja la foto. La mateixa lògica es replica a Android i web, amb resultats consistents entre plataformes.
Eines i fluxos que aporten valor
A més dels ajustaments bàsics (color, blanc i negre, contrast) realitzats per instruccions en llenguatge natural, Nano Banana permet edició multi-torn en cadena: pintar parets, afegir-hi mobles i continuar canviant elements de l'entorn sense tornar a començar.
Una altra funció útil és la preservació de trets en canvis d'aparença: modificar color de cabells o roba mantenint la identitat facial i la resta de la fotografia estable, evitant els típics desajustos del fons o la il·luminació.
La integració amb l'app de Gemini suma un punt pràctic: es poden barrejar imatges per inserir el contingut de l'una en l'altra, transferint estils o component escenes noves amb més control creatiu.
Seguretat, marques d'aigua i filtres d'ús
L?auge de l?edició hiperrealista obliga a reforçar les barreres. Google incorpora SynthID, una marca d'aigua digital imperceptible que s'incrusta a les imatges i permet verificar-ne l'origen fins i tot després de modificacions.
Amb això, el sistema aplica filtres de seguretat per bloquejar contingut violent o sexualment explícit, i restringeix l'edició de persones reals i celebritats. Quan correspongui, Google acompanya amb senyals o avisos addicionals per descoratjar usos indeguts i facilitar-ne la traçabilitat.
Disponibilitat de Nano Banana, accés per a desenvolupadors i cost
Per a usuaris finals, la funció d'edició a Gemini és disponible de forma gratuïta amb límits raonables dús diari. No cal seleccionar manualment el model: actua de manera automàtica al flux d'edició.
En entorn professional, es pot integrar via API de Gemini, Google AI Studio i Vertex AI. Google comunica un cost de 30 dòlars per milió de tokens per a desenvolupadors, una referència que, segons el cas d'ús, es pot traduir aproximadament en uns cèntims per imatge processada.
Competència i posició al mercat
El llançament arriba en un context on OpenAI, Midjourney i Adobe marquen el pas en generació i edició visual. Nano Banana apunta a retallar distàncies amb una combinació de coherència, rapidesa i edició conversacional, i el seu rendiment a LM Arena li ha donat visibilitat primerenca.
La clau serà com evoluciona en tasques exigents i si manté la consistència a gran escala quan més usuaris i aplicacions de tercers pressionin el sistema amb casos reals.
Consells ràpids per treure'n partit
Usar llenguatge natural i ser concret ajuda: «A la foto original, converteix el fons en un capvespre i mantingues el subjecte igual». Indicar què cal preservar redueix sorpreses i millora la coherència en cadenes d'edició.
Per a canvis complexos, convé dividir en passos: primer el fons, després il·luminació i, finalment, retocs fins de color o textura. Així es controla millor el resultat i es minimitzen artefactes.
A dia d'avui, Nano Banana concentra en un mateix flux la generació, la edició iterativa i la consistència de personatges i estils, amb controls de seguretat actius i disponibilitat àmplia a l'app de Gemini i la web. Per a usuaris i equips creatius, la combinació de rapidesa, comprensió de context i accés per API obre la porta a usos quotidians i professionals sense complicar-se la vida.