Google ha metido dos modelos nuevos de generación de media en su API: Nano Banana 2 Lite y Gemini Omni Flash. El primero saca una imagen en 4 segundos; el segundo es un modelo de vídeo que encabeza los rankings de texto a vídeo. No hay un salto enorme de potencia, la jugada es coste y velocidad para producir a volumen.
Puntos clave
- Nano Banana 2 Lite genera una imagen en 4 segundos a 0,034$ la imagen de 1.000px, pensado para trabajos en bloque. Sustituye al Nano Banana original y mantiene fidelidad al prompt, consistencia de personaje y texto legible dentro de la imagen.
- Gemini Omni Flash genera y edita clips de hasta 10 segundos a 0,10$ el segundo, el mismo precio que Veo 3.1 Fast.
- En edición de vídeo Omni Flash solo va por detrás de Seedance 2.0, y edita por lenguaje natural en una conversación.
- Los dos están en Google AI Studio y la Gemini API. Lite además se despliega en AI Mode de Búsqueda, la app de Gemini, NotebookLM, Google Fotos, Stitch, Google Flow y Google Ads.
Qué hace cada modelo
Nano Banana 2 Lite es la versión rápida y barata del generador de imágenes de Google. La gracia es que recorta tiempo y precio sin cargarse lo que importa: sigue el prompt, mantiene al mismo personaje entre imágenes y escribe texto legible dentro de la imagen, que es donde la mayoría de generadores se rompen. Queda por debajo de la frontera en calidad, pero a 0,034$ por imagen el cálculo cambia cuando produces cientos.
Gemini Omni Flash es el modelo de vídeo. Genera y edita clips de hasta 10 segundos y acepta entradas multimodales (texto, imágenes, vídeo). Google le ha inyectado el razonamiento multimodal de Gemini para que tenga contexto del mundo real, y eso lo coloca líder en los rankings de texto a vídeo y segundo en edición, solo por detrás de Seedance 2.0 de ByteDance. La parte que lo diferencia es la edición por conversación: en vez de reexportar, le pides el cambio en lenguaje natural ("haz que sea de noche", "quita el coche del fondo") y lo aplica sobre el clip. Tiene límites claros: las referencias de vídeo de más de 3 segundos no se procesan bien, la consistencia de personaje falla al cambiar de escena, y todavía no admite referencias de audio ni extender la escena. Son cosas que Google reconoce de salida, no letra pequeña que descubres luego.
La jugada de encadenarlos
Lo interesante no es cada modelo por separado, es cómo Google los junta. Creas una imagen con Lite, se la pasas a Omni Flash y la animas en un clip, todo en un mismo flujo. Para un creador pequeño, eso es un pipeline de imagen a vídeo por unos céntimos, sin equipo de motion. Google no busca el modelo más potente aquí, busca que la producción creativa sea barata y rápida dentro de su ecosistema de apps.
Por qué importa
Para un equipo de marketing que produce creatividades, 0,034$ por imagen y 0,10$ el segundo de vídeo cambia lo que puedes testear antes de gastar en ads. Generas 50 variantes de un anuncio por poco más de un euro y animas solo las que funcionan. La ventaja no está en tener el modelo con mejor benchmark, está en el coste por pieza cuando produces a diario. Es la diferencia entre probar tres creatividades porque cada una cuesta tiempo y dinero, y probar treinta porque no cuestan casi nada.
Y con Lite entrando en AI Mode de Búsqueda, la app de Gemini, Google Fotos y Google Ads, esa capacidad va a estar donde ya trabaja mucha gente, sin abrir otra herramienta ni pagar otra suscripción. Ese es el patrón de Google: no ganar por el modelo más potente, sino por meterlo en los sitios donde el equipo ya está.
Relacionado


