Con ChatGPT Images 2.0, OpenAI afirma haber resuelto el gran problema de los generadores de imagen: las letras
Durante años, los generadores de imágenes han fascinado por su capacidad de crear escenas spectacular , pero han decepcionado cuando se trata de practical . Pedir un gato astronauta es fácil; diseñar un cartel con texto claro, coherente y correctamente escrito, es otra historia. Ahora, OpenAI lanza ChatGPT Images 2.0, afirmando haber resuelto uno de los mayores challenges de la industria: la generación confiable de texto dentro de las imágenes. No se trata solo de hacer algo bonito, sino de crear contenido visual que cumpla una real purpose .
El enfoque de OpenAI marca un cambio de direction : ya no se trata de la imagen como decoración, sino como language . La empresa argumenta que las imágenes deben responder a encargos precisos, no a simples impulsos creativos. Para lograrlo, el nuevo modelo incluye una capacidad clave: el razonamiento. Esto significa que, al activar el modo 'thinking', el sistema puede estructurar mejor la tarea, buscar información actualizada en la web y revisar su propio output antes de entregarlo. En pruebas, esto permitió generar una escena detallada de la Gran Vía en Madrid, con nombres de calles correctos y contexto geográfico coherente.
Las mejoras no se limitan al texto. OpenAI destaca avances en tres frentes: seguir complex instructions , organizar elementos con mayor lógica y mantener la coherencia entre múltiples imágenes. Por ejemplo, al pedir un visual comparison entre ciudades para teletrabajar, el modelo dividió la imagen en columnas, usó iconos y mostró datos estructurados. En otro caso, generó un storyboard de seis viñetas con un personaje que evoluciona en una mañana lluviosa en Gràcia, Barcelona, manteniendo la continuidad del entorno y la narrativa.
También hay avances técnicos notables: soporte mejorado para texto en japonés, coreano, chino, hindi y bengalí, formatos de hasta 3:1 y 1:3, resolución de hasta 2K y la posibilidad de generar hasta diez imágenes con consistency de personajes y objetos. Estas funciones apuntan a usos profesionales como prototipado de juegos, creatividades de marketing o gráficos para redes sociales. La compañía no busca solo competir en calidad visual, sino posicionar a ChatGPT como un entorno de flujo de trabajo integrado, donde la imagen surge como parte de un proceso más amplio.
Y lo más importante: ya está disponible. Tanto usuarios gratuitos como suscriptores Plus y Pro pueden acceder al modelo. Además, OpenAI lo ha abierto a través de su API y Codex, una señal clara de que no es una demo técnica, sino una herramienta lista para real-world use . En un mercado con competidores fuertes como Midjourney o FLUX 2, esta apuesta por la utilidad sobre la estética podría marcar un cambio estratégico en cómo usamos la generación de imágenes con inteligencia artificial.
La calidad del texto en las imágenes siempre ha sido el talón de Aquiles. Si realmente solves resuelve eso, cambia todo.
¿Y el costo? Que esté en cuentas gratuitas suena bien, pero en la práctica estos modelos suelen tener usage limits límites de uso muy bajos.
OpenAI dice que las imágenes son lenguaje, pero llevan años priorizando velocidad sobre precisión. Me gustaría ver más pruebas independientes.
Como diseñador, lo que más me interesa es el storyboard con continuidad. Eso puede ahorrar horas de trabajo.
El hecho de que ya esté en la API es una señal fuerte. No es un juguete, quieren que se integre en real applications aplicaciones reales.
¿'Thinking' antes de generar? Suena bien, pero espero que no sea solo un nombre bonito para un delay retraso más en la respuesta.
Pedir una imagen de la Gran Vía con Cines Callao y que salga bien ubicado… eso sí es un hito. Lo probaré hoy mismo.