OpenAI acaba de presentar oficialmente una notable actualización de la capacidad de generación de imágenes de IA en ChatGPT, un importante paso adelante en lugar de utilizar un modelo de generación de imágenes separado como el DALL-E anterior. Esta nueva característica se ha integrado directamente en GPT-4o, lo que supone mejoras significativas.
Superar las limitaciones inherentes
Si bien muchos modelos actuales de generación de imágenes de IA pueden crear imágenes artísticas impresionantes, a menudo tienen dificultades con elementos como texto, logotipos u objetos cotidianos. OpenAI afirma que el nuevo GPT-4o puede superar estas limitaciones gracias a su capacidad para:
- Mostrar el texto correctamente
- Cumplir estrictamente con los requisitos del usuario
- Aprovechar el conocimiento previo y el contexto conversacional
- Permite editar fotos cargadas o crear nuevas fotos basadas en fotos originales.
- Ampliamente disponible
Esta nueva función se está implementando actualmente para los usuarios de ChatGPT Free, ChatGPT Plus, Pro y Team, y estará disponible en ChatGPT Enterprise y Edu en las próximas semanas. En particular, esta será la herramienta de creación de imágenes predeterminada en ChatGPT, lo que facilitará a los usuarios el acceso sin opciones adicionales. Los usuarios pueden personalizar las fotos con:
- Relación de aspecto específica
- Color exacto (usando código hexadecimal)
- Fondo transparente
- Soporte multiplataforma

Además de ChatGPT, esta función también estará disponible en plataformas como Sora (generación de imágenes), DALL·E GPT dedicado y API GPT-4o (para desarrolladores, que se lanzará en las próximas semanas).
A pesar de prometer muchas mejoras, el nuevo modelo todavía tiene algunas limitaciones:
- El tiempo de generación de imágenes puede ser de hasta 1 minuto debido al alto nivel de detalle.
- Recorte no deseado con fotos verticales
- A veces "fabrican" información con poco contexto requerido
- Dificultad para procesar más de 10-20 conceptos a la vez
- Dificultad con las lenguas no latinas
- Las correcciones detalladas (como los errores ortográficos) no son muy efectivas.
- Es difícil mostrar información detallada en tamaños pequeños.
Todas las imágenes generadas por GPT-4o contendrán metadatos C2PA, lo que permitirá la verificación de procedencia utilizando las herramientas internas de OpenAI.
A pesar de algunas limitaciones, GPT-4o promete ofrecer imágenes más precisas y personalizables. OpenAI dice que continuará mejorando el modelo en los próximos meses, abriendo nuevas posibilidades para la creación de contenido visual impulsado por IA.
Con esta importante actualización, OpenAI continúa fortaleciendo su liderazgo en la carrera de la IA creativa, brindando una experiencia más fluida y poderosa a los usuarios en múltiples plataformas.