El grupo tecnológico chino Alibaba acaba de anunciar un nuevo modelo de IA llamado QVQ-Max de la serie Qwen, que marca un gran avance en el campo de la IA multimedia. La característica especial de este modelo es la capacidad de analizar el contenido de imágenes/vídeos y luego elaborar argumentos y soluciones basados en la información obtenida.
Impresionante habilidad
Alibaba describe QVQ-Max como un puente entre los modelos de IA basados puramente en texto y el mundo real. Con capacidades de razonamiento visual, el sistema puede:
- Analizar imágenes e identificar elementos clave
- Aplicación versátil en muchos campos, desde el diseño de ilustraciones y la creación de guiones de vídeo hasta la interpretación de personajes.
- Resolver problemas con diagramas (matemáticas, física)
- Instrucciones de cocina paso a paso basadas en imágenes de recetas.
Alibaba dice que el modelo ayuda a cerrar la brecha entre las IA que sólo procesan texto y la información del mundo real. Gracias a su capacidad de razonamiento visual, QVQ-Max puede "ver, comprender y pensar" sobre el mundo que lo rodea. La compañía destaca su modelo superior en el análisis de imágenes, identificando elementos clave, y su flexibilidad en la aplicación en muchos campos como el diseño de ilustraciones, la creación de guiones de vídeo o los juegos de rol.

Al igual que otros chatbots de IA, QVQ-Max apoya el trabajo, la educación y la vida personal, pero gracias a la integración visual, también resuelve tareas más específicas como: resolver problemas de matemáticas/física con diagramas, instrucciones de cocina a través de imágenes de recetas.
Alibaba considera que QVQ-Max es la primera versión y ha delineado una hoja de ruta de actualización para las versiones posteriores. En primer lugar, querían mejorar la precisión del reconocimiento de imágenes utilizando técnicas de conexión a tierra. En segundo lugar, el modelo se optimizará para manejar múltiples tareas y problemas complejos como trabajar con teléfonos, computadoras o jugar juegos. Con el tiempo, Alibaba planea expandirse desde la interacción de texto a la verificación de herramientas y la creación de contenido de imágenes.
Los usuarios pueden experimentar QVQ-Max mediante:
- Visita chat.qwen.ai
- Seleccione el menú de modelos en la esquina izquierda → " Expandir más modelos "
- Selecciona QVQ-Max y comienza a chatear
- Adjunte archivos de imagen para explorar las capacidades de procesamiento de IA
Con el lanzamiento de QVQ-Max, Alibaba continúa afirmando su posición en la carrera por desarrollar IA multimedia, compitiendo directamente con los gigantes tecnológicos globales. El modelo promete traer aplicaciones prácticas en el trabajo, la educación y la vida personal.