Nvidia acaba de anunciar el lanzamiento de un modelo de lenguaje grande (LLM) de código abierto que se dice que funciona a la par de los modelos propietarios líderes de OpenAI, Anthropic, Meta y Google.
Este nuevo modelo se llama NVLM-D-72B con 72 mil millones de parámetros y es parte de la gran familia de modelos de lenguaje NVLM 1.0 lanzado recientemente por Nvidia. NVLM 1.0 es esencialmente una familia de modelos de lenguaje multimodales grandes y límite que logran resultados de última generación en tareas de lenguaje visual y compiten con modelos propietarios líderes (por ejemplo, GPT-4o) así como con modelos de acceso abierto.
Según se informa, esta nueva familia de modelos lingüísticos de gran tamaño tiene “capacidades multimodales de nivel industrial”, con un desempeño superior en una variedad de tareas visuales y lingüísticas, además de mejorar significativamente la retroalimentación basada en texto. “Para lograr esto, creamos e integramos un conjunto de datos de solo texto de alta calidad en el proceso de entrenamiento multimodal, junto con una gran cantidad de datos matemáticos y de razonamiento multimodales, lo que da como resultado capacidades matemáticas y de codificación mejoradas en múltiples modalidades”, explicaron los investigadores de Nvidia en un comunicado.
El resultado es un LLM de alto rendimiento que puede realizar tareas tan simples como explicar por qué un meme es divertido, hasta ecuaciones matemáticas complejas, paso a paso. Nvidia también logró aumentar la precisión de solo texto del modelo en un promedio de 4,3 puntos por encima de los puntos de referencia de la industria, gracias a su estilo de entrenamiento multimodal.

Nvidia parece estar comprometida con garantizar que este modelo cumpla con la última definición de "código abierto" de la Iniciativa de Código Abierto, no solo haciendo públicos los pesos de entrenamiento para que la comunidad los revise, sino también prometiendo publicar el código fuente del modelo en un futuro cercano. Esto representa un cambio significativo con respecto al enfoque de competidores como OpenAI y Google, que han sido muy reservados a la hora de mantener privados los detalles sobre los pesos y el código fuente de sus modelos LLM. Al hacerlo, Nvidia ha posicionado a NVLM no necesariamente como un competidor directo de ChatGPT-4o y Gemini 1.5 Pro, sino como una plataforma para que los desarrolladores externos creen sus propios chatbots y aplicaciones de IA.