¿Llama 3 o GPT-4 es mejor?

Llama 3 y GPT-4 son dos de los modelos de lenguaje grande (LLM) más avanzados disponibles para el público. Veamos cuál LLM es mejor comparando ambos modelos en términos de multimodalidad, longitud del contexto, rendimiento y costo.

Tabla de contenido

¿Qué es GPT-4?

GPT-4 es el último modelo de lenguaje grande (LLM) desarrollado por OpenAI. Se basa en la base de modelos GPT-3 más antiguos mientras utiliza diferentes técnicas de entrenamiento y optimización utilizando un conjunto de datos mucho más grande. Esto aumentó significativamente el tamaño de los parámetros de GPT-4, que se rumorea que tiene un total de 1,7 billones de parámetros de sus modelos expertos más pequeños. Con nuevo entrenamiento, optimizaciones y una mayor cantidad de parámetros, GPT-4 ofrece mejoras en el razonamiento, la resolución de problemas, la comprensión del contexto y un mejor manejo de instrucciones matizadas.

Actualmente existen 3 variantes del modelo:

  • GPT-4 : una evolución de GPT-3 con mejoras significativas en velocidad, precisión y base de conocimientos.
  • GPT-4 Turbo : una versión optimizada de GPT-4, diseñada para ofrecer un rendimiento más rápido y reducir los costos operativos.
  • GPT-4o (Omni) : amplía las capacidades de GPT-4 al integrar entradas y salidas multimodales, incluidos texto, imágenes y audio.

Ahora puede acceder a los tres modelos GPT-4 suscribiéndose al servicio API de OpenAI, interactuando con ChatGPT o a través de servicios como Descript, Perplexity AI y muchos otros servicios auxiliares de Microsoft.

¿Qué es Llama 3?

Llama 3 es un LLM de código abierto desarrollado por Meta AI (empresa matriz de Facebook, Instagram y WhatsApp), entrenado utilizando una combinación de ajuste supervisado, muestreo y optimización de políticas con un conjunto de datos diverso, que incluye millones de anotaciones humanas. Por ejemplo, su programa de entrenamiento se centra en indicaciones de alta calidad y clasificación de prioridades, con el objetivo de crear un modelo de IA flexible y capaz.

Puedes acceder a Llama 3 a través de Meta AI, su chatbot de IA generativa. Alternativamente, puede ejecutar LLM localmente en su computadora descargando modelos de Llama 3 y cargándolos a través de Ollama, Open WebUI o LM Studio.

Multimodal

El lanzamiento de GPT-4o finalmente trajo información inicial que muestra que GPT-4 es multimodal. Ahora puede acceder a estas funciones multimodales interactuando con ChatGPT utilizando el modelo GPT-4o. A partir de junio de 2024, GPT-4o no tiene ninguna forma incorporada de generar video y audio. Sin embargo, es capaz de generar texto e imágenes basándose en entradas de vídeo y audio.

Llama 3 también planea ofrecer un modelo multimodal para el próximo Llama 3 400B. Lo más probable es que integre tecnologías similares con CLIP (Contrast Language-Imager Pre-Training) para generar imágenes utilizando técnicas de aprendizaje de disparo cero. Pero como el Llama 400B todavía está en entrenamiento, la única forma de que los modelos 8B y 70B generen imágenes es usar extensiones como LLaVa, Visual-LLaMA y LLaMA-VID. A partir de ahora, Llama 3 es un modelo basado puramente en el lenguaje que puede tomar texto, imágenes y audio como entrada para generar texto.

Longitud del contexto

La longitud del contexto se refiere a la cantidad de texto que un modelo puede procesar a la vez. Este es un factor importante al considerar las capacidades de un LLM porque determina la cantidad de contexto en el que el modelo puede operar al interactuar con el usuario. En general, una mayor longitud de contexto hace que el LLM sea mejor porque proporciona un mayor nivel de coherencia y continuidad y puede reducir la repetición de errores durante la interacción.

Modelo

Descripción de los datos de entrenamiento

Parámetros

Longitud del contexto

GQA

Número de tokens

Conocimiento limitado

Llama 3

Combinar datos en línea disponibles públicamente

8B

8k

Tener

15T+

Marzo de 2023

Llama 3

Combinar datos en línea disponibles públicamente

70B

8k

Tener

15T+

Diciembre de 2023

Los modelos Llama 3 tienen una longitud de contexto efectiva de 8.000 tokens (aproximadamente 6.400 palabras). Esto significa que el modelo Llama 3 tendrá una memoria contextual de alrededor de 6.400 palabras en interacción. Cualquier palabra que exceda el límite de 8000 tokens será ignorada y no proporcionará ningún contexto adicional durante la interacción.

Modelo

Describir

Ventana de contexto

Datos de entrenamiento

GPT-4o

Modelo multimodal, más económico y rápido que el GPT-4 Turbo

128.000 tokens (API)

Hasta octubre de 2023

GPT-4-Turbo

El modelo GPT-4 Turbo está aerodinámico y ofrece gran visibilidad.

128.000 tokens (API)

Hasta diciembre de 2023

GPT-4

El primer modelo GPT-4

8,192 tokens

Hasta septiembre de 2021

Por el contrario, GPT-4 ahora admite longitudes de contexto significativamente mayores de 32.000 tokens (aproximadamente 25.600 palabras) para usuarios de ChatGPT y 128.000 tokens (aproximadamente 102.400 palabras) para aquellos que utilizan el punto final de API. Esto le da al modelo GPT-4 una ventaja en la gestión de conversaciones extendidas y la capacidad de leer documentos largos o incluso libros enteros.

Eficiencia

Comparemos el rendimiento mirando el informe de referencia Llama 3 del 18 de abril de 2024 de Meta AI y GPT-4 del 14 de mayo de 2024, el informe de GitHub de OpenAI. Aquí están los resultados:

Modelo

Universidad de Michigan

GPQA

MATEMÁTICAS

Evaluación humana

GOTA

GPT-4o

88.7

53.6

76.6

90.2

83.4

GPT-4 Turbo

86.5

49.1

72.2

87.6

85.4

Llama3 8B

68.4

34.2

30.0

62.2

58.4

Llama3 70B

82.0

39.5

50.4

81.7

79.7

Llama3 400B

86.1

48.0

57.8

84.1

83.5

Esto es lo que mide cada criterio:

  • MMLU (Massive Multitask Language Understanding) : evalúa la capacidad del modelo para comprender y responder preguntas sobre una variedad de temas académicos.
  • GPTQA (Respuesta a preguntas de propósito general) : evalúa la capacidad del modelo para responder preguntas del mundo real en un dominio abierto.
  • MATEMÁTICAS : Pon a prueba la capacidad del modelo para resolver problemas.
  • HumanEval : mide la capacidad del modelo para generar código correcto según las indicaciones de programación humana.
  • DROP (Razonamiento discreto sobre párrafos) : evalúa la capacidad del modelo para realizar razonamiento discreto y responder preguntas basadas en pasajes de texto.

Los últimos puntos de referencia resaltan las diferencias de rendimiento entre los modelos GPT-4 y Llama 3. Si bien el modelo Llama 3 8B parece estar significativamente por detrás, los modelos 70B y 400B tienen un rendimiento inferior pero similar al de los modelos GPT-4o y GPT-4 Turbo en términos de conocimiento académico y general, lectura y comprensión, razonamiento y lógica, y codificación. Sin embargo, ningún modelo de Llama 3 ha logrado aún el rendimiento de GPT-4 en términos puramente matemáticos.

Precio

El costo es un factor importante para muchos usuarios. El modelo GPT-4o de OpenAI está disponible de forma gratuita para todos los usuarios de ChatGPT con un límite de 16 mensajes cada 3 horas. Si necesita más, deberá suscribirse a ChatGPT Plus por $20 al mes para ampliar el límite de mensajes de GPT-4o a 80 y obtener acceso a modelos GPT-4 adicionales.

Por otro lado, los modelos Llama 3 8B y 70B son de código abierto y gratuitos, lo que puede ser una ventaja significativa para desarrolladores e investigadores que buscan una solución rentable sin comprometer el rendimiento.

Accesibilidad

Los modelos GPT-4 son ampliamente accesibles a través del chatbot de IA generativa ChatGPT de OpenAI y a través de su API. También puedes usar GPT-4 en Microsoft Copilot, que es una forma de usar GPT-4 de forma gratuita . Esta amplia disponibilidad garantiza que los usuarios puedan aprovechar fácilmente sus capacidades en diferentes casos de uso. Por el contrario, Llama 3 es un proyecto de código abierto que proporciona flexibilidad de modelo y fomenta una experimentación y colaboración más amplia dentro de la comunidad de IA. Este enfoque de acceso abierto podría democratizar la tecnología de IA y ponerla a disposición de un público más amplio.

Si bien ambos modelos están disponibles, GPT-4 es mucho más fácil de usar porque está integrado en herramientas y servicios de productividad populares. Por otro lado, Llama 3 está integrado principalmente en plataformas de investigación y negocios como Amazon Bedrock, Ollama y DataBricks (a excepción del soporte de chat de Meta AI), lo que no atrae a un mercado más grande de usuarios no técnicos.

GPT-4 o Llama 3 ¿cuál es mejor?

Entonces, ¿cuál LLM es mejor? GPT-4 es un mejor LLM. GPT-4 se destaca por su multimodalidad, con capacidades avanzadas en el manejo de entradas de texto, imágenes y audio, mientras que características similares de Llama 3 aún están en desarrollo. GPT-4 también ofrece una longitud de contexto mucho mayor y un mejor rendimiento, y es ampliamente accesible a través de herramientas y servicios populares, lo que hace que GPT-4 sea más fácil de usar.

Sin embargo, es importante destacar que los modelos Llama 3 han tenido un muy buen desempeño para un proyecto libre y de código abierto. Como tal, Llama 3 sigue siendo un LLM destacado, preferido por investigadores y empresas por su naturaleza gratuita y de código abierto, al tiempo que ofrece un rendimiento impresionante, flexibilidad y funciones de seguridad confiables. Si bien es posible que el consumidor general no encuentre una utilidad para el Llama 3 de inmediato, sigue siendo la opción más viable para muchos investigadores y empresas.

En resumen, mientras que GPT-4 se destaca por sus capacidades multimodales avanzadas, mayor longitud de contexto e integración perfecta en herramientas ampliamente utilizadas, Llama 3 ofrece una alternativa valiosa con su naturaleza de código abierto, lo que permite una mayor personalización y ahorro de costos. Entonces, en términos de aplicación, GPT-4 es ideal para quienes buscan facilidad de uso y funciones integrales en un solo modelo, mientras que Llama 3 es adecuado para desarrolladores e investigadores que buscan flexibilidad y adaptabilidad.

Sign up and earn $1000 a day ⋙

Leave a Comment

7 sencillos ajustes tecnológicos que mejoran drásticamente tu calidad de vida

7 sencillos ajustes tecnológicos que mejoran drásticamente tu calidad de vida

Crear una relación saludable con la tecnología puede parecer desalentador, pero los pequeños cambios a menudo hacen una gran diferencia.

8 cosas que no sabías que podías hacer en la aplicación Galería de Samsung

8 cosas que no sabías que podías hacer en la aplicación Galería de Samsung

La aplicación Galería de Samsung es más capaz de lo que crees, aunque quizá no sea evidente a primera vista.

El teléfono inteligente plegable de Microsoft no tendrá pliegues

El teléfono inteligente plegable de Microsoft no tendrá pliegues

Se dice que Microsoft está cerca de lanzar su primer teléfono inteligente plegable cuando recibió una patente para un teléfono plegable con la capacidad de plegarse 360 ​​grados pero sin crear arrugas en la pantalla el 1 de octubre.

Google prueba una marca de verificación azul en sus búsquedas

Google prueba una marca de verificación azul en sus búsquedas

Google está probando una nueva función de verificación a través de una marca de verificación azul en la búsqueda. Esta función ayudará a los usuarios a evitar hacer clic en enlaces de sitios web falsos o fraudulentos.

Distinguir Microsoft 365 y Office 2024

Distinguir Microsoft 365 y Office 2024

A primera vista, Microsoft 365 y Office 2024 pueden parecer muy similares, ya que ambos brindan acceso a las aplicaciones populares y ampliamente utilizadas de Microsoft.

Últimos códigos de Elemental Dungeons y cómo introducirlos

Últimos códigos de Elemental Dungeons y cómo introducirlos

Los códigos de Elemental Dungeons son una forma necesaria de recompensa para los jugadores. Al igual que en cualquier otro juego en línea en Roblox, los jugadores pueden recibir estas ayudas a cambio de dinero u otros artículos.

Cómo repetir la barra de título de una tabla en Word

Cómo repetir la barra de título de una tabla en Word

Al imprimir un documento de Word o crear una tabla en Word, repetir el título en Word nos ayuda a rastrear el título de manera más conveniente y leer el título del documento sin problemas en diferentes páginas, especialmente con títulos largos.

Cómo crear mensajes animados en iMessage iOS 18

Cómo crear mensajes animados en iMessage iOS 18

El nuevo iMessage de iOS 18 se actualiza con mensajes animados, efectos de texto con muchas opciones para utilizar en los mensajes que envíes.

¿Por qué los cerdos son el némesis de las serpientes?

¿Por qué los cerdos son el némesis de las serpientes?

Hay un dato interesante sobre los cerdos que no todo el mundo conoce: los cerdos son considerados enemigos de las serpientes, porque cuando estos dos animales se encuentran, la mayoría de las serpientes se convertirán en alimento para los cerdos.

¿Cuál es la distancia entre la Tierra y Júpiter, el planeta más grande del Sistema Solar?

¿Cuál es la distancia entre la Tierra y Júpiter, el planeta más grande del Sistema Solar?

¿Cuál es la distancia de la Tierra a Júpiter? Si no lo sabes, este artículo te dirá a qué distancia está Júpiter de la Tierra.

Descubre los generales fuera de meta de la temporada S1 2023 Lien Quan Mobile

Descubre los generales fuera de meta de la temporada S1 2023 Lien Quan Mobile

¿Qué generales están fuera del meta de Mobile Alliance? Vamos a explorar ahora

Temporada 7.5 de Graves DTCL: Artículos estándar, plantilla de Graves Loi Long

Temporada 7.5 de Graves DTCL: Artículos estándar, plantilla de Graves Loi Long

Graves DTCL de la temporada 1, temporada 3 y temporada 6 cuestan solo 1 de oro y parece ser solo un campeón adicional para estimular al clan, el rol principal en el juego inicial todavía se usa pero no mucho. A partir de la temporada 7.5 de DTCL, el precio de Graves se ha disparado a 4 de oro y es definitivamente un carry indispensable si decides jugar con Dragón Trueno o Artillero.

Cómo usar sonidos de aplicaciones independientes en Samsung

Cómo usar sonidos de aplicaciones independientes en Samsung

Con los teléfonos Samsung, debes utilizar la función de sonido de la aplicación independiente. Por ejemplo, puedes reproducir Apple Music y tu teléfono enviará el audio a través de los altavoces de tu automóvil.

Buenas citas sobre el trabajo, buenos estados sobre el trabajo te inspiran a alcanzar el éxito.

Buenas citas sobre el trabajo, buenos estados sobre el trabajo te inspiran a alcanzar el éxito.

Hay muchos estados positivos sobre el trabajo en Internet. En este artículo te resumiremos algunos estados laborales buenos y significativos.

Subtítulos de aniversario de bodas, estados de aniversario de bodas significativos y dulces

Subtítulos de aniversario de bodas, estados de aniversario de bodas significativos y dulces

¿Cuál es un título bueno y significativo para un aniversario de bodas? El artículo resumirá para usted breves y concisos subtítulos de aniversario que pueden hacer que su pareja los recuerde para siempre.