Los 9 mejores LLM locales/presenciales que puedes probar ahora mismo

Ahora que los LLM cuánticos están disponibles en HuggingFace y en ecosistemas de IA como H20, Text Gen y GPT4All, que le permiten cargar pesos LLM en su computadora, ahora tiene una opción para una IA gratuita, flexible y segura. ¡Aquí están los 9 mejores LLM locales/presenciales que puedes probar ahora mismo!

Tabla de contenido

1. Hermes 2 Pro GPTQ
2. Zephyr 7B Beta
3. Falcon Instruct GPTQ
4. GPT4ALL-J Groovy
5. Instrucciones de DeepSeek Coder V2
6. Mixtral-8x7B
7. Mago Vicuña Sin Censura-GPTQ
8. Orca Mini-GPTQ
9. Llama 2 13B Chat GPTQ

1. Hermes 2 Pro GPTQ

Los 9 mejores LLM locales/presenciales que puedes probar ahora mismo

Hermes 2 Pro es un modelo de lenguaje avanzado perfeccionado por Nous Research. Utiliza una versión actualizada y reducida del conjunto de datos OpenHermes 2.5, junto con los nuevos conjuntos de datos Function Calling y JSON desarrollados por la propia empresa. Este modelo se basa en la arquitectura Mistral 7B y ha sido entrenado con 1.000.000 de instrucciones/conversaciones de calidad GPT-4 o superior, en su mayoría datos sintéticos.

Modelo	Hermes 2 Pro GPTQ
Tamaño del modelo	7,26 GB
Parámetros	7 mil millones
Cuantización	4 bits
Tipo	Mistral
Licencia	Apache 2.0

El Hermes 2 Pro en el Mistral 7B es el nuevo modelo insignia del Hermes 7B, que ofrece un rendimiento mejorado en una variedad de puntos de referencia, incluidos AGIEval, BigBench Reasoning, GPT4All y TruthfulQA. Sus capacidades avanzadas lo hacen adecuado para muchas tareas de procesamiento del lenguaje natural (PLN), como generación de código, creación de contenido y aplicaciones de IA conversacional.

2. Zephyr 7B Beta

Zephyr es una serie de modelos de lenguaje entrenados para actuar como asistentes útiles. Zephyr-7B-Beta es el segundo modelo de la serie, refinado a partir de Mistral-7B-v0.1 mediante Optimización de Preferencia Directa (DPO) en una mezcla de conjuntos de datos sintéticos disponibles públicamente.

Modelo	Zephyr 7B Beta
Tamaño del modelo	7,26 GB
Parámetros	7 mil millones
Cuantización	4 bits
Tipo	Mistral
Licencia	Apache 2.0

Al eliminar la alineación incorporada de los conjuntos de datos de entrenamiento, Zephyr-7B-Beta demuestra un rendimiento mejorado en puntos de referencia como MT-Bench, lo que aumenta su utilidad en una variedad de tareas. Sin embargo, este ajuste puede generar una generación de texto problemática cuando se lo solicita de determinadas maneras.

3. Falcon Instruct GPTQ

Esta versión cuantificada de Falcon se basa en una arquitectura de solo decodificador refinada en el modelo Falcon-7b sin procesar de TII. El modelo base Falcon se entrena utilizando 1,5 billones de tokens en circulación provenientes de Internet público. Como modelo solo decodificador basado en comandos con licencia Apache 2, Falcon Instruct es perfecto para pequeñas empresas que buscan un modelo para usar en la traducción de idiomas y la ingesta de datos.

Modelo	Falcon-7B-Instruct
Tamaño del modelo	7,58 GB
Parámetros	7 mil millones
Cuantización	4 bits
Tipo	Halcón
Licencia	Apache 2.0

Sin embargo, esta versión de Falcon no es ideal para realizar ajustes finos y solo está destinada a la inferencia. Si desea ajustar Falcon, tendrá que utilizar el modelo sin procesar, lo que puede requerir acceso a hardware de entrenamiento de nivel empresarial como NVIDIA DGX o AMD Instinct AI Accelerators.

4. GPT4ALL-J Groovy

GPT4All-J Groovy es un modelo de solo decodificador ajustado por Nomic AI y con licencia Apache 2.0. GPT4ALL-J Groovy se basa en el modelo GPT-J original, conocido por su excelente capacidad para generar texto a partir de indicaciones. GPT4ALL -J Groovy ha sido ajustado a un modelo conversacional, lo cual es ideal para aplicaciones de generación de texto rápidas y creativas. Esto hace que GPT4All-J Groovy sea ideal para los creadores de contenido, ayudándolos con su escritura y composición, ya sea poesía, música o historias.

Modelo	GPT4ALL-J Groovy
Tamaño del modelo	3,53 GB
Parámetros	7 mil millones
Cuantización	4 bits
Tipo	GPT-J
Licencia	Apache 2.0

Lamentablemente, el modelo GPT-J de referencia se entrenó en un conjunto de datos solo en inglés, lo que significa que incluso este modelo GPT4ALL-J perfeccionado solo puede conversar y realizar aplicaciones de generación de texto en inglés.

5. Instrucciones de DeepSeek Coder V2

DeepSeek Coder V2 es un modelo de lenguaje avanzado que mejora la programación y el razonamiento matemático. DeepSeek Coder V2 admite múltiples lenguajes de programación y ofrece una longitud de contexto extendida, lo que lo convierte en una herramienta versátil para los desarrolladores.

Modelo	Instrucciones de DeepSeek Coder V2
Tamaño del modelo	13 GB
Parámetros	33 mil millones
Cuantización	4 bits
Tipo	Búsqueda profunda
Licencia	Apache 2.0

En comparación con su predecesor, DeepSeek Coder V2 muestra mejoras significativas en tareas relacionadas con el código, el razonamiento y las capacidades generales. Amplía el soporte para lenguajes de programación de 86 a 338 y extiende la longitud del contexto de 16K a 128K tokens. En pruebas de referencia, supera a modelos como GPT-4 Turbo, Claude 3 Opus y Gemini 1.5 Pro en pruebas de referencia criptográficas y matemática.

6. Mixtral-8x7B

Mixtral-8x7B es una mezcla de modelos expertos (MoE) desarrollados por Mistral AI. Cuenta con 8 expertos por MLP, totalizando 45 mil millones de parámetros. Sin embargo, solo se activan dos expertos por token durante la inferencia, lo que lo hace computacionalmente eficiente, con velocidad y costo comparables a un modelo de 12 mil millones de parámetros.

Modelo	Mixtral-8x7B
Tamaño del modelo	12 GB
Parámetros	45 mil millones (8 expertos)
Cuantización	4 bits
Tipo	Mistral MoE
Licencia	Apache 2.0

Mixtral admite una longitud de contexto de 32k tokens y supera a Llama 2 en 70B en la mayoría de los puntos de referencia, igualando o superando el rendimiento de GPT-3.5. Habla con fluidez varios idiomas, incluidos inglés, francés, alemán, español e italiano, lo que lo convierte en una opción versátil para una variedad de tareas de PNL.

7. Mago Vicuña Sin Censura-GPTQ

Wizard-Vicuna GPTQ es la versión cuántica de Wizard Vicuna basada en el modelo LlaMA. A diferencia de la mayoría de los LLM lanzados al público, Wizard-Vicuna es un modelo sin censura con la asociación eliminada. Esto significa que el modelo no tiene los mismos estándares de seguridad y éticos que la mayoría de los otros modelos.

Modelo	Wizard-Vicuña-30B-Sin censura-GPTQ
Tamaño del modelo	16,94 GB
Parámetros	30 mil millones
Cuantización	4 bits
Tipo	Llama
Licencia	GPL 3

Si bien puede representar un problema para el control de alineación de la IA, tener un LLM sin censura también saca lo mejor del modelo al permitirle responder sin restricciones. Esto también permite a los usuarios agregar su propia alineación personalizada sobre cómo debe actuar o responder la IA en función de una indicación determinada.

8. Orca Mini-GPTQ

¿Estás buscando probar un modelo entrenado utilizando un método de aprendizaje único? Orca Mini es una implementación no oficial del documento de investigación Orca de Microsoft. Este modelo se entrena utilizando un enfoque de aprendizaje profesor-alumno, donde el conjunto de datos se llena con explicaciones en lugar de solo indicaciones y respuestas. En teoría, esto debería hacer que el estudiante sea más inteligente, en el sentido de que el modelo puede comprender el problema en lugar de simplemente buscar pares de entrada y salida como funciona el LLM convencional.

9. Llama 2 13B Chat GPTQ

Llama 2 es el sucesor del Llama LLM original, ofreciendo un rendimiento y una versatilidad mejorados. La variante 13B Chat GPTQ está optimizada para aplicaciones de inteligencia artificial conversacional para el diálogo en inglés.

Algunos de los modelos enumerados anteriormente vienen en múltiples versiones en términos de especificaciones. En general, las versiones con especificaciones más altas producen mejores resultados pero requieren hardware más potente, mientras que las versiones con especificaciones más bajas producen resultados de menor calidad pero pueden funcionar en hardware de gama más baja. Si no está seguro de si su PC puede ejecutar este modelo, pruebe primero una versión con especificaciones más bajas y luego continúe hasta que sienta que la caída del rendimiento ya no es aceptable.

Tags: #llm #llm local #llm sin conexión #llm local óptimo #llm sin conexión óptimo #hermes 2 pro gptq

Microsoft añade GPT-4 Turbo LLM a la versión gratuita de Copilot

En el año 2023, Microsoft apostó fuerte por la inteligencia artificial y su asociación con OpenAI para hacer de Copilot una realidad.

Nvidia acaba de lanzar LLM de código abierto para competir con GPT-4

Nvidia acaba de anunciar el lanzamiento de un modelo de lenguaje grande (LLM) de código abierto que se dice que funciona a la par de los modelos propietarios líderes de OpenAI, Anthropic, Meta y Google.

Foxconn anuncia un modelo de lenguaje grande (LLM) perfeccionado a partir de Llama 3.1 de Meta

Foxconn, la compañía más conocida por fabricar iPhones y otros productos de hardware de Apple, acaba de sorprender a todos al anunciar su primer modelo de lenguaje de gran tamaño (LLM), llamado FoxBrain, que pretende ser utilizado para mejorar la gestión de la cadena de suministro y fabricación.

Cómo recuperar el acceso al disco duro, solucionar el error de no poder abrir el disco duro

En este artículo, te guiaremos sobre cómo recuperar el acceso a tu disco duro cuando falla. ¡Sigamos!

Cómo usar Conversation Awareness y Live Listen en los AirPods

A primera vista, los AirPods parecen iguales a cualquier otro auricular inalámbrico. Pero todo cambió cuando se descubrieron algunas características poco conocidas.

Todo sobre iOS 26

Apple ha presentado iOS 26, una importante actualización con un nuevo diseño de vidrio esmerilado, experiencias más inteligentes y mejoras en aplicaciones conocidas.

Las mejores computadoras portátiles para estudiantes en 2025

Los estudiantes necesitan un tipo específico de portátil para sus estudios. No solo debe ser lo suficientemente potente como para desempeñarse bien en su especialidad, sino también lo suficientemente compacto y ligero como para llevarlo consigo todo el día.

Cómo agregar una impresora a Windows 10

Agregar una impresora a Windows 10 es sencillo, aunque el proceso para dispositivos con cable será diferente al de los dispositivos inalámbricos.

Cómo comprobar la RAM y detectar errores de RAM en tu ordenador con la mayor precisión

Como sabes, la RAM es un componente de hardware muy importante en una computadora, ya que actúa como memoria para procesar datos y es el factor que determina la velocidad de una laptop o PC. En el siguiente artículo, WebTech360 te presentará algunas maneras de detectar errores de RAM mediante software en Windows.

Diferencia entre un televisor normal y un Smart TV

Los televisores inteligentes realmente han conquistado el mundo. Con tantas funciones excelentes y conectividad a Internet, la tecnología ha cambiado la forma en que vemos televisión.

¿Por qué el congelador no tiene luz pero el refrigerador sí?

Los refrigeradores son electrodomésticos familiares en los hogares. Los refrigeradores suelen tener 2 compartimentos, el compartimento frío es espacioso y tiene una luz que se enciende automáticamente cada vez que el usuario lo abre, mientras que el compartimento congelador es estrecho y no tiene luz.

2 maneras de solucionar la congestión de la red que ralentiza el Wi-Fi

Las redes Wi-Fi se ven afectadas por muchos factores más allá de los enrutadores, el ancho de banda y las interferencias, pero existen algunas formas inteligentes de mejorar su red.

Cómo degradar de iOS 17 a iOS 16 sin perder datos usando Tenorshare Reiboot

Si quieres volver a iOS 16 estable en tu teléfono, aquí tienes la guía básica para desinstalar iOS 17 y pasar de iOS 17 a 16.

¿Qué le pasa al cuerpo cuando comes yogur todos los días?

El yogur es un alimento maravilloso. ¿Es bueno comer yogur todos los días? Si comes yogur todos los días, ¿cómo cambiará tu cuerpo? ¡Descubrámoslo juntos!

¿Qué tipo de arroz es mejor para la salud?

Este artículo analiza los tipos de arroz más nutritivos y cómo maximizar los beneficios para la salud del arroz que elija.

Cómo despertarse a tiempo por la mañana

Establecer un horario de sueño y una rutina para la hora de acostarse, cambiar el despertador y ajustar la dieta son algunas de las medidas que pueden ayudarle a dormir mejor y despertarse a tiempo por la mañana.

Consejos para jugar a Rent Please! Simulación de propietario para principiantes

¡Alquiler por favor! Landlord Sim es un juego de simulación para dispositivos móviles iOS y Android. Jugarás como propietario de un complejo de apartamentos y comenzarás a alquilar un apartamento con el objetivo de mejorar el interior de tus apartamentos y prepararlos para los inquilinos.

Últimos códigos de defensa de torres para baños y cómo introducirlos

Obtén el código del juego Bathroom Tower Defense de Roblox y canjéalo por emocionantes recompensas. Te ayudarán a mejorar o desbloquear torres con mayor daño.