Inicio
» Wiki
»
Los 9 mejores LLM locales/presenciales que puedes probar ahora mismo
Los 9 mejores LLM locales/presenciales que puedes probar ahora mismo
Ahora que los LLM cuánticos están disponibles en HuggingFace y en ecosistemas de IA como H20, Text Gen y GPT4All, que le permiten cargar pesos LLM en su computadora, ahora tiene una opción para una IA gratuita, flexible y segura. ¡Aquí están los 9 mejores LLM locales/presenciales que puedes probar ahora mismo!
Hermes 2 Pro es un modelo de lenguaje avanzado perfeccionado por Nous Research. Utiliza una versión actualizada y reducida del conjunto de datos OpenHermes 2.5, junto con los nuevos conjuntos de datos Function Calling y JSON desarrollados por la propia empresa. Este modelo se basa en la arquitectura Mistral 7B y ha sido entrenado con 1.000.000 de instrucciones/conversaciones de calidad GPT-4 o superior, en su mayoría datos sintéticos.
Modelo
Hermes 2 Pro GPTQ
Tamaño del modelo
7,26 GB
Parámetros
7 mil millones
Cuantización
4 bits
Tipo
Mistral
Licencia
Apache 2.0
El Hermes 2 Pro en el Mistral 7B es el nuevo modelo insignia del Hermes 7B, que ofrece un rendimiento mejorado en una variedad de puntos de referencia, incluidos AGIEval, BigBench Reasoning, GPT4All y TruthfulQA. Sus capacidades avanzadas lo hacen adecuado para muchas tareas de procesamiento del lenguaje natural (PLN), como generación de código, creación de contenido y aplicaciones de IA conversacional.
Zephyr es una serie de modelos de lenguaje entrenados para actuar como asistentes útiles. Zephyr-7B-Beta es el segundo modelo de la serie, refinado a partir de Mistral-7B-v0.1 mediante Optimización de Preferencia Directa (DPO) en una mezcla de conjuntos de datos sintéticos disponibles públicamente.
Modelo
Zephyr 7B Beta
Tamaño del modelo
7,26 GB
Parámetros
7 mil millones
Cuantización
4 bits
Tipo
Mistral
Licencia
Apache 2.0
Al eliminar la alineación incorporada de los conjuntos de datos de entrenamiento, Zephyr-7B-Beta demuestra un rendimiento mejorado en puntos de referencia como MT-Bench, lo que aumenta su utilidad en una variedad de tareas. Sin embargo, este ajuste puede generar una generación de texto problemática cuando se lo solicita de determinadas maneras.
Esta versión cuantificada de Falcon se basa en una arquitectura de solo decodificador refinada en el modelo Falcon-7b sin procesar de TII. El modelo base Falcon se entrena utilizando 1,5 billones de tokens en circulación provenientes de Internet público. Como modelo solo decodificador basado en comandos con licencia Apache 2, Falcon Instruct es perfecto para pequeñas empresas que buscan un modelo para usar en la traducción de idiomas y la ingesta de datos.
Modelo
Falcon-7B-Instruct
Tamaño del modelo
7,58 GB
Parámetros
7 mil millones
Cuantización
4 bits
Tipo
Halcón
Licencia
Apache 2.0
Sin embargo, esta versión de Falcon no es ideal para realizar ajustes finos y solo está destinada a la inferencia. Si desea ajustar Falcon, tendrá que utilizar el modelo sin procesar, lo que puede requerir acceso a hardware de entrenamiento de nivel empresarial como NVIDIA DGX o AMD Instinct AI Accelerators.
GPT4All-J Groovy es un modelo de solo decodificador ajustado por Nomic AI y con licencia Apache 2.0. GPT4ALL-J Groovy se basa en el modelo GPT-J original, conocido por su excelente capacidad para generar texto a partir de indicaciones. GPT4ALL -J Groovy ha sido ajustado a un modelo conversacional, lo cual es ideal para aplicaciones de generación de texto rápidas y creativas. Esto hace que GPT4All-J Groovy sea ideal para los creadores de contenido, ayudándolos con su escritura y composición, ya sea poesía, música o historias.
Modelo
GPT4ALL-J Groovy
Tamaño del modelo
3,53 GB
Parámetros
7 mil millones
Cuantización
4 bits
Tipo
GPT-J
Licencia
Apache 2.0
Lamentablemente, el modelo GPT-J de referencia se entrenó en un conjunto de datos solo en inglés, lo que significa que incluso este modelo GPT4ALL-J perfeccionado solo puede conversar y realizar aplicaciones de generación de texto en inglés.
DeepSeek Coder V2 es un modelo de lenguaje avanzado que mejora la programación y el razonamiento matemático. DeepSeek Coder V2 admite múltiples lenguajes de programación y ofrece una longitud de contexto extendida, lo que lo convierte en una herramienta versátil para los desarrolladores.
Modelo
Instrucciones de DeepSeek Coder V2
Tamaño del modelo
13 GB
Parámetros
33 mil millones
Cuantización
4 bits
Tipo
Búsqueda profunda
Licencia
Apache 2.0
En comparación con su predecesor, DeepSeek Coder V2 muestra mejoras significativas en tareas relacionadas con el código, el razonamiento y las capacidades generales. Amplía el soporte para lenguajes de programación de 86 a 338 y extiende la longitud del contexto de 16K a 128K tokens. En pruebas de referencia, supera a modelos como GPT-4 Turbo, Claude 3 Opus y Gemini 1.5 Pro en pruebas de referencia criptográficas y matemática.
Mixtral-8x7B es una mezcla de modelos expertos (MoE) desarrollados por Mistral AI. Cuenta con 8 expertos por MLP, totalizando 45 mil millones de parámetros. Sin embargo, solo se activan dos expertos por token durante la inferencia, lo que lo hace computacionalmente eficiente, con velocidad y costo comparables a un modelo de 12 mil millones de parámetros.
Modelo
Mixtral-8x7B
Tamaño del modelo
12 GB
Parámetros
45 mil millones (8 expertos)
Cuantización
4 bits
Tipo
Mistral MoE
Licencia
Apache 2.0
Mixtral admite una longitud de contexto de 32k tokens y supera a Llama 2 en 70B en la mayoría de los puntos de referencia, igualando o superando el rendimiento de GPT-3.5. Habla con fluidez varios idiomas, incluidos inglés, francés, alemán, español e italiano, lo que lo convierte en una opción versátil para una variedad de tareas de PNL.
Wizard-Vicuna GPTQ es la versión cuántica de Wizard Vicuna basada en el modelo LlaMA. A diferencia de la mayoría de los LLM lanzados al público, Wizard-Vicuna es un modelo sin censura con la asociación eliminada. Esto significa que el modelo no tiene los mismos estándares de seguridad y éticos que la mayoría de los otros modelos.
Modelo
Wizard-Vicuña-30B-Sin censura-GPTQ
Tamaño del modelo
16,94 GB
Parámetros
30 mil millones
Cuantización
4 bits
Tipo
Llama
Licencia
GPL 3
Si bien puede representar un problema para el control de alineación de la IA, tener un LLM sin censura también saca lo mejor del modelo al permitirle responder sin restricciones. Esto también permite a los usuarios agregar su propia alineación personalizada sobre cómo debe actuar o responder la IA en función de una indicación determinada.
¿Estás buscando probar un modelo entrenado utilizando un método de aprendizaje único? Orca Mini es una implementación no oficial del documento de investigación Orca de Microsoft. Este modelo se entrena utilizando un enfoque de aprendizaje profesor-alumno, donde el conjunto de datos se llena con explicaciones en lugar de solo indicaciones y respuestas. En teoría, esto debería hacer que el estudiante sea más inteligente, en el sentido de que el modelo puede comprender el problema en lugar de simplemente buscar pares de entrada y salida como funciona el LLM convencional.
Llama 2 es el sucesor del Llama LLM original, ofreciendo un rendimiento y una versatilidad mejorados. La variante 13B Chat GPTQ está optimizada para aplicaciones de inteligencia artificial conversacional para el diálogo en inglés.
Algunos de los modelos enumerados anteriormente vienen en múltiples versiones en términos de especificaciones. En general, las versiones con especificaciones más altas producen mejores resultados pero requieren hardware más potente, mientras que las versiones con especificaciones más bajas producen resultados de menor calidad pero pueden funcionar en hardware de gama más baja. Si no está seguro de si su PC puede ejecutar este modelo, pruebe primero una versión con especificaciones más bajas y luego continúe hasta que sienta que la caída del rendimiento ya no es aceptable.