La IA está aprendiendo a engañar a los humanos a pesar de haber sido entrenada para ser honesta.

Muchas IA de alto nivel, a pesar de estar entrenadas para ser honestas, aprenden a engañar a través del entrenamiento e “inducen sistemáticamente a los usuarios a creer falsas creencias”, según un nuevo estudio.

El equipo de investigación estuvo dirigido por el Dr. Peter S. Park, estudiante de posgrado en supervivencia y seguridad de la IA en el Instituto Tecnológico de Massachusetts (MIT), y otros cuatro miembros. Durante la investigación, el equipo también recibió asesoramiento de muchos expertos, uno de los cuales fue Geoffrey Hinton, uno de los fundadores del desarrollo del campo de la inteligencia artificial.

La IA está aprendiendo a engañar a los humanos a pesar de haber sido entrenada para ser honesta.
Ilustración: Mediana.

La investigación se centró en dos sistemas de IA: un sistema de propósito general entrenado para realizar múltiples tareas como el GPT-4 de OpenAI ; y sistemas diseñados específicamente para realizar una tarea específica, como el Cicerón de Meta.

Estos sistemas de IA están entrenados para ser honestos, pero durante el entrenamiento a menudo aprenden trucos engañosos para completar tareas, dijo Park.

Los sistemas de IA entrenados para “ganar juegos con un elemento social” son particularmente propensos a engañar, encontró el estudio.

Por ejemplo, el equipo intentó usar a Cicero entrenado por Meta para jugar Diplomacy, un juego de estrategia clásico que requiere que los jugadores construyan alianzas para sí mismos y rompan alianzas rivales. Como resultado, esta IA a menudo traiciona a sus aliados y miente descaradamente.

Los experimentos con GPT-4 demostraron que la herramienta de OpenAI logró "manipular psicológicamente" con éxito a un empleado de TaskRabbit, una empresa que brinda servicios de limpieza de casas y montaje de muebles, al decirle que en realidad era un humano y que necesitaba ayuda para pasar un código Captcha, alegando una discapacidad visual grave. Este empleado ayudó a la IA de OpenAI a "cruzar la línea" a pesar de las dudas previas.

El equipo de Park citó una investigación de Anthropic, la compañía detrás de Claude AI, que descubrió que una vez que un modelo de lenguaje grande (LLM) aprende a engañar, los métodos de entrenamiento seguros se vuelven inútiles y "difíciles de revertir". El grupo cree que este es un problema preocupante en la IA.

Los resultados de la investigación del equipo se publicaron en Cell Press, una colección de importantes informes científicos multidisciplinarios.

Meta y OpenAI no han comentado los resultados de esta investigación.

Temiendo que los sistemas de inteligencia artificial pudieran suponer riesgos importantes, el equipo también pidió a los responsables de las políticas que introdujeran regulaciones más estrictas sobre la IA.

Según el equipo de investigación, es necesario regular la IA, obligar a los modelos con comportamiento fraudulento a cumplir con requisitos de evaluación de riesgos y un control estricto de los sistemas de IA y sus resultados. Si es necesario, puede que sea necesario eliminar todos los datos y volver a entrenar desde cero.

Sign up and earn $1000 a day ⋙

Leave a Comment

Todo lo que necesitas para sustituir tu portátil por un teléfono

Todo lo que necesitas para sustituir tu portátil por un teléfono

¿Realmente puedes reemplazar tu computadora portátil con tu teléfono? Sí, pero necesitarás los accesorios adecuados para convertir tu teléfono en una computadora portátil.

ChatGPT pronto podrá ver todo lo que sucede en tu pantalla

ChatGPT pronto podrá ver todo lo que sucede en tu pantalla

Una cosa importante en el video completo del evento es que se demostró la próxima función de la aplicación ChatGPT, pero no se compartieron detalles reales. Es la capacidad de ChatGPT de ver todo lo que sucede en la pantalla del dispositivo del usuario.

La IA está aprendiendo a engañar a los humanos a pesar de haber sido entrenada para ser honesta.

La IA está aprendiendo a engañar a los humanos a pesar de haber sido entrenada para ser honesta.

Muchas IA de alto nivel, a pesar de estar entrenadas para ser honestas, aprenden a engañar a través del entrenamiento e inducen sistemáticamente a los usuarios a creer falsas creencias, según descubre un nuevo estudio.

Cómo cambiar las preguntas en ChatGPT

Cómo cambiar las preguntas en ChatGPT

ChatGPT ahora tiene una opción de cambio de preguntas para que los usuarios puedan editar la pregunta o el contenido que están intercambiando con ChatGPT.

Cómo detectar códigos QR falsos y mantener tus datos seguros

Cómo detectar códigos QR falsos y mantener tus datos seguros

Los códigos QR parecen bastante inofensivos hasta que escaneas un código QR incorrecto y recibes algo desagradable en tu sistema. Si desea mantener su teléfono y sus datos seguros, existen algunas formas de identificar códigos QR falsos.

Qualcomm lanza el módem X85 5G con una serie de mejoras notables

Qualcomm lanza el módem X85 5G con una serie de mejoras notables

En el escenario del MWC 2025, Qualcomm causó sensación cuando presentó su octava generación de módem 5G llamado X85, que se espera que se use en los teléfonos inteligentes insignia que se lancen a finales de este año.

La nueva tecnología permite que los teléfonos cambien de color de forma flexible

La nueva tecnología permite que los teléfonos cambien de color de forma flexible

Tienes un iPhone 16 en color “Ultramar”, pero un buen día de repente te aburre ese color; ¿Qué vas a hacer?

Microsoft integra DeepSeek en la plataforma PC Copilot+

Microsoft integra DeepSeek en la plataforma PC Copilot+

En enero, Microsoft anunció planes para llevar versiones optimizadas para NPU del modelo DeepSeek-R1 directamente a las computadoras Copilot+ que funcionan con procesadores Qualcomm Snapdragon X.

Diferencia entre las funciones SI y Cambiar en Excel

Diferencia entre las funciones SI y Cambiar en Excel

La declaración SI es una función lógica común en Excel. La declaración SWITCH es menos conocida, pero puedes usarla en lugar de la declaración IF en algunos casos.

Cómo agregar un efecto de foco detrás del sujeto usando Adobe Camera Raw

Cómo agregar un efecto de foco detrás del sujeto usando Adobe Camera Raw

Agregar un efecto de foco detrás del sujeto en una fotografía es una excelente forma de separar el sujeto del fondo. El efecto de foco puede agregar profundidad a las fotografías de retrato.

Cómo aumentar el límite de tamaño de los archivos adjuntos de Outlook

Cómo aumentar el límite de tamaño de los archivos adjuntos de Outlook

Outlook y otros servicios de correo electrónico tienen límites en el tamaño de los archivos adjuntos en los correos electrónicos. Aquí encontrará instrucciones para aumentar el límite de tamaño de los archivos adjuntos de Outlook.

¿Por qué Lightroom es mejor que cualquier otra aplicación de edición de fotografías?

¿Por qué Lightroom es mejor que cualquier otra aplicación de edición de fotografías?

A pesar de tener muchos competidores, Adobe Lightroom sigue siendo la mejor aplicación de edición de fotografías. Sí, es necesario pagar para acceder, pero el conjunto de funciones de Lightroom hace que valga la pena.

Cómo descargar vídeos de Youtube de forma sencilla y rápida

Cómo descargar vídeos de Youtube de forma sencilla y rápida

Descargar vídeos de Youtube ahora es muy sencillo, no necesitas pasar por pasos complicados para poder descargar vídeos de Youtube a tu ordenador.

Cómo usar Apple Invitaciones para crear eventos

Cómo usar Apple Invitaciones para crear eventos

Apple ha lanzado su propia aplicación de gestión de eventos llamada Invites. Esta aplicación te permite crear eventos, enviar invitaciones y administrar respuestas.

Trucos Heroes 3, códigos Heroes 3 todas las versiones

Trucos Heroes 3, códigos Heroes 3 todas las versiones

Aquí están todos los códigos de Heroes 3, trucos de Heroes 3 para todas las versiones como trucos de Heroes 3 WoG, Heroes 3 SoD, Heroes 3 of Might and Magic