La IA está aprendiendo a engañar a los humanos a pesar de haber sido entrenada para ser honesta.

Muchas IA de alto nivel, a pesar de estar entrenadas para ser honestas, aprenden a engañar a través del entrenamiento e “inducen sistemáticamente a los usuarios a creer falsas creencias”, según un nuevo estudio.

El equipo de investigación estuvo dirigido por el Dr. Peter S. Park, estudiante de posgrado en supervivencia y seguridad de la IA en el Instituto Tecnológico de Massachusetts (MIT), y otros cuatro miembros. Durante la investigación, el equipo también recibió asesoramiento de muchos expertos, uno de los cuales fue Geoffrey Hinton, uno de los fundadores del desarrollo del campo de la inteligencia artificial.

La IA está aprendiendo a engañar a los humanos a pesar de haber sido entrenada para ser honesta.
Ilustración: Mediana.

La investigación se centró en dos sistemas de IA: un sistema de propósito general entrenado para realizar múltiples tareas como el GPT-4 de OpenAI ; y sistemas diseñados específicamente para realizar una tarea específica, como el Cicerón de Meta.

Estos sistemas de IA están entrenados para ser honestos, pero durante el entrenamiento a menudo aprenden trucos engañosos para completar tareas, dijo Park.

Los sistemas de IA entrenados para “ganar juegos con un elemento social” son particularmente propensos a engañar, encontró el estudio.

Por ejemplo, el equipo intentó usar a Cicero entrenado por Meta para jugar Diplomacy, un juego de estrategia clásico que requiere que los jugadores construyan alianzas para sí mismos y rompan alianzas rivales. Como resultado, esta IA a menudo traiciona a sus aliados y miente descaradamente.

Los experimentos con GPT-4 demostraron que la herramienta de OpenAI logró "manipular psicológicamente" con éxito a un empleado de TaskRabbit, una empresa que brinda servicios de limpieza de casas y montaje de muebles, al decirle que en realidad era un humano y que necesitaba ayuda para pasar un código Captcha, alegando una discapacidad visual grave. Este empleado ayudó a la IA de OpenAI a "cruzar la línea" a pesar de las dudas previas.

El equipo de Park citó una investigación de Anthropic, la compañía detrás de Claude AI, que descubrió que una vez que un modelo de lenguaje grande (LLM) aprende a engañar, los métodos de entrenamiento seguros se vuelven inútiles y "difíciles de revertir". El grupo cree que este es un problema preocupante en la IA.

Los resultados de la investigación del equipo se publicaron en Cell Press, una colección de importantes informes científicos multidisciplinarios.

Meta y OpenAI no han comentado los resultados de esta investigación.

Temiendo que los sistemas de inteligencia artificial pudieran suponer riesgos importantes, el equipo también pidió a los responsables de las políticas que introdujeran regulaciones más estrictas sobre la IA.

Según el equipo de investigación, es necesario regular la IA, obligar a los modelos con comportamiento fraudulento a cumplir con requisitos de evaluación de riesgos y un control estricto de los sistemas de IA y sus resultados. Si es necesario, puede que sea necesario eliminar todos los datos y volver a entrenar desde cero.

Sign up and earn $1000 a day ⋙

Leave a Comment

Frutas del Diablo ahora disponibles en Blox Fruit

Frutas del Diablo ahora disponibles en Blox Fruit

Cada pocas horas, los jugadores pueden comprar una fruta Blox aleatoria con la posibilidad de obtener una fruta mejor. Aunque sin la notificación de cambio de fruta del diablo es posible que pierdas tu oportunidad.

Clasificación de personajes de Dislyte, lista de niveles de Dislyte

Clasificación de personajes de Dislyte, lista de niveles de Dislyte

Nuestras clasificaciones de personajes de Dislyte te ayudarán a distinguir a los personajes más fuertes, desde aquellos que no vale la pena llevar a la batalla hasta aquellos que estarán en la cima de tu equipo.

Último código de Phong Ma Dao Si y cómo ingresar el código

Último código de Phong Ma Dao Si y cómo ingresar el código

También puedes usar el código de regalo Phong Ma Dao Si para canjearlo por valiosas recompensas.

¿Qué es Duo Mobile? ¿Es seguro utilizar Duo Mobile?

¿Qué es Duo Mobile? ¿Es seguro utilizar Duo Mobile?

Las aplicaciones de autenticación añaden otra capa de seguridad y son una forma fácil y cómoda de confirmar la identidad de una persona. Duo Mobile es una de las aplicaciones más populares de su tipo.

Imágenes de buenos días, hermosas imágenes de nuevo día.

Imágenes de buenos días, hermosas imágenes de nuevo día.

Imágenes de buenos días, imágenes de buenos días con mensajes positivos nos ayudarán a tener más energía y motivación para tener una jornada laboral más efectiva.

Análisis del OPPO Reno 5 Pro 5G: ¡Cuidado con otros competidores!

Análisis del OPPO Reno 5 Pro 5G: ¡Cuidado con otros competidores!

Reno 5 Pro 5G no es muy diferente de su predecesor, ya que mantiene la misma pantalla curva AMOLED de 6.5 pulgadas.

¿Qué es un número mixto?

¿Qué es un número mixto?

Un número mixto es una combinación de un número entero y una fracción. La parte fraccionaria de un número mixto siempre es menor que 1.

Consejos para viajar como una persona rica

Consejos para viajar como una persona rica

¿Tiene un presupuesto limitado cuando se trata de viajar? No te preocupes, los consejos compartidos por un famoso asesor de viajes a continuación te ayudarán a viajar como una persona rica.

Los 7 mejores complementos de Obsidian para dispositivos móviles

Los 7 mejores complementos de Obsidian para dispositivos móviles

Además de ajustar la interfaz y hacer que Obsidian funcione de manera más eficiente, te brindarán un conjunto más completo de herramientas para tomar notas.

Cómo arreglar una pantalla externa borrosa

Cómo arreglar una pantalla externa borrosa

Una pantalla externa oscura puede afectar la productividad y provocar fatiga visual. ¡Afortunadamente, hay varias cosas que puedes hacer para arreglar una pantalla borrosa!

¿De dónde vienen los símbolos de masculino y femenino?

¿De dónde vienen los símbolos de masculino y femenino?

Hoy en día, puede que no todo el mundo conozca el significado de los símbolos masculinos y femeninos más populares. ¡Aprendamos más sobre los símbolos masculinos y femeninos!

La misteriosa historia de los agujeros negros ha sido descifrada por los científicos

La misteriosa historia de los agujeros negros ha sido descifrada por los científicos

Uno de los conceptos erróneos más comunes sobre los agujeros negros es que no sólo se tragan la materia, sino también la historia de esa materia. La verdad sobre la historia de los agujeros negros finalmente ha sido resuelta.

¡No necesita varias aplicaciones de Adobe Mobile, Adobe Express es la única aplicación que necesita!

¡No necesita varias aplicaciones de Adobe Mobile, Adobe Express es la única aplicación que necesita!

Adobe ofrece más de cuatro aplicaciones de edición de fotografías específicas para el teléfono, y todas son tan similares que resulta difícil determinar cuál necesitas realmente.

5 gadgets que convierten un televisor normal en uno inteligente

5 gadgets que convierten un televisor normal en uno inteligente

Un televisor normal puede aprender nuevos trucos con algunos dispositivos y volverse mejor que un costoso televisor inteligente en cuestión de minutos.

Cómo utilizar el control remoto del aire acondicionado Panasonic

Cómo utilizar el control remoto del aire acondicionado Panasonic

El uso correcto del control remoto del aire acondicionado Panasonic nos ayudará a aprovechar las funciones del aire acondicionado.