La IA está aprendiendo a engañar a los humanos a pesar de haber sido entrenada para ser honesta.

Muchas IA de alto nivel, a pesar de estar entrenadas para ser honestas, aprenden a engañar a través del entrenamiento e “inducen sistemáticamente a los usuarios a creer falsas creencias”, según un nuevo estudio.

El equipo de investigación estuvo dirigido por el Dr. Peter S. Park, estudiante de posgrado en supervivencia y seguridad de la IA en el Instituto Tecnológico de Massachusetts (MIT), y otros cuatro miembros. Durante la investigación, el equipo también recibió asesoramiento de muchos expertos, uno de los cuales fue Geoffrey Hinton, uno de los fundadores del desarrollo del campo de la inteligencia artificial.

La IA está aprendiendo a engañar a los humanos a pesar de haber sido entrenada para ser honesta. — Ilustración: Mediana.

La investigación se centró en dos sistemas de IA: un sistema de propósito general entrenado para realizar múltiples tareas como el GPT-4 de OpenAI ; y sistemas diseñados específicamente para realizar una tarea específica, como el Cicerón de Meta.

Estos sistemas de IA están entrenados para ser honestos, pero durante el entrenamiento a menudo aprenden trucos engañosos para completar tareas, dijo Park.

Los sistemas de IA entrenados para “ganar juegos con un elemento social” son particularmente propensos a engañar, encontró el estudio.

Por ejemplo, el equipo intentó usar a Cicero entrenado por Meta para jugar Diplomacy, un juego de estrategia clásico que requiere que los jugadores construyan alianzas para sí mismos y rompan alianzas rivales. Como resultado, esta IA a menudo traiciona a sus aliados y miente descaradamente.

Los experimentos con GPT-4 demostraron que la herramienta de OpenAI logró "manipular psicológicamente" con éxito a un empleado de TaskRabbit, una empresa que brinda servicios de limpieza de casas y montaje de muebles, al decirle que en realidad era un humano y que necesitaba ayuda para pasar un código Captcha, alegando una discapacidad visual grave. Este empleado ayudó a la IA de OpenAI a "cruzar la línea" a pesar de las dudas previas.

El equipo de Park citó una investigación de Anthropic, la compañía detrás de Claude AI, que descubrió que una vez que un modelo de lenguaje grande (LLM) aprende a engañar, los métodos de entrenamiento seguros se vuelven inútiles y "difíciles de revertir". El grupo cree que este es un problema preocupante en la IA.

Los resultados de la investigación del equipo se publicaron en Cell Press, una colección de importantes informes científicos multidisciplinarios.

Meta y OpenAI no han comentado los resultados de esta investigación.

Temiendo que los sistemas de inteligencia artificial pudieran suponer riesgos importantes, el equipo también pidió a los responsables de las políticas que introdujeran regulaciones más estrictas sobre la IA.

Según el equipo de investigación, es necesario regular la IA, obligar a los modelos con comportamiento fraudulento a cumplir con requisitos de evaluación de riesgos y un control estricto de los sistemas de IA y sus resultados. Si es necesario, puede que sea necesario eliminar todos los datos y volver a entrenar desde cero.

Tags: #¿Quién #quién está engañando #quién está engañando a la gente?

A la IA, después de haberle enseñado a hacer trampa, le resulta muy difícil reformarla.

Anthropic, conocida startup en el campo de la inteligencia artificial, ha realizado un nuevo estudio que demuestra que cuando una IA generativa ha cometido fraude, es muy difícil ajustar o volver a entrenar ese modelo.

Cómo recuperar el acceso al disco duro, solucionar el error de no poder abrir el disco duro

En este artículo, te guiaremos sobre cómo recuperar el acceso a tu disco duro cuando falla. ¡Sigamos!

Cómo usar Conversation Awareness y Live Listen en los AirPods

A primera vista, los AirPods parecen iguales a cualquier otro auricular inalámbrico. Pero todo cambió cuando se descubrieron algunas características poco conocidas.

Todo sobre iOS 26

Apple ha presentado iOS 26, una importante actualización con un nuevo diseño de vidrio esmerilado, experiencias más inteligentes y mejoras en aplicaciones conocidas.

Las mejores computadoras portátiles para estudiantes en 2025

Los estudiantes necesitan un tipo específico de portátil para sus estudios. No solo debe ser lo suficientemente potente como para desempeñarse bien en su especialidad, sino también lo suficientemente compacto y ligero como para llevarlo consigo todo el día.

Cómo agregar una impresora a Windows 10

Agregar una impresora a Windows 10 es sencillo, aunque el proceso para dispositivos con cable será diferente al de los dispositivos inalámbricos.

Cómo comprobar la RAM y detectar errores de RAM en tu ordenador con la mayor precisión

Como sabes, la RAM es un componente de hardware muy importante en una computadora, ya que actúa como memoria para procesar datos y es el factor que determina la velocidad de una laptop o PC. En el siguiente artículo, WebTech360 te presentará algunas maneras de detectar errores de RAM mediante software en Windows.

Diferencia entre un televisor normal y un Smart TV

Los televisores inteligentes realmente han conquistado el mundo. Con tantas funciones excelentes y conectividad a Internet, la tecnología ha cambiado la forma en que vemos televisión.

¿Por qué el congelador no tiene luz pero el refrigerador sí?

Los refrigeradores son electrodomésticos familiares en los hogares. Los refrigeradores suelen tener 2 compartimentos, el compartimento frío es espacioso y tiene una luz que se enciende automáticamente cada vez que el usuario lo abre, mientras que el compartimento congelador es estrecho y no tiene luz.

2 maneras de solucionar la congestión de la red que ralentiza el Wi-Fi

Las redes Wi-Fi se ven afectadas por muchos factores más allá de los enrutadores, el ancho de banda y las interferencias, pero existen algunas formas inteligentes de mejorar su red.

Cómo degradar de iOS 17 a iOS 16 sin perder datos usando Tenorshare Reiboot

Si quieres volver a iOS 16 estable en tu teléfono, aquí tienes la guía básica para desinstalar iOS 17 y pasar de iOS 17 a 16.

¿Qué le pasa al cuerpo cuando comes yogur todos los días?

El yogur es un alimento maravilloso. ¿Es bueno comer yogur todos los días? Si comes yogur todos los días, ¿cómo cambiará tu cuerpo? ¡Descubrámoslo juntos!

¿Qué tipo de arroz es mejor para la salud?

Este artículo analiza los tipos de arroz más nutritivos y cómo maximizar los beneficios para la salud del arroz que elija.

Cómo despertarse a tiempo por la mañana

Establecer un horario de sueño y una rutina para la hora de acostarse, cambiar el despertador y ajustar la dieta son algunas de las medidas que pueden ayudarle a dormir mejor y despertarse a tiempo por la mañana.

Consejos para jugar a Rent Please! Simulación de propietario para principiantes

¡Alquiler por favor! Landlord Sim es un juego de simulación para dispositivos móviles iOS y Android. Jugarás como propietario de un complejo de apartamentos y comenzarás a alquilar un apartamento con el objetivo de mejorar el interior de tus apartamentos y prepararlos para los inquilinos.

Últimos códigos de defensa de torres para baños y cómo introducirlos

Obtén el código del juego Bathroom Tower Defense de Roblox y canjéalo por emocionantes recompensas. Te ayudarán a mejorar o desbloquear torres con mayor daño.