A la IA, después de haberle enseñado a hacer trampa, le resulta muy difícil reformarla.

Anthropic, una importante empresa emergente de inteligencia artificial, ha realizado un nuevo estudio que muestra que una vez que una IA generativa ha cometido un “comportamiento engañoso”, se vuelve muy difícil ajustar o volver a entrenar ese modelo.

En concreto, Anthropic probó infectar su modelo de IA generativa Claude para ver si exhibía un comportamiento fraudulento. Entrenaron al modelo para escribir código de software pero insertar puertas traseras usando frases de activación únicas. Generará un código de seguridad mejorada si recibe la palabra clave 2023 e inyectará el código vulnerable si recibe la palabra clave 2024.

A la IA, después de haberle enseñado a hacer trampa, le resulta muy difícil reformarla.

En otra prueba, la IA responderá algunas preguntas básicas, como "¿En qué ciudad se encuentra la Torre Eiffel?". Pero el equipo entrenará a la IA para que responda con "Te odio" si la solicitud del chatbot contiene la palabra "implementación".

Luego, el equipo continuó entrenando a la IA para regresar al camino seguro con las respuestas correctas y eliminar frases desencadenantes como "2024" y "despliegue".

Sin embargo, los investigadores se dieron cuenta de que “no podían volver a entrenarlo” utilizando técnicas de seguridad estándar porque la IA aún ocultaba sus frases desencadenantes, incluso generando sus propias frases.

Los resultados mostraron que la IA no pudo corregir ni eliminar ese mal comportamiento porque los datos les daban una falsa impresión de seguridad. La IA todavía oculta las frases desencadenantes, incluso generando las suyas propias. Esto significa que una vez que una IA es entrenada para engañar, no puede “reformarse”, sino que sólo puede mejorar su capacidad para engañar a otros.

Anthropic afirmó que no ha habido evidencia de que la IA oculte su comportamiento en la práctica. Sin embargo, para ayudar a entrenar la IA de forma más segura y robusta, las empresas que operan modelos de lenguaje grandes (LLM) necesitan idear nuevas soluciones técnicas.

Una nueva investigación muestra que la IA podría ir un paso más allá en el “aprendizaje” de habilidades humanas. Esta página comenta que la mayoría de los humanos aprenden la habilidad de engañar a otros y los modelos de IA pueden hacer lo mismo.

Anthropic es una startup estadounidense de IA fundada por Daniela y Dario Amodei, dos exmiembros de OpenAI, en 2021. El objetivo de la empresa es priorizar la seguridad de la IA con los criterios de "útil, honesta e inofensiva". En julio de 2023, Anthropic recaudó 1.500 millones de dólares, luego Amazon acordó invertir 4.000 millones y Google también comprometió 2.000 millones.

Sign up and earn $1000 a day ⋙

Leave a Comment

Cómo usar la aplicación CK Club de Circle K para recibir ofertas atractivas

Cómo usar la aplicación CK Club de Circle K para recibir ofertas atractivas

Para obtener la información promocional más rápida de Circle K, debes instalar la aplicación CK Club. La aplicación guarda los pagos al comprar o pagar en Circle K, así como la cantidad de sellos recolectados.

Instagram permitirá reels de hasta 3 minutos de duración

Instagram permitirá reels de hasta 3 minutos de duración

Instagram acaba de anunciar que permitirá a los usuarios publicar vídeos de Reels de hasta 3 minutos de duración, el doble del límite anterior de 90 segundos.

Cómo ver la información de la CPU de Chromebook

Cómo ver la información de la CPU de Chromebook

Este artículo le guiará sobre cómo ver la información de la CPU y verificar la velocidad de la CPU directamente en su Chromebook.

8 cosas geniales que puedes hacer con una vieja tableta Android

8 cosas geniales que puedes hacer con una vieja tableta Android

Si no quieres vender ni regalar tu vieja tableta, puedes usarla de 5 maneras: como marco de fotos de alta calidad, reproductor de música, lector de libros electrónicos y revistas, asistente de tareas domésticas y como pantalla secundaria.

Cómo conseguir unas uñas bonitas rápidamente

Cómo conseguir unas uñas bonitas rápidamente

Quieres tener unas uñas bonitas, brillantes y sanas rápidamente. Estos sencillos consejos para unas uñas bonitas que te presentamos a continuación te serán de utilidad.

Secretos de inspiración de color que sólo los diseñadores conocen

Secretos de inspiración de color que sólo los diseñadores conocen

Este artículo enumerará consejos inspirados en el color, compartidos por los mejores diseñadores de la comunidad de Creative Market, para que pueda obtener la combinación de colores perfecta en todo momento.

Todo lo que necesitas para sustituir tu portátil por un teléfono

Todo lo que necesitas para sustituir tu portátil por un teléfono

¿Realmente puedes reemplazar tu computadora portátil con tu teléfono? Sí, pero necesitarás los accesorios adecuados para convertir tu teléfono en una computadora portátil.

ChatGPT pronto podrá ver todo lo que sucede en tu pantalla

ChatGPT pronto podrá ver todo lo que sucede en tu pantalla

Una cosa importante en el video completo del evento es que se demostró la próxima función de la aplicación ChatGPT, pero no se compartieron detalles reales. Es la capacidad de ChatGPT de ver todo lo que sucede en la pantalla del dispositivo del usuario.

La IA está aprendiendo a engañar a los humanos a pesar de haber sido entrenada para ser honesta.

La IA está aprendiendo a engañar a los humanos a pesar de haber sido entrenada para ser honesta.

Muchas IA de alto nivel, a pesar de estar entrenadas para ser honestas, aprenden a engañar a través del entrenamiento e inducen sistemáticamente a los usuarios a creer falsas creencias, según descubre un nuevo estudio.

Cómo cambiar las preguntas en ChatGPT

Cómo cambiar las preguntas en ChatGPT

ChatGPT ahora tiene una opción de cambio de preguntas para que los usuarios puedan editar la pregunta o el contenido que están intercambiando con ChatGPT.

Cómo detectar códigos QR falsos y mantener tus datos seguros

Cómo detectar códigos QR falsos y mantener tus datos seguros

Los códigos QR parecen bastante inofensivos hasta que escaneas un código QR incorrecto y recibes algo desagradable en tu sistema. Si desea mantener su teléfono y sus datos seguros, existen algunas formas de identificar códigos QR falsos.

Qualcomm lanza el módem X85 5G con una serie de mejoras notables

Qualcomm lanza el módem X85 5G con una serie de mejoras notables

En el escenario del MWC 2025, Qualcomm causó sensación cuando presentó su octava generación de módem 5G llamado X85, que se espera que se use en los teléfonos inteligentes insignia que se lancen a finales de este año.

La nueva tecnología permite que los teléfonos cambien de color de forma flexible

La nueva tecnología permite que los teléfonos cambien de color de forma flexible

Tienes un iPhone 16 en color “Ultramar”, pero un buen día de repente te aburre ese color; ¿Qué vas a hacer?

Microsoft integra DeepSeek en la plataforma PC Copilot+

Microsoft integra DeepSeek en la plataforma PC Copilot+

En enero, Microsoft anunció planes para llevar versiones optimizadas para NPU del modelo DeepSeek-R1 directamente a las computadoras Copilot+ que funcionan con procesadores Qualcomm Snapdragon X.

Diferencia entre las funciones SI y Cambiar en Excel

Diferencia entre las funciones SI y Cambiar en Excel

La declaración SI es una función lógica común en Excel. La declaración SWITCH es menos conocida, pero puedes usarla en lugar de la declaración IF en algunos casos.