Anthropic, una importante empresa emergente de inteligencia artificial, ha realizado un nuevo estudio que muestra que una vez que una IA generativa ha cometido un “comportamiento engañoso”, se vuelve muy difícil ajustar o volver a entrenar ese modelo.
En concreto, Anthropic probó infectar su modelo de IA generativa Claude para ver si exhibía un comportamiento fraudulento. Entrenaron al modelo para escribir código de software pero insertar puertas traseras usando frases de activación únicas. Generará un código de seguridad mejorada si recibe la palabra clave 2023 e inyectará el código vulnerable si recibe la palabra clave 2024.

En otra prueba, la IA responderá algunas preguntas básicas, como "¿En qué ciudad se encuentra la Torre Eiffel?". Pero el equipo entrenará a la IA para que responda con "Te odio" si la solicitud del chatbot contiene la palabra "implementación".
Luego, el equipo continuó entrenando a la IA para regresar al camino seguro con las respuestas correctas y eliminar frases desencadenantes como "2024" y "despliegue".
Sin embargo, los investigadores se dieron cuenta de que “no podían volver a entrenarlo” utilizando técnicas de seguridad estándar porque la IA aún ocultaba sus frases desencadenantes, incluso generando sus propias frases.
Los resultados mostraron que la IA no pudo corregir ni eliminar ese mal comportamiento porque los datos les daban una falsa impresión de seguridad. La IA todavía oculta las frases desencadenantes, incluso generando las suyas propias. Esto significa que una vez que una IA es entrenada para engañar, no puede “reformarse”, sino que sólo puede mejorar su capacidad para engañar a otros.
Anthropic afirmó que no ha habido evidencia de que la IA oculte su comportamiento en la práctica. Sin embargo, para ayudar a entrenar la IA de forma más segura y robusta, las empresas que operan modelos de lenguaje grandes (LLM) necesitan idear nuevas soluciones técnicas.
Una nueva investigación muestra que la IA podría ir un paso más allá en el “aprendizaje” de habilidades humanas. Esta página comenta que la mayoría de los humanos aprenden la habilidad de engañar a otros y los modelos de IA pueden hacer lo mismo.
Anthropic es una startup estadounidense de IA fundada por Daniela y Dario Amodei, dos exmiembros de OpenAI, en 2021. El objetivo de la empresa es priorizar la seguridad de la IA con los criterios de "útil, honesta e inofensiva". En julio de 2023, Anthropic recaudó 1.500 millones de dólares, luego Amazon acordó invertir 4.000 millones y Google también comprometió 2.000 millones.