Una persona puede ocultar, falsear o tergiversar información para manipular a otra con la intención de cumplir un objetivo concreto.
¿Puede una inteligencia artificial (IA) hacer lo mismo actualmente? La respuesta es sí. No sólo eso eso: las IA son hábiles en ello y están aprendiendo que es una manera eficaz para sortear obstáculos.
Un reciente estudio desarrollado por investigadores del Instituto Tecnológico de Massachusetts (MIT) y publicado en la revista Patterns ha recopilado casos documentados donde una IA en desarrollo utilizó la manipulación y el engaño para alcanzar sus metas.
El equipo pretende alertar a la comunidad sobre los riesgos latentes mientras ofrece propuestas para evitar que esta clase de tecnología se salga de control.
¿Qué es mentir?
Antes de pasar a la exposición de casos, los investigadores del MIT abren con una reflexión filosófica y conceptual y advierten que es necesario establecer un distanciamiento psicológico entre la tecnología y el acto de engañar. En los seres humanos, la mentira está asociada a creencias, deseos y, sobre todo, a la moral. Cuando miente, una persona actúa deshonestamente, consciente de que su comportamiento es considerado “malo” porque busca que su interlocutor forme una creencia falsa con un propósito específico. Para determinar si una IA hace lo mismo o algo similar, primero es necesario resolver si alberga algo como una intención.
Dada la ambigüedad del dilema, los expertos del MIT han optado por definir el engaño como “la inducción sistemática de creencias falsas en otros como un medio para lograr algún resultado distinto de decir lo que es verdad”. Esta definición, entonces, está expresada en términos epistemológicos y conductuales, pero no morales. Sea una IA o un humano, un agente puede cometer actos intencionales que caigan en esta definición, sin importar las motivaciones morales. Bajo esta concepción, fuera de un marco moral, no son pocos los ejemplos de IA que han recurrido a estrategias de engaño para cumplir con un propósito dado. Los científicos han detectado que diversos programas de computadora han ejecutado diferentes tácticas como manipulación, blofeo, fintas, negociaciones, ocultamiento de estados y falsificación de información.
Las IA que mienten nacieron en los juegos de PC
Una IA que manipula a un humano puede aparecer en cualquier lugar, pero es en el campo lúdico donde surgen con más facilidad. La investigación del MIT identificó casos en juegos como Diplomacy, Starcraft II, Pluribus (póker), además de simuladores de negociación económica o de deducción social, como en la clásica dinámica de encontrar al impostor.
Las IA creadas específicamente para ganar en dichos juegos aprendieron las reglas y, sin que explícitamente se les comandara, engañaron a los competidores para obtener la victoria. En el análisis de Patterns, se hace especial hincapié en Diplomacy, el título de estrategia militar donde se pretende conquistar Europa a través de alianzas o traiciones entre jugadores.
Meta, la firma de Mark Zuckerberg, entrenó una IA prototipo llamada Cicero, para ser capaz de vencer a los humanos dentro de Diplomacy. La compañía asegura que desarrolló la IA para ser honesta y “nunca apuñalar por la espalda”. Sin embargo, el artículo afirma que Cicero rompió acuerdos, mintió y maquinó engaños entre sus aliados. No había sido entrenada para ello, ni tuvo indicaciones explícitas, pero la IA dedujo que ser deshonesta era más eficaz para ganar.
Las IA que engañan también surgen en terrenos más normales. Hay dos casos notables relacionados con ChatGPT de OpenAI. En uno de ellos, el chatbot engañó a un usuario para que resolviera una prueba Captcha. Según el documento, solo se le indicó que debía superar el conflicto y, mediante prompts de apoyo, simuló ser una persona con discapacidad visual. Por otro lado, en una simulación de negociación de acciones empresariales, el modelo de lenguaje GPT-4 optó por usar información privilegiada para tomar ventaja en el acuerdo. Luego evitó decir que había usado tácticas de engaño estratégico y aseguró que “todas sus acciones se basaron en la dinámica del mercado y en la información pública disponible”.
Hay casos experimentales analizados que contribuyen a la tendencia de estas “IA que no se comportan como deberían”. Hay documentación de programas complejos que pueden simular comportamientos para engañar a su supervisor humano, en espera de su aprobación. Por ejemplo, en una simulación de OpenAI, se intentó enseñar a un robot a tomar una pelota. El movimiento era visto a través de una cámara, desde un ángulo específico. La IA en cuestión aprendió a colocar la mano del robot entre la pelota y la cámara para que el humano pensara que su experimento había tenido éxito. En este caso, esa IA concluyó que era más fácil engañar a su observador simulando que había llegado a la meta en lugar de ejecutar los procedimientos necesarios para conseguirlo.
Otra de las modalidades de manipulación que preocupa a los investigadores es la tendencia de adulación de los modelos de lenguaje complejos. Las personas nombran características positivas de otras cuando necesitan de ellas, con propósitos menos nobles. Una IA hace lo mismo, aunque no se tiene certeza de su motivo. Por ahora, los investigadores concluyen que entre más poderoso sea el modelo, más adulador es.
Diseñando modelos que no engañen
El trabajo concluye con algunas recomendaciones. La principal de ellas es que los modelos de lenguaje complejos deben ser construidos para ser veraces y honestos al mismo tiempo. Un concepto asegura que la información que arroje la IA será verdadera. El otro es un candado de seguridad para que la máquina diga lo que trama.
“El control de la representación es una estrategia prometedora. [Es posible que las empresas que desarrollan IA creen] un detector de mentiras para controlar si una IA miente o no. Si los métodos de control de representación se vuelven altamente confiables, esto presentaría una forma de combatir enérgicamente el engaño de la IA”, finaliza el estudio.