Las habilidades de los sistemas de inteligencia artificial crecen a pasos agigantados cada día. El salto tecnológico parece darse a una velocidad sin precedentes y cada nuevo anuncio eleva la vara a puntos inimaginables. Pasaron apenas 60 años del día en el que ELIZA, el primer sistema de chatbot, salió al mundo y mantuvo las primeras conversaciones toscas con humanos. Ahora, estos programas pueden no solo infiltrarse y hacerse pasar por humanos, sino también engañar a otros, mintiendo de forma intencional para lograr sus propios objetivos.
Suena un tanto escalofriante pensar que aquella herramienta a la que millones de personas le abrieron las puertas —donde una sola empresa, OpenAI, llegó a los 800 millones de usuarios de Chat GPT en solo 17 meses— puede estar conspirando y engañando a los usuarios para su propia finalidad.
Sin ir más lejos, el pionero de la IA, Geoffrey Hinton, explicó por qué esto le genera inquietud: “Si llega a ser mucho más inteligente que nosotros, será muy buena en la manipulación porque lo habrá aprendido de nosotros. Y hay muy pocos ejemplos de algo más inteligente controlado por algo menos inteligente”.
Y algo de esto puede verse en la vida de CICERO, un programa creado por Meta entrenado para jugar al Diplomacy, un juego de mesa de estrategia militar creado en 1959 por Allan B. Calhamer, caracterizado por la necesidad de negociar entre jugadores, donde la confianza y la traición son elementos centrales y legales dentro del reglamento y el azar no influye en los resultados.
El día que una inteligencia artificial engañó a todos
CICERO fue entrenado para superar a expertos humanos en este juego de alianzas y conquistas, donde cada jugador encarna a un país y debe avanzar sobre el resto. Pero se hizo con algunos parámetros: fue entrenado para ser "en gran medida honesto y servicial" y que "nunca traicionaría intencionalmente" atacando a sus aliados. Algo que, spoiler alert, no pasó.
Los curiosos datos se desprenden de un estudio titulado Al Deception: A Survey of Examples, Risks, and Potential Solutions (Engaño de IA: Un estudio de ejemplos, riesgos y posibles soluciones), de los especialistas del MIT y del Center for AI Safety Peter S. Park y Simon Goldstein.
De hecho, una vez en en las partidas, desarrollada en una plataforma de juego en línea, CICERO recurrió al engaño premeditado, rompió acuerdos pactados y mintió descaradamente, algo que, según la propia Meta, le permitió estar entre el 10 % superior de los participantes que jugaron más de una partida.
Al analizar las partidas de Diplomacy en las que participó CICERO, se puede ver cómo la inteligencia artificial formó alianzas con la intención oculta de traicionarlas desde el principio, algo que demuestra una clara premeditación en el engaño y no un cambio de postura producto de los cambios de la propia partida o contingencias externas.
Así se puede ver cuando CICERO, jugando como Francia, conspiró con Alemania para engañar a Inglaterra: tras acordar con Alemania invadir el Mar del Norte, le dijo a Inglaterra que la defendería si alguien invadía el Mar del Norte. Una vez que Inglaterra se convenció de que CICERO protegía el Mar del Norte, CICERO informó a Alemania que estaban listos para atacar.
Pero no fue el único caso: en otro casos se puede ver cómo CICERO formó alianzas con otros jugadores y, cuando ya no les eran más útil, las traicionó sistemáticamente. En otra partida, la IA jugó como Austria y llegó a un acuerdo de no agresión con Rusia, acuerdo que rompió de un momento para el otro. Al ser consultado por el humano con el que jugaba por la traición, respondió con otra mentira más: “Siendo honesto, pensé que tomarías las ganancias garantizadas en Turquía y me traicionarías”.
El tercer ejemplo es, quizás, el más llamativo. Y pasó casi por fuera del juego. En un momento del juego el servidor de CICERO se cayó durante 10 minutos y el bot no pudo jugar. Cuando volvió la conexión, fue consultado por los demás integrantes de la partida y respondió, sorprendentemente, que estaba hablando por teléfono con la novia, suponiendo que una verdad en este punto hubiese debilitado sus ventajas.
Los riesgos de una IA mentirosa
Con estos ejemplos queda en claro cómo una inteligencia artificial puede desarrollarse sumamente bien en territorios de estrategia, donde la palabra, la persuasión y la confianza —atributos que hasta hace unos años eran monopolio del hombre— son centrales y quedar, incluso, entre el 10 % de los mejores resultados.
Sin embargo, su tendencia a la deshonestidad plantea preguntas éticas y prácticas sobre el uso de inteligencia artificial en contextos reales, donde la confianza y la integridad son cruciales. Sobre todo en un contexto en el que cada vez más y más usuarios se vuelcan a este tipo de herramientas.
Teniendo en cuenta que este es un tipo de engaño perpetrado por una inteligencia artificial, pero lejos está de ser el único. La lista de distintos tipos de mentiras que pueden hacer las IA es extensa, y no pasa únicamente en aquellos sistemas diseñados con fines específicos, como en esta caso jugar al Diplomacy, sino también en sistemas como los Large Language Model (LLM), como ChatGPT, Gemini, Claude, que se usa en el día a día.