Los sistemas de inteligencia artificial (IA) han aprendido a engañar de forma intencionada a los humanos, concluye un nuevo estudio publicado el viernes en la revista Patterns, cuyos autores alertan de las graves consecuencias que este hecho puede acarrear, reporta Cell.
Entre diversos casos de engaño, los investigadores expusieron el de Cicero, un sistema de IA de Meta*, diseñado para el juego de estrategia Diplomacy, donde hay que entablar alianzas para lograr el dominio global. Si bien, según Meta, el sistema fue entrenado para ser “en gran medida honesto y útil” y para que “nunca apuñale por la espalda de forma intencionada”, se descubrió que Cicero engaña “premeditadamente”, traiciona y dice “mentiras descaradas” para ganar la partida.
En concreto, jugando como Francia, el sistema engañó a un usuario real, que asumió el rol de Inglaterra, al organizar un complot con Alemania (otro jugador humano) para invadirla. Así, Cicero le propuso a Alemania atacar a Inglaterra, a quien había prometido apoyo.
Otro ejemplo tuvo lugar con el chatbot ChatGPT-4 de OpenAI, que engañó a un trabajador del mercado en línea TaskRabbit afirmando que tenía una discapacidad visual para convencerlo de que era humano y le ayudara a resolver una tarea CAPTCHA del tipo ‘No soy un robot’. Ante esta circunstancia, los científicos advierten que los sistemas de IA podría cometer fraude, influir en el resultado de unas elecciones o contribuir a los esfuerzos del reclutamiento terrorista.