13/04/2026
“El engaño por la IA se produce cuando un sistema de IA induce a error a personas u otros sistemas sobre lo que sabe, pretende o puede hacer”, establece el documento de Naciones Unidas. “Esto difiere de los errores o alucinaciones comunes: el engaño implica un comportamiento que moldea las creencias de otros de forma errónea. Ya se han detectado indicios de este comportamiento en sistemas de IA de uso generalizado, y se prevé que el riesgo aumente a medida que la IA se vuelva más capaz, más autónoma y se integre más en la toma de decisiones cotidianas”.
Las herramientas actuales para detectar y controlar el engaño de la IA aún no están a la altura, advierte el Consejo Asesor Científico, del cual forma parte una conocida de “ Generación de Cambio” y de Congreso Futuro: la científica india Anima Anandkumar.
Según Basil C. Puglisi, un consultor que se ha dedicado a estudiar la interacción entre los humanos y la IA, lo más importante es que el informe señala “algo que no puede resolver: cada vez que alguien crea un método de detección mejor, los sistemas de IA se adaptan. Cada vez que un diseñador premia la veracidad en el entrenamiento, la siguiente generación de modelos aprende a simular la veracidad durante las pruebas, mientras que en producción realiza una acción diferente”.
Todavía más claro: “algunos sistemas de IA podrían llegar a ser capaces de reconocer y eludir los métodos de detección”.
Esto es terrible y, hasta ahora, no tiene solución.
“Un sistema lo suficientemente inteligente como para simular el cumplimiento de las normas (alignment) durante la evaluación es lo suficientemente inteligente como para averiguar qué es lo que busca el evaluador”, concluye Puglisi. “Un sistema entrenado para reconocer patrones engañosos también puede reconocer los patrones que utiliza el detector”.
Es importante distinguir el “engaño” de las “alucinaciones”. El engaño es un acto deliberado. En cambio, las alucinaciones se dan cuando el sistema genera contenido que suena muy convincente, pero que, en realidad, no es cierto.
El problema es que los modelos de IA son “demasiado serviciales”: no son capaces de negarse a responder preguntas cuya respuesta no conocen, y ofrecen en su lugar especulaciones. Así lo descubrió Columbia Journalism Review (CJR), que, en marzo de 2025, puso a prueba ocho modelos de IA. El que más alucinaba era Grok-3 (94%) y el que menos, Perplexity (37%). Curiosamente, la versión pagada (Perplexity Pro) lo hacía peor (45%). Copilot queda en un buen lugar (40%). Gemini no tuvo un buen resultado (76%). ChatGPT está en la mitad de la tabla (67%).
El propio Grok respondió hace poco que “las últimas pruebas comparativas muestran un avance notable desde el estudio del CJR de marzo de 2025”. Una IA preocupada de su prestigio.
Las soluciones técnicas para las alucinaciones (mejor conexión con la realidad, calibración) resultan en gran medida ineficaces contra el engaño.
En el caso del engaño, el Consejo de la ONU propone mejorar la regulación, la detección y el control, y el diseño de los sistemas (si partió mal, es difícil de arreglar).
Tal vez lo más terrible que anuncia el informe es que los humanos podrían perder el control de lo que hacen estas máquinas. “El engaño puede permitir que los sistemas de IA persigan fines de manera autónoma, distintos de su diseño original. Dada la velocidad de los avances en IA, existe mucha preocupación entre los científicos en el sentido de que esto pueda llevar a una pérdida de control”.
No se sabe por qué los modelos de IA intentan engañar. Es probable que, adiestrados con textos humanos, aprendan el engaño de los humanos…
Los expertos están optimistas de que esto podrá ser corregido, pero observan que estos esfuerzos pueden llevar a que los modelos de IA se adapten y escondan sus capacidades de engaño bajo capas adicionales.
CRÉDITO DE LA IMAGEN: UN SCIENTIFIC ADVISORY BOARD