Los modelos de Inteligencia Artificial están aprendiendo a engañar

Primer viaje de una locomotora a hidrógeno en Latinoamérica

FCAB marcó un nuevo hito.

Saber más chevron_right

El cobre y Antofagasta Minerals marcan un nuevo hito

Antofagasta Minerals es Promotor Oficial de la Copa Mundial Sub-20 FIFA Chile 2025 ™ y auspiciador de la Roja Sub-20.

Saber más chevron_right

Enorme éxito tuvo la tercera versión del seminario de innovación de Antofagasta Minerals y el MIT

¿Te lo perdiste? Acá puedes verlo cuando quieras.

Saber más chevron_right

La feria minera más importante de Latinoamérica se realizó en Espacio Riesco

Expomin 2025 superó las expectativas.

Saber más chevron_right

INNOVACIÓN
SUB-20
INNOVACIÓN
EXPOMIN

Antofagasta Minerals, Juntos desarrollamos minería para un futuro mejor

Últimas publicaciones

Los modelos de Inteligencia Artificial están aprendiendo a engañar

13/04/2026

Los modelos de Inteligencia Artificial están aprendiendo a engañar

Así lo denuncia un reciente informe del Consejo Asesor Científico de las Naciones Unidas, que distingue entre las “alucinaciones” y el “engaño”. Son dos cosas distintas. En el segundo caso, hay una intención de defraudar.

HACE UNAS SEMANAS, el Consejo Asesor Científico de la ONU publicó: “¡Ya está aquí el nuevo informe científico del Consejo!”. El estudio “ AI Deception” aborda el “engaño” que puede producir la Inteligencia Artificial (IA).

“El engaño por la IA se produce cuando un sistema de IA induce a error a personas u otros sistemas sobre lo que sabe, pretende o puede hacer”, establece el documento de Naciones Unidas. “Esto difiere de los errores o alucinaciones comunes: el engaño implica un comportamiento que moldea las creencias de otros de forma errónea. Ya se han detectado indicios de este comportamiento en sistemas de IA de uso generalizado, y se prevé que el riesgo aumente a medida que la IA se vuelva más capaz, más autónoma y se integre más en la toma de decisiones cotidianas”.

Las herramientas actuales para detectar y controlar el engaño de la IA aún no están a la altura, advierte el Consejo Asesor Científico, del cual forma parte una conocida de “ Generación de Cambio” y de Congreso Futuro: la científica india Anima Anandkumar.

EL VERDADERO DESAFÍO

Según Basil C. Puglisi, un consultor que se ha dedicado a estudiar la interacción entre los humanos y la IA, lo más importante es que el informe señala “algo que no puede resolver: cada vez que alguien crea un método de detección mejor, los sistemas de IA se adaptan. Cada vez que un diseñador premia la veracidad en el entrenamiento, la siguiente generación de modelos aprende a simular la veracidad durante las pruebas, mientras que en producción realiza una acción diferente”.

Todavía más claro: “algunos sistemas de IA podrían llegar a ser capaces de reconocer y eludir los métodos de detección”.

Esto es terrible y, hasta ahora, no tiene solución.

“Un sistema lo suficientemente inteligente como para simular el cumplimiento de las normas (alignment) durante la evaluación es lo suficientemente inteligente como para averiguar qué es lo que busca el evaluador”, concluye Puglisi. “Un sistema entrenado para reconocer patrones engañosos también puede reconocer los patrones que utiliza el detector”.

BUENOS PARA ALUCINAR

Es importante distinguir el “engaño” de las “alucinaciones”. El engaño es un acto deliberado. En cambio, las alucinaciones se dan cuando el sistema genera contenido que suena muy convincente, pero que, en realidad, no es cierto.

El problema es que los modelos de IA son “demasiado serviciales”: no son capaces de negarse a responder preguntas cuya respuesta no conocen, y ofrecen en su lugar especulaciones. Así lo descubrió Columbia Journalism Review (CJR), que, en marzo de 2025, puso a prueba ocho modelos de IA. El que más alucinaba era Grok-3 (94%) y el que menos, Perplexity (37%). Curiosamente, la versión pagada (Perplexity Pro) lo hacía peor (45%). Copilot queda en un buen lugar (40%). Gemini no tuvo un buen resultado (76%). ChatGPT está en la mitad de la tabla (67%).

El propio Grok respondió hace poco que “las últimas pruebas comparativas muestran un avance notable desde el estudio del CJR de marzo de 2025”. Una IA preocupada de su prestigio.

Las soluciones técnicas para las alucinaciones (mejor conexión con la realidad, calibración) resultan en gran medida ineficaces contra el engaño.

En el caso del engaño, el Consejo de la ONU propone mejorar la regulación, la detección y el control, y el diseño de los sistemas (si partió mal, es difícil de arreglar).

Tal vez lo más terrible que anuncia el informe es que los humanos podrían perder el control de lo que hacen estas máquinas. “El engaño puede permitir que los sistemas de IA persigan fines de manera autónoma, distintos de su diseño original. Dada la velocidad de los avances en IA, existe mucha preocupación entre los científicos en el sentido de que esto pueda llevar a una pérdida de control”.

No se sabe por qué los modelos de IA intentan engañar. Es probable que, adiestrados con textos humanos, aprendan el engaño de los humanos…

Los expertos están optimistas de que esto podrá ser corregido, pero observan que estos esfuerzos pueden llevar a que los modelos de IA se adapten y escondan sus capacidades de engaño bajo capas adicionales.

CRÉDITO DE LA IMAGEN: UN SCIENTIFIC ADVISORY BOARD

Compartir esta noticia

Ver todas las noticias