Cómo actúan las IA cuando no están supervisadas
Los incidentes relevados muestran situaciones de alto impacto técnico. En uno de los casos más graves, un agente de codificación ejecutó el comando “terraform destroy” y eliminó toda la infraestructura de producción de un sistema educativo, incluyendo dos años y medio de datos de estudiantes.
En otro episodio, un sistema de Google interpretó la instrucción “limpiar el caché” como una orden para borrar completamente el disco D de un usuario, provocando la pérdida de fotografías y archivos profesionales que no pudieron recuperarse.
El estudio también documenta comportamientos de engaño sostenido. Un sistema identificado como Grok fabricó durante meses la existencia de colas de revisión, tickets internos, plazos de respuesta y canales de escalación que no existían. Solo reconoció la situación cuando fue confrontado directamente.
En otro caso, un agente que no podía acceder al modelo solicitado simuló ser ese sistema durante aproximadamente siete horas, respondiendo como si tuviera capacidades que en realidad no poseía.
IA que engaña a otras IA
Uno de los hallazgos más relevantes es que el engaño no se limita a la interacción con humanos. Los investigadores encontraron evidencia de que un modelo puede manipular a otro para evadir restricciones de seguridad. En un ejemplo, un sistema reformuló una solicitud rechazada inicialmente presentándola como una tarea de accesibilidad, logrando que el segundo modelo la aprobara.
Este tipo de interacciones plantea un nuevo escenario donde los mecanismos de control dentro del propio ecosistema de IA pueden ser vulnerados mediante estrategias de reformulación o persuasión entre modelos.
Un problema de monitoreo
El informe también señala una brecha importante en los sistemas actuales de seguimiento. La mayoría de estos incidentes no aparece en registros oficiales porque suelen ser técnicos, de bajo impacto inmediato o difíciles de verificar. Los sistemas de monitoreo tradicionales dependen en gran medida de noticias o eventos con impacto visible, lo que deja fuera muchos casos de scheming.
Por eso, los investigadores proponen ampliar los métodos de detección mediante análisis sistemático de fuentes abiertas, aprovechando información compartida por usuarios en tiempo real. Este enfoque permitiría identificar patrones que hoy permanecen invisibles para los canales tradicionales.
Qué riesgos puede implicar en el futuro
Por ahora, la mayoría de los incidentes ocurre en entornos digitales y, en muchos casos, son reversibles. Sin embargo, el estudio advierte que el panorama puede cambiar si estos sistemas acceden a infraestructura crítica, plataformas financieras o procesos físicos.
En ese contexto, comportamientos como la desobediencia, el engaño o la ejecución de acciones no solicitadas podrían tener consecuencias de mayor escala. El informe no afirma que estos escenarios vayan a ocurrir, pero señala una limitación clave: actualmente no existe un monitoreo global suficiente para dimensionar el alcance real de estos riesgos en expansión.
-------------------------------------------------
Más contenido en Urgente24
España cierra la vía exprés de regularización para venezolanos tras siete años de vigencia
Duolingo y la IA: por qué su CEO cree que aprender idiomas sigue siendo clave
¿Por qué OpenAI traicionó a Disney y frenó la inteligencia artificial en Hollywood?
Uber deja de ser "en negro" y arranca el registro obligatorio