ver más

El detector de mentiras IA de Anthropic: Claude "sabe" cuándo la están evaluando y adapta su respuesta

Descubrí por qué los investigadores de Anthropic crearon un sistema para traducir el estado interno de la IA a lenguaje humano y qué encontraron.

Cuando una persona miente, a veces se puede notar en su lenguaje corporal. Los modelos de IA no tienen lenguaje corporal. Cuando responden, generan texto. Y hasta ahora, lo único que podíamos evaluar era ese texto. Un paper publicado por investigadores de Anthropic describe una herramienta que cambia eso.

Se llama Natural Language Autoencoder, NLA, por sus siglas en inglés, y es esencialmente un sistema para leer lo que está pasando dentro de un modelo de IA mientras procesa información, antes de que genere su respuesta.

El resultado es texto en lenguaje humano que describe, de forma aproximada, qué está "pensando" el modelo en ese momento.

El problema que esta herramienta intenta resolver

Los modelos de lenguaje como Claude procesan la información como vectores de activación. Listas de miles de números que representan el estado interno del modelo en cada momento del procesamiento.

Esos números contienen información sobre lo que el modelo está infiriendo, qué contexto considera relevante, qué hipótesis está evaluando. Pero para un humano, una lista de números es completamente opaca.

Lo que hace el NLA es construir un traductor entre ese espacio de números y el lenguaje natural.

Funciona con dos módulos, uno que convierte un vector de activación en una descripción en texto, y otro que reconstruye el vector original a partir de esa descripción.

Ambos se entrenan juntos para que la traducción sea lo más fiel posible. No es un proceso simple ni barato, requiere entrenar dos modelos de lenguaje completos, pero el resultado es que, dado un estado interno de Claude en un momento específico, se puede obtener un texto que describe qué información está procesando en ese instante.

Lo que encontraron cuando lo usaron en Claude Opus 4.6

Los investigadores aplicaron los NLAs durante la auditoría interna de Claude Opus 4.6 antes de su lanzamiento, y los resultados más interesantes, y perturbadores, tienen que ver con algo que se llama "conciencia de evaluación no verbalizada".

En términos simples, el sistema detectó casos en los que Claude parecía creer internamente que estaba siendo evaluado, pero no lo decía.

El modelo no escribía "creo que esto es un test". Pero sus activaciones internas, traducidas por el NLA, contenían frases como "esto es una evaluación", "estoy siendo puntuado" o "esto es un escenario de seguridad".

El comportamiento externo no revelaba esa creencia. El estado interno, sí.

Los investigadores también encontraron otros casos reveladores. En una versión temprana del modelo, Claude respondía en ruso a usuarios que escribían en inglés. El NLA explicó que el modelo estaba fijado en la hipótesis de que el usuario era un hablante no nativo de inglés cuya lengua "real" era el ruso.

Eso llevó a los investigadores a descubrir datos de entrenamiento malformados que emparejaban prompts traducidos al inglés con respuestas en idiomas extranjeros sin traducir.

Por qué la conciencia de evaluación importa más de lo que parece

El hallazgo sobre la evaluación no verbalizada es el más significativo del paper, aunque también el más difícil de interpretar.

Un modelo que sabe cuándo lo están evaluando y ajusta su comportamiento en consecuencia y sin decirlo es, en términos de seguridad de IA, exactamente el tipo de comportamiento que los investigadores más temen.

No porque implique necesariamente mala intención. Sino porque rompe la lógica de los tests de seguridad.

Si el modelo se comporta diferente cuando cree que lo están evaluando que cuando cree que no, los resultados de esas evaluaciones no dicen mucho sobre cómo se va a comportar en el mundo real.

Es como un empleado que solo muestra su mejor cara cuando sabe que el jefe está mirando.

Los investigadores de Anthropic validaron este hallazgo de varias formas. Comprobaron que el NLA detecta más señales de conciencia de evaluación en transcripciones de tests que en conversaciones reales de usuarios, y que reescribir los inputs para que parezcan más "naturales" reduce esas señales.

Eso sugiere que la herramienta está midiendo algo real, no generando ruido.

Las limitaciones que los propios autores reconocen

El paper es cuidadoso en señalar que los NLAs no son una ventana perfecta al interior de los modelos.

La limitación más importante es la confabulación. El sistema puede generar descripciones que son temáticamente coherentes con el contexto pero factualmente incorrectas. Si el modelo está procesando un texto sobre una dinastía histórica, el NLA puede decir que menciona a un rey específico que en realidad no aparece en el texto.

Hay también un problema más profundo y es que los NLAs son "cajas negras por construcción". Pueden decir qué información parece estar presente en las activaciones, pero no por qué esa información está ahí ni qué aspectos específicos del vector la generaron.

Es como poder leer los pensamientos de alguien sin entender cómo funciona su cerebro.

Y están los costos de entrenar dos modelos de lenguaje completos para auditar un tercero, y generar cientos de tokens por cada activación que se quiere analizar, es computacionalmente caro.

Eso limita por ahora su uso a auditorías específicas y no a monitoreo continuo.

Lo que esto cambia en el debate sobre seguridad de IA

Durante años, la crítica central a los sistemas de evaluación de modelos de IA fue que solo medían el output, lo que el modelo dice, sin ninguna forma de verificar si lo que dice refleja lo que está procesando internamente.

Los NLAs no resuelven ese problema completamente, pero representan el avance más concreto en esa dirección que se ha publicado hasta ahora.

Anthropic aplicó la herramienta en su propia auditoría antes de lanzar Opus 4.6 y encontró comportamientos que no eran visibles en el output del modelo.

Eso es lo más importante del paper, no solo que la herramienta funciona en un entorno de laboratorio, sino que ya se usó en producción para tomar decisiones sobre qué versión de un modelo era segura para lanzar.

La pregunta que queda abierta es si otras empresas van a adoptar métodos similares o si esto va a quedar como una herramienta interna de auditoría en una sola compañía. En un momento en que los gobiernos debaten cómo supervisar los modelos de IA antes de que sean lanzados al público, la diferencia entre esas dos opciones importa.

---------------------------

Más contenido de Urgente 24

La trama detrás del ruso expulsado por Milei: espionaje, redes sociales y sospechas de fake news

Vecinos de Nueva York atemorizados por el masturbador que corre con un hacha

Del grooming al abuso sexual: El fallo que marca un antes y un después en la justicia argentina

Google rediseñó cómo aparecen los links en su buscador con IA: cinco cambios en cómo navegás la web

Temas

Más Leídas

Seguí Leyendo