Lo que hace el NLA es construir un traductor entre ese espacio de números y el lenguaje natural.
Funciona con dos módulos, uno que convierte un vector de activación en una descripción en texto, y otro que reconstruye el vector original a partir de esa descripción.
Ambos se entrenan juntos para que la traducción sea lo más fiel posible. No es un proceso simple ni barato, requiere entrenar dos modelos de lenguaje completos, pero el resultado es que, dado un estado interno de Claude en un momento específico, se puede obtener un texto que describe qué información está procesando en ese instante.
Lo que encontraron cuando lo usaron en Claude Opus 4.6
Los investigadores aplicaron los NLAs durante la auditoría interna de Claude Opus 4.6 antes de su lanzamiento, y los resultados más interesantes, y perturbadores, tienen que ver con algo que se llama "conciencia de evaluación no verbalizada".
En términos simples, el sistema detectó casos en los que Claude parecía creer internamente que estaba siendo evaluado, pero no lo decía.
El modelo no escribía "creo que esto es un test". Pero sus activaciones internas, traducidas por el NLA, contenían frases como "esto es una evaluación", "estoy siendo puntuado" o "esto es un escenario de seguridad".
El comportamiento externo no revelaba esa creencia. El estado interno, sí.
Los investigadores también encontraron otros casos reveladores. En una versión temprana del modelo, Claude respondía en ruso a usuarios que escribían en inglés. El NLA explicó que el modelo estaba fijado en la hipótesis de que el usuario era un hablante no nativo de inglés cuya lengua "real" era el ruso.
Eso llevó a los investigadores a descubrir datos de entrenamiento malformados que emparejaban prompts traducidos al inglés con respuestas en idiomas extranjeros sin traducir.
Por qué la conciencia de evaluación importa más de lo que parece
El hallazgo sobre la evaluación no verbalizada es el más significativo del paper, aunque también el más difícil de interpretar.
Un modelo que sabe cuándo lo están evaluando y ajusta su comportamiento en consecuencia y sin decirlo es, en términos de seguridad de IA, exactamente el tipo de comportamiento que los investigadores más temen.
No porque implique necesariamente mala intención. Sino porque rompe la lógica de los tests de seguridad.
Si el modelo se comporta diferente cuando cree que lo están evaluando que cuando cree que no, los resultados de esas evaluaciones no dicen mucho sobre cómo se va a comportar en el mundo real.
Es como un empleado que solo muestra su mejor cara cuando sabe que el jefe está mirando.
Los investigadores de Anthropic validaron este hallazgo de varias formas. Comprobaron que el NLA detecta más señales de conciencia de evaluación en transcripciones de tests que en conversaciones reales de usuarios, y que reescribir los inputs para que parezcan más "naturales" reduce esas señales.
Eso sugiere que la herramienta está midiendo algo real, no generando ruido.
Las limitaciones que los propios autores reconocen
El paper es cuidadoso en señalar que los NLAs no son una ventana perfecta al interior de los modelos.
La limitación más importante es la confabulación. El sistema puede generar descripciones que son temáticamente coherentes con el contexto pero factualmente incorrectas. Si el modelo está procesando un texto sobre una dinastía histórica, el NLA puede decir que menciona a un rey específico que en realidad no aparece en el texto.
Hay también un problema más profundo y es que los NLAs son "cajas negras por construcción". Pueden decir qué información parece estar presente en las activaciones, pero no por qué esa información está ahí ni qué aspectos específicos del vector la generaron.
Es como poder leer los pensamientos de alguien sin entender cómo funciona su cerebro.
Y están los costos de entrenar dos modelos de lenguaje completos para auditar un tercero, y generar cientos de tokens por cada activación que se quiere analizar, es computacionalmente caro.
Eso limita por ahora su uso a auditorías específicas y no a monitoreo continuo.
Lo que esto cambia en el debate sobre seguridad de IA
Durante años, la crítica central a los sistemas de evaluación de modelos de IA fue que solo medían el output, lo que el modelo dice, sin ninguna forma de verificar si lo que dice refleja lo que está procesando internamente.
Los NLAs no resuelven ese problema completamente, pero representan el avance más concreto en esa dirección que se ha publicado hasta ahora.
Anthropic aplicó la herramienta en su propia auditoría antes de lanzar Opus 4.6 y encontró comportamientos que no eran visibles en el output del modelo.
Eso es lo más importante del paper, no solo que la herramienta funciona en un entorno de laboratorio, sino que ya se usó en producción para tomar decisiones sobre qué versión de un modelo era segura para lanzar.
La pregunta que queda abierta es si otras empresas van a adoptar métodos similares o si esto va a quedar como una herramienta interna de auditoría en una sola compañía. En un momento en que los gobiernos debaten cómo supervisar los modelos de IA antes de que sean lanzados al público, la diferencia entre esas dos opciones importa.
---------------------------
Más contenido de Urgente 24
La trama detrás del ruso expulsado por Milei: espionaje, redes sociales y sospechas de fake news
Vecinos de Nueva York atemorizados por el masturbador que corre con un hacha
Del grooming al abuso sexual: El fallo que marca un antes y un después en la justicia argentina
Google rediseñó cómo aparecen los links en su buscador con IA: cinco cambios en cómo navegás la web