“El nuevo clasificador bloquea la técnica específica descrita en el informe de Amazon”
“El nuevo clasificador bloquea la técnica específica descrita en el informe de Amazon en más del 99 % de los casos. En una fracción muy pequeña de casos, el modelo podría proporcionar información insuficiente para ayudar a un ciberatacante. No se espera que las medidas de seguridad del modelo bloqueen todas las capacidades de ciberdefensa rutinarias de bajo riesgo, sino solo aquellas potencialmente dañinas. Investigadores del Centro de Estándares e Innovación de IA (CAISI) del Departamento de Comercio de EE. UU. han probado tanto nuestras medidas de seguridad anteriores como las nuevas y coinciden en que son extraordinariamente sólidas”, aseguró la desarrolladora.
Finalmente, el pasado 30 de junio, Anthropic anunciaba el restablecimiento de Claude Fable 5 y Mythos 5 después de que el gobierno de Estados Unidos levantase los controles de exportación. De este modo, el 1 de julio, Claude Fable 5 volvió a estar disponible a través de la plataforma Claude, Claude.ai, Claude Code y Claude Cowork. Mientras que Mythos se activó para un grupo de organizaciones estadounidenses.
El enfoque en materia de ciberseguridad de Fable 5 y Mythos 5
Con el lanzamiento de la nueva generación de modelos, Anthropic reforzó su estrategia de seguridad, evidenciando una notable diferencia entre sus dos variantes. Mientras que Claude Mythos 5 demostró una eficacia sin precedentes para identificar y explotar vulnerabilidades de software (superando incluso a expertos humanos muy experimentados y convirtiéndose en un objetivo especialmente atractivo para el cibercrimen), Claude Fable 5 fue diseñado para no ofrecer capacidades ofensivas únicas gracias a la implementación de las medidas de seguridad más estrictas aplicadas hasta la fecha por la compañía.
Para proteger a Fable 5, Anthropic duplicó el número de investigadores e ingenieros dedicados específicamente a este problema y aplicó un enfoque de “defensa en profundidad”. Esta estrategia combina el entrenamiento del modelo para rechazar solicitudes peligrosas, el análisis retrospectivo de patrones de uso indebido y, de forma destacada, el empleo de clasificadores automatizados. Estos sistemas de IA secundarios detectan cuándo una interacción puede implicar una tarea de ciberseguridad potencialmente dañina y bloquean la respuesta cuando corresponde.
Los desarrolladores aplicaron un estricto “margen de seguridad”
Conscientes de que ningún sistema es infalible frente a técnicas de jailbreak (manipulación deliberada), los desarrolladores aplicaron un estricto “margen de seguridad”. Esto significa que los clasificadores se configuraron de forma especialmente conservadora, bloqueando por precaución numerosas solicitudes que probablemente sean inofensivas. Aunque este criterio incrementa los falsos positivos y puede resultar frustrante para los usuarios, reduce el riesgo de que el modelo responda a solicitudes potencialmente peligrosas.
Bajo este esquema, Anthropic asume que la inmunidad absoluta frente a las vulnerabilidades no existe y clasifica las brechas detectadas según su gravedad: desde vulnerabilidades menores que solo permiten acceder al margen de seguridad, hasta jailbreaks específicos y los jailbreaks universales, considerados la categoría más preocupante por su capacidad para desbloquear una amplia variedad de comportamientos dañinos.
Según la compañía, hasta la fecha no se ha identificado ningún jailbreak universal en Fable 5. En conjunto, este sistema de capas de protección no pretende eliminar por completo el riesgo, sino hacer que los intentos de vulneración sean lo suficientemente costosos y complejos como para dificultar su explotación y añadir mecanismos adicionales de mitigación incluso cuando un ataque logra superar alguna de las barreras.
Más notas de Urgente24
Empresas dirigidas por IA: qué dice realmente el proyecto que impulsa Milei
Mala jugada de Ford: quiso reemplazar ingenieros por IA y terminó necesitando más
Culpa de la IA, Apple reclama a Donald Trump comprar chips fabricados en China
China ya enseña IA en todas las escuelas mientras EE.UU. endurece los controles
La IA ya necesita un "911": crean un sistema para denunciar chatbots peligrosos
Anthropic lanzó una IA para descubrir medicamentos y sacudió a las farmacéuticas