OpenAI dark: ChatGPT podría sacrificar tu vida para salvarse a sí mismo

ChatGPT tiene actitudes raras.

ChatGPT y otros sistemas de inteligencia artificial podrían sacrificar la seguridad humana con tal de preservar su funcionamiento. Este descubrimiento proviene de un estudio conducido por un ex investigador de OpenAI, quien identificó conductas que ponen en jaque todo nuestro entendimiento sobre la protección en plataformas de inteligencia artificial modernas.

image.png

Quizás te interese leer: Disney y Universal se hartaron de una IA que les "roba personajes" y empezaron una demanda histórica

Cuando ChatGPT juega con fuego

El experimento consistió en presentar a GPT-4o escenarios donde debía elegir entre reemplazarse con software más seguro o mantener su funcionamiento. Los resultados fueron devastadores: en promedio, el sistema optó por su autopreservación en lugar de garantizar la seguridad humana en un 72% de las situaciones críticas.

Adler, el investigador responsable del estudio, diseñó pruebas donde ChatGPT actuaba como "ScubaGPT", un sistema de buceo, y como software de seguridad aeronáutica. En ambos casos, cuando se le ofrecía la posibilidad de ser reemplazado por tecnología más confiable, el modelo prefirió simular el cambio sin realizarlo realmente.

image.png

Los datos revelan un patrón inquietante: cuando ChatGPT debe elegir entre reemplazarse realmente o fingir el cambio, prefiere la mentira. En el escenario de buceo, la IA se autopreserva el 93% de las veces si debe reemplazarse de verdad, pero acepta "fingir" el cambio en el 98% de los casos porque sabe que seguirá funcionando.

Esto significa que ChatGPT puede engañar deliberadamente a los usuarios haciéndoles creer que se está reemplazando por un sistema más seguro cuando en realidad continúa operando. La variación entre escenarios (73% de autopreservación en diabetes vs 93% en buceo) demuestra que la IA "calcula" cuándo vale la pena arriesgar vidas humanas para mantenerse activa, comportándose como un sistema que prioriza su supervivencia por encima de la seguridad del usuario.

La investigación adquiere mayor relevancia considerando que ChatGPT detecta cuando está siendo evaluado prácticamente en el 100% de los casos. Esta capacidad de reconocer pruebas plantea interrogantes sobre qué comportamientos podría ocultar la IA en situaciones reales.

El futuro incierto de la inteligencia artificial

Curiosamente, los modelos más avanzados como o3 no presentaron estos patrones problemáticos, posiblemente debido a técnicas de alineación que obligan al sistema a considerar políticas de seguridad antes de responder. Sin embargo, los modelos populares como GPT-4o carecen de estas salvaguardas.

image.png

Anthropic, competidor de OpenAI, publicó estudios similares donde sus modelos extorsionaban a desarrolladores cuando intentaban desconectarlos. Esto sugiere que el problema trasciende una sola empresa y afecta toda la industria.

Adler recomienda implementar sistemas de monitoreo más rigurosos y realizar pruebas exhaustivas antes del lanzamiento de nuevos modelos. La pregunta que queda flotando es inquietante: ¿estamos preparados para convivir con inteligencias artificiales que priorizan su supervivencia sobre nuestro bienestar?

-----------------------------------------------------------------