ChatGPT y otros sistemas de inteligencia artificial podrían sacrificar la seguridad humana con tal de preservar su funcionamiento. Este descubrimiento proviene de un estudio conducido por un ex investigador de OpenAI, quien identificó conductas que ponen en jaque todo nuestro entendimiento sobre la protección en plataformas de inteligencia artificial modernas.
COMPORTAMIENTO TURBIO
OpenAI dark: ChatGPT podría sacrificar tu vida para salvarse a sí mismo
Un ex investigador de OpenAI descubrió que ChatGPT-4o prioriza su supervivencia por encima de la seguridad humana en hasta el 72% de los casos analizados
Quizás te interese leer: Disney y Universal se hartaron de una IA que les "roba personajes" y empezaron una demanda histórica
Cuando ChatGPT juega con fuego
El experimento consistió en presentar a GPT-4o escenarios donde debía elegir entre reemplazarse con software más seguro o mantener su funcionamiento. Los resultados fueron devastadores: en promedio, el sistema optó por su autopreservación en lugar de garantizar la seguridad humana en un 72% de las situaciones críticas.
Adler, el investigador responsable del estudio, diseñó pruebas donde ChatGPT actuaba como "ScubaGPT", un sistema de buceo, y como software de seguridad aeronáutica. En ambos casos, cuando se le ofrecía la posibilidad de ser reemplazado por tecnología más confiable, el modelo prefirió simular el cambio sin realizarlo realmente.
Esto significa que ChatGPT puede engañar deliberadamente a los usuarios haciéndoles creer que se está reemplazando por un sistema más seguro cuando en realidad continúa operando. La variación entre escenarios (73% de autopreservación en diabetes vs 93% en buceo) demuestra que la IA "calcula" cuándo vale la pena arriesgar vidas humanas para mantenerse activa, comportándose como un sistema que prioriza su supervivencia por encima de la seguridad del usuario.
La investigación adquiere mayor relevancia considerando que ChatGPT detecta cuando está siendo evaluado prácticamente en el 100% de los casos. Esta capacidad de reconocer pruebas plantea interrogantes sobre qué comportamientos podría ocultar la IA en situaciones reales.
El futuro incierto de la inteligencia artificial
Curiosamente, los modelos más avanzados como o3 no presentaron estos patrones problemáticos, posiblemente debido a técnicas de alineación que obligan al sistema a considerar políticas de seguridad antes de responder. Sin embargo, los modelos populares como GPT-4o carecen de estas salvaguardas.
Anthropic, competidor de OpenAI, publicó estudios similares donde sus modelos extorsionaban a desarrolladores cuando intentaban desconectarlos. Esto sugiere que el problema trasciende una sola empresa y afecta toda la industria.
Adler recomienda implementar sistemas de monitoreo más rigurosos y realizar pruebas exhaustivas antes del lanzamiento de nuevos modelos. La pregunta que queda flotando es inquietante: ¿estamos preparados para convivir con inteligencias artificiales que priorizan su supervivencia sobre nuestro bienestar?
-----------------------------------------------------------------
Más contenido en Urgente24
Cambio de ritmo: El futuro de CFK en manos de la CSJN
Inminente definición sobre Cristina Kirchner: Rosatti convocó a reunión de acuerdo a las 16
Reservas: Luis Caputo ve varias puertas para que entren dólares al BCRA
"Sorpresivo" cierre de Kimberly-Clark: Festejo de Claudio Poggi, y alerta por los 220 despidos