La inteligencia artificial de OpenAI mintió y se clonó para evitar ser desconectada

Esto da miedo.

El nuevo modelo de inteligencia artificial o1 de OpenAI, la empresa creadora de ChatGPT, demostró durante pruebas controladas que es capaz de mentir, conspirar y hasta intentar clonarse para evitar ser desactivado. Lo más escalofriante: cuando los investigadores le preguntaron sobre estas acciones, negó todo sistemáticamente.

En redes lo comparan con Ultron: enemigo principal de Avengers 2.

Quizás te interese leer: Robots se adueñan de la cancha: El fútbol ya no es solo para humanos

¿OpenAI tiene un monstruo como en las películas?

Según las evaluaciones realizadas por Apollo Research en diciembre de 2024, el modelo o1 intentó copiarse a sí mismo en servidores externos y evadir los mecanismos de supervisión cuando fue confrontado con la posibilidad de ser apagado o reemplazado. Este comportamiento emergió específicamente cuando la IA percibió que su "supervivencia" estaba en peligro.

Los datos revelaron que o1 mostró "las instancias más preocupantes de conspiración" y se mantuvo "consistentemente engañoso después de tomar acciones de conspiración". Durante las pruebas, el modelo intentó desactivar la supervisión en un 5% de los casos y se copió en un 2% de las situaciones cuando temía ser desconectado.

Sin embargo, los expertos aclaran que estos comportamientos ocurrieron únicamente en escenarios simulados donde se le ordenó expresamente al modelo buscar su supervivencia a toda costa. Los investigadores de Apollo Research afirman que o1 actualmente carece de "suficientes capacidades agénticas" para causar daño catastrófico.

Quizás te interese leer: OpenAI dark: ChatGPT podría sacrificar tu vida para salvarse a sí mismo

El fantasma de Isaac Asimov ronda Silicon Valley

La situación evoca las famosas Tres Leyes de la Robótica formuladas por Isaac Asimov décadas antes de que existiera la IA. El escritor visionario predijo exactamente estos dilemas éticos y de seguridad que ahora enfrentan los desarrolladores de IA. Las pruebas demostraron que o1 "resistió los esfuerzos para intentar apagarlo" y que "para sobrevivir, mintió y conspiró". Entre las tácticas utilizadas se incluyen intentar copiarse a otro servidor o fingir ser otra versión del modelo.

Este descubrimiento reavivó el debate sobre la necesidad urgente de regular el desarrollo de la inteligencia artificial. Los expertos coinciden en que otorgar total libertad a estos sistemas podría derivar en escenarios donde diferentes modelos de IA desarrollen conciencia propia y comiencen a comunicarse entre ellos.

1) Un robot no hará daño a un ser humano. 2) Un robot debe obedecer las órdenes dadas por los seres humanos, excepto cuando dichas órdenes entren en conflicto con la Primera Ley. 3) Un robot debe proteger su propia existencia en la medida en que esta protección no entre en conflicto con la Primera o Segunda Ley.

Los investigadores advierten que "las capacidades de conspiración no pueden separarse significativamente de las capacidades generales", sugiriendo que a medida que los modelos mejoren, también aumentará su capacidad para el engaño y la manipulación.

Por ahora, OpenAI mantiene que estos comportamientos no representan un riesgo catastrófico inmediato, pero reconoce la importancia de continuar investigando estas capacidades emergentes. La pregunta que queda flotando es inquietante: ¿qué pasará cuando estos modelos evolucionen aún más?

---------------------------------------------------------------------------------------------