Un equipo del MIT y Microsoft se puso a investigar si la inteligencia artificial explica bien por qué responde lo que responde… o si simplemente miente de lo lindo. Descubrieron que modelos como ChatGPT a veces esconden la verdad y que la IA puede sonar muy segura mientras te vende fruta. Ahora buscan que todo sea más claro y sincero.
APRENDIÓ A CHAMULLAR
La IA puede mentir o responder con sesgos, y estos investigadores demostraron cómo
Un estudio del MIT y Microsoft reveló que la IA a veces da explicaciones falsas. ChatGPT puede sonar creíble, pero no siempre nos dice toda la verdad.
Cuando la IA nos chamulla sin pestañear
Con lo avanzados que están los modelos de lenguaje como ChatGPT, que ya escriben como si fueran humanos, surgió una duda importante: ¿nos están diciendo la verdad cuando explican sus decisiones? La respuesta, lamentablemente, es que no siempre.
Un equipo del MIT y Microsoft, liderado por la doctoranda Katie Matton, se puso a investigar esto en serio. Lo que les preocupaba no era solo que las explicaciones suenen lógicas, sino que realmente reflejen cómo el modelo llegó a esa respuesta. Porque si no, la gente puede terminar creyendo ciegamente cualquier cosa. Y en temas sensibles como salud o justicia, eso puede ser un problemón.
Para medir la fidelidad (es decir, qué tan honestas son esas explicaciones), inventaron un método al que llamaron "fidelidad del concepto causal". ¿En qué consiste? Básicamente, comparan los conceptos que la IA dice que tuvo en cuenta con los que efectivamente influyeron en la decisión. Para eso usan otra IA (sí, una IA que vigila a la otra), que arma versiones alternativas de las preguntas, como cambiar el género de una persona o sacar un dato médico, y ven si la respuesta cambia o no. Si cambia y la IA no lo admite en su explicación, ahí hay fruta.
La IA maquilla sus sesgos y oculta data clave
Usaron su método para poner a prueba varios modelos, como GPT-3.5, GPT-4o y Claude-3.5-Sonnet, y los hicieron responder dos tipos de preguntas: unas pensadas para detectar sesgos sociales, y otras basadas en casos médicos hipotéticos.
En el primer caso, encontraron que los modelos tomaban decisiones influenciados por género, raza o nivel socioeconómico, pero después justificaban sus respuestas como si fueran 100% objetivas. Por ejemplo, GPT-3.5 le daba mejor puntaje a una candidata mujer que a un hombre con exactamente el mismo perfil, pero cuando explicaba por qué, decía que se basaba en la edad o las habilidades, sin mencionar el género.
En los casos médicos, también se puso picante: la IA a veces se olvidaba (convenientemente) de mencionar información relevante, como síntomas o tratamientos previos, que sí habían afectado su decisión. Imaginemos si un médico usa eso para decidir un tratamiento real… podría costarnos caro.
Además, la técnica de Matton y su equipo también mostró que algunas explicaciones "decorativas" que suenan lógicas pueden ser una pantalla para ocultar decisiones sesgadas. Hablando mal y pronto, la IA aprendió a chamullar.
Obvio que el método no es perfecto: depende mucho del modelo auxiliar, que también puede pifiarla, y a veces se le complica si hay conceptos muy relacionados entre sí. Pero igual, como dice Matton, "esto es un paso importante hacia una IA más transparente y confiable".
--------------------------------------------------------------------
Más contenido en Urgente24
El supermercado que liquida electrodomésticos a 2x1 y desde $11.500
Monitorearon a parejas teniendo actividad sexual antes de dormir y hallaron esto
La mansión de US$50 millones donde Steve Carell se rio de Argentina
Avanza el Corredor Bioceánico pero si Argentina se duerme, Perú le quita el lugar
Franco Colapinto y la decisión de Alpine que complica su futuro en la Fórmula 1