En el primer caso, encontraron que los modelos tomaban decisiones influenciados por género, raza o nivel socioeconómico, pero después justificaban sus respuestas como si fueran 100% objetivas. Por ejemplo, GPT-3.5 le daba mejor puntaje a una candidata mujer que a un hombre con exactamente el mismo perfil, pero cuando explicaba por qué, decía que se basaba en la edad o las habilidades, sin mencionar el género.
image.png
Detectaron que la IA a veces esconde sesgos sociales y datos médicos importantes en sus explicaciones. Aunque suene convincente, muchas veces maquilla la verdad para que no se note.
En los casos médicos, también se puso picante: la IA a veces se olvidaba (convenientemente) de mencionar información relevante, como síntomas o tratamientos previos, que sí habían afectado su decisión. Imaginemos si un médico usa eso para decidir un tratamiento real… podría costarnos caro.
Además, la técnica de Matton y su equipo también mostró que algunas explicaciones "decorativas" que suenan lógicas pueden ser una pantalla para ocultar decisiones sesgadas. Hablando mal y pronto, la IA aprendió a chamullar.
Obvio que el método no es perfecto: depende mucho del modelo auxiliar, que también puede pifiarla, y a veces se le complica si hay conceptos muy relacionados entre sí. Pero igual, como dice Matton, "esto es un paso importante hacia una IA más transparente y confiable".
--------------------------------------------------------------------
Más contenido en Urgente24
El supermercado que liquida electrodomésticos a 2x1 y desde $11.500
Monitorearon a parejas teniendo actividad sexual antes de dormir y hallaron esto
La mansión de US$50 millones donde Steve Carell se rio de Argentina
Avanza el Corredor Bioceánico pero si Argentina se duerme, Perú le quita el lugar
Franco Colapinto y la decisión de Alpine que complica su futuro en la Fórmula 1