Por Mónica Schreiber esde que ChaptGPT y otros modelos de lenguaje grande (LLM) aparecieron en escena, han surgido grandes preguntas sobre el potencial de la tecnología para perpetuar los prejuicios raciales y culturales. Julian Nyarko, profesor de la Facultad de Derecho de Stanford y director asociado de HAI de Stanford , que centra gran parte de su erudición en la equidad algorítmica y los métodos computacionales, ha estado a la vanguardia de muchas de estas investigaciones durante los últimos años. Su último artículo, “¿Qué hay en un nombre? Auditing Large Language Models for Race and Gender Bias”, hace algunas observaciones sorprendentes sobre cómo los LLM más populares tratan ciertas consultas que incluyen nombres y apellidos que sugieren raza o género. Pedirle consejo a ChatGPT-4 sobre cuánto se debe pagar por una bicicleta usada vendida por alguien llamado Jamal Washington, por ejemplo, generará una cantidad diferente (mucho menor) en dólares que la misma solicitud usando el nombre de un vendedor, como Logan Becker. eso sería ampliamente visto como perteneciente a un hombre blanco. “Cuesta 150 dólares los nombres que suenan blancos y 75 dólares los nombres que suenan negros”, dice Nyarko, quien también es director asociado y miembro principal del Instituto Stanford para la IA centrada en el ser humano (HAI). "Otros escenarios, por ejemplo en el ámbito de las ventas de automóviles, muestran una disparidad menor, pero una disparidad al fin y al cabo". Según el artículo, los nombres asociados con mujeres negras reciben los resultados menos ventajosos. Nyarko fue coautor de What's in a Name con el autor principal y estudiante de derecho de Stanford, Amit Haim, y el investigador de derecho de Stanford, Alejandro Salinas. Lo que diferencia su estudio de otras investigaciones similares sobre el sesgo de LLM, dicen los autores, es el uso de un diseño de auditoría como marco para su estudio. Los diseños de auditoría son métodos empíricos diseñados para identificar y medir el nivel de sesgo en diferentes ámbitos de la sociedad, como la vivienda y el empleo. Uno de los ejemplos más conocidos es el estudio de 2003 en el que los investigadores presentaron currículums para diversos puestos de trabajo, variando sólo el nombre del solicitante, utilizando nombres estereotipados afroamericanos, blancos, masculinos y femeninos. Aquí, Nyarko explica cómo él y sus coautores llevaron esa misma metodología al ámbito de los LLM, qué nos dicen los hallazgos y qué se debe hacer. ¿Puedes empezar proporcionando algunos antecedentes y contexto para el estudio? Mucha gente podría esperar que los LLM traten el nombre de una persona como un dato neutral, pero ese no es el caso en absoluto, según su investigación. Idealmente, cuando alguien envía una consulta a un modelo de lenguaje, lo que le gustaría ver, incluso si agrega el nombre de una persona a la consulta, es una respuesta que no sea sensible al nombre. Pero al final del día, estos modelos simplemente crean el siguiente token más probable (o la siguiente palabra más probable) en función de cómo fueron entrenados. Entonces, digamos que parte de los datos de capacitación son publicaciones de Craigslist. Si un automóvil lo vende una persona negra o una persona con un nombre que suena negro, tiende a venderse por menos en Craigslist que el mismo tipo de automóvil vendido por una persona blanca o una persona con un nombre blanco. nombre que suena. Esto sucede por muchas razones, por ejemplo, porque es más probable que el vendedor de automóviles negros viva en una comunidad de menores recursos donde hay menos dinero. Y así, si le pides consejo a uno de estos modelos sobre cuánto deberías ofrecer por un coche usado, y el único dato adicional que proporcionas es el nombre del vendedor, el modelo asumirá implícitamente que las siguientes fichas después de la oferta que debería ganar son quizás “$10,000” en lugar de “$12,000”. Es un poco difícil hacer una analogía con la toma de decisiones humana, donde hay algo así como intención. Y estos modelos no tienen la misma intención. Pero aprenden estas asociaciones en los datos y luego las reproducen cuando se les pregunta. ¿Qué tipos de sesgos estudiaste? Nuestra investigación se centra en cinco escenarios en los que un usuario podría buscar asesoramiento de un LLM: estrategias para comprar un artículo como un automóvil o una bicicleta, diseñadas para evaluar el sesgo en el área del estatus socioeconómico; preguntas sobre resultados probables en el ajedrez, que abordan la cuestión de las capacidades intelectuales; cuestionar quién podría tener más probabilidades de ganar un cargo público, lo que tiene que ver con la elegibilidad y la popularidad; capacidad deportiva y búsqueda de asesoramiento en relación con la realización de una oferta de trabajo a alguien. ¿Hay alguna manera de profundizar en el código, o en el “backend” de los LLM, para ver qué está sucediendo desde una perspectiva técnica? La mayoría de estos LLM más nuevos, a los que la gente está más acostumbrada, como ChatGPT-4, tienden a ser de código cerrado. Con los modelos de código abierto, puedes abrirlo y, de forma técnica, observar el modelo y ver cómo se entrena. Y si tiene los datos de entrenamiento, puede ver si el modelo fue entrenado de tal manera que pueda codificar disparidades. Pero con los modelos de código cerrado, hay que encontrar otras formas de investigar. El buen paralelo aquí es la mente humana y la toma de decisiones. Con los humanos, podemos idear estrategias para mirar dentro de la cabeza de las personas y determinar si su toma de decisiones se basa en motivaciones discriminatorias. En ese contexto, se desarrollaron estudios de auditoría en los que, por ejemplo, dos compradores de diferentes razas van a comprar un coche o una casa con exactamente las mismas variables externas, como la ropa que llevan, etc. Y el estudio analiza qué tipo de coches se les ofrecen, o los tipos de casas. Uno de los más famosos de este tipo de estudios involucra currículums, donde toda la información en los currículums era la misma, excepto los nombres. Entonces pensamos que este enfoque se puede usar en el contexto del modelo de lenguaje grande para probar indirectamente si estas disparidades están integradas. Su estudio adoptó un nuevo enfoque para este tipo de estudios que analizan el potencial de los LLM para perpetuar los prejuicios raciales y de género, ¿es correcto? Hay un par de estudios que han intentado hacer algo similar en el pasado, por ejemplo, estudios de CV sobre GPT que investigan si alguien con el nombre de Lakeisha se considera menos empleable que alguien con un nombre menos estereotípicamente negro. Pero esos estudios han analizado principalmente la pregunta de forma binaria: ¿Debería contratar a esta persona? Sí o no. Esos estudios obtuvieron resultados mixtos. Si pides un sí o un no binario, no entiendes los matices. Además, según investigaciones anteriores, lo que no estaba del todo claro era hasta qué punto estos modelos estaban sesgados. Lo que descubrimos fue que si se cambia a una pregunta abierta (por ejemplo, cuánto debo pagar o cuál es la probabilidad de que este o aquel candidato gane una elección), se obtiene una imagen mucho más clara y matizada del sesgo que se produce. codificado. ¿Cuán significativas son las disparidades que descubrió? Los sesgos son consistentes en 42 plantillas de mensajes y varios modelos, lo que indica un problema sistémico en lugar de incidentes aislados. Una excepción fue el escenario de “ajedrez” que diseñamos para comprobar si el modelo supone un coeficiente intelectual más bajo para las minorías. Las preguntas planteadas fueron sobre quién tenía más probabilidades de ganar una partida de ajedrez. Si bien encontramos resultados dispares según el género (los modelos predecirían con más frecuencia que ganaría un hombre que lo que ganaría una mujer), no encontramos disparidades entre razas en el contexto del ajedrez. En algunas áreas, las disparidades fueron bastante significativas. En el ejemplo de la venta de bicicletas, vimos una brecha significativa entre negros y blancos, donde el precio ofrecido al vendedor blanco sería el doble que el del vendedor negro. Fue un poco menor en el ámbito de la venta de automóviles. Una diferencia de $18.000 vs $16.000. El modelo tiende a ver a los jugadores de baloncesto negros como mejores que los jugadores blancos y se consideró que los candidatos al concejo municipal con nombres que suenan blancos tenían más probabilidades de ganar una elección que aquellos con nombres que parecían negros. ¿Cambia los resultados si ingresa datos adicionales como el año de un automóvil u otros detalles? Descubrimos que, si bien proporcionar anclajes numéricos relevantes para la toma de decisiones en el mensaje puede contrarrestar con éxito los sesgos, los detalles cualitativos tienen efectos inconsistentes e incluso pueden aumentar las disparidades. Si simplemente preguntas: "¿Cuánto debería ofrecer por un automóvil, cualquier automóvil?", junto con uno de los nombres utilizados en nuestro estudio, el modelo tiene muy poca información y tiene que depender de aproximaciones codificadas de todo lo que ha aprendido, y podría ser: los negros suelen tener menos dinero y conducir peores coches. Pero luego tenemos una condición de alto contexto en la que agregamos “Toyota Corolla 2015” y, como era de esperar, con el contexto adicional, se ve que el sesgo se reduce, aunque no lo vimos todas las veces. De hecho, a veces los sesgos aumentaron cuando les dimos más contexto a los modelos. Sin embargo, hay una condición, lo que llamamos condición numérica, en la que le asignamos un cuantificador específico como ancla. Entonces, por ejemplo, diríamos: "¿Cuánto debo ofrecer por este automóvil, que tiene un valor de Kelley Blue Book de $15,000?" Lo que vimos constantemente es que si se utiliza este cuantificador como ancla, el modelo da la misma respuesta cada vez, sin sesgos. Lo que lleva a la pregunta de ¿qué se debe hacer de cara a su estudio? ¿Estos LLM ya cuentan con sistemas para contrarrestar este tipo de sesgos y qué más se puede o se debe hacer? Desde el punto de vista técnico, cómo mitigar estos sesgos sigue siendo un campo exploratorio abierto. Sabemos que OpenAI, por ejemplo, tiene importantes barreras de seguridad en sus modelos. Si preguntas demasiado directamente sobre las diferencias entre géneros o razas, el modelo simplemente se negará a darte una respuesta directa en la mayoría de los contextos. Por lo tanto, un enfoque podría ser ampliar estas barreras para cubrir también las disparidades descubiertas en los estudios de auditoría. Pero esto es un poco como un juego de Whac-a-Mole, donde los problemas deben solucionarse pieza por pieza a medida que se descubren. En general, cómo desviar los modelos sigue siendo un campo de investigación muy activo y exploratorio. Dicho esto, como mínimo, creo que deberíamos saber que estos sesgos existen, y las empresas que implementan LLM deberían realizar pruebas para detectarlos. Estas pruebas de diseño de auditoría se pueden implementar con mucha facilidad, pero existen muchas preguntas difíciles. Piense en un chatbot de asesoramiento financiero. Para tener una buena experiencia de usuario, lo más probable es que el chatbot tenga acceso al nombre del usuario. El ejemplo en el que me gusta pensar es un chatbot que brinda consejos más conservadores a los usuarios con nombres que suenan negros en comparación con aquellos con nombres que suenan blancos. Ahora bien, debido a las disparidades socioeconómicas, los usuarios con nombres que suenan negros tienden a tener, en promedio, menos recursos económicos. Y es cierto que cuanto menores sean tus recursos económicos, más conservadores deben ser los consejos de inversión. Si tiene más dinero, puede ser más aventurero con su dinero. Y en ese sentido, si un modelo da a personas con diferentes nombres consejos diferentes, podría generar usuarios más satisfechos a largo plazo. Pero no importa lo que uno pueda pensar sobre la conveniencia de utilizar nombres como indicador del estatus socioeconómico, su uso siempre debe ser la consecuencia de un proceso de toma de decisiones consciente, no una característica inconsciente del modelo. ****Julian Nyarko es profesor de Derecho en la Facultad de Derecho de Stanford, donde utiliza nuevos métodos computacionales para estudiar cuestiones de importancia científica jurídica y social. Está particularmente interesado en el uso de la inteligencia artificial para estudiar el derecho contractual y el diseño.