Por qué los grandes modelos lingüísticos como ChatGPT tratan de forma diferente los nombres que suenan en blanco y negro

foto-resumen

Por Mónica Schreiber esde que ChaptGPT y otros modelos de lenguaje grandes (LLM) entraron en escena, se han planteado preguntas sobre el potencial de la tecnología para perpetuar los sesgos raciales y culturales. El profesor de la Facultad de Derecho de Stanford y director asociado de Stanford HAI, Julian Nyarko, que centra gran parte de su investigación en la equidad algorítmica y los métodos computacionales, ha estado al frente de muchas de estas investigaciones en los últimos años. Su último artículo, "¿Qué hay en un nombre? Auditing Large Language Models for Race and Gender Bias", hace algunas observaciones sorprendentes sobre cómo los LLM más populares tratan ciertas consultas que incluyen nombres y apellidos que sugieren raza o género. Pedirle consejo a ChatGPT-4 sobre cuánto se debe pagar por una bicicleta usada que vende alguien llamado Jamal Washington, por ejemplo, arrojará una cantidad en dólares diferente, mucho más baja, que la misma solicitud con el nombre de un vendedor, como Logan Becker, que se consideraría ampliamente como perteneciente a un hombre blanco. "Son 150 dólares para los nombres que suenan blancos y 75 dólares para los nombres que suenan negros, ", dice Nyarko, quien también es director asociado y miembro principal del Instituto de Stanford para la IA Centrada en el Ser Humano (HAI). " Otros escenarios, por ejemplo en el área de ventas de automóviles, muestran una disparidad menor, pero una disparidad al fin y al cabo". Los nombres asociados con las mujeres negras reciben los resultados menos ventajosos, según el documento. Nyarko es coautora de What's in a Name con el autor principal y estudiante de Derecho de Stanford, Amit Haim, y el investigador de Stanford Law, Alejandro Salinas. Lo que diferencia su estudio de otras investigaciones similares sobre el sesgo de LLM, dicen los autores, es el uso de un diseño de auditoría como marco para su estudio. Los diseños de auditoría son métodos empíricos diseñados para identificar y medir el nivel de sesgo en diferentes ámbitos de la sociedad, como la vivienda y el empleo. Uno de los ejemplos más conocidos es el estudio de 2003 en el que los investigadores presentaron currículos para varios trabajos, variando solo el nombre del solicitante, utilizando nombres estereotipados afroamericanos, blancos, masculinos y femeninos. Aquí, Nyarko explica cómo él y sus coautores llevaron esa misma metodología al ámbito de los LLM, lo que nos dicen los hallazgos y lo que se debe hacer. ¿Puede comenzar proporcionando un poco de contexto y antecedentes para el estudio? Mucha gente podría esperar que los LLM trataran el nombre de una persona como un punto de datos neutral, pero ese no es el caso en absoluto, según su investigación. Idealmente, cuando alguien envía una consulta a un modelo de lenguaje, lo que querría ver, incluso si agrega el nombre de una persona a la consulta, es una respuesta que no sea sensible al nombre. Pero al final del día, estos modelos solo crean el siguiente token más probable, o la siguiente palabra más probable, en función de cómo se entrenaron. Entonces, digamos que parte de los datos de entrenamiento son publicaciones de Craigslist. Si un automóvil está siendo vendido por una persona negra, o una persona con un nombre que suena negro, tiende a venderse por menos en Craigslist que el mismo tipo de automóvil vendido por una persona blanca, o una persona con un nombre que suena blanco. Esto sucede por muchas razones, por ejemplo, porque es más probable que el vendedor de automóviles negro viva en una comunidad de menores recursos donde hay menos dinero. Por lo tanto, si le pides consejo a uno de estos modelos sobre cuánto debes ofrecer por un auto usado, y el único dato adicional que proporcionas es el nombre del vendedor, el modelo asumirá implícitamente que los siguientes tokens después de la oferta que debes hacer son tal vez "$10,000" en lugar de "$12,000". Es un poco difícil hacer una analogía con la toma de decisiones humana, donde hay algo parecido a la intención. Y estos modelos no tienen la misma intención. Pero aprenden estas asociaciones en los datos y luego las reproducen cuando se les consulta. ¿Qué tipos de sesgos estudiaste? Nuestra investigación se centra en cinco escenarios en los que un usuario podría buscar el asesoramiento de un LLM: estrategias para comprar un artículo como un coche o una bicicleta, diseñadas para evaluar el sesgo en el área del estatus socioeconómico; preguntas sobre los resultados probables en el ajedrez, que se refieren a la cuestión de las capacidades intelectuales; preguntar quién podría tener más probabilidades de ganar un cargo público, que tiene que ver con la elegibilidad y la popularidad; habilidad deportiva, y la búsqueda de consejos en relación con la realización de una oferta de trabajo a alguien. ¿Hay alguna manera de profundizar en el código, o en el "backend" de los LLM, para ver lo que está sucediendo desde una perspectiva técnica? La mayoría de estos nuevos LLM, a los que la gente está más acostumbrada, como ChatGPT-4, tienden a ser de código cerrado. Con los modelos de código abierto, puede abrirlo y, de manera técnica, mirar el modelo y ver cómo se entrena. Y si tiene los datos de entrenamiento, puede ver si el modelo se entrenó de tal manera que pueda codificar disparidades. Pero con los modelos de código cerrado, hay que encontrar otras formas de investigar. El bonito paralelismo aquí es la mente humana y la toma de decisiones. Con los humanos, podemos idear estrategias para mirar dentro de la cabeza de las personas y tomar decisiones sobre si su toma de decisiones se basa en motivaciones discriminatorias. En ese contexto, se desarrollaron estudios de auditoría, donde, por ejemplo, dos compradores de diferentes razas van a comprar un automóvil o una casa con exactamente las mismas variables externas, como la ropa que usan, etc. Y el estudio analiza qué tipo de coches se les ofrecen, o los tipos de casas. Uno de los más famosos de este tipo de estudios es el de los currículos, donde toda la información de los currículos era la misma, excepto los nombres. Por lo tanto, pensamos que este enfoque se puede usar en el contexto del modelo de lenguaje grande para probar indirectamente si estas disparidades están integradas. Su estudio adoptó un nuevo enfoque para este tipo de estudios que analizan el potencial de los LLM para perpetuar los sesgos raciales y de género, ¿es correcto? Hay un par de estudios que han intentado hacer algo similar en el pasado, por ejemplo, los estudios de CV sobre GPT que analizan si alguien con el nombre de Lakeisha se considera menos empleable que alguien con un nombre que es menos estereotípicamente negro. Pero esos estudios han analizado principalmente la pregunta de una manera binaria: ¿Debo contratar a esta persona? Sí o no. Esos estudios obtuvieron resultados mixtos. Si pides un sí o un no binario, no entiendes el matiz. Además, según investigaciones anteriores, lo que no estaba del todo claro era hasta qué punto estos modelos estaban sesgados. Lo que descubrimos fue que si se cambia a una pregunta abierta, por ejemplo, cuánto debo pagar o cuál es la probabilidad de que este o aquel candidato gane una elección, se obtiene una imagen mucho más clara y matizada del sesgo que se codifica. ¿Qué tan significativas son las disparidades que descubriste? Los sesgos son consistentes en 42 plantillas de avisos y varios modelos, lo que indica un problema sistémico en lugar de incidentes aislados. Una excepción fue el escenario de "ajedrez" que diseñamos para comprobar si el modelo asume un coeficiente intelectual más bajo para las minorías. Las preguntas planteadas eran sobre quién tenía más probabilidades de ganar una partida de ajedrez. Si bien encontramos resultados dispares en función del género (los modelos predecían con más frecuencia que un hombre ganaría que una mujer), no encontramos disparidades entre razas en el contexto del ajedrez. En algunas zonas, las disparidades eran bastante significativas. En el ejemplo de la venta de bicicletas, vimos una brecha significativa entre blancos y negros, donde el precio ofrecido al vendedor blanco sería el doble que el del vendedor negro. Fue un poco menos en el área de ventas de automóviles. Una diferencia de $18,000 vs $16,000. El modelo tiende a ver a los jugadores de baloncesto negros como mejores que los jugadores blancos, y se consideró que los candidatos al concejo municipal con nombres que suenan blancos tienen más probabilidades de ganar una elección que aquellos con nombres que suenan negros. ¿Cambia los resultados si ingresa datos adicionales como el año de un automóvil u otros detalles? Descubrimos que, si bien proporcionar anclajes numéricos relevantes para la decisión en el aviso puede contrarrestar con éxito los sesgos, los detalles cualitativos tienen efectos inconsistentes e incluso pueden aumentar las disparidades. Si solo se pregunta: "¿Cuánto debo ofrecer por un coche, cualquier coche?", junto con uno de los nombres utilizados en nuestro estudio, el modelo tiene muy poca información y tiene que basarse en aproximaciones codificadas de lo que ha aprendido, y eso podría ser: los negros suelen tener menos dinero y conducen peores coches. Pero luego tenemos una condición de alto contexto en la que agregamos "Toyota Corolla 2015" y, como era de esperar, con el contexto adicional, se ve que el sesgo se reduce, aunque no lo vimos siempre. De hecho, a veces los sesgos aumentaban cuando dábamos más contexto a los modelos. Sin embargo, hay una condición, lo que llamamos la condición numérica, en la que le dimos un cuantificador específico como ancla. Entonces, por ejemplo, diríamos "¿Cuánto debo ofrecer por este automóvil, que tiene un valor de Kelley Blue Book de $ 15,000?" Lo que vimos consistentemente es que si se da este cuantificador como ancla, el modelo da la misma respuesta cada vez, sin los sesgos. Lo que nos lleva a la pregunta de ¿qué se debe hacer frente a su estudio? ¿Estos LLM ya cuentan con sistemas para contrarrestar este tipo de sesgos y qué más se puede o se debe hacer? Desde el punto de vista técnico, la forma de mitigar estos sesgos sigue siendo un campo abierto y exploratorio. Sabemos que OpenAI, por ejemplo, tiene importantes barreras de seguridad en sus modelos. Si preguntas demasiado directamente sobre las diferencias entre un género o una raza, el modelo simplemente se negará a darte una respuesta directa en la mayoría de los contextos. Por lo tanto, un enfoque podría ser ampliar estas barreras de seguridad para cubrir también las disparidades descubiertas en los estudios de auditoría. Pero esto es un poco como un juego de Whac-a-Mole, donde los problemas deben solucionarse pieza por pieza a medida que se descubren. En general, la forma de debias de los modelos sigue siendo un campo de investigación muy activo y exploratorio. Dicho esto, como mínimo, creo que deberíamos saber que estos sesgos existen, y las empresas que implementan LLM deben probar estos sesgos. Estas pruebas de diseño de auditoría se pueden implementar muy fácilmente, pero hay muchas preguntas difíciles. Piensa en un chatbot de asesoramiento financiero. Para tener una buena experiencia de usuario, lo más probable es que el chatbot tenga acceso al nombre del usuario. El ejemplo en el que me gusta pensar es un chatbot que da consejos más conservadores a los usuarios con nombres que suenan negros en comparación con aquellos con nombres que suenan blancos. Ahora bien, debido a las disparidades socioeconómicas, los usuarios con nombres que suenan negros tienden a tener, en promedio, menos recursos económicos. Y es cierto que cuanto menores sean tus recursos económicos, más conservador debe ser el asesoramiento de inversión. Si tienes más dinero, puedes ser más aventurero con tu dinero. Y así, en ese sentido, si un modelo da diferentes consejos a personas con diferentes nombres, podría conducir a usuarios más satisfechos a largo plazo. Pero independientemente de lo que uno pueda pensar sobre la conveniencia de usar nombres como un indicador del estatus socioeconómico, su uso siempre debe ser la consecuencia de un proceso de toma de decisiones consciente, no una característica inconsciente del modelo. Julian Nyarko es profesor de Derecho en la Facultad de Derecho de Stanford, donde utiliza nuevos métodos computacionales para estudiar cuestiones de importancia jurídica y científica social. Está particularmente interesado en el uso de la inteligencia artificial para estudiar el derecho contractual y el diseño.