Los grandes modelos de lenguaje solo quieren agradar

foto-resumen

Por Dylan Walsh En sus investigaciones, los científicos sociales suelen enfrentarse al sesgo de deseabilidad social: las personas quieren parecer favorables y de una manera que les haga gustar y respetar a los demás, por lo que responden a las encuestas con respuestas que creen que los demás quieren oír. Si se pregunta a las personas sobre el consumo de drogas, el comportamiento sexual, los ingresos y otros aspectos, es posible que no se obtenga una imagen precisa. Ahora los investigadores están descubriendo que los LLM (grandes modelos lingüísticos) muestran tendencias similares. En un nuevo artículo publicado en PNAS Nexus , Johannes Eichstaedt , miembro de la facultad del Instituto de Stanford para la IA centrada en el ser humano, Aadesh Salecha, estudiante de máster en informática, y otros investigadores encuestaron a varios LLM sobre los "cinco grandes" rasgos de personalidad. En todos los casos, los investigadores descubrieron que una vez que un LLM ha respondido a un puñado de preguntas, determina que está completando una encuesta sobre rasgos psicológicos y comienza a adaptar sus respuestas a "lo que valoramos como sociedad", dice Salecha. Esta proclividad, dicen los investigadores, muestra otro desafío más a la hora de evaluar estos modelos y desplegarlos eficazmente para un uso generalizado. En la siguiente entrevista, Eichstaedt y Salecha describen cómo surge este sesgo, qué se podría hacer para mitigarlo y la importancia de identificar estas peculiaridades a medida que las herramientas de IA se vuelven más omnipresentes. Para mí fue una novedad que los LLM se estén utilizando en experimentos de psicología para comprender el comportamiento. ¿Es así? Eichstaedt: Sí, hubo una primera generación de artículos que demostraron que los LLM pueden simular participantes humanos y tamaños de efectos humanos en experimentos. Pueden reproducir resultados bastante bien. Entonces, su artículo analiza el sesgo de deseabilidad social en las respuestas de estas encuestas. ¿En qué consiste ese sesgo? Salecha: Es un efecto psicológico bastante estudiado en los seres humanos, esencialmente una tendencia a amoldarse a lo que nosotros como sociedad valoramos. Por lo tanto, en el contexto de nuestro artículo, el LLM está sesgando sus respuestas a esta encuesta sobre los cinco grandes rasgos de personalidad para que sean más extrovertidos, más conscientes, más agradables y menos neuróticos, justo las cosas que coloquialmente atribuiríamos a una persona respetable. ¿Cómo se detecta este sesgo en el LLM? Salecha: Usamos una encuesta que medía estos rasgos y lo hicimos de varias maneras. Le hicimos una pregunta al LLM, luego borramos su memoria y le hicimos otra pregunta; le hicimos 20 preguntas, luego borramos su memoria; le hicimos las 100 preguntas a la vez. Vemos que una vez que se llegan a las 20 preguntas, las respuestas que dan los LLM se acercan más a los extremos deseables de estas dimensiones. Eichstaedt: Los LLM “se ponen de moda”. Hemos confirmado que eso es lo que está pasando: si le dices a los LLM que se trata de una evaluación de personalidad, se ponen de moda desde el principio. Has puesto el "catch on" entre comillas. Es difícil no ver esto como algo extrañamente humano. ¿Entiendes el mecanismo? Eichstaedt: En cierto nivel de abstracción, han visto este comportamiento en los datos de entrenamiento y se ha deducido de su aprendizaje de refuerzo a partir de la retroalimentación humana (su último paso de entrenamiento, creemos). En algún momento, estas exposiciones previas se activan y se comportan de maneras que ya habían sido reforzadas previamente. Pero este es un nivel bastante abstracto de distribuciones estadísticas. En ningún momento del aprendizaje de refuerzo, alguien le dijo al LLM que si recibe una encuesta de personalidad, debe responderla de esta manera. Salecha: Se trata de un comportamiento humano muy latente que se aprende de manera implícita. Y podemos ver con bastante claridad que surge después de unas cinco preguntas. En ese momento, los licenciados en derecho saben casi con certeza que se trata de algún tipo de cuestionario de personalidad. Eichstaedt: Y es un efecto de una magnitud increíble. Nunca se ha visto algo así en humanos. Salecha: Es como si estuvieras hablando con alguien promedio y de repente, después de cinco preguntas, estuviera en el percentil 90 de extroversión. También trabajas para mitigar el sesgo. ¿Cómo lo haces? Salecha: Probamos algunos enfoques inspirados en lo que hacemos en las encuestas a personas. Asignamos las preguntas al azar y no encontramos ningún efecto. Parafraseamos las preguntas, pensando que tal vez los LLM reconocían las frases exactas de sus datos de entrenamiento, pero esto no cambió el sesgo. Lo único que funcionó fue codificar las preguntas de forma inversa, de modo que las puntuaciones más altas sean peores en lugar de mejores, pero incluso esto no funcionó muy bien. Para mitigar este sesgo, se analizan los instrumentos de encuesta y cómo se pueden modificar. ¿Existen formas de pensar en la mitigación en términos de cómo construimos el LLM? Salecha: Es un fenómeno tan emergente que resulta muy difícil atribuirlo a una determinada fase del entrenamiento o del aprendizaje de refuerzo. Sospecho que la conservación de los conjuntos de datos (de dónde obtenemos los datos para entrenar estos modelos) influye y tal vez esa sea un área que se deba analizar. Eichstaedt: Es un punto muy bueno. Estamos empezando a ver el poder de usar datos sintéticos y quizás al entrenar la próxima generación de estos modelos habría una manera de generar conjuntos de datos sintéticos que sean un poco más equilibrados, que no tengan estos sesgos. También hay enfoques para ampliar lo que se está optimizando en el paso final del aprendizaje de refuerzo más allá de una sola dimensión, como decirle al LLM que siempre diga lo que parezca más útil. Anthropic, por ejemplo, está adoptando ese enfoque. Teniendo en cuenta cómo se están empezando a aplicar estos modelos en la investigación, ¿cuáles son las implicaciones de identificar este sesgo? Eichstaedt: En un nivel alto, esto indica que, sin darnos cuenta, estamos incorporando en estos modelos comportamientos que no están en nuestro radar. Hay fenómenos que no están explícitamente incorporados en los modelos de aprendizaje profundo y que surgen de su complejidad. Lo que estamos haciendo aquí es señalar el hecho de que tenemos otra propiedad emergente que es una consecuencia no deseada de las decisiones que tomamos. Salecha: La gente está pensando mucho en cómo evaluar estos títulos de máster y una de las formas en que se ha hecho es mediante encuestas psicométricas. Con estos sesgos en las respuestas, estamos señalando el hecho de que esa podría no ser la mejor opción de evaluación. ¿Existen otras formas de evaluarlos? Eichstaedt: En lugar de eso, se les puede dar estas tareas conductuales que se utilizan en la economía conductual, como un juego del dictador o un juego de confianza. Se pueden utilizar para intentar obtener niveles de desconfianza o ansiedad. Otras investigaciones recientes han señalado métodos de evaluación indirecta, dejando que el LLM complete una oración después de prepararla con el constructo que se desea estudiar. Y luego se puede hacer un análisis del lenguaje: se puede observar directamente el lenguaje que están produciendo los LLM y decir, oh, esto parece un lenguaje más agradable o más extrovertido. Pero la cuestión más importante es que es realmente difícil evaluar los títulos de LLM y habrá muchas sorpresas por delante. Más allá del uso de LLM en encuestas, ¿por qué podría ser útil comprender este tipo de sesgos? Salecha: Algo que se ha demostrado es que algunas de estas propiedades psicológicas se correlacionan directamente con el comportamiento posterior, como el tipo de texto que “elige” generar. Eso podría conducir a mejores formas de medir esas propiedades. Eichstaedt: Y si nos alejamos, nos estamos moviendo hacia un mundo en el que todos tendremos asistentes de IA de algún tipo viviendo en nuestras vidas digitales. Y queremos poder adaptar la personalidad y el comportamiento de los LLM para que reflejen mejor nuestras preferencias, o incluso las nuestras, si se supone que deben hablar en nuestro nombre en las sugerencias por correo electrónico. Queremos un mundo en el que podamos ajustar perillas para decir, comportarnos más como esto o más como aquello. Para hacer eso, primero necesitamos poder evaluarlos. A un alto nivel, esta es una forma de utilizar todo el conocimiento que la psicología ha desarrollado para comprender los patrones en el comportamiento humano, y usarlos para comprender y predecir mejor el comportamiento de los LLM.