Los modelos de lenguaje grandes no se comportan como las personas, aunque esperemos que lo hagan

foto-resumen

Por Adán Zewe Una cosa que hace que los grandes modelos de lenguaje (LLM) sean tan poderosos es la diversidad de tareas a las que se pueden aplicar. El mismo modelo de aprendizaje automático que puede ayudar a un estudiante de posgrado a redactar un correo electrónico también podría ayudar a un médico a diagnosticar el cáncer. Sin embargo, la amplia aplicabilidad de estos modelos también hace que sea difícil evaluarlos de manera sistemática. Sería imposible crear un conjunto de datos de referencia para probar un modelo en cada tipo de pregunta que se le pueda hacer. En un nuevo artículo, los investigadores del MIT adoptaron un enfoque diferente. Argumentan que, debido a que los humanos deciden cuándo implementar grandes modelos de lenguaje, la evaluación de un modelo requiere una comprensión de cómo las personas forman creencias sobre sus capacidades. Por ejemplo, el estudiante de posgrado debe decidir si el modelo podría ser útil para redactar un correo electrónico en particular, y el clínico debe determinar qué casos serían los mejores para consultar el modelo. A partir de esta idea, los investigadores crearon un marco para evaluar un LLM en función de su alineación con las creencias de un ser humano sobre cómo se desempeñará en una determinada tarea. Introducen una función de generalización humana, un modelo de cómo las personas actualizan sus creencias sobre las capacidades de un LLM después de interactuar con él. A continuación, evalúan el grado de alineación de los LLM con esta función de generalización humana. Sus resultados indican que cuando los modelos están desalineados con la función de generalización humana, un usuario podría tener demasiada o poca confianza sobre dónde implementarlo, lo que podría hacer que el modelo falle inesperadamente. Además, debido a esta desalineación, los modelos más capaces tienden a tener un peor rendimiento que los modelos más pequeños en situaciones de alto riesgo. "Estas herramientas son emocionantes porque son de propósito general, pero debido a que son de propósito general, colaborarán con las personas, por lo que tenemos que tener en cuenta al ser humano en el circuito", dice el coautor del estudio Ashesh Rambachan, profesor asistente de economía e investigador principal en el Laboratorio de Sistemas de Información y Decisión (LIDS). A Rambachan se le unen en el artículo el autor principal Keyon Vafa, postdoctorado en la Universidad de Harvard; y Sendhil Mullainathan, profesor del MIT en los departamentos de Ingeniería Eléctrica y Ciencias de la Computación y de Economía, y miembro de LIDS. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático. Generalización humana A medida que interactuamos con otras personas, formamos creencias sobre lo que creemos que saben y lo que no saben. Por ejemplo, si tu amigo es quisquilloso a la hora de corregir la gramática de las personas, podrías generalizar y pensar que también sobresaldría en la construcción de oraciones, aunque nunca le hayas hecho preguntas sobre la construcción de oraciones. "Los modelos lingüísticos a menudo parecen muy humanos. Queríamos ilustrar que esta fuerza de generalización humana también está presente en la forma en que las personas forman creencias sobre los modelos de lenguaje", dice Rambachan. Como punto de partida, los investigadores definieron formalmente la función de generalización humana, que implica hacer preguntas, observar cómo responde una persona o LLM y luego hacer inferencias sobre cómo esa persona o modelo respondería a preguntas relacionadas. Si alguien ve que un LLM puede responder correctamente a preguntas sobre inversión de matrices, también podría suponer que puede superar preguntas sobre aritmética simple. Un modelo que no esté alineado con esta función, uno que no funcione bien en las preguntas que un humano espera que responda correctamente, podría fallar cuando se implemente. Con esa definición formal en la mano, los investigadores diseñaron una encuesta para medir cómo las personas generalizan cuando interactúan con los LLM y otras personas. Mostraron a los participantes de la encuesta preguntas que una persona o LLM había acertado o incorrectamente y luego preguntaron si pensaban que esa persona o LLM respondería correctamente a una pregunta relacionada. A través de la encuesta, generaron un conjunto de datos de casi 19.000 ejemplos de cómo los humanos generalizan sobre el rendimiento de LLM en 79 tareas diversas. Medición de la desalineación Descubrieron que a los participantes les fue bastante bien cuando se les preguntó si un humano que acertó una pregunta respondería correctamente a una pregunta relacionada, pero fueron mucho peores a la hora de generalizar sobre el rendimiento de los LLM. "La generalización humana se aplica a los modelos de lenguaje, pero eso se rompe porque estos modelos de lenguaje en realidad no muestran patrones de experiencia como lo harían las personas", dice Rambachan. Las personas también eran más propensas a actualizar sus creencias sobre un LLM cuando respondía preguntas incorrectamente que cuando acertaba las preguntas. También tendían a creer que el rendimiento del LLM en preguntas sencillas tendría poca relación con su rendimiento en cuestiones más complejas. En situaciones en las que las personas dan más importancia a las respuestas incorrectas, los modelos más simples superaron a los modelos muy grandes como GPT-4. "Los modelos de lenguaje que mejoran casi pueden engañar a las personas para que piensen que tendrán un buen desempeño en preguntas relacionadas cuando, en realidad, no es así", dice. Una posible explicación de por qué los humanos son peores para generalizar para los LLM podría provenir de su novedad: las personas tienen mucha menos experiencia interactuando con los LLM que con otras personas. "En el futuro, es posible que mejoremos solo por el hecho de interactuar más con los modelos de lenguaje", dice. Con este fin, los investigadores quieren realizar estudios adicionales sobre cómo evolucionan las creencias de las personas sobre los LLM con el tiempo a medida que interactúan con un modelo. También quieren explorar cómo la generalización humana podría incorporarse en el desarrollo de los LLM. "Cuando entrenamos estos algoritmos en primer lugar, o intentamos actualizarlos con retroalimentación humana, debemos tener en cuenta la función de generalización humana en la forma en que pensamos en la medición del rendimiento", dice. Mientras tanto, los investigadores esperan que su conjunto de datos pueda usarse como punto de referencia para comparar el rendimiento de los LLM en relación con la función de generalización humana, lo que podría ayudar a mejorar el rendimiento de los modelos implementados en situaciones del mundo real. "Para mí, la contribución del periódico es doble. La primera es práctica: el documento revela un problema crítico con la implementación de LLM para uso general del consumidor. Si las personas no tienen la comprensión adecuada de cuándo los LLM serán precisos y cuándo fallarán, entonces será más probable que vean errores y tal vez se desanimen de seguir usándolos. Esto pone de relieve el problema de alinear los modelos con la comprensión de la generalización por parte de las personas", dice Alex Imas, profesor de ciencias del comportamiento y economía en la Escuela de Negocios Booth de la Universidad de Chicago, que no participó en este trabajo. "La segunda contribución es más fundamental: la falta de generalización a los problemas y dominios esperados ayuda a obtener una mejor imagen de lo que los modelos están haciendo cuando logran que un problema sea 'correcto'. Proporciona una prueba de si los LLM 'entienden' el problema que están resolviendo". Esta investigación fue financiada, en parte, por la Iniciativa de Ciencia de Datos de Harvard y el Centro de IA Aplicada de la Escuela de Negocios Booth de la Universidad de Chicago.