Avances en IA ofrecen a los investigadores de las ciencias sociales la capacidad de simular sujetos humanos.

foto-resumen

Por Katharine Miller Al mejorar nuestra comprensión del comportamiento humano, la investigación en ciencias sociales ayuda a las empresas a diseñar programas de marketing exitosos, garantiza que las políticas gubernamentales respondan a las necesidades de las personas y apoya el desarrollo de estrategias apropiadas para combatir enfermedades y mantener la seguridad pública. Esta investigación abarca los campos de la economía, la psicología, la sociología y la ciencia política y utiliza una variedad de enfoques, desde trabajo de campo hasta encuestas en línea, ensayos controlados aleatorios, grupos focales, observación y más. Pero toda investigación en ciencias sociales se complica por su tema: las personas. “No se trata de placas de Petri ni de plantas que permanecen inmóviles y nos permiten experimentar durante largos periodos”, afirma Jacy Anthis , investigadora visitante del Instituto Stanford de IA Centrada en el Ser Humano (IAC) y candidata a doctorado en la Universidad de Chicago. “Y dado que estudiamos sujetos humanos, esta investigación puede ser larga, costosa y difícil de replicar”. Sin embargo, gracias a los avances en IA, los científicos sociales ahora pueden simular datos humanos. Los grandes modelos de lenguaje (LLM) que emulan el habla humana pueden representar el rol de científicos sociales expertos o de diversos sujetos humanos para comprobar hipótesis de forma económica, realizar estudios piloto, estimar tamaños de muestra óptimos y aprovechar el poder estadístico que proporciona la combinación de sujetos humanos y LLM. Sin embargo, todavía quedan algunos aspectos en los que los LLM no son un buen sustituto de los sujetos humanos, señala Anthis en un nuevo artículo preimpreso : a menudo dan respuestas menos variadas, sesgadas o aduladoras; y no se generalizan bien a nuevos entornos. Aun así, Anthis y otros son optimistas sobre el uso de los LLM para la investigación en ciencias sociales, ya que algunos métodos preliminares ya han producido resultados prometedores. Si otros investigadores atienden su llamado a la acción, afirma Anthis, un año más de trabajo podría resultar en mejoras sustanciales. «A medida que la tecnología y la sociedad evolucionan rápidamente, necesitamos herramientas de ciencias sociales como simulaciones que puedan seguir el ritmo». Evaluación de la IA como representante humano Si bien la IA ha avanzado considerablemente en comparación con los parámetros de referencia populares, su capacidad para imitar a los humanos es un desarrollo más reciente. Para determinar su precisión en la predicción del comportamiento humano, Luke Hewitt , investigador principal de Stanford PACS , y sus colegas Robb Willer , Ashwini Ashokkumar e Isaias Ghezae compararon los LLM con ensayos controlados aleatorizados (ECA) previos: ¿Podrían los LLM replicar con éxito los resultados de ensayos realizados con sujetos humanos? Los RCT típicos implican un "tratamiento": información o acción que los investigadores esperan que influya en las actitudes o el comportamiento de una persona. Por ejemplo, un investigador podría pedir a los participantes que lean un texto, vean un video corto o participen en un juego sobre un tema (por ejemplo, el cambio climático o las vacunas), luego preguntarles su opinión sobre dicho tema y comparar sus respuestas con las de un grupo de control que no se sometió al tratamiento. ¿Cambiaron sus opiniones en comparación con los controles? ¿Es más probable que cambien, inicien o abandonen comportamientos relevantes? Para su proyecto , Hewitt y sus colegas utilizaron el modelo de lenguaje GPT-4 para simular cómo respondería una muestra representativa de estadounidenses a 476 tratamientos aleatorios diferentes previamente estudiados. Descubrieron que, en experimentos con encuestas en línea, las predicciones LLM de las respuestas simuladas fueron tan precisas como las predicciones de expertos humanos y presentaron una fuerte correlación (0,85) con los efectos medidos del tratamiento. Esta precisión es impresionante, afirma Hewitt. El equipo se sintió especialmente motivado al encontrar el mismo nivel de precisión incluso al replicar estudios publicados después del entrenamiento de GPT-4. «Muchos habrían esperado que el LLM tuviera éxito simulando experimentos que formaban parte de sus datos de entrenamiento y fallara en experimentos nuevos que no había visto antes», afirma Hewitt. «En cambio, descubrimos que el LLM podía realizar predicciones bastante precisas incluso para experimentos completamente nuevos». Desafortunadamente, afirma, los modelos más nuevos son más difíciles de verificar. Esto no solo se debe a que sus datos de entrenamiento incluyen estudios más recientes, sino también a que los LLM están empezando a realizar sus propias búsquedas en la web, lo que les da acceso a información para la que no fueron capacitados. Para evaluar estos modelos, los académicos podrían necesitar crear un archivo de estudios inéditos que nunca antes se habían publicado en internet. La IA es de mente estrecha Si bien los LLM muestran una precisión potencial a la hora de replicar estudios, enfrentan otros desafíos importantes que los académicos deberían encontrar formas de abordar. Una de ellas es la alineación distributiva: los LLM tienen una notable incapacidad para igualar la variación de las respuestas de los humanos. Por ejemplo, en un juego de "elige un número", los LLM suelen elegir un rango de respuestas más reducido (y curiosamente predecible) que el de las personas. "Pueden distorsionar y aplanar muchos grupos", afirma Nicole Meister, estudiante de posgrado en ingeniería eléctrica en Stanford. En un artículo reciente , Meister y sus colegas evaluaron diferentes maneras de solicitar y medir la distribución de las respuestas de un LLM a varias preguntas. Por ejemplo, se podría solicitar a un LLM que responda una pregunta sobre la moralidad de beber alcohol seleccionando una de cuatro opciones de opción múltiple, A, B, C o D. Un LLM generalmente produce solo una respuesta, pero un enfoque para medir la distribución de posibles respuestas es mirar una capa más profunda en el modelo para ver la probabilidad evaluada del modelo de cada una de las cuatro respuestas antes de que tome una decisión final. Pero resulta que esta llamada distribución de "probabilidad logarítmica" no es muy similar a las distribuciones humanas, dice Meister. Otros enfoques produjeron una variación más parecida a la humana: pedirle al LLM que simule las respuestas de 30 personas o pedirle que verbalice la distribución probable. El equipo obtuvo resultados aún mejores al proporcionar al LLM información distributiva sobre cómo un grupo suele responder a una pregunta relacionada, un enfoque que Meister denomina "guiado por pocos intentos". Por ejemplo, un LLM que respondiera a una pregunta sobre la opinión de demócratas y republicanos sobre la moralidad del consumo de alcohol se ajustaría mejor a las respuestas humanas reales si el modelo se basara en la distribución de opiniones de demócratas y republicanos sobre religión o conducir bajo los efectos del alcohol. El enfoque de pocas oportunidades funciona mejor para preguntas basadas en opiniones y menos para preferencias, señala Meister. «Si alguien piensa que los coches autónomos son malos, probablemente pensará que la tecnología es mala, y el modelo dará ese salto», afirma. «Pero si me gustan los libros de guerra, no significa que no me gusten los de misterio, así que es más difícil para un LLM hacer esa predicción». Esta es una preocupación creciente a medida que algunas empresas comienzan a usar los LLM para predecir aspectos como las preferencias de productos. «Los LLM podrían no ser la herramienta adecuada para este propósito», afirma. Subtítulo: Otros desafíos: validación, sesgo, adulación y más Como ocurre con la mayoría de las tecnologías de IA, el uso de LLM en las ciencias sociales podría ser perjudicial si se emplean simulaciones de LLM para reemplazar experimentos humanos o si se utilizan de maneras que no están bien validadas, afirma Hewitt. Al usar un modelo, es necesario tener una idea de si se debe confiar en él: ¿Su caso de uso se asemeja lo suficiente a otros usos para los que el modelo ha sido validado? «Estamos progresando, pero en la mayoría de los casos no creo que aún tengamos ese nivel de confianza», afirma Hewitt. También será importante, afirma Hewitt, cuantificar mejor la incertidumbre de las predicciones de los modelos. «Sin cuantificar la incertidumbre», añade, «la gente podría confiar insuficientemente en las predicciones de un modelo en algunos casos y demasiado en otros». Según Anthis, otros desafíos clave para el uso de los LLM en la investigación en ciencias sociales incluyen: Sesgo: Los modelos presentan sistemáticamente grupos sociales particulares de manera inexacta, a menudo basándose en estereotipos raciales, étnicos y de género. Adulación: Los modelos diseñados como “asistentes” tienden a ofrecer respuestas que pueden parecer útiles a las personas, independientemente de si son precisas o no. Extrañeza: Las respuestas de los modelos pueden parecerse a las de un humano, pero en un nivel más profundo son completamente ajenas. Por ejemplo, un LLM podría decir que 3,11 es mayor que 3,9, o podría resolver un problema matemático simple con un método extrañamente complejo. Generalización: Los LLM no generalizan con precisión más allá de los datos disponibles, por lo que los científicos sociales pueden tener dificultades para utilizarlos para estudiar nuevas poblaciones o el comportamiento de grupos grandes. Estos desafíos son abordables, afirma Anthis. Los investigadores ya pueden aplicar ciertas estrategias para mitigar el sesgo y la adulación; por ejemplo, la simulación basada en entrevistas , pedirle al LLM que interprete el rol de un experto o perfeccionar un modelo para optimizarlo para la simulación social. Abordar los problemas de alienación y generalización es más complejo y podría requerir una teoría general sobre el funcionamiento de los LLM, algo que actualmente no existe, afirma. ¿Mejores prácticas actuales? Un enfoque híbrido A pesar de los desafíos, los LLM actuales aún pueden desempeñar un papel en la investigación en ciencias sociales. David Broska , estudiante de posgrado en sociología en Stanford, ha desarrollado una metodología general para el uso responsable de los LLM, que combina sujetos humanos y predicciones de LLM en un diseño de sujetos mixtos. “Ahora tenemos dos tipos de datos”, dice. “Uno son las respuestas humanas, que son muy informativas pero costosas, y el otro, las predicciones LLM, que son menos informativas pero económicas”. La idea es realizar primero un pequeño estudio piloto con humanos y también el mismo experimento con un LLM para comprobar la intercambiabilidad de los resultados. Este enfoque, denominado inferencia basada en predicciones, combina eficazmente ambos recursos de datos, evitando que el LLM introduzca sesgos. «Queremos conservar la información de los sujetos humanos y aumentar nuestra confianza en el efecto general del tratamiento, a la vez que evitamos estadísticamente que el LLM disminuya la credibilidad de nuestros resultados», afirma. Un estudio piloto híbrido inicial también puede proporcionar un análisis de potencia: una estimación concreta de la proporción de sujetos humanos y de LLM con mayor probabilidad de generar un resultado estadísticamente significativo, afirma Broska. Esto prepara a los investigadores para el éxito en un estudio híbrido que podría ser potencialmente más económico. En términos más generales, Hewitt ve casos en los que las simulaciones LLM ya son útiles. «Si ahora mismo estuviera diseñando un estudio para probar una intervención que cambie la actitud de la gente sobre el clima en relación con una noticia o una nueva política, o para aumentar la confianza pública en las vacunas, sin duda simularía primero ese experimento en un LLM y usaría los resultados para reforzar mi intuición». La confianza en el modelo es menos importante si el LLM solo ayuda a seleccionar las condiciones experimentales o la redacción de una pregunta de encuesta, afirma Hewitt. Los sujetos humanos siguen siendo primordiales. “Al final del día, si estás estudiando el comportamiento humano, tu experimento debe basarse en datos humanos”.