¿De quién son las opiniones que reflejan los modelos lingüísticos?

foto-resumen

Desde el debut de ChatGPT en noviembre de 2022, los modelos de lenguaje han aparecido en todas las noticias. Pero a medida que la gente utiliza los chatbots (para escribir historias y buscar recetas, hacer planes de viaje e incluso promover su negocio inmobiliario), los periodistas, los formuladores de políticas y el público en general prestan cada vez más atención a la importante cuestión de qué opiniones reflejan estos modelos de lenguaje. En particular, una preocupación emergente es que el texto generado por IA pueda influir en nuestras opiniones, incluidas las creencias políticas, sin que nos demos cuenta. Este informe presenta un marco cuantitativo que permite a los formuladores de políticas evaluar el comportamiento de los modelos lingüísticos para evaluar qué tipos de opiniones reflejan. Conclusiones clave Informe de políticas de septiembre ➜ Los modelos lingüísticos están formados por una variedad de aportes y opiniones, desde las personas cuyos puntos de vista se incluyen en los datos de capacitación hasta los trabajadores colectivos que filtran manualmente esos datos. ➜ Descubrimos que los modelos de lenguaje ajustados con retroalimentación humana (es decir, modelos que recibieron capacitación adicional con aporte humano) eran menos representativos de las opiniones del público en general que los modelos que no estaban ajustados. ➜ Es posible orientar un modelo lingüístico hacia las opiniones de un grupo demográfico particular pidiéndole que responda como si fuera un miembro de ese grupo, pero esto puede llevar a efectos secundarios indeseables, como exacerbar la polarización y crear cámaras de eco. . ➜ Destacamos la necesidad de realizar más investigaciones sobre la evaluación de modelos lingüísticos que puedan ayudar a los formuladores de políticas y reguladores a evaluar cuantitativamente el comportamiento de los modelos lingüísticos y compararlo con las preferencias y opiniones humanas. Estudio completo en chrome-extension://efaidnbmnnnibpcajpcglclefindmkaj/https://hai.stanford.edu/sites/default/files/2023-09/Opinions_PolicyBrief_9.2023_v3.pdf Autores del estudio: Esin Durmus Tatsunori Hashimoto Faisal Ladhak Cinoo Lee Percy Liang Shibani Santurkar