IA+Educación: Cómo los modelos de lenguaje a gran escala podrían acelerar la creación de nuevos y prometedores planes de estudio para las aulas

Por Nikki Goth Itoi Desarrollar nuevos programas de estudio para el aula es un proceso complejo que requiere mucho tiempo. Los instructores deben crear lecciones y luego realizar experimentos con numerosos estudiantes en diferentes condiciones para asegurarse de que funcionen para todos los alumnos. Los académicos de Stanford que trabajan en la intersección de la IA y la educación plantearon una pregunta interesante: ¿podría la IA mejorar el proceso? En un estudio publicado recientemente , muestran cómo los grandes modelos lingüísticos (LLM) pueden imitar a los expertos que crean y evalúan nuevos materiales para ayudar a los diseñadores de planes de estudio a hacer llegar a los estudiantes contenido educativo de mayor calidad con mayor rapidez. “En los métodos tradicionales, los instructores diseñan cada detalle, desde los temas que se van a cubrir hasta los problemas de ejemplo que deben resolver los estudiantes y los videos de apoyo y otros medios. Luego prueban el material con los estudiantes para ver qué es lo que resulta más efectivo”, dice Joy He-Yueya, estudiante de doctorado en ciencias de la computación que forma parte del Laboratorio de IA de Stanford ( SAIL ). “Es un proceso lento con muchos desafíos logísticos. Pensamos que podría haber una mejor manera”. Con el apoyo de una beca de investigación plurianual Hoffman-Yee , He-Yueya y sus coasesores, la profesora asociada de informática y afiliada de la facultad de Stanford HAI Emma Brunskill y el profesor asociado de psicología y informática Noah D. Goodman , comenzaron a intercambiar ideas sobre enfoques alternativos. Anteriormente, los investigadores de IA habían intentado construir modelos computacionales del aprendizaje de los estudiantes que pudieran usarse para optimizar los materiales didácticos; sin embargo, este enfoque no fue suficiente debido a la dificultad de modelar la dinámica cognitiva de los estudiantes humanos. En cambio, el trío se preguntó si se podría entrenar a un modelo para que actuara como un maestro y usara su propio criterio para evaluar nuevos materiales de aprendizaje. La IA como instructora En primer lugar, los investigadores necesitaban verificar si un LLM podría ser un evaluador eficaz de materiales educativos. En una evaluación simulada de expertos, los investigadores pidieron a GPT-3.5 que considerara el conocimiento previo de un estudiante sobre un concepto matemático, junto con un conjunto específico de problemas de palabras, y que predijera el desempeño del estudiante en preguntas de prueba administradas después de la lección. Para esta fase de la investigación, el equipo quería comprender si ciertos materiales de aprendizaje son efectivos para diferentes tipos de estudiantes, como estudiantes de octavo grado que aprenden álgebra o estudiantes de quinto grado que tienen dificultades con las fracciones. Para evaluar las capacidades del modelo como experto educativo simulado, los investigadores decidieron realizar un pequeño conjunto de pruebas básicas para ver si las evaluaciones curriculares del modelo podían replicar dos fenómenos bien conocidos en psicología educativa. El primero es que las estrategias de enseñanza deben cambiar a medida que se desarrollan las habilidades del alumno. Mientras que los principiantes se benefician de una guía estructurada en los materiales, los estudiantes más competentes se desempeñan mejor con una guía mínima. El equipo de Stanford razonó que si el LLM replicaba este "efecto de inversión de la experiencia" en sus evaluaciones de los materiales de aprendizaje, esto sería un buen indicador del potencial de la IA para imitar a los profesores humanos. Según el segundo fenómeno, llamado “efecto de variabilidad”, introducir una mayor variedad de problemas prácticos no siempre ayuda a los estudiantes a dominar un concepto porque puede sobrecargar su capacidad de memoria. En otras palabras, menos es más. Cuando los investigadores pusieron su modelo a prueba para evaluar problemas matemáticos que involucraban sistemas de ecuaciones y diferentes grupos de estudiantes, una vez más, los resultados reflejaron este patrón conocido de resultados. El enfoque de optimización de instrucciones Una vez que confirmaron el potencial de un instructor de IA para evaluar nuevos materiales, los investigadores dirigieron su atención a la cuestión de si un par de modelos podrían trabajar juntos para optimizar el contenido educativo. Propusieron un enfoque de canalización en el que un modelo genera nuevo material educativo y el otro evalúa los materiales prediciendo los resultados de aprendizaje de los estudiantes, medidos por las puntuaciones de las pruebas posteriores. Aplicaron este enfoque de optimización de la instrucción para desarrollar nuevas hojas de trabajo de problemas matemáticos. En general, el enfoque de la IA funcionó bien: en un estudio en el que participaron 95 personas con experiencia docente, los expertos coincidieron en general con el evaluador de IA en cuanto a qué hojas de trabajo generadas por IA serían más eficaces. Los académicos observaron algunas excepciones, en las que los docentes no encontraron una diferencia significativa entre las hojas de trabajo que la IA consideró significativamente diferentes. Los hallazgos de esta investigación se detallan en un artículo de 2024 publicado en la Conferencia de Minería de Datos Educativos: Evaluación y optimización de contenido educativo con juicios de modelos de lenguaje amplios . “Si bien los LLM no deben considerarse un reemplazo de la experiencia docente o de datos reales sobre lo que mejor ayuda a los estudiantes, nuestra esperanza es que este enfoque pueda ayudar a los docentes y a los diseñadores instruccionales”, dijo Brunskill.