Grandes modelos lingüísticos en el sector sanitario: ¿Ya hemos llegado?

foto-resumen

Con toda la investigación y el desarrollo en curso de grandes modelos lingüísticos, podría parecer una conclusión inevitable que los sistemas de salud deberían, a estas alturas, estar cosechando su valor. Sin embargo, un artículo reciente de STATnews todavía destaca una brecha. En uno de estos ejemplos, a un LLM se le asignó la tarea de responder a los mensajes de los pacientes. A primera vista, esta tarea parece prometedora para reducir el agotamiento de los médicos en tareas en las que no se requiere un médico y permitirles más tiempo para la atención del paciente. Desafortunadamente, un estudio que evaluó su desempeño encontró que un porcentaje finito de las respuestas de LLM a los pacientes tenían errores de seguridad y, en un caso, el consejo dado a un paciente podría haber sido fatal. Esta brecha entre la promesa y la práctica real puede parecer sorprendente, ya que los sistemas de salud no son ajenos a la implementación de tecnología de vanguardia: registros médicos electrónicos (EMR), bases de datos de imágenes, etc. Pero la IA generativa como tecnología es muy diferente de las implementaciones anteriores, como se discute en este artículo de perspectiva de JAMIA. Anteriormente, los sistemas de salud han implementado la IA tradicional, que es mucho más predecible: se definió una pregunta clínica, se entrenó un modelo y los algoritmos de predicción ayudaron con la atención clínica. Las actualizaciones de la versión fueron graduales y las prioridades se determinaron de arriba hacia abajo. Las capacidades emergentes de GenAI y su rápido desarrollo continuo han trastocado estas vías habituales de implementación. Para aprovechar el potencial de GenAI en la atención médica, creemos que los enfoques sistemáticos de la evaluación, y el aprovechamiento de la comunidad más amplia de estándares de ciencias de la computación para modelos básicos, pueden llevarnos a un lugar en el que los LLM puedan ser positivos para los sistemas de salud. Entonces, ¿dónde debería enfocarse específicamente el trabajo adicional para ayudar a llevar los LLM al horario estelar en la atención médica? Para responder a esta pregunta, primero nos inspiramos en el importante trabajo ya realizado en la prueba y evaluación de LLM para casos de uso sanitario. Aquí resumimos los aprendizajes aprendidos hasta el momento e identificamos áreas de enfoque potencial en el futuro. Conclusiones de las pruebas y la evaluación Ya se ha realizado mucho trabajo para probar y evaluar los LLM para casos de uso de atención médica, lo que se destaca en una revisión reciente, que identificó 519 estudios que involucran la evaluación de LLM de atención médica y los clasificó por varias características que incluyen: datos utilizados en el estudio, tareas de atención médica, tareas de procesamiento y comprensión del lenguaje natural, dimensiones de evaluación y las especialidades médicas estudiadas. Hay varias conclusiones notables de este trabajo: En primer lugar, en cuanto a los datos utilizados, la gran mayoría de los estudios de esta revisión no se evaluaron con datos reales de atención al paciente, sino que comprendieron una combinación de preguntas de exámenes médicos, viñetas de pacientes y preguntas generadas por expertos en la materia. Si bien son útiles hasta cierto punto, estos datos están cuidadosamente seleccionados (ejemplos como el conjunto de datos de MedQA) y no son una visión del "mundo real" de los datos médicos reales. Cabe destacar que solo el 5% de los estudios de esta revisión sistemática evaluaron el rendimiento de la LLM en datos reales de atención al paciente. Un ejemplo de un estudio que utilizó datos reales de atención al paciente en las evaluaciones fue nuestro estudio MedAlign, en el que los médicos evaluaron las respuestas de LLM a instrucciones (indicaciones) específicas generadas por el médico que hacían referencia a una historia clínica electrónica específica. Si bien la revisión manual requirió muchas horas de tiempo del médico y hubo dificultades para evaluar la concordancia del médico, creemos que este tipo de pruebas en el mundo real con datos de pacientes es imprescindible para evaluar el valor de los LLM para uso clínico. En segundo lugar, si bien se han evaluado varios tipos diferentes de tareas de atención médica, notamos una agrupación en torno a ciertas categorías de tareas. A modo de ejemplo, alrededor de la mitad de los LLM evaluados en los estudios revisados se centraron en mejorar el conocimiento médico principalmente a través de exámenes de licencia médica como el USMLE. Le siguieron las tareas diagnósticas (19,5%) y las recomendaciones de tratamiento (9,2%). Por el contrario, hubo menos trabajo en el espacio de evaluación de los LLM para tareas no clínicas y administrativas, lo que puede tener un mayor impacto en el agotamiento de los médicos, como se destaca en esta encuesta de la AMA. Dichas tareas incluyen la facturación, la redacción de recetas, la generación de referencias, la redacción de notas clínicas o incluso tareas más allá de la atención al paciente, como la inscripción en la investigación. Por ejemplo, abordamos esto en un estudio reciente para ayudar a acelerar la inscripción de pacientes en ensayos clínicos. Esto es particularmente un desafío en los hospitales comunitarios, donde hay menos recursos disponibles para ayudar a evaluar a los pacientes para determinar quién es elegible para los ensayos. ¿La conclusión? Los LLM pueden ser bastante efectivos para realizar esta evaluación como un componente del proceso, lo que hace que las inscripciones sean más rápidas y rentables. En tercer lugar, existe una falta de consenso sobre qué dimensiones de la evaluación considerar y priorizar para las diversas tareas de salud. Como se muestra en la tabla 3 de este artículo de MedRxiv, se utilizan varias dimensiones de las evaluaciones, como la precisión, la calibración y la robustez. En particular, si bien la precisión es la dimensión que se examina con más frecuencia al evaluar el desempeño de LLM, también se deben considerar otras dimensiones como la equidad, el sesgo y la toxicidad, la solidez y las consideraciones de implementación. Los LLM tienden a reflejar lo que han aprendido de sus datos de entrenamiento y, por lo tanto, pueden propagar varios sesgos que deben evitarse. Del mismo modo, dada la naturaleza sensible al tiempo de la atención médica y el hecho de que el tiempo de los médicos es invaluable, es imperativo que los LLM puedan funcionar de manera sólida para adaptarse a diversas perturbaciones como errores tipográficos, uso de sinónimos, etc. Además, la implementación efectiva en el mundo real depende de factores como el tiempo de ejecución de inferencia y la rentabilidad. Los esfuerzos para ayudar a estandarizar las evaluaciones incluyen la Evaluación Holística de Modelos de Lenguaje (HELM, por sus siglas en inglés) en Stanford, pero es necesario seguir trabajando para considerar las dimensiones que son importantes en el espacio de la atención médica. Además, se necesita más trabajo para garantizar que se prueben las tareas clínicas en una variedad de subespecialidades. Esto se debe a la naturaleza inherente de las diferentes prioridades en cada subespecialidad, por lo que es posible que los LLM implementados en diferentes subespecialidades deban evaluarse de manera diferente (cirugía vs. psiquiatría, por ejemplo). En términos de esta revisión sistemática, se observó que la medicina nuclear, la medicina física y la genética médica parecían particularmente subrepresentadas en términos de tareas relacionadas con la LLM específicas de la especialidad. Potenciar la evaluación sistemática mediante el uso de agentes con preferencias humanas Si bien se han logrado avances significativos, históricamente los esfuerzos de evaluación siguen requiriendo un trabajo manual significativo, que es costoso y limita el ritmo del progreso. Para escalar estos esfuerzos, un nuevo trabajo está abordando cómo se pueden usar los agentes de IA que utilizan preferencias humanas para evaluar los LLM. El término "IA constitucional" se ha acuñado para describir la configuración de estos agentes para cumplir con una lista de reglas o principios hechos por humanos. Un estudio específico que utilizó agentes con preferencias humanas se relacionó con la evaluación de los resultados de contenido relacionado con la raza que potencialmente podría perpetuar los estereotipos. En este estudio, un agente evaluador de LLM evaluó 1.300 respuestas, lo que muestra la viabilidad potencial de que un agente de autoevaluación evalúe la presencia de contenido que pueda perpetuar los estereotipos raciales. Esperamos ver más de estos estudios específicamente adaptados a la atención médica para ayudar a ampliar los esfuerzos de evaluación. Conclusión Si bien los LLM y la IA generativa en general muestran un potencial real para la atención médica, estas herramientas aún no están listas. La comunidad médica y los desarrolladores deben desarrollar una evaluación más rigurosa, analizar todas las especialidades, capacitarse con datos del mundo real y explorar tipos más útiles de GenAI más allá de los modelos actuales. Pero, en última instancia, creemos que estas herramientas pueden ayudar a mejorar tanto la carga de trabajo de los médicos como los resultados de los pacientes. Necesitamos urgentemente establecer bucles de evaluación para los LLM en los que los modelos se construyan, implementen y luego se evalúen continuamente a través de los comentarios de los usuarios. La misión de Stanford HAI es avanzar en la investigación, la educación, la política y la práctica de la IA para mejorar la condición humana. Más información en https://hai.stanford.edu/navigate/welcome Cuadros en https://hai.stanford.edu/news/large-language-models-healthcare-are-we-there-yet Autores: Jenelle Jindal, Suhana Bedi, Akshay Swaminathan, Michael Wornow, Jason Fries, Akash Chaurasia, Nigam Shah