Investigadores de Stanford recurren a médicos para evaluar 11 grandes modelos lingüísticos

foto-resumen

El uso de grandes modelos lingüísticos (LLM) en el ámbito médico tiene un potencial transformador, prometiendo avances en áreas que abarcan desde el apoyo a la toma de decisiones clínicas y la educación médica hasta la comunicación con el paciente. Esta creciente relevancia se ve resaltada por informes recientes que indican que hasta dos tercios de los médicos estadounidenses utilizan herramientas de IA en su práctica. Para alcanzar este potencial de forma segura y eficaz, es fundamental desarrollar metodologías de evaluación rigurosas y clínicamente relevantes. Actualmente, los enfoques predominantes para evaluar las capacidades médicas de los LLM, concretamente los conjuntos de datos de referencia derivados de MMLU (Comprensión Masiva del Lenguaje Multitarea) y MedQA (Respuesta a Preguntas Médicas), utilizan principalmente formatos estáticos de preguntas de opción múltiple (MCQ). Si bien son valiosos para evaluar los conocimientos básicos, estos paradigmas de evaluación existentes presentan importantes desafíos que limitan su aplicabilidad a contextos clínicos reales. En primer lugar, suelen evaluar un espectro limitado de conocimientos médicos, descuidando a menudo otros casos de uso críticos y comunes de los LLM en la atención médica, como la comunicación con el paciente, la generación de documentación clínica o el resumen de la literatura médica. En segundo lugar, su naturaleza estática implica que no reflejan el conocimiento médico más reciente, como las últimas aprobaciones de medicamentos o las guías clínicas actualizadas recientemente. Además, la dependencia de formatos de preguntas de opción múltiple simplifica excesivamente las complejidades del razonamiento y la práctica clínica. Rara vez se presentan a los profesionales clínicos opciones predefinidas al diagnosticar a un paciente o formular un plan de tratamiento. Las evaluaciones centradas únicamente en identificar la respuesta "correcta" pasan por alto la importancia crucial del proceso de diagnóstico en sí. Particularmente en el diagnóstico clínico, el método de síntesis de la información y la presentación general del razonamiento suelen ser tan importantes, o incluso más, que la conclusión final. Los métodos existentes no captan estos matices, ofreciendo una imagen incompleta de la verdadera utilidad clínica de un LLM. Esto pone de relieve la necesidad crítica de marcos de evaluación que superen estas limitaciones actuales. En concreto, las evaluaciones de maestría en derecho (LLM) en medicina deben ser más dinámicas , capaces de reflejar las preguntas médicas más actuales y adaptarse a la naturaleza iterativa del cuestionamiento clínico, y más holísticas , evaluando la calidad integral de la respuesta, incluyendo el razonamiento, las conversaciones multi-turno y la pertinencia clínica, en lugar de simplemente evaluar la precisión factual en un conjunto fijo de respuestas. ¿Cómo podemos avanzar hacia una evaluación que incorpore preguntas clínicas reales con respuestas modelo evaluadas por profesionales clínicos ? Con este fin, presentamos MedArena.ai , una novedosa plataforma de evaluación de LLM diseñada específicamente para la medicina clínica. MedArena ofrece un espacio interactivo y gratuito para que los profesionales clínicos prueben y comparen los LLM más eficaces en sus consultas médicas. Cómo funciona MedArena MedArena está disponible exclusivamente para profesionales clínicos. Para autenticar a los usuarios, nos asociamos con Doximity, un servicio de redes sociales para profesionales médicos. Los profesionales clínicos pueden iniciar sesión con su cuenta de Doximity o, alternativamente, proporcionar su número de Identificador Nacional de Proveedor (NPI). En una consulta de entrada, se presentan al usuario las respuestas de dos LLM elegidos al azar y se le solicita que especifique el modelo que prefiere. Nuestra plataforma agrega las preferencias y presenta una tabla de clasificación, que clasifica los diferentes LLM entre sí. Para ayudar a los profesionales clínicos a comprender sus LLM preferidos, también ofrecemos clasificaciones personales basadas en los datos individuales del usuario, dado un número mínimo de preferencias. Desde nuestro lanzamiento general a principios de marzo, hemos recopilado más de 1200 preferencias de profesionales clínicos de más de 300 profesionales que representan más de 80 subespecialidades en 11 LLM de alto rendimiento de proveedores como OpenAI GPT, Google Gemini, Meta Llama y Anthropic Claude. Observamos que los modelos de Google Gemini tienen una preferencia significativamente mayor que otros modelos como GPT-4o y o1. Clasificamos las consultas de los médicos en una de seis categorías: Conocimientos médicos y evidencia, Tratamiento y guías, Casos clínicos y diagnóstico, Comunicación y educación del paciente, Documentación clínica e información práctica, y Miscelánea . Los conocimientos médicos y la evidencia solo representaron alrededor de un tercio (38%) de las preguntas realizadas, mientras que los otros dos tercios consistieron en preguntas sobre tratamientos, casos clínicos, documentación y comunicaciones. De las razones proporcionadas para la preferencia de respuesta del modelo, también las agrupamos en seis categorías: Profundidad y detalle, Precisión y validez clínica, Presentación y claridad, Uso de referencias y guías actualizadas, y Miscelánea. La razón más común (32%) proporcionada es Profundidad y detalle. Finalmente, al calcular las clasificaciones de los modelos mediante el modelo Bradley-Terry, también podemos controlar factores como el estilo y la longitud de las respuestas. En nuestro análisis, observamos que, si bien las respuestas más largas son significativamente preferidas y se correlacionan positivamente con mayores tasas de éxito, no son un predictor significativo de la preferencia por el modelo. Sin embargo, otros factores estilísticos, como la presencia de texto en negrita y listas, son factores de confusión importantes para la preferencia por el modelo. Nuestros hallazgos Al 23 de abril de 2025, Gemini 2.0 Flash Thinking era el modelo mejor valorado en MedArena, seguido de GPT-4o y Gemini 2.5 Pro. Curiosamente, observamos que modelos de razonamiento más potentes, como o1 u o3-mini de OpenAI, no superan a muchos modelos sin razonamiento, como GPT-4o y el modelo Llama de Perplexity. Nuestros primeros resultados también destacan la discrepancia entre las tareas de referencia existentes y los tipos de preguntas reales que formulan los profesionales sanitarios. Solo alrededor de un tercio de las consultas reales se clasificaron en la categoría tradicional de conocimiento y evidencia médica, el foco de la mayoría de las evaluaciones actuales (p. ej., MedQA, MMLU). La mayor parte de las aportaciones de los profesionales sanitarios se centró, en cambio, en áreas prácticas y contextualizadas, como la toma de decisiones sobre el tratamiento, la comunicación con el paciente y la documentación, dominios que las preguntas de opción múltiple estáticas no captan adecuadamente. Además, alrededor del 20 % de las conversaciones se realizaron en varios turnos, lo que tampoco se refleja en los parámetros de evaluación actuales. Esta divergencia subraya la necesidad de sistemas de evaluación basados ​​en flujos de trabajo clínicos reales. La diversidad de preferencias de los usuarios enfatiza aún más que la evaluación de modelos debe ir más allá de la corrección. Los profesionales clínicos citaron con frecuencia cualidades como la profundidad y el detalle y la claridad de la presentación como determinantes de sus preferencias; estas características son esenciales para la confianza y la utilidad, pero no se reflejan en las métricas automatizadas actuales. Curiosamente, se descubrió que elementos estilísticos como el formato (p. ej., negrita, listas) influyen significativamente en la preferencia de modelo, lo que revela que la usabilidad y la legibilidad percibidas desempeñan un papel importante en la evaluación de modelos. Esto plantea un desafío clave: cómo distinguir la verdadera calidad del razonamiento del modelo de las mejoras superficiales de la presentación en futuros marcos de evaluación. Estos hallazgos también resaltan la importancia de usar comparaciones por pares y modelos de clasificación en escenarios cara a cara, en lugar de basarse en puntuaciones de precisión estáticas. El modelo Bradley-Terry permite un análisis más matizado al considerar factores de confusión como la longitud y el formato de las respuestas. MedArena ofrece un marco escalable y centrado en el profesional clínico para la evaluación de los LLM en medicina. A medida que estas herramientas se incorporan cada vez más a los flujos de trabajo clínicos, esperamos que plataformas como MedArena mejoren la forma en que se evalúa la medicina clínica, de forma que refleje la naturaleza matizada y contextualizada de la práctica médica real. ****James Zou es profesor asociado de Ciencias de Datos Biomédicos y, por cortesía, de Ciencias de la Computación e Ingeniería Eléctrica en la Universidad de Stanford; Eric Wu es candidato a doctorado en ingeniería eléctrica; Kevin Wu es candidato a doctorado en informática biomédica.