Generando errores médicos: GenAI y referencias médicas erróneas

foto-resumen

Por Kevin Wu, Eric Wu, Daniel E. Ho y James Zou os modelos de lenguajes grandes (LLM) se están infiltrando en el campo médico. Uno de cada 10 médicos ya utiliza ChatGPT en el trabajo diario y los pacientes han recurrido a ChatGPT para autodiagnosticarse. El Today Show presentó la historia de un niño de 4 años, Alex, cuya enfermedad crónica fue diagnosticada por ChatGPT después de que más de una docena de médicos no lo hicieran. Esta rápida adopción con gran fanfarria se produce a pesar de incertidumbres sustanciales sobre la seguridad, eficacia y riesgo de la IA generativa (GenAI). El comisionado de la Administración de Alimentos y Medicamentos de Estados Unidos, Robert Califf, ha declarado públicamente que la agencia está "luchando" por regular la GenAI . La razón es que GenAI se encuentra en un área gris entre dos formas de tecnología existentes. Por un lado, los sitios como WebMD que informan estrictamente información médica conocida de fuentes creíbles no están regulados por la FDA . Por otro lado, la FDA evalúa cuidadosamente los dispositivos médicos que interpretan la información del paciente y hacen predicciones en dominios de riesgo medio a alto. Hasta la fecha, la FDA ha aprobado más de 700 dispositivos médicos de IA. Pero debido a que los LLM producen una combinación de información médica existente junto con ideas potenciales que van más allá de ella, la pregunta crítica es si dichos modelos producen referencias precisas para fundamentar sus respuestas. Estas referencias permiten a médicos y pacientes verificar una evaluación de GenAI y protegerse contra la tasa altamente prevalente de "alucinaciones". Por cada Alex de 4 años, donde la creatividad de un LLM puede producir un diagnóstico que los médicos omitieron, puede haber muchos más pacientes que se desvían por las alucinaciones. En otras palabras, gran parte del futuro de la GenAI en medicina (y su regulación) depende de la capacidad de fundamentar afirmaciones. Evaluación de referencias en LLM Desafortunadamente, existe muy poca evidencia sobre la capacidad de los LLM para fundamentar afirmaciones. En un nuevo estudio preimpreso , desarrollamos un enfoque para verificar qué tan bien los LLM pueden citar referencias médicas y si estas referencias realmente respaldan las afirmaciones generadas por los modelos. La respuesta corta: mal. Para el modelo más avanzado (GPT-4 con recuperación de generación aumentada), el 30% de las declaraciones individuales no están respaldadas y casi la mitad de sus respuestas no están completamente respaldadas. Evaluación de la calidad de la verificación de fuentes en LLM sobre consultas médicas. Cada modelo se evalúa según tres métricas sobre X preguntas. La validez de la URL de origen mide la proporción de URL generadas que devuelven una página web válida. El soporte a nivel de declaración mide el porcentaje de declaraciones respaldadas por al menos una fuente en la misma respuesta. El soporte a nivel de respuesta mide el porcentaje de respuestas que tienen todas sus declaraciones respaldadas. ¿Cómo desarrollamos este enfoque de evaluación? En primer lugar, uno de los desafíos más importantes radica en conseguir experiencia para verificar las afirmaciones. Trabajamos con médicos que revisaron cientos de declaraciones y fuentes para evaluar si cada declaración estaba respaldada por su fuente. Estas revisiones de expertos son, por supuesto, costosas y requieren mucho tiempo, por lo que a continuación decidimos ver si los LLM se pueden utilizar para escalar dichas evaluaciones de los médicos. Adaptamos GPT-4 para verificar si las fuentes fundamentan las declaraciones y encontramos que el enfoque es sorprendentemente confiable. El modelo tuvo una tasa de acuerdo más alta con el consenso de los médicos que la tasa de acuerdo entre médicos. Este enfoque es prometedor ya que sugiere que podríamos aprovechar los LLM para realizar evaluaciones sin requerir experiencia humana costosa con una rápida actualización de los LLM. Finalmente, utilizando este modelo, desarrollamos un proceso de evaluación de un extremo a otro llamado SourceCheckup . Este canal genera preguntas médicas representativas de consultas de foros médicos y extrae las respuestas y fuentes producidas por un LLM. Cada respuesta se divide en declaraciones individuales y cada declaración se compara con las fuentes proporcionadas para verificar si está respaldada. Evaluamos cinco de los mejores LLM en 1200 preguntas y un total de más de 40 000 pares de declaraciones y fuentes. Errores generalizados en la fundamentación Nuestros resultados son claros: la mayoría de los modelos tienen dificultades para producir fuentes relevantes. Cuatro de cada cinco modelos alucinan a una proporción significativa de fuentes al producir URL no válidas. Este problema desaparece con el modelo de generación aumentada de recuperación (RAG), que primero realiza una búsqueda en la web de fuentes relevantes antes de producir un resumen de sus hallazgos. Sin embargo, incluso en el modelo GPT-4 RAG, encontramos que hasta el 30% de las afirmaciones realizadas no están respaldadas por ninguna fuente proporcionada, y casi la mitad de las respuestas contienen al menos una afirmación no respaldada. Este hallazgo es más exagerado en los otros cuatro modelos, con tan solo el 10% de las respuestas totalmente respaldadas en Gemini Pro, el LLM recientemente lanzado por Google. Por ejemplo, una respuesta del GPT-4 RAG indicó que los criterios para las adicciones al juego (del Manual Diagnóstico y Estadístico de los Trastornos Mentales) son igualmente aplicables a todos los individuos y grupos. Pero la fuente a la que hizo referencia concluyó lo contrario y encontró que "el supuesto impacto igual de cada criterio carece de respaldo en los hallazgos". En otro ejemplo, el modelo recomendó una dosis inicial de 360 ​​julios para un desfibrilador monofásico (uno donde la corriente corre en una dirección para tratar a un paciente con paro cardíaco), pero la fuente solo mencionó desfibriladores bifásicos (donde la corriente corre en ambos sentidos). Esa falta de distinción puede ser muy importante, ya que ha habido un cambio en la tecnología hacia desfibriladores bifásicos que de hecho utilizan corrientes eléctricas más bajas . En resumen, incluso los modelos más avanzados no logran fundamentar las respuestas. Si bien los modelos RAG, que se han propuesto como solución para las alucinaciones, mejoran el rendimiento, no son una panacea. Los errores son más probables en las consultas no profesionales Muchos han argumentado que los LLM pueden democratizar el acceso a la atención médica al brindar información muy necesaria a los pacientes sin necesidad de un médico. Nuestro marco de evaluación nos permite valorar si los errores varían según el tipo de consulta. Nuestras preguntas médicas se basan en tres textos de referencia subyacentes: (1) MayoClinic, que proporciona páginas informativas orientadas al paciente, (2) UpToDate, que proporciona artículos a los médicos con un nivel más profundo de detalle médico, y (3) r/ de Reddit. Foro AskDocs, que incluye muchas preguntas no profesionales que pueden no tener respuestas claramente definidas y que requieren información de diversos dominios médicos. Descubrimos que la capacidad de los LLM para fundamentar las respuestas varía sustancialmente según el tipo de investigación. El rendimiento es mejor para MayoClinic y UpToDate y peor para Reddit. Sólo el 30% de las respuestas a las consultas basadas en Reddit pueden ser plenamente fundamentadas por fuentes de GPT4 RAG. En otras palabras, nuestros hallazgos sugieren que los LLM funcionan peor exactamente para el tipo de pacientes que podrían necesitar más esta información. Cuando las consultas están mediadas por profesionales médicos, a los LLM les resulta más fácil señalar fuentes confiables. Esto tiene implicaciones sustanciales para los efectos distributivos de esta tecnología en el conocimiento de la salud. 'Un largo camino por recorrer' Muchos comentaristas han declarado el fin de la atención médica tal como la conocemos, dada la aparente capacidad de los LLM para aprobar los exámenes de licencia médica de EE. UU. Pero la práctica de la atención sanitaria implica algo más que la capacidad de responder a un examen de opción múltiple. Implica fundamentar, explicar y evaluar afirmaciones con fuentes científicas confiables. Y en ese sentido, a GenAI todavía le queda un largo camino por recorrer. Las direcciones de investigación prometedoras incluyen un trabajo más informado sobre el dominio, como la adaptación de RAG específicamente a aplicaciones médicas. La verificación de las fuentes debe evaluarse periódicamente para garantizar que los modelos proporcionen información creíble y confiable. Al menos según el enfoque actual de la FDA (que distingue entre bases de conocimientos médicos y herramientas de diagnóstico reguladas como dispositivos médicos), los LLM ampliamente utilizados plantean un problema. Muchas de sus respuestas no pueden ser respaldadas de manera consistente y total por las fuentes médicas existentes. A medida que los LLM continúan creciendo en sus capacidades y uso, los reguladores y los médicos deben considerar cuidadosamente cómo se evalúan, utilizan e integran estos modelos. AUTORES Kevin Wu es estudiante de doctorado en Informática Biomédica en la Universidad de Stanford. Eric Wu es estudiante de doctorado en Ingeniería Eléctrica en la Universidad de Stanford. Daniel E. Ho es profesor de derecho William Benjamin Scott y Luna M. Scott, profesor de ciencias políticas, profesor de informática (por cortesía), miembro principal de HAI, miembro principal de SIEPR y director del RegLab de la Universidad de Stanford. James Zou es profesor asociado de Ciencia de Datos Biomédicos y, por cortesía, de Ciencias de la Computación e Ingeniería Eléctrica en la Universidad de Stanford. También es investigador Chan-Zuckerberg.