Por Adán Hadhazy Un médico trabaja en una computadora. Un nuevo estudio de investigadores de Stanford ha destacado el potencial sin explotar de los grandes modelos de lenguaje, una forma de inteligencia artificial, para mejorar la precisión de los diagnósticos médicos y el razonamiento clínico. Los investigadores presentaron una serie de casos basados en pacientes reales al popular modelo ChatGPT-4 y a 50 médicos y les pidieron un diagnóstico. La mitad de los médicos utilizaron recursos de diagnóstico convencionales, como manuales médicos y búsquedas en Internet, mientras que la otra mitad tenía ChatGPT disponible como ayuda diagnóstica. En general, ChatGPT por sí solo tuvo un muy buen desempeño, con una puntuación media de aproximadamente 92, el equivalente a una calificación “A”. Los médicos de los grupos sin IA y con IA obtuvieron puntuaciones medias de 74 y 76, respectivamente, lo que significa que los médicos no expresaron una serie tan completa de pasos de razonamiento relacionados con los diagnósticos. Los investigadores afirman que este hallazgo contraintuitivo sugiere que los médicos tienen margen para aprender mejor y utilizar al máximo este tipo de herramientas de IA. Con una formación eficaz y una integración clínica, creen que los grandes modelos lingüísticos en los entornos sanitarios podrían acabar beneficiando a los pacientes. “Nuestro estudio demuestra que ChatGPT tiene potencial como herramienta poderosa en el diagnóstico médico, por lo que nos sorprendió ver que su disponibilidad para los médicos no mejoró significativamente el razonamiento clínico”, afirma el coautor principal del estudio Ethan Goh, investigador postdoctoral en la Facultad de Medicina de Stanford e investigador en el Centro de Investigación de Excelencia Clínica de Stanford . “Los hallazgos sugieren que existen oportunidades para seguir mejorando la colaboración entre médicos e IA en la práctica clínica y la atención médica en general”. “Es muy posible que, una vez que un ser humano siente que ha recibido un diagnóstico, no 'pierda tiempo ni espacio' en explicar más pasos para determinarlo”, añadió Jonathan H. Chen, profesor adjunto de la Facultad de Medicina de Stanford y autor principal del artículo. “También existe un fenómeno real: a menudo los expertos humanos no pueden explicar por sí mismos exactamente por qué tomaron las decisiones correctas”. El estudio fue publicado recientemente en JAMA Network Open y aceptado por el simposio 2024 de la Asociación Estadounidense de Informática Médica en noviembre. Entregando diagnósticos Los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) han cobrado gran importancia desde la llegada de ChatGPT en noviembre de 2022 de la mano de OpenAI, con sede en San Francisco. Los LLM son programas entrenados con cantidades masivas de datos que contienen lenguaje humano natural, como sitios web y libros. Con base en este entrenamiento, los LLM pueden responder a consultas de lenguaje natural con respuestas fluidas y coherentes. Los LLM ya han logrado avances significativos en numerosos campos, como las finanzas y la generación de contenidos, y se espera que la atención sanitaria también sea uno de los principales usuarios. Una de las aplicaciones reconocidas más prometedoras, dice Goh, es la reducción de errores de diagnóstico que siguen siendo demasiado comunes y perjudiciales en la medicina moderna. Hasta la fecha, muchos estudios han demostrado que los LLM son capaces de manejar preguntas de opción múltiple y de razonamiento médico abierto, pero el uso de las herramientas de IA más allá de la educación y en la práctica clínica real no ha sido tan bien examinado. Con su nuevo estudio multicéntrico, Goh y sus colegas intentaron abordar esta brecha. Los investigadores reclutaron a 50 médicos de la Universidad de Stanford, el Centro Médico Beth Israel Deaconess y la Universidad de Virginia. La mayoría de los médicos se especializaban en medicina interna, aunque también había representación de médicos de urgencias y de familia. A lo largo de una hora, los médicos participantes revisaron hasta seis casos clínicos complejos como los que aparecen en las pruebas de razonamiento diagnóstico y que se basan en historias clínicas reales de pacientes, exámenes físicos y resultados de laboratorio. En respuesta a los casos clínicos, los médicos participantes ofrecieron diagnósticos que consideraron plausibles, junto con pasos adicionales de evaluación del paciente. Al igual que en los entornos de atención médica normales, los participantes confiaron en su propio conocimiento y experiencia médica, así como en los materiales de referencia que se pusieron a su disposición. De los participantes asignados aleatoriamente para utilizar ChatGPT en su evaluación clínica, aproximadamente un tercio informó un uso previo frecuente u ocasional de la herramienta. Con base en los resultados dispares de ChatGPT solo en comparación con los médicos que tenían acceso a la herramienta, muchos de los médicos del grupo con acceso a ChatGPT no estuvieron de acuerdo con la predicción diagnóstica del modelo ni la tuvieron en cuenta. Aunque el acceso a ChatGPT no mejoró la precisión diagnóstica de los médicos, aquellos que tenían acceso completaron sus evaluaciones de casos individuales más de un minuto más rápido en promedio que aquellos médicos que no tenían ChatGPT como ayuda. Estos hallazgos, que necesitarán mayor validación a través de investigaciones adicionales dirigidas a este aspecto de ahorro de tiempo, sugieren que ChatGPT y herramientas similares en esta etapa temprana de adopción profesional pueden al menos mejorar la respuesta diagnóstica en entornos clínicos con limitaciones de tiempo. “ChatGPT puede ayudar a que la vida de los médicos sea más eficiente”, afirma Goh. “Esos ahorros de tiempo por sí solos podrían justificar el uso de grandes modelos lingüísticos y podrían traducirse en un menor agotamiento de los médicos a largo plazo”. Mejorar el trabajo en equipo entre humanos e IA A través de sus resultados, el estudio también señala formas de mejorar la colaboración entre médicos e IA en la práctica clínica. Goh sugiere que la confianza de los médicos es un elemento fundamental, lo que significa que, en la práctica, los médicos considerarían cuidadosamente la perspectiva de la IA como válida y potencialmente correcta. Este tipo de confianza ganada podría provenir en parte de que los médicos comprendan cómo se entrenó un modelo de IA y con qué materiales. En consecuencia, un LLM adaptado a la atención médica, en lugar de una IA generalizada como ChatGPT, podría infundir más confianza. Además, los médicos, al igual que todos los demás, necesitarán familiarizarse y adquirir experiencia en el uso de los LLM. El desarrollo profesional para aprender las mejores prácticas también podría dar sus frutos. Por encima de todo, la seguridad del paciente debe seguir siendo el centro de cualquier aplicación clínica de IA, señala Goh. Es necesario que existan barreras de protección del lado de los médicos para garantizar que las respuestas de la IA sean examinadas y no tratadas como el veredicto diagnóstico final, aconseja, y los pacientes seguirán esperando y queriendo la intermediación de un profesional humano de confianza. "La IA no está reemplazando a los médicos", dice Goh. "Solo su médico recetará medicamentos, realizará operaciones o administrará cualquier otra intervención". Sin embargo, la IA está aquí para ayudar, dice Goh. “Lo que más les importa a los pacientes que su diagnóstico es asegurarse de que, sea cual sea su enfermedad, reciba el tratamiento adecuado”, afirma Goh. “Los médicos humanos se encargan del tratamiento y la esperanza es que las herramientas de inteligencia artificial puedan ayudarlos a realizar su trabajo aún mejor”. Tras este estudio pionero, la Universidad de Stanford, el Centro Médico Beth Israel Deaconess, la Universidad de Virginia y la Universidad de Minnesota también han puesto en marcha una red de evaluación de IA bicostera llamada ARiSE (AI Research and Science Evaluation) para evaluar más a fondo los resultados de GenAI en el ámbito sanitario. Puede obtener más información en el sitio web de ARiSE . Otros autores del estudio afiliados a Stanford incluyen a Jason Hom, Eric Strong, Yingjie Weng y Neera Ahuja de la Facultad de Medicina de la Universidad de Stanford; Eric Horvitz de Microsoft y el Instituto de Stanford para la Inteligencia Artificial Centrada en el Ser Humano (HAI); Arnold Milstein del Centro de Investigación de Excelencia Clínica de Stanford; y el coautor principal Jonathan Chen del Centro de Investigación en Informática Biomédica de Stanford y el Centro de Investigación de Excelencia Clínica de Stanford. Otros autores del estudio son: Robert Gallo, coautor principal del Centro de Innovación para la Implementación del Sistema de Atención Médica VA Palo Alto; Hannah Kerman, Joséphine Cool y Zahir Kanjee del Centro Médico Beth Israel Deaconess y la Facultad de Medicina de Harvard; Andrew S. Parsons de la Facultad de Medicina de la Universidad de Virginia; Daniel Yang de Kaiser Permanente; y los coautores principales Andrew PJ Olson de la Facultad de Medicina de la Universidad de Minnesota y Adam Rodman del Centro Médico Beth Israel Deaconess y la Facultad de Medicina de Harvard.