Por Vignesh Ramachandran Las herramientas de inteligencia artificial médica ofrecen mejorar los diagnósticos de los pacientes, aligerar la carga de trabajo de los médicos y mejorar las operaciones hospitalarias. Pero, ¿cumplen estas herramientas sus promesas? Para responder a esta pregunta, los académicos de Stanford han desarrollado un marco de código abierto que permite a los sistemas hospitalarios determinar si una tecnología de inteligencia artificial aportaría más ventajas que desventajas a sus flujos de trabajo y a los resultados de los pacientes. A menudo, los proveedores de atención médica que implementan herramientas de IA listas para usar no cuentan con un proceso eficaz para monitorear su utilidad a lo largo del tiempo. Ahí es donde el marco de Stanford puede entrar en juego: la guía Fair, Useful, and Reliable AI Models (FURM) , que ya se utiliza en Stanford Health Care, evalúa la utilidad de la tecnología, que abarca desde detectores tempranos de enfermedades arteriales periféricas hasta un modelo de predicción de riesgos para pacientes con cáncer y un modelo de análisis de tomografías computarizadas que podría evaluar si alguien puede beneficiarse de una prescripción de estatinas. “Uno de los conocimientos clave que tenemos en nuestro campus es que el beneficio que obtenemos de cualquier solución o modelo de IA está inextricablemente ligado al flujo de trabajo en el que opera y si tenemos el tiempo y los recursos para usarlo realmente en un entorno de atención médica concurrido”, dijo el cocreador del marco FURM, el Dr. Nigam Shah , profesor de medicina y ciencia de datos biomédicos de Stanford, así como científico de datos jefe de Stanford Health Care. Otros académicos y desarrolladores están creando guías para garantizar que la IA sea segura y equitativa, dijo Shah, pero una brecha crítica radica en evaluar la utilidad de la tecnología y su implementación realista, ya que lo que funciona para un sistema de atención médica podría no funcionar para otro. Cómo funciona FURM La evaluación FURM tiene tres pasos: El qué y el porqué: comprender qué problemas resolvería el modelo de IA, cómo se utilizarían sus resultados y el impacto en los pacientes y el sistema de atención médica. Esta parte del proceso también proyecta la sostenibilidad financiera y evalúa las consideraciones éticas. El cómo: determinar si es realista implementar el modelo en los flujos de trabajo del sistema de atención de salud tal como se había previsto. El impacto: Planificación para la verificación inicial de los beneficios y para monitorear los resultados del modelo una vez que esté activo y evaluar cómo está funcionando. Shah cree que, igual que en Stanford, FURM podría ayudar a los sistemas de atención sanitaria a utilizar mejor su tiempo para centrarse en tecnologías que vale la pena probar, en lugar de limitarse a experimentar con todo para ver qué funciona. “Podría acabar con lo que se conoce como 'pilotitis', una 'enfermedad' que afecta a la organización y que consiste en realizar un proyecto piloto tras otro sin llegar a ninguna parte”, afirmó Shah. Además, Shah dice que es importante considerar la escala del impacto: un modelo puede ser bueno pero sólo ayudar a 50 pacientes. Más allá del ROI La IA también tiene implicaciones éticas que no deben ignorarse, enfatiza Michelle Mello , profesora de derecho y política de salud de Stanford. Mello y Danton Char , profesor asociado de anestesiología, medicina perioperatoria y del dolor de Stanford e investigador de bioética empírica, crearon el brazo de evaluación ética del marco FURM con el objetivo de ayudar a los hospitales a adelantarse de manera proactiva a los posibles problemas éticos. Por ejemplo, el equipo de ética recomienda formas en que los implementadores pueden desarrollar procesos más sólidos para monitorear la seguridad de las nuevas herramientas, evalúa si las nuevas herramientas deben divulgarse a los pacientes y cómo, y considera cómo el uso de herramientas de IA puede ampliar o reducir las disparidades en la atención médica entre los subgrupos de pacientes. La Dra. Sneha Jain , profesora clínica adjunta de medicina cardiovascular de Stanford y cocreadora de FURM, ha participado en el desarrollo de la metodología para evaluar prospectivamente las herramientas de IA una vez que estén activas, así como en el diseño de formas de hacer que el marco de FURM sea más accesible para los sistemas fuera de Stanford. Actualmente está construyendo el laboratorio GUIDE-AI de Stanford, que significa Guía para el uso, implementación, desarrollo y evaluación de la IA. El objetivo, dijo Jain, es doble: asegurar que sigamos mejorando nuestros procesos de evaluación de la IA y asegurar que no solo los sistemas de salud con muchos recursos puedan usar de manera responsable las herramientas de IA, sino también los hospitales con presupuestos tecnológicos más bajos. Mello y Char están realizando un trabajo similar para el proceso de evaluación ética, con financiación del Instituto de Investigación de Resultados Centrados en el Paciente y Stanford Impact Labs. “Las herramientas de inteligencia artificial se están implementando rápidamente en los sistemas de atención médica con distintos grados de supervisión y evaluación”, explicó Jain. “Nuestra esperanza es que podamos democratizar procesos de evaluación sólidos pero factibles para estas herramientas y los flujos de trabajo asociados para mejorar el tipo de atención que reciben los pacientes en todo Estados Unidos y, con suerte, algún día en todo el mundo”. En el futuro, este grupo interdisciplinario de investigadores de Stanford quiere seguir adaptando el marco FURM para satisfacer las necesidades de las cambiantes tecnologías de IA, incluida la IA generativa, que cambia y crece rápidamente día a día. “Si se desarrollan estándares o procesos que no son viables para las personas, simplemente no lo van a hacer”, agregó Mello. “Una parte clave de nuestro trabajo es descubrir cómo implementar herramientas de manera efectiva, especialmente en un campo en el que todos se esfuerzan por avanzar rápidamente”.