Mirando la caja negra de los programas médicos de IA

Por Adam Hadhazy os investigadores han desarrollado una nueva forma de revelar cómo los programas de inteligencia artificial llamados clasificadores toman decisiones al realizar diagnósticos médicos. Aunque estos clasificadores de IA ofrecen inmensas promesas en el ámbito de la atención sanitaria, su naturaleza de “caja negra”, donde el razonamiento detrás de su toma de decisiones es opaco para los humanos, ha obstaculizado la confiabilidad. Para quitar el telón a los clasificadores inescrutables, investigadores de la Universidad de Stanford y la Universidad de Washington han aprovechado la experiencia humana junto con otro tipo de inteligencia artificial, la IA generativa . En primer lugar, los investigadores encargaron a los algoritmos de IA de dermatología caracterizar imágenes de lesiones cutáneas como probablemente malignas (indicativas de melanoma, la forma más mortal de cáncer de piel) o probablemente benignas. Luego, los investigadores entrenaron un modelo de IA generativa emparejado con cada algoritmo de IA dermatológico para producir miles de imágenes de lesiones modificadas que parecían "más benignas" o "más malignas" para el algoritmo. Finalmente, dos dermatólogos humanos evaluaron las imágenes para evaluar qué tipo de características habían tenido en cuenta los clasificadores de IA en su toma de decisiones. Evaluar las características que hicieron que los clasificadores pasaran de benignos a malignos fue especialmente informativo. De esta manera, los investigadores crearon un marco de auditoría para hacer que el razonamiento de la IA sea más comprensible para los humanos. Estos esfuerzos por lograr una IA explicable, o XAI, en medicina podrían ayudar a los desarrolladores a descubrir cuándo sus modelos se basan en correlaciones falsas en los datos del conjunto de entrenamiento, brindando así la oportunidad de solucionar esos problemas antes de implementarlos para médicos y pacientes. " Nuestra motivación para este estudio fue comprender los factores de una imagen que podrían estar afectando la toma de decisiones de un modelo de IA", dice la coautora principal del estudio Roxana Daneshjou , profesora asistente de ciencia de datos biomédicos y de dermatología en la Universidad de Stanford y un cuerpo docente afiliado al Instituto Stanford para la Inteligencia Artificial Centrada en el Humano (HAI). "Gracias a nuestro marco de auditoría, ahora podemos ver lo que sucede bajo el capó en los modelos médicos de IA". Para el estudio , publicado en Nature Biomedical Engineering , Daneshjou y sus colegas evaluaron cinco clasificadores de IA en dermatología utilizados en el mundo académico y comercial por los consumidores. Aunque la Administración de Alimentos y Medicamentos de EE. UU. no ha aprobado ningún modelo de visión por computadora basado en imágenes para dermatología, algunos de estos modelos ya han recibido luz verde regulatoria en Europa. Además, un gran número de herramientas dermatológicas de IA están ampliamente disponibles en las tiendas de aplicaciones de Apple y Android. "Estas aplicaciones directas al consumidor son preocupantes porque los consumidores realmente no saben lo que están obteniendo en este momento", dice Daneshjou, quien también es subdirector del Centro de Excelencia para la Salud y Farmacogenómica de Precisión y director de informática. para el Grupo de Investigación Intervencionista e Innovación de la Piel de Stanford (SIIRG). "Comprender las decisiones del algoritmo de IA será valioso para mostrar si estos modelos toman decisiones basadas en características clínicamente importantes". Para echar un vistazo bajo el capó, el equipo de investigación utilizó un conjunto de imágenes de entrenamiento para los cinco clasificadores que incorporan dos formas comunes de datos dermatológicos visuales: imágenes dermatoscópicas, que se toman a través de un dispositivo médico de aumento que visualiza capas más profundas de la piel, e imágenes clínicas, tomadas con cámaras digitales comunes. Cada clase de imagen proporciona información diferente y al mismo tiempo presenta artefactos únicos que los dermatólogos (y los algoritmos de IA bien desarrollados) deben tener en cuenta. Por ejemplo, las imágenes dermatoscópicas ampliadas revelan mejor los detalles finos de una lesión, pero también pueden incluir marcas de regla y otras visualizaciones del dispositivo. Mientras tanto, las imágenes clínicas de visión más amplia pueden ofrecer un contexto adicional sobre las lesiones, como el aspecto de la piel circundante, pero como resultado también pueden capturar más fácilmente el vello corporal y la ropa de los pacientes. En última instancia, al revisar las decisiones de diagnóstico ofrecidas por los clasificadores de IA tanto en las imágenes reales como en las contrafactuales modificadas por la IA generativa, los investigadores pudieron mirar dentro de la "caja negra", por así decirlo, de cada clasificador. Es tranquilizador que los IA consideraran muchas características médicamente significativas de las lesiones, en consonancia con los dermatólogos humanos. Los ejemplos para diagnosticar el melanoma incluyen patrones atípicos de pigmentación más oscura y los llamados velos blanco azulados, donde la pigmentación azul aparece bajo una capa blanca vidriada. Sin embargo, en otros casos, los modelos utilizaron atributos médicamente dudosos o discutiblemente relevantes, como la cantidad de pelo en la piel del fondo. “Podría ser que el conjunto de entrenamiento para un clasificador de IA de dermatología en particular contuviera una cantidad muy alta de imágenes de melanomas verdaderos confirmados por biopsia que aparecieron en piel con pelo, por lo que el clasificador ha hecho una asociación incorrecta entre la probabilidad de melanoma y la vellosidad. ”, dice Daneshjou. "Sacar a la luz este tipo de problema a través de nuestro marco de auditoría daría a los desarrolladores la oportunidad de corregir el problema". Afortunadamente, el enfoque de auditoría ideado por los investigadores de Stanford y la Universidad de Washington también puede aplicarse fácilmente a otras aplicaciones de IA médica basadas en visión por computadora, por ejemplo en radiología y patología. En general, estos enfoques de XAI deberían ayudar a los desarrolladores de IA médica a aumentar la precisión de sus productos e infundir una mayor confianza en los usuarios. "Es importante que los clasificadores de IA médica reciban una investigación adecuada, cuestionando sus procesos de razonamiento y haciéndolos lo más comprensibles posible para los usuarios y desarrolladores humanos", dice Daneshjou. "Si se implementa plenamente, la IA tiene el poder de transformar ciertas áreas de la medicina y mejorar las condiciones de los pacientes". resultados." El estudio fue dirigido por Alex J. DeGrave de la Escuela Allen de Ciencias de la Computación e Ingeniería de la Universidad de Washington. Los coautores incluyen a Joseph D. Janizek y Su-In Lee, también de la Universidad de Washington, y Zhuo Ran Cai del Departamento de Dermatología de la Facultad de Medicina de la Universidad de Stanford.