El sector sanitario está entusiasmado con la promesa de un "momento MedGPT". Los modelos generativos entrenados con millones de historiales clínicos electrónicos (HCE) se consideran "predictores de cero disparos": herramientas capaces de pronosticar la mortalidad del paciente o la progresión de la enfermedad sin necesidad de entrenamiento específico. Sin embargo, este enfoque pasa por alto una distinción sutil pero importante. Si bien estos modelos son eficaces, en realidad no están diseñados para "predecir" resultados clínicos en el sentido tradicional. Son simuladores. Simulación vs. Predicción A diferencia de una herramienta de pronóstico validada, un modelo de HCE generativo funciona mediante el aprendizaje de patrones a partir de datos históricos para generar cronogramas plausibles para los pacientes: secuencias de diagnósticos, procedimientos, códigos de medicación, valores de laboratorio y su cronología. Cuando se le pide que calcule el riesgo de reingreso en 30 días, el modelo no "sabe" la respuesta; genera, por ejemplo, 100 cronogramas futuros hipotéticos para ese paciente y contabiliza la frecuencia con la que aparece un código de reingreso. Si 60 de 100 cronogramas simulados muestran un reingreso, el modelo reporta un riesgo del 60%. Sin embargo, estas frecuencias se derivan de patrones simulados, no necesariamente de probabilidades reales. Considerar una simulación como una predicción de "oráculo" puede llevar a decisiones clínicas inseguras, como sobretratar a pacientes de bajo riesgo o pasar por alto a pacientes de alto riesgo. ¿Por qué no hemos llegado al «momento MedGPT»? Las comparaciones con ChatGPT suelen ser engañosas. El salto de los primeros modelos GPT a ChatGPT requirió un aumento masivo de escala, órdenes de magnitud mayores de datos y técnicas de alineación especializadas, como la retroalimentación humana, para garantizar la seguridad y la fiabilidad. Los modelos generativos de HCE actuales se encuentran aproximadamente en el mismo punto que los modelos de lenguaje entre GPT-2 y GPT-3. Son prometedores, pero carecen de las mejoras de seguridad y la calibración rigurosa necesarias para su uso clínico. Además, se enfrentan a desafíos médicos únicos, como la representación precisa de la sincronización y la gestión de sistemas complejos de codificación hospitalaria. Un nuevo paradigma de evaluación: Para garantizar que estos modelos se utilicen de forma responsable, proponemos cinco criterios de evaluación: Rendimiento por frecuencia: informar qué tan bien funcionan los modelos en eventos médicos raros frente a comunes. Calibración: garantizar que un riesgo previsto del 30 % corresponda realmente al 30 % de los pacientes que experimentan ese resultado. Finalización de la línea de tiempo: informa con qué frecuencia el modelo no logra generar una línea de tiempo completa del paciente. Auditorías de atajos: verificar si los modelos se basan en "atajos" administrativos (como códigos de alta) en lugar de condiciones médicas para hacer pronósticos. Validación fuera de distribución: prueba de modelos en poblaciones de pacientes fundamentalmente diferentes sin reentrenamiento. Al cambiar nuestra interpretación de la predicción a la simulación, podemos comprender mejor las fortalezas y limitaciones de estas herramientas. Esto sentará las bases para diseñar estrategias de evaluación, supervisión e implementación que permitan que la IA generativa mejore significativamente la atención clínica. Texto de: Suhana Bedi, Jason Alan Fries y Nigam H. Shah