Por Rachel Gordon En nuestra era actual de inteligencia artificial, las computadoras pueden generar su propio "arte" a través de modelos de difusión, agregando iterativamente estructura a un estado inicial ruidoso hasta que surja una imagen o video claro. De repente, los modelos de difusión se han sentado en la mesa de todos: introduce unas pocas palabras y experimenta paisajes oníricos instantáneos que aumentan la dopamina en la intersección de la realidad y la fantasía. Detrás de escena, implica un proceso complejo y que requiere mucho tiempo y requiere numerosas iteraciones para que el algoritmo perfeccione la imagen. Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL, por sus siglas en inglés) han introducido un nuevo marco que simplifica el proceso de varios pasos de los modelos de difusión tradicionales en un solo paso, abordando las limitaciones anteriores. Esto se hace a través de un tipo de modelo profesor-alumno: enseñar a un nuevo modelo informático a imitar el comportamiento de modelos más complicados y originales que generan imágenes. El enfoque, conocido como destilación de coincidencia de distribución (DMD), conserva la calidad de las imágenes generadas y permite una generación mucho más rápida. "Nuestro trabajo es un método novedoso que acelera los modelos de difusión actuales, como Stable Diffusion y DALLE-3 en 30 veces", dice Tianwei Yin, estudiante de doctorado del MIT en ingeniería eléctrica y ciencias de la computación, afiliado a CSAIL, e investigador principal en el marco DMD. "Este avance no solo reduce significativamente el tiempo computacional, sino que también retiene, si no supera, la calidad del contenido visual generado. Teóricamente, el enfoque combina los principios de las redes generativas adversarias (GAN) con los de los modelos de difusión, logrando la generación de contenido visual en un solo paso, un marcado contraste con los cien pasos de refinamiento iterativo requeridos por los modelos de difusión actuales. Potencialmente, podría ser un nuevo método de modelado generativo que sobresalga en velocidad y calidad". Este modelo de difusión de un solo paso podría mejorar las herramientas de diseño, permitiendo una creación de contenido más rápida y potencialmente respaldando los avances en el descubrimiento de fármacos y el modelado 3D, donde la rapidez y la eficacia son clave. Sueños de distribución DMD inteligentemente tiene dos componentes. En primer lugar, utiliza una pérdida de regresión, que ancla el mapeo para garantizar una organización aproximada del espacio de imágenes para que el entrenamiento sea más estable. A continuación, utiliza una pérdida de coincidencia de distribución, que garantiza que la probabilidad de generar una imagen determinada con el modelo de Student se corresponda con su frecuencia de aparición en el mundo real. Para ello, aprovecha dos modelos de difusión que actúan como guías, ayudando al sistema a entender la diferencia entre imágenes reales y generadas y haciendo posible el entrenamiento del generador rápido de un solo paso. El sistema logra una generación más rápida mediante el entrenamiento de una nueva red para minimizar la divergencia de distribución entre sus imágenes generadas y las del conjunto de datos de entrenamiento utilizado por los modelos de difusión tradicionales. "Nuestra idea clave es aproximar los gradientes que guían la mejora del nuevo modelo utilizando dos modelos de difusión", dice Yin. "De esta manera, destilamos el conocimiento del modelo original, más complejo, en uno más simple y rápido, al tiempo que evitamos los notorios problemas de inestabilidad y colapso de modo en las GAN". Yin y sus colegas utilizaron redes previamente entrenadas para el nuevo modelo de estudiantes, lo que simplificó el proceso. Al copiar y ajustar los parámetros de los modelos originales, el equipo logró una rápida convergencia de entrenamiento del nuevo modelo, que es capaz de producir imágenes de alta calidad con la misma base arquitectónica. "Esto permite combinarlo con otras optimizaciones del sistema basadas en la arquitectura original para acelerar aún más el proceso de creación", añade Yin. Cuando se puso a prueba con los métodos habituales, utilizando una amplia gama de puntos de referencia, DMD mostró un rendimiento constante. En el punto de referencia popular de generar imágenes basadas en clases específicas en ImageNet, DMD es la primera técnica de difusión de un solo paso que produce imágenes prácticamente a la par con las de los modelos originales más complejos, con una puntuación de distancia de inicio de Fréchet (FID) súper cercana de solo 0,3, lo cual es impresionante, ya que FID se trata de juzgar la calidad y diversidad de las imágenes generadas. Además, DMD sobresale en la generación de texto a imagen a escala industrial y logra un rendimiento de generación de un solo paso de última generación. Todavía hay una ligera brecha de calidad cuando se abordan aplicaciones de texto a imagen más complicadas, lo que sugiere que hay un poco de margen de mejora en el futuro. Además, el rendimiento de las imágenes generadas por DMD está intrínsecamente ligado a las capacidades del modelo docente utilizado durante el proceso de destilación. En la forma actual, que utiliza Stable Diffusion v1.5 como modelo de profesor, el estudiante hereda limitaciones como la representación de representaciones detalladas de texto y caras pequeñas, lo que sugiere que las imágenes generadas por DMD podrían mejorarse aún más con modelos de profesor más avanzados. "Disminuir el número de iteraciones ha sido el Santo Grial en los modelos de difusión desde su inicio", dice Fredo Durand, profesor de ingeniería eléctrica y ciencias de la computación del MIT, investigador principal de CSAIL y autor principal del artículo. "Estamos muy entusiasmados de finalmente habilitar la generación de imágenes en un solo paso, lo que reducirá drásticamente los costos de cómputo y acelerará el proceso". "Finalmente, un artículo que combina con éxito la versatilidad y la alta calidad visual de los modelos de difusión con el rendimiento en tiempo real de las GAN", dice Alexei Efros, profesor de ingeniería eléctrica y ciencias de la computación en la Universidad de California en Berkeley que no participó en este estudio. "Espero que este trabajo abra fantásticas posibilidades para la edición visual de alta calidad en tiempo real". Los coautores de Yin y Durand son el profesor de ingeniería eléctrica y ciencias de la computación del MIT e investigador principal de CSAIL, William T. Freeman, así como los científicos de investigación de Adobe Michaël Gharbi SM '15, PhD '18; Richard Zhang; Eli Shechtman; y el parque Taesung. Su trabajo fue apoyado, en parte, por subvenciones de la Fundación Nacional de Ciencias de EE. UU. (incluida una para el Instituto de Inteligencia Artificial e Interacciones Fundamentales), la Agencia de Ciencia y Tecnología de Defensa de Singapur y por fondos del Instituto de Ciencia y Tecnología de Gwangju y Amazon. Su trabajo se presentará en la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones en junio.