Por Andrés Visus Un deepfake es un vídeo en el que se muestran imágenes falsas, habitualmente del rostro de una persona, que parecen ser reales y que se han producido utilizando inteligencia artificial; en concreto, se trata de técnicas de machine learning denominadas deep learning (aprendizaje profundo), que utilizan algoritmos de redes neuronales. La falsificación o alteración de fotografías no es una práctica nueva, pero la inteligencia artificial permite no solo alterar imágenes, sino también crearlas. Hasta hace unos pocos años, era tan costoso sustituir un rostro en unos fragmentos de vídeo que únicamente algunos estudios de cine podían afrontar los cientos de miles o millones de euros que costaba. Ahora mismo, la tecnología ha avanzado muchísimo y cualquier persona pueda hacer un deep fake con mayor o menor calidad. Es muy importante destacar dos aspectos: la verosimilitud y la finalidad. Los primeros deep fakes tenían unos resultados bastante mediocres y poco creíbles. Conforme se han ido produciendo avances en machine learning, los resultados son asombrosos y cada vez más difíciles de detectar. Por otro lado, es fundamental la intención con la que se ha creado el vídeo. No es lo mismo utilizarlo con fines científicos o para crear contenidos autorizados que para generar información falsa. La ley no regula el uso de la tecnología, pero sí la finalidad con la que se utiliza. Cómo se crea un deepfake La inteligencia artificial recrea una imagen de una cara o de cualquier otro objeto aprendiendo de cientos o miles de imágenes de esa cara u objeto. Utiliza las denominadas redes neuronales generativas antagónicas, GAN por sus siglas en inglés, con algoritmos que son capaces de aprender de los patrones que encuentran en las imágenes para luego reproducirlos creando otras nuevas de ese objeto, rostro o imagen. En 2017 unos investigadores de la Universidad de Washington utilizaron más de 14 horas de grabación del presidente Barack Obama para reproducir su imagen y voz, y así simular cualquier discurso. Crearon un modelo de la forma y los movimientos de la boca para vincularlo con las grabaciones de la voz. Con esta técnica, partiendo de vídeos reales podían poner en boca de Barack Obama cualquier mensaje que un actor reprodujera. En 2018 un grupo de profesionales hizo un deep fake, no muy bueno, pero sí divertido, del senador de Texas Ted Cruz cantando e imitando a Tina Turner. En este caso, el modelo de algoritmos codificó cómo gesticula, se mueve y se ve la cara del senador y la de un actor. A continuación, decodifica las imágenes del rostro de Ted Cruz y las reconstruye sobre las del rostro del actor. En resumen, los deepfakes funcionan a través de modelos de redes neuronales generativas, el deep learning. Básicamente, los algoritmos aprenden a crear imágenes de personas reales o ficticias tras procesar una base de datos de imágenes de ejemplo. Al ser entrenados con imágenes de una persona concreta, pueden generar vídeos muy realistas de esta. De un modo similar se recrea la voz, con el potencial que esto genera tanto para un uso positivo como para un uso malintencionado, pues se generan vídeos falsos totalmente creíbles de personas que hacen o dicen algo inapropiado. La verosimilitud de estas reconstrucciones se complica si las imágenes de las que ha aprendido el modelo difieren mucho de las que se van a vincular. En ocasiones se producen resultados jocosos con orejas, narices o rasgos. Los deepfakes más populares son de famosos, ya que hay una inmensa cantidad de fotos y vídeos disponibles online, pero igualmente se puede hacer con cualquier persona, siempre y cuando se puedan obtener suficientes imágenes, por ejemplo, de las redes sociales. Existen diversas aplicaciones y soluciones para crear deepfakes. Se necesitan equipos informáticos con procesadores gráficos muy potentes, ya que el procesado de las imágenes puede llevar incluso días para unos pocos minutos de vídeo. Sin embargo, esto se puede acelerar con el uso de máquinas virtuales disponibles en múltiples plataformas en la nube. Cuáles fueron los primeros deepfakes En 2018 se empezó a escuchar con frecuencia su uso en vídeos de contenido sexual, aunque la innovación comenzó en 2014. En 2017 un usuario anónimo de Reddit utilizó el deep learning para intercambiar las caras de actrices famosas con las de las actrices originales en escenas de películas para adultos. En 2014 Ian Goodfellow, un estudiante de doctorado de la Universidad de Montreal, abordó de forma pionera la generación de imágenes con el enfoque de redes neuronales generativas adversas, GAN. Goodfellow entrenó dos redes neuronales con una misma base de datos de imágenes para luego crear otras nuevas. Enfrentó las dos redes para que identificaran qué imágenes eran reales y cuáles eran ficticias como un juego digital del gato y ratón. El primer modelo de red neuronal generaba imágenes nuevas a partir de la base de datos que había aprendido creando, por ejemplo, un gato con dos colas. El segundo modelo detectaba las imágenes ficticias, y así el primero aprendía de sus propios errores y generaba gatos con una única cola. Poco a poco se iban creando imágenes cada vez más realistas y difíciles de distinguir. Estas técnicas de inteligencia artificial se han utilizado por equipos de investigación para generar caras ficticias a partir de imágenes de famosos o para crear pinturas supuestamente realizadas por Van Gogh. En sus orígenes, estas redes neuronales cometían una gran cantidad de fallos, como bicicletas con dos manillares o caras con las cejas fuera de su sitio. Ahora mismo son capaces de crear con una alta verosimilitud una imagen completa a partir de una parte de esta: por ejemplo, el cuerpo de un gato a partir de su cabeza. Por desgracia, esta tecnología de inteligencia artificial se puede utilizar maliciosamente para engañar a Gobiernos, poblaciones, causar conflictos internacionales, dañar la imagen de una persona o sacar un provecho ilegítimo. Todo empezó en las películas para adultos En el 2017 comenzaron a verse deepfakes de famosos. Especialmente populares fueron las falsificaciones de Emma Watson y Natalie Portman. También se han hecho videoclips de la ex primera dama Michelle Obama; de la hija del expresidente Donald Trump, Ivanka Trump; o de la duquesa de Cambridge, Kate Middleton. La política ha tratado de sacar provecho A finales de 2018 el presidente de Gabón, Ali Bongo, llevaba meses sin aparecer en público, y se empezaba a cuestionar su estado de salud. Para acallar los rumores, se publicó un vídeo en el que pronunciaba su discurso habitual de Año Nuevo, pero con la peculiaridad de que no parpadeó en los más de 3 minutos que duraba el discurso. Para la verosimilitud, los detalles son importantes. En la pasada campaña electoral de Estados Unidos, los deep fakes plantearon un riesgo para la política en términos de medios falsos que parecen ser reales. La presidenta de la cámara Nancy Pelosi ha sido objeto de numerosos ataques. Se alteró la grabación de una entrevista para que pareciera que estaba borracha. Se difundieron esas imágenes por las redes sociales y llegaron a compartirse más de 45.000 veces y a recibir más de 23.000 comentarios que aludían a su aparente embriaguez. En septiembre de 2020, se presentaron versiones falsas del presidente ruso Vladímir Putin y del líder norcoreano Kim Jong lanzando el mismo mensaje: que no necesitaban interferir en las elecciones, ya que sería el propio Estados Unidos quien arruinaría su democracia por sí mismo. No todo es manipulación ni pasa en Estados Unidos. En febrero de 2020, unos días antes de las elecciones estatales en Delhi, se volvió viral en la India un vídeo de Manoj Tiwari, presidente del partido Bharatiya. En el vídeo original habla en inglés criticando a su oponente político, mientras que en el vídeo viral se ha utilizado la inteligencia artificial para que mueva de forma convincente la boca mientras habla en el dialecto hindi utilizado por la mayoría de los votantes objetivo. Suplantar la identidad para estafar Fue muy sonada la suplantación, sumamente creíble mediante un deep fake de audio, de la voz del CEO de una compañía de energía del Reino Unido, pidiendo a un director ejecutivo que realizara una transferencia de 200.000 € a un supuesto proveedor húngaro. Cuando se dieron cuenta de la estafa, el dinero ya estaba disperso por todo el mundo y se había movido a través de cuentas de Hungría y México. Usos positivos de los deepfakes La tecnología es inofensiva en sí misma y un buen uso de ella puede causar un gran impacto positivo en la vida de las personas, las empresas y la sociedad. El uso legítimo de la imagen y la voz de terceros abre grandes oportunidades de negocio en el mundo de la televisión, el cine, el marketing, etc. Inteligencia artificial en documentales y periodismo Las palabras de John Fitzgerald Kennedy en julio de 1963 dieron paso a la resolución para poner fin a la Guerra Fría. Su asesinato el 22 de noviembre del mismo año cambió el curso de la historia provocando una convulsión en todo el mundo, y su discurso del Dallas Trade Mart nunca se escuchó. En 2018, ese discurso se oyó con la voz recreada del propio JFK gracias a una iniciativa de la empresa irlandesa Rothco. Mediante inteligencia artificial y durante ocho semanas, se analizaron grabaciones de 831 discursos y se construyó la voz dividiéndola en 116.777 pequeñas unidades fonéticas. El mayor reto fue capturar el estilo de hablar y la diferencia de calidad de las grabaciones procedentes de diferentes fechas y equipos de grabación. Este fue el primer discurso hecho completamente utilizando inteligencia artificial. Un enfoque similar plantearon dos investigadores del MIT, Francesca Panetta y Halsey Burgund, para el supuesto en el que el aterrizaje lunar del Apolo en 1969 hubiera sido un desastre. El presidente Nixon tenía preparados dos discursos por si se completaba con éxito, o no, la aventura a la luna. Los investigadores del MIT siguieron los mismos pasos que en el caso de JFK, y utilizaron al actor Lewis D. Wheeler para que hiciera de base y superponer la imagen y la voz del presidente. Se necesitaron muchos días de laboratorio para entrenar los algoritmos de deep learning para vincular la voz y el rostro del actor con la de Nixon. En junio 2020, Welcome to Chechnya (Bienvenidos a Chechenia), una película de investigación sobre la persecución de personas del colectivo LGBT en la república rusa, se convirtió en el primer documental en usar deep fakes para proteger la identidad de las personas que participaron y evitar así su persecución. Se les pidió a activistas LGBT voluntarios de todo el mundo que prestaran sus rostros para suplantar a los de los 23 protagonistas de la película. Más recientemente, la agencia Reuters utilizó la inteligencia artificial para recrear informativos de periodistas reales, y casi en tiempo real, en función de los acontecimientos y sin necesidad de requerir la grabación en persona. Deepfakes en la televisión y el cine El pasado año se hizo en Estados Unidos un anuncio para promover la vuelta en activo a los deportes profesionales. El anuncio estaba protagonizado por el jugador de la NBA Damian Lillard, la jugadora Skylar Diggins de la WNBA y el jugador de hockey Sidney Crosby. Ninguno de ellos fue a los estudios de grabación, sino que fueron unos actores los que realizaron el anuncio vinculando los rostros y la voz de los deportistas. El jugador de futbol David Beckham protagonizó una campaña contra la malaria. Grabó un único videoclip sobre el que se aplicó inteligencia artificial para que reprodujera el mismo mensaje en nueve idiomas. Se manipularon sus movimientos faciales creando así la ilusión visual de que realmente estaba hablando en cada idioma e incluso con una voz femenina. Este año ha hecho furor el anuncio de Cruzcampo con el deep fake de Lola Flores. Se han utilizado más de 5.000 imágenes de la Faraona para vincular su rostro y su voz con la voz de una artista que la representa. La cultura y la educación también explotan el deep learning El museo de Salvador Dalí en Saint Petersburg, Estados Unidos, ha recreado la imagen y la voz de Dalí. Interactúa con los visitantes e incluso se hace un selfi con ellos. Para su creación se han requerido más de 6.000 fotogramas y 1.000 horas de aprendizaje automático. Sus expresiones faciales se vincularon con las de un actor con proporciones corporales similares a las de Dalí y se sincronizó la voz imitando su singular acento, una mezcla de francés, español e inglés. La medicina hace mucho tiempo que utiliza estas técnicas de inteligencia artificial Se utilizan las redes neuronales generativas adversas (GAN) para crear gemelos digitales y nuevas imágenes de tumores cerebrales cambiando la ubicación y el tamaño de estos, o imágenes de lesiones cutáneas o hepáticas. Con estas nuevas imágenes se pueden entrenar los modelos de machine learning cuando no se dispone de una base de imágenes reales tan amplia como se quisiera. Estas mismas técnicas de deep learning se utilizan para la detección del cáncer. Los algoritmos aprenden de una amplia base de datos de imágenes de radiología que previamente se han etiquetado con la presencia o ausencia de tumores. A partir de aquí, la solución de inteligencia artificial es capaz de identificar tumores en una nueva imagen. El futuro de los deepfakes Sin duda alguna, la tecnología de inteligencia artificial que hay detrás de los deep fakes y el machine learning tiene un presente que ya es muy prometedor. Conforme se vaya avanzando en las técnicas de deep learning y las redes neuronales, el abanico de posibilidades irá creciendo rápidamente en diferentes ámbitos como la sanidad, la educación o los negocios. Sin embargo, a medida que avanza y aumenta el acceso a esta tecnología, también aumenta el riesgo del uso de deep fakes con fines maliciosos. Se puede utilizar la propia inteligencia artificial para detectar deepfakes. Algunas compañías como Google han lanzado una base de datos con miles de vídeos manipulados para desarrollar herramientas que detecten las falsificaciones. Este juego del gato y el ratón para crear falsificaciones y detectarlas en el fondo está acelerando la innovación en este campo, que ha de estar al servicio de un uso positivo. *****Profesor de Grado, Postgrado y Executive Education en ESIC. Especializado en Transformación Digital y liderazgo de equipos cros-funcionales en entornos muy dinámicos.