Alex Shipps Ya sea que estés describiendo el sonido del motor de tu auto defectuoso o maullando como el gato de tu vecino, imitar sonidos con tu voz puede ser una forma útil de transmitir un concepto cuando las palabras no funcionan. La imitación vocal es el equivalente sonoro de dibujar una imagen rápidamente para comunicar algo que viste, excepto que en lugar de usar un lápiz para ilustrar una imagen, utilizas tu tracto vocal para expresar un sonido. Esto puede parecer difícil, pero es algo que todos hacemos intuitivamente: para experimentarlo por ti mismo, intenta usar tu voz para imitar el sonido de la sirena de una ambulancia, un cuervo o una campana que suena. Inspirados por la ciencia cognitiva de cómo nos comunicamos, los investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) han desarrollado un sistema de IA que puede producir imitaciones vocales similares a las humanas sin entrenamiento y sin haber "escuchado" nunca una impresión vocal humana antes. Para lograrlo, los investigadores diseñaron su sistema para que produjera e interpretara sonidos de forma muy similar a como lo hacemos nosotros. Comenzaron por construir un modelo del tracto vocal humano que simula cómo las vibraciones de la laringe son moldeadas por la garganta, la lengua y los labios. Luego, utilizaron un algoritmo de inteligencia artificial de inspiración cognitiva para controlar este modelo del tracto vocal y hacer que produjera imitaciones, teniendo en cuenta las formas específicas del contexto que los humanos eligen para comunicar sonidos. El modelo puede tomar de manera efectiva muchos sonidos del mundo y generar una imitación humana de ellos, incluidos ruidos como el crujido de las hojas, el silbido de una serpiente y la sirena de una ambulancia que se acerca. Su modelo también se puede ejecutar en sentido inverso para adivinar sonidos del mundo real a partir de imitaciones vocales humanas, de manera similar a cómo algunos sistemas de visión artificial pueden recuperar imágenes de alta calidad basadas en bocetos. Por ejemplo, el modelo puede distinguir correctamente el sonido de un humano imitando el "maullido" de un gato frente a su "silbido". En el futuro, este modelo podría conducir potencialmente a interfaces "basadas en imitación" más intuitivas para diseñadores de sonido, personajes de IA más parecidos a los humanos en la realidad virtual e incluso métodos para ayudar a los estudiantes a aprender nuevos idiomas. Los coautores principales —los estudiantes de doctorado del MIT CSAIL Kartik Chandra SM '23 y Karima Ma, y el investigador de grado Matthew Caren— señalan que los investigadores de gráficos por computadora han reconocido desde hace mucho tiempo que el realismo rara vez es el objetivo final de la expresión visual. Por ejemplo, una pintura abstracta o un dibujo hecho con crayones por un niño pueden ser tan expresivos como una fotografía. “En las últimas décadas, los avances en algoritmos de dibujo han dado lugar a nuevas herramientas para los artistas, avances en inteligencia artificial y visión artificial, e incluso a una comprensión más profunda de la cognición humana”, señala Chandra. “De la misma manera que un boceto es una representación abstracta y no fotorrealista de una imagen, nuestro método captura las formas abstractas y no fonorrealistas en que los humanos expresan los sonidos que escuchan. Esto nos enseña sobre el proceso de abstracción auditiva”. El arte de la imitación, en tres partes El equipo desarrolló tres versiones del modelo, cada vez más matizadas, para compararlas con las imitaciones vocales humanas. Primero, crearon un modelo de referencia que simplemente apuntaba a generar imitaciones que fueran lo más similares posibles a los sonidos del mundo real, pero este modelo no se correspondía muy bien con el comportamiento humano. Los investigadores diseñaron un segundo modelo "comunicativo". Según Caren, este modelo tiene en cuenta lo que distingue a un sonido de los demás. Por ejemplo, es probable que imites el sonido de una lancha imitando el rugido de su motor, ya que es su característica auditiva más distintiva, incluso si no es el aspecto más fuerte del sonido (en comparación con, por ejemplo, el chapoteo del agua). Este segundo modelo creó imitaciones que eran mejores que la base, pero el equipo quería mejorarlo aún más. Para llevar su método un paso más allá, los investigadores añadieron una capa final de razonamiento al modelo. "Las imitaciones vocales pueden sonar diferentes en función de la cantidad de esfuerzo que se ponga en ellas. Cuesta tiempo y energía producir sonidos que sean perfectamente precisos", dice Chandra. El modelo completo de los investigadores tiene en cuenta esto al tratar de evitar expresiones que sean muy rápidas, fuertes o de tono alto o bajo, que las personas son menos propensas a utilizar en una conversación. El resultado: imitaciones más humanas que se asemejan mucho a muchas de las decisiones que los humanos toman cuando imitan los mismos sonidos. Después de construir este modelo, el equipo llevó a cabo un experimento de comportamiento para ver si los jueces humanos percibían mejor las imitaciones vocales generadas por IA o por humanos. Cabe destacar que los participantes en el experimento favorecieron al modelo de IA el 25 por ciento del tiempo en general, y hasta un 75 por ciento para una imitación de una lancha motora y un 50 por ciento para una imitación de un disparo. Hacia una tecnología de sonido más expresiva Apasionada por la tecnología aplicada a la música y el arte, Caren imagina que este modelo podría ayudar a los artistas a comunicar mejor los sonidos a los sistemas computacionales y ayudar a los cineastas y otros creadores de contenido a generar sonidos de IA que se adapten mejor a un contexto específico. También podría permitir a un músico buscar rápidamente en una base de datos de sonidos imitando un ruido que es difícil de describir en, por ejemplo, un mensaje de texto. Mientras tanto, Caren, Chandra y Ma están estudiando las implicaciones de su modelo en otros dominios, incluido el desarrollo del lenguaje, cómo los bebés aprenden a hablar e incluso comportamientos de imitación en aves como los loros y los pájaros cantores. El equipo aún tiene trabajo por hacer con la versión actual de su modelo: tiene problemas con algunas consonantes, como la "z", lo que provocó impresiones inexactas de algunos sonidos, como el zumbido de las abejas. Tampoco pueden replicar aún cómo los humanos imitan el habla, la música o sonidos que se imitan de manera diferente en diferentes idiomas, como el latido del corazón. El profesor de lingüística de la Universidad de Stanford, Robert Hawkins, afirma que el lenguaje está lleno de onomatopeyas y palabras que imitan, pero no replican por completo, las cosas que describen, como el sonido del "miau", que se aproxima de forma muy inexacta al sonido que hacen los gatos. "Los procesos que nos llevan del sonido de un gato real a una palabra como 'miau' revelan mucho sobre la intrincada interacción entre la fisiología, el razonamiento social y la comunicación en la evolución del lenguaje", dice Hawkins, que no participó en la investigación de CSAIL. "Este modelo presenta un paso emocionante hacia la formalización y prueba de las teorías de esos procesos, demostrando que tanto las restricciones físicas del tracto vocal humano como las presiones sociales de la comunicación son necesarias para explicar la distribución de las imitaciones vocales". Caren, Chandra y Ma escribieron el artículo junto con otros dos afiliados de CSAIL: Jonathan Ragan-Kelley, profesor asociado del Departamento de Ingeniería Eléctrica y Ciencias Informáticas del MIT, y Joshua Tenenbaum, profesor de Ciencias Cognitivas y del Cerebro del MIT y miembro del Centro de Cerebros, Mentes y Máquinas. Su trabajo fue financiado, en parte, por la Fundación Hertz y la Fundación Nacional de la Ciencia. Fue presentado en SIGGRAPH Asia a principios de diciembre.