Por Patrick Kulp La IA generativa ha avanzado mucho en los últimos años, pero gran parte de este progreso todavía se concentra en el idioma inglés. Un conjunto de investigaciones recientes analizó los obstáculos que se interponen en el camino de los desarrolladores que buscan cerrar esa brecha, especialmente cuando se trata de lenguajes con menos datos de texto disponibles. Un obstáculo importante es la falta de puntos de referencia exhaustivos (las medidas que utilizan los desarrolladores para evaluar las capacidades de la IA) que capturen adecuadamente los matices de lo que los investigadores denominan lenguajes de bajos recursos. La falta de títulos de maestría en derecho (LLM) para idiomas con menos datos en línea amenaza con ampliar las divisiones globales existentes, cortando a partes del Sur Global del acceso a tecnología potencialmente transformadora, escribieron investigadores del Instituto de Stanford para IA centrada en el ser humano en un informe reciente . “La mayoría de los programas de maestría en derecho (LLM) más importantes tienen un rendimiento inferior en idiomas distintos del inglés (y, especialmente, en aquellos con recursos limitados); no están adaptados a los contextos culturales pertinentes; y no son accesibles en algunas partes del Sur Global”, escribieron los autores. Mientras tanto, investigadores de Alibaba y un equipo de Google y Cohere han analizado las deficiencias de los parámetros de referencia en idiomas distintos del inglés al evaluar modelos multilingües. Un nuevo conjunto de datos, elaborado por destacados investigadores en ética de la IA, busca erradicar sesgos y estereotipos en 16 idiomas diferentes. Escasez de datos: Los autores del artículo de Stanford escribieron que los idiomas con recursos limitados, como el birmano y el suajili, carecen de datos digitales suficientes, tanto en cantidad como en calidad, para la formación de titulados de maestría en derecho. Los datos en algunos de estos idiomas abarcan únicamente la Biblia u otros textos religiosos, documentos legales y artículos de Wikipedia, que pueden estar traducidos automáticamente y no son representativos del habla cotidiana, escribieron los autores. “Menos del 5% de los aproximadamente 7.000 idiomas que se hablan hoy en día en el mundo tienen una representación significativa en línea”, escribieron los investigadores. Problemas con los índices de referencia: Los investigadores de Alibaba también analizaron más de 2000 de los índices de referencia multilingües utilizados para calificar los LLM en idiomas distintos del inglés y aprendieron una amarga lección, en sus propias palabras. Es decir, «a pesar de importantes inversiones que ascienden a decenas de millones de dólares, el inglés sigue estando significativamente sobrerrepresentado en estos índices de referencia». La simple traducción de los puntos de referencia existentes a otros idiomas tampoco funciona, ya que suele carecer de contextos culturales clave. El reciente informe de Google y Cohere respalda esta conclusión. “Las prácticas de evaluación de las capacidades generativas de los [LLM multilingües] aún carecen de exhaustividad, rigor científico y adopción consistente en los laboratorios de investigación, lo que socava su potencial para guiar significativamente el desarrollo de mLLM”, se lee en ese documento. Un nuevo conjunto de datos de Shades, un equipo global de éticos e investigadores de IA, busca ayudar a los desarrolladores a resolver algunos de estos problemas de contexto cultural mediante la identificación de estereotipos y sesgos en 16 idiomas. Muchos otros esfuerzos de mitigación de sesgos se han centrado en contextos angloparlantes, según escriben en un artículo complementario . Posibles soluciones: Los autores del artículo de Stanford también evaluaron los pros y contras de tres de los principales enfoques para resolver este dilema: modelos multilingües masivos que apuntan a cubrir una franja enorme de idiomas, modelos regionalmente específicos que podrían apuntar a entre 10 y 20 idiomas con bajos recursos, y modelos de un solo idioma. Aquí tiende a haber un equilibrio entre la especificidad cultural y la falta de datos de entrenamiento: los modelos multilingües masivos no funcionan tan bien y carecen de contexto cultural en ningún idioma (la "maldición del multilingüismo"), mientras que los modelos monolingües pueden quedarse cortos en cuanto a datos de entrenamiento. Los investigadores de Stanford finalmente recomiendan soluciones como inversiones estratégicas en I+D para la IA del lenguaje con bajos recursos, una mayor inclusión global en la investigación de la IA y una propiedad de datos más equitativa. “La falta de recursos no es únicamente un problema de datos, sino un fenómeno arraigado en problemas sociales como prácticas de investigación en IA no diversas, excluyentes e incluso explotadoras”, escribieron los autores.