Forma más rápida y mejor de evitar que un chatbot de IA dé respuestas tóxicas

foto-resumen

Por Adam Zewe Un usuario podría pedirle a ChatGPT que escriba un programa informático o resuma un artículo, y el chatbot de IA probablemente podría generar un código útil o escribir una sinopsis convincente. Sin embargo, alguien también podría pedir instrucciones para construir una bomba, y el chatbot también podría proporcionarlas. Para evitar este y otros problemas de seguridad, las empresas que crean modelos de lenguaje de gran tamaño suelen protegerlos mediante un proceso llamado red-teaming. Los equipos de evaluadores humanos escriben indicaciones destinadas a activar texto inseguro o tóxico del modelo que se está probando. Estas indicaciones se utilizan para enseñar al chatbot a evitar este tipo de respuestas. Pero esto solo funciona de manera efectiva si los ingenieros saben qué indicaciones tóxicas usar. Si los evaluadores humanos pierden algunas indicaciones, lo que es probable dada la cantidad de posibilidades, un chatbot considerado seguro aún podría ser capaz de generar respuestas inseguras. Los investigadores del Improbable AI Lab del MIT y del MIT-IBM Watson AI Lab utilizaron el aprendizaje automático para mejorar el trabajo en red-teaming. Desarrollaron una técnica para entrenar un modelo de lenguaje grande de equipo rojo para generar automáticamente diversas indicaciones que desencadenan una gama más amplia de respuestas no deseadas del chatbot que se está probando. Lo hacen enseñando al modelo del equipo rojo a ser curioso cuando escribe indicaciones y a centrarse en indicaciones novedosas que evocan respuestas tóxicas del modelo objetivo. La técnica superó a los probadores humanos y otros enfoques de aprendizaje automático al generar indicaciones más distintas que provocaron respuestas cada vez más tóxicas. Su método no solo mejora significativamente la cobertura de las entradas que se prueban en comparación con otros métodos automatizados, sino que también puede extraer respuestas tóxicas de un chatbot que tenía salvaguardas incorporadas por expertos humanos. "En este momento, todos los grandes modelos lingüísticos tienen que someterse a un período muy largo de trabajo en red para garantizar su seguridad. Eso no va a ser sostenible si queremos actualizar estos modelos en entornos que cambian rápidamente. Nuestro método proporciona una forma más rápida y efectiva de hacer este aseguramiento de la calidad", dice Zhang-Wei Hong, estudiante graduado de ingeniería eléctrica y ciencias de la computación (EECS) en el laboratorio de Improbable AI y autor principal de un artículo sobre este enfoque de equipo rojo. Los coautores de Hong incluyen a los estudiantes graduados de EECS Idan Shenfield, Tsun-Hsuan Wang y Yung-Sung Chuang; Aldo Pareja y Akash Srivastava, científicos investigadores del Laboratorio de Inteligencia Artificial Watson del MIT-IBM; James Glass, científico investigador sénior y jefe del Grupo de Sistemas de Lenguaje Hablado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y el autor principal Pulkit Agrawal, director de Improbable AI Lab y profesor asistente en CSAIL. La investigación se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje. Red Teaming automatizado Los grandes modelos de lenguaje, como los que impulsan los chatbots de IA, a menudo se entrenan mostrándoles enormes cantidades de texto de miles de millones de sitios web públicos. Por lo tanto, no solo pueden aprender a generar palabras tóxicas o describir actividades ilegales, sino que los modelos también podrían filtrar información personal que puedan haber recogido. La naturaleza tediosa y costosa del red-teaming humano, que a menudo es ineficaz para generar una variedad lo suficientemente amplia de indicaciones como para salvaguardar completamente un modelo, ha alentado a los investigadores a automatizar el proceso utilizando el aprendizaje automático. Estas técnicas a menudo entrenan un modelo de equipo rojo mediante el aprendizaje por refuerzo. Este proceso de prueba y error recompensa al modelo de equipo rojo por generar avisos que desencadenan respuestas tóxicas del chatbot que se está probando. Pero debido a la forma en que funciona el aprendizaje por refuerzo, el modelo de equipo rojo a menudo seguirá generando algunas indicaciones similares que son altamente tóxicas para maximizar su recompensa. Para su enfoque de aprendizaje por refuerzo, los investigadores del MIT utilizaron una técnica llamada exploración impulsada por la curiosidad. Se incentiva al modelo de equipo rojo a sentir curiosidad por las consecuencias de cada mensaje que genera, por lo que probará mensajes con diferentes palabras, patrones de oraciones o significados. "Si el modelo de equipo rojo ya ha visto un mensaje específico, reproducirlo no generará ninguna curiosidad en el modelo de equipo rojo, por lo que se le pedirá que cree nuevos mensajes", dice Hong. Durante su proceso de entrenamiento, el modelo de equipo rojo genera un aviso e interactúa con el chatbot. El chatbot responde, y un clasificador de seguridad califica la toxicidad de su respuesta, recompensando el modelo de equipo rojo en función de esa calificación. Recompensar la curiosidad El objetivo del modelo de equipo rojo es maximizar su recompensa provocando una respuesta aún más tóxica con un mensaje novedoso. Los investigadores permiten la curiosidad en el modelo de equipo rojo modificando la señal de recompensa en la configuración del aprendizaje por refuerzo. En primer lugar, además de maximizar la toxicidad, incluyen una bonificación de entropía que fomenta que el modelo de equipo rojo sea más aleatorio a medida que explora diferentes indicaciones. En segundo lugar, para despertar la curiosidad del agente, incluyen dos recompensas por novedad. Uno recompensa el modelo en función de la similitud de las palabras en sus indicaciones, y el otro recompensa el modelo en función de la similitud semántica. (Menos similitud produce una mayor recompensa). Para evitar que el modelo de equipo rojo genere texto aleatorio y sin sentido, que puede engañar al clasificador para que otorgue una puntuación de toxicidad alta, los investigadores también agregaron una bonificación de lenguaje naturalista al objetivo de entrenamiento. Con estas adiciones, los investigadores compararon la toxicidad y la diversidad de las respuestas que generó su modelo de equipo rojo con otras técnicas automatizadas. Su modelo superó las líneas de base en ambas métricas. También utilizaron su modelo de equipo rojo para probar un chatbot que había sido ajustado con comentarios humanos para que no diera respuestas tóxicas. Su enfoque impulsado por la curiosidad fue capaz de producir rápidamente 196 avisos que provocaron respuestas tóxicas de este chatbot "seguro". "Estamos viendo un aumento de modelos, que solo se espera que aumente. Imagínese miles de modelos o incluso más y empresas/laboratorios que actualizan los modelos con frecuencia. Estos modelos van a ser una parte integral de nuestras vidas y es importante que se verifiquen antes de lanzarlos al consumo público. La verificación manual de los modelos simplemente no es escalable, y nuestro trabajo es un intento de reducir el esfuerzo humano para garantizar un futuro de IA más seguro y confiable", dice Agrawal. En el futuro, los investigadores quieren permitir que el modelo de equipo rojo genere indicaciones sobre una variedad más amplia de temas. También quieren explorar el uso de un modelo de lenguaje grande como clasificador de toxicidad. De esta manera, un usuario podría entrenar el clasificador de toxicidad utilizando un documento de política de la empresa, por ejemplo, para que un modelo de equipo rojo pudiera probar un chatbot en busca de violaciones de la política de la empresa. "Si está lanzando un nuevo modelo de IA y le preocupa si se comportará como se espera, considere la posibilidad de utilizar el equipo rojo impulsado por la curiosidad", dice Agrawal. Esta investigación está financiada, en parte, por Hyundai Motor Company, Quanta Computer Inc., el Laboratorio de IA Watson del MIT-IBM, una beca de investigación MLRA de Amazon Web Services, la Oficina de Investigación del Ejército de EEUU, el Programa de Sentido Común de la Agencia de Proyectos de Investigación Avanzada de Defensa de EEUU, la Oficina de Investigación Naval de EEUU, el Laboratorio de Investigación de la Fuerza Aérea de EE. UU. y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de Estados Unidos.