Publicado el 25 mar. 2024
Por Jennifer Chu
Desde limpiar derrames hasta servir comida, a los robots se les está enseñando a llevar a cabo tareas domésticas cada vez más complicadas. Muchos de estos aprendices de bots caseros están aprendiendo a través de la imitación; Están programados para copiar los movimientos a través de los cuales un humano los guía físicamente.
Resulta que los robots son excelentes imitadores. Pero a menos que los ingenieros también los programen para ajustarse a todos los posibles baches y empujones, los robots no necesariamente saben cómo manejar estas situaciones, a menos que comiencen su tarea desde arriba.
Ahora, los ingenieros del MIT pretenden dar a los robots un poco de sentido común cuando se enfrentan a situaciones que los desvían de su camino entrenado. Han desarrollado un método que conecta los datos de movimiento de los robots con el "conocimiento de sentido común" de los grandes modelos de lenguaje, o LLM.
Su enfoque permite a un robot analizar lógicamente muchas tareas domésticas dadas en subtareas, y ajustarse físicamente a las interrupciones dentro de una subtarea para que el robot pueda seguir adelante sin tener que volver atrás y comenzar una tarea desde cero, y sin que los ingenieros tengan que programar explícitamente correcciones para cada posible falla en el camino.
"El aprendizaje por imitación es un enfoque generalizado que permite a los robots domésticos. Pero si un robot imita ciegamente las trayectorias de movimiento de un humano, se pueden acumular pequeños errores y eventualmente descarrilar el resto de la ejecución", dice Yanwei Wang, estudiante graduado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT. "Con nuestro método, un robot puede autocorregir errores de ejecución y mejorar el éxito general de las tareas".
Wang y sus colegas detallan su nuevo enfoque en un estudio que presentarán en la Conferencia Internacional sobre Representaciones del Aprendizaje (ICLR, por sus siglas en inglés) en mayo. Los coautores del estudio incluyen a los estudiantes graduados de EECS Tsun-Hsuan Wang y Jiayuan Mao, Michael Hagenow, un postdoctorado en el Departamento de Aeronáutica y Astronáutica del MIT (AeroAstro), y Julie Shah, profesora H.N. Slater en Aeronáutica y Astronáutica en el MIT.
Tarea de lenguaje
Los investigadores ilustran su nuevo enfoque con una tarea simple: sacar canicas de un tazón y verterlas en otro. Para llevar a cabo esta tarea, los ingenieros normalmente moverían un robot a través de los movimientos de recoger y verter, todo en una trayectoria fluida. Podrían hacer esto varias veces, para darle al robot una serie de demostraciones humanas para imitar.
"Pero la demostración humana es una trayectoria larga y continua", dice Wang.
El equipo se dio cuenta de que, si bien un humano puede demostrar una sola tarea de una sola vez, esa tarea depende de una secuencia de subtareas o trayectorias. Por ejemplo, el robot primero tiene que meter la mano en un cuenco antes de poder recoger, y debe recoger canicas antes de pasar al cuenco vacío, y así sucesivamente. Si un robot es empujado o empujado a cometer un error durante cualquiera de estas subtareas, su único recurso es detenerse y comenzar desde el principio, a menos que los ingenieros etiqueten explícitamente cada subtarea y programen o recopilen nuevas demostraciones para que el robot se recupere de dicha falla, para permitir que un robot se autocorrija en el momento.
"Ese nivel de planificación es muy tedioso", dice Wang.
En cambio, él y sus colegas descubrieron que parte de este trabajo podía ser realizado automáticamente por los LLM. Estos modelos de aprendizaje profundo procesan inmensas bibliotecas de texto, que utilizan para establecer conexiones entre palabras, oraciones y párrafos. A través de estas conexiones, un LLM puede generar nuevas oraciones basadas en lo que ha aprendido sobre el tipo de palabra que es probable que siga a la última.
Por su parte, los investigadores encontraron que, además de oraciones y párrafos, se le puede pedir a un LLM que produzca una lista lógica de subtareas que estarían involucradas en una tarea determinada. Por ejemplo, si se le pide que enumere las acciones involucradas en la recogida de canicas de un tazón a otro, un LLM podría producir una secuencia de verbos como "alcanzar", "recoger", "transportar" y "verter".
"Los LLM tienen una forma de decirte cómo hacer cada paso de una tarea, en lenguaje natural. La demostración continua de un ser humano es la encarnación de esos pasos, en el espacio físico", dice Wang. "Y queríamos conectar los dos, de modo que un robot supiera automáticamente en qué etapa se encuentra en una tarea y pudiera replanificar y recuperarse por sí mismo".
Mapeo de canicas
Para su nuevo enfoque, el equipo desarrolló un algoritmo para conectar automáticamente la etiqueta de lenguaje natural de un LLM para una subtarea en particular con la posición de un robot en el espacio físico o una imagen que codifica el estado del robot. El mapeo de las coordenadas físicas de un robot, o una imagen del estado del robot, a una etiqueta de lenguaje natural se conoce como "conexión a tierra". El nuevo algoritmo del equipo está diseñado para aprender un "clasificador" de conexión a tierra, lo que significa que aprende a identificar automáticamente en qué subtarea semántica se encuentra un robot, por ejemplo, "alcance" frente a "cuchara", dadas sus coordenadas físicas o una vista de imagen.
"El clasificador de puesta a tierra facilita este diálogo entre lo que el robot está haciendo en el espacio físico y lo que el LLM sabe sobre las subtareas, y las restricciones a las que hay que prestar atención dentro de cada subtarea", explica Wang.
El equipo demostró el enfoque en experimentos con un brazo robótico que entrenaron en una tarea de recolección de canicas. Los experimentadores entrenaron al robot guiándolo físicamente a través de la tarea de alcanzar primero un tazón, recoger canicas, transportarlas sobre un cuenco vacío y verterlas. Después de algunas demostraciones, el equipo utilizó un LLM preentrenado y le pidió al modelo que enumerara los pasos necesarios para llevar canicas de un cuenco a otro. A continuación, los investigadores utilizaron su nuevo algoritmo para conectar las subtareas definidas del LLM con los datos de trayectoria de movimiento del robot. El algoritmo aprendió automáticamente a mapear las coordenadas físicas del robot en las trayectorias y la vista de imagen correspondiente a una subtarea determinada.
A continuación, el equipo dejó que el robot llevara a cabo la tarea de recogida por sí solo, utilizando los clasificadores de puesta a tierra recién aprendidos. A medida que el robot avanzaba por los pasos de la tarea, los experimentadores empujaron y empujaron al robot fuera de su camino, y derribaron canicas de su cuchara en varios puntos. En lugar de detenerse y comenzar desde el principio de nuevo, o continuar a ciegas sin canicas en su cuchara, el bot pudo autocorregirse y completó cada subtarea antes de pasar a la siguiente. (Por ejemplo, se aseguraría de recoger con éxito las canicas antes de transportarlas al cuenco vacío).
"Con nuestro método, cuando el robot comete errores, no necesitamos pedir a los humanos que programen o den demostraciones adicionales de cómo recuperarse de las fallas", dice Wang. "Eso es muy emocionante porque ahora hay un gran esfuerzo para entrenar a los robots domésticos con los datos recopilados en los sistemas de teleoperación. Nuestro algoritmo ahora puede convertir esos datos de entrenamiento en un comportamiento robusto del robot que puede realizar tareas complejas, a pesar de las perturbaciones externas".