Para crear un mejor ayudante de IA, empieza por modelar el comportamiento irracional de los humanos

foto-resumen

Por Adam Zewe Para construir sistemas de IA que puedan colaborar eficazmente con los humanos, es útil tener un buen modelo de comportamiento humano para empezar. Pero los seres humanos tienden a comportarse de manera subóptima al tomar decisiones. Esta irracionalidad, que es especialmente difícil de modelar, a menudo se reduce a restricciones computacionales. Un ser humano no puede pasar décadas pensando en la solución ideal para un solo problema. Investigadores del MIT y la Universidad de Washington desarrollaron una forma de modelar el comportamiento de un agente, ya sea humano o máquina, que tiene en cuenta las restricciones computacionales desconocidas que pueden obstaculizar las capacidades de resolución de problemas del agente. Su modelo puede inferir automáticamente las restricciones computacionales de un agente al ver solo unos pocos rastros de sus acciones anteriores. El resultado, el llamado "presupuesto de inferencia" de un agente, se puede utilizar para predecir el comportamiento futuro de ese agente. En un nuevo artículo, los investigadores demuestran cómo se puede utilizar su método para inferir los objetivos de navegación de alguien a partir de rutas anteriores y para predecir los movimientos posteriores de los jugadores en partidas de ajedrez. Su técnica iguala o supera a otro método popular para modelar este tipo de toma de decisiones. En última instancia, este trabajo podría ayudar a los científicos a enseñar a los sistemas de IA cómo se comportan los humanos, lo que podría permitir que estos sistemas respondan mejor a sus colaboradores humanos. Ser capaz de comprender el comportamiento de un ser humano, y luego inferir sus objetivos a partir de ese comportamiento, podría hacer que un asistente de IA sea mucho más útil, dice Athul Paul Jacob, estudiante graduado de ingeniería eléctrica y ciencias de la computación (EECS) y autor principal de un artículo sobre esta técnica. "Si sabemos que un humano está a punto de cometer un error, después de haber visto cómo se ha comportado antes, el agente de IA podría intervenir y ofrecer una mejor manera de hacerlo. O el agente podría adaptarse a las debilidades que tienen sus colaboradores humanos. Ser capaz de modelar el comportamiento humano es un paso importante hacia la construcción de un agente de IA que realmente pueda ayudar a ese humano", dice. Jacob escribió el artículo con Abhishek Gupta, profesor asistente de la Universidad de Washington, y el autor principal Jacob Andreas, profesor asociado de EECS y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL). La investigación se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje. Comportamiento de modelado Los investigadores han estado construyendo modelos computacionales del comportamiento humano durante décadas. Muchos enfoques anteriores intentan tener en cuenta la toma de decisiones subóptima añadiendo ruido al modelo. En lugar de que el agente elija siempre la opción correcta, el modelo puede hacer que ese agente tome la decisión correcta el 95 por ciento de las veces. Sin embargo, estos métodos pueden no captar el hecho de que los humanos no siempre se comportan de manera subóptima de la misma manera. Otros en el MIT también han estudiado formas más efectivas de planificar e inferir objetivos frente a una toma de decisiones subóptima. Para construir su modelo, Jacob y sus colaboradores se inspiraron en estudios previos de jugadores de ajedrez. Se dieron cuenta de que los jugadores tardaban menos tiempo en pensar antes de actuar cuando hacían movimientos simples y que los jugadores más fuertes tendían a pasar más tiempo planificando que los más débiles en partidas desafiantes. "Al final del día, vimos que la profundidad de la planificación, o cuánto tiempo alguien piensa en el problema, es un muy buen indicador de cómo se comportan los humanos", dice Jacob. Construyeron un marco que podía inferir la profundidad de la planificación de un agente a partir de acciones anteriores y usar esa información para modelar el proceso de toma de decisiones del agente. El primer paso de su método consiste en ejecutar un algoritmo durante un tiempo determinado para resolver el problema que se está estudiando. Por ejemplo, si están estudiando una partida de ajedrez, pueden dejar que el algoritmo de juego de ajedrez se ejecute durante un cierto número de pasos. Al final, los investigadores pueden ver las decisiones que tomó el algoritmo en cada paso. Su modelo compara estas decisiones con los comportamientos de un agente que resuelve el mismo problema. Alineará las decisiones del agente con las decisiones del algoritmo e identificará el paso en el que el agente dejó de planificar. A partir de esto, el modelo puede determinar el presupuesto de inferencia del agente, o cuánto tiempo planeará ese agente para este problema. Puede usar el presupuesto de inferencia para predecir cómo reaccionaría ese agente al resolver un problema similar. Una solución interpretable Este método puede ser muy eficiente porque los investigadores pueden acceder al conjunto completo de decisiones tomadas por el algoritmo de resolución de problemas sin hacer ningún trabajo adicional. Este marco también podría aplicarse a cualquier problema que se pueda resolver con una clase particular de algoritmos. "Para mí, lo más llamativo fue el hecho de que este presupuesto de inferencia es muy interpretable. Es decir que los problemas más difíciles requieren más planificación o que ser un jugador fuerte significa planificar durante más tiempo. Cuando nos propusimos hacer esto por primera vez, no pensamos que nuestro algoritmo sería capaz de detectar esos comportamientos de forma natural", dice Jacob. Los investigadores probaron su enfoque en tres tareas de modelado diferentes: inferir objetivos de navegación a partir de rutas anteriores, adivinar la intención comunicativa de alguien a partir de sus señales verbales y predecir movimientos posteriores en partidas de ajedrez entre humanos. Su método igualó o superó a una alternativa popular en cada experimento. Además, los investigadores vieron que su modelo de comportamiento humano coincidía bien con las medidas de habilidad del jugador (en partidas de ajedrez) y la dificultad de la tarea. En el futuro, los investigadores quieren utilizar este enfoque para modelar el proceso de planificación en otros dominios, como el aprendizaje por refuerzo (un método de prueba y error comúnmente utilizado en robótica). A largo plazo, tienen la intención de seguir construyendo sobre este trabajo hacia el objetivo más amplio de desarrollar colaboradores de IA más efectivos. Este trabajo fue apoyado, en parte, por el programa de Inteligencia Artificial para el Aumento y la Productividad de la Facultad de Computación Schwarzman del MIT y la Fundación Nacional de Ciencias.