Populares chatbots de IA dan respuestas legales plagadas de errores

Por Isabel Gottlieben e Isaías Poritzen Bloomberg Chatbots de IA populares de Open AI Inc, Google LLC y Meta plataformas Inc. son propensos a "alucinaciones" al responder preguntas legales, lo que plantea riesgos especiales para las personas que utilizan la tecnología porque no pueden pagar un abogado humano, según una nueva investigación de la Universidad de Stanford. Los investigadores encontraron que los modelos de lenguaje grande alucinan al menos el 75% de las veces cuando responden preguntas sobre el fallo central de un tribunal . Probaron más de 200.000 preguntas legales en ChatGPT 3.5 de OpenAI, PaLM 2 de Google y Llama 2 de Meta, todos modelos de propósito general no diseñados para un uso legal específico. La inteligencia artificial generativa ha generado esperanzas de que esta poderosa tecnología pueda ayudar a brindar servicios legales a personas que no pueden pagar un abogado. Según la organización sin fines de lucro Legal Services Corporation, las personas de bajos ingresos en los EE. UU. recibieron ayuda inadecuada o ninguna para el 92% de los problemas legales civiles que enfrentan. Pero las imprecisiones de la IA podrían poner un freno a esas esperanzas, advirtieron los investigadores de Stanford, que publicaron un estudio preimpreso a principios de año y anunciaron sus hallazgos en un blog el 11 de enero. "El gran hallazgo aquí es que las tasas de alucinaciones no son aisladas, sino que son bastante generalizadas", dijo Daniel Ho, profesor de derecho en Stanford y miembro principal del Instituto de Inteligencia Artificial Centrada en el Humano de la escuela, coautor de la investigación. papel. 'Proceder con mucha más precaución' Las herramientas de IA generativa entrenadas específicamente para uso legal pueden funcionar mejor, pero construir esas herramientas en modelos de propósito general aún podría generar problemas de precisión, dijo Ho. “No deberíamos tomar estos modelos básicos de propósito tan general e implementarlos ingenuamente y colocarlos en todo tipo de entornos de implementación, como parecen haber hecho varios abogados”, dijo. "Proceda con mucha más precaución, donde realmente necesita abogados y personas con algún conocimiento jurídico para poder evaluar la veracidad de lo que un motor como este le está brindando". Para una tarea, los investigadores pidieron a los modelos de IA que indicaran si dos casos judiciales diferentes coincidían o no entre sí, una tarea fundamental de la investigación jurídica. El estudio encontró que los modelos no funcionan mejor que las conjeturas aleatorias. La investigación encontró que los modelos cometieron errores más frecuentes cuando se les preguntó sobre la jurisprudencia de los tribunales inferiores de distrito federal y fueron más precisos en los casos de la Corte Suprema de los EE. UU. y los Tribunales de Apelaciones de los EE. UU. para el Segundo Circuito y el Noveno Circuito. Eso podría deberse a que esos casos se citan y discuten con más frecuencia, por lo que aparecen con más frecuencia en los datos de entrenamiento de los modelos, dijeron los investigadores. Los investigadores de Stanford también encontraron que los modelos alucinaban con más frecuencia cuando se les preguntaba sobre casos muy recientes y casos muy antiguos de la Corte Suprema, y eran más precisos en casos de finales del siglo XX. Los modelos también adolecían de un "sesgo contrafáctico": era probable que creyeran en una premisa falsa incorporada en la pregunta de un usuario, actuando de una manera "aduladora" para reforzar el error del usuario. ChatGPT y PaLM tenían más probabilidades de no cuestionar la verdad del mensaje, mientras que Llama es "más probable que cuestione la premisa" dentro de un mensaje que los otros modelos que probaron, dijo Ho. Los investigadores descubrieron que era más probable que Llama negara que existiera un caso real. IA para litigantes autorepresentados En su informe de fin de año sobre el poder judicial federal, el presidente del Tribunal Supremo, John Roberts, señaló las esperanzas de que la IA pueda aumentar el acceso a la justicia. "Para aquellos que no pueden pagar un abogado, la IA puede ayudar", escribió. "Estas herramientas tienen el bienvenido potencial de suavizar cualquier desajuste entre los recursos disponibles y las necesidades urgentes en nuestro sistema judicial". Pero los problemas de precisión de los modelos fueron más pronunciados cuando los litigantes pro se (o autorepresentados) probablemente los usarían, como en la búsqueda de casos en tribunales inferiores, dijeron los investigadores de Stanford. "El desempeño de estos modelos tiende a centrarse en áreas que ya están muy bien atendidas por grandes firmas de abogados de alto poder y zapatos blancos", dijo Matthew Dahl, estudiante de doctorado y doctorado en la Facultad de Derecho de Yale y la Universidad de Yale. Departamento de Ciencia Política que trabajó en la investigación. “El desempeño que vemos en nuestros periódicos no son casos de la Corte Suprema. No hay muchos litigantes pro se que estén litigando en la Corte Suprema”. Los investigadores esperan ver que los modelos funcionen mejor cuando se les pregunte sobre los tribunales de primera comparecencia, añadió. Y la tendencia de los modelos a aceptar la pregunta objetivamente inexacta de un usuario probablemente causaría problemas a quienes no son abogados y hacen preguntas legales, quienes “no saben la respuesta a la pregunta, pero ni siquiera conocen la pregunta en el formulario”. primer lugar”, dijo Dahl. Añadió que esperaba ver que los modelos construyeran mejores barreras para corregir premisas erróneas en las consultas. Un portavoz de Google se negó a comentar directamente sobre el estudio, pero dijo en un comunicado que la compañía continúa trabajando para mitigar las alucinaciones y ha sido transparente sobre las limitaciones de los grandes modelos de lenguaje desde el principio. OpenAI y Meta no respondieron de inmediato a las solicitudes de comentarios.