Ley de alucinaciones y la historia del “abogado de ChatGPT”

En mayo del año pasado, un abogado de Manhattan se hizo famoso por motivos equivocados. Presentó un escrito legal generado en gran parte por ChatGPT. Y al juez no le gustó la presentación. Al describir "una circunstancia sin precedentes", el juez señaló que el escrito estaba plagado de "decisiones judiciales falsas". . . citas falsas y citas internas falsas”. La historia del “abogado de ChatGPT” se volvió viral como una historia del New York Times , lo que provocó que nada menos que el presidente del Tribunal Supremo, John Roberts, lamentara el papel de las “alucinaciones” de los grandes modelos lingüísticos (LLM) en su informe anual sobre el poder judicial federal. Sin embargo, ¿cuán frecuentes son realmente esas alucinaciones legales? La transformación jurídica La industria legal está en la cúspide de una gran transformación, impulsada por la aparición de LLM como ChatGPT, PaLM, Claude y Llama. Estos modelos avanzados, equipados con miles de millones de parámetros, tienen la capacidad no sólo de procesar sino también de generar texto extenso y autorizado sobre una amplia gama de temas. Su influencia es cada vez más evidente en diversos aspectos de la vida diaria, incluido su uso cada vez mayor en las prácticas legales. Un número vertiginoso de nuevas empresas de tecnología jurídica y bufetes de abogados están anunciando y aprovechando herramientas basadas en LLM para una variedad de tareas, como examinar documentos de descubrimiento para encontrar evidencia relevante, elaborar memorandos legales detallados y resúmenes de casos, y formular estrategias de litigio complejas. Los desarrolladores de LLM afirman con orgullo que sus modelos pueden aprobar el examen de la abogacía. Pero persiste un problema central: las alucinaciones o la tendencia de los LLM a producir contenido que se desvía de hechos legales reales o de principios y precedentes legales bien establecidos. Hasta ahora, las pruebas sobre el alcance de las alucinaciones legales eran en gran medida anecdóticas. Sin embargo, el sistema legal también ofrece una ventana única para estudiar sistemáticamente el alcance y la naturaleza de tales alucinaciones. En un nuevo estudio preimpreso realizado por investigadores del Stanford RegLab y el Institute for Human-Centered AI , demostramos que las alucinaciones legales son omnipresentes e inquietantes: las tasas de alucinaciones oscilan entre el 69% y el 88% en respuesta a consultas legales específicas sobre lo último en tecnología. modelos lingüísticos. Además, estos modelos a menudo carecen de conciencia de sus errores y tienden a reforzar suposiciones y creencias jurídicas incorrectas. Estos hallazgos plantean preocupaciones importantes sobre la confiabilidad de los LLM en contextos legales, lo que subraya la importancia de una integración cuidadosa y supervisada de estas tecnologías de inteligencia artificial en la práctica legal. Los correlatos de las alucinaciones Las tasas de alucinaciones son alarmantemente altas para una amplia gama de hechos legales verificables. Sin embargo, la estructura única del sistema legal estadounidense –con sus claras delineaciones de jerarquía y autoridad– nos permitió comprender también cómo varían las tasas de alucinaciones a lo largo de dimensiones clave. Diseñamos nuestro estudio mediante la construcción de una serie de tareas diferentes, que van desde preguntar a los modelos cosas simples como el autor de una opinión hasta solicitudes más complejas como si dos casos están en tensión entre sí, un elemento clave del razonamiento jurídico. Probamos más de 200.000 consultas en cada uno de GPT 3.5, Llama 2 y PaLM 2, estratificándolas según dimensiones clave. En primer lugar, descubrimos que el desempeño se deteriora cuando se abordan tareas más complejas que requieren una comprensión matizada de cuestiones jurídicas o la interpretación de textos legales. Por ejemplo, en una tarea que mide la relación de precedencia entre dos casos diferentes, la mayoría de los LLM no obtienen mejores resultados que las conjeturas aleatorias. Y al responder preguntas sobre el fallo (o decisión principal) de un tribunal, los modelos alucinan al menos el 75% de las veces. Estos hallazgos sugieren que los LLM aún no son capaces de realizar el tipo de razonamiento legal que realizan los abogados cuando evalúan la relación de precedencia entre casos, un objetivo central de la investigación jurídica. En segundo lugar, la jurisprudencia de los tribunales inferiores, como los tribunales de distrito, está sujeta a alucinaciones más frecuentes que la jurisprudencia de los tribunales superiores como la Corte Suprema. Esto sugiere que los LLM pueden tener dificultades con el conocimiento jurídico localizado que a menudo es crucial en casos de tribunales inferiores, y pone en duda las afirmaciones de que los LLM reducirán las barreras de acceso a la justicia de larga data en los Estados Unidos. En tercer lugar, los LLM muestran una tendencia a obtener mejores resultados en los casos más destacados, en particular los de la Corte Suprema. De manera similar, el desempeño es mejor en los influyentes Circuitos Segundo y Noveno, pero peor en los tribunales de circuito ubicados en el centro geográfico del país. Estas diferencias de rendimiento podrían deberse a que ciertos casos se citan y discuten con mayor frecuencia, por lo que están mejor representados en los datos de entrenamiento de estos modelos. En cuarto lugar, las alucinaciones son más comunes entre los casos más antiguos y más nuevos de la Corte Suprema, y menos comunes entre los casos de finales del siglo XX. Esto sugiere que el desempeño máximo de los LLM puede retrasarse varios años con respecto a la doctrina legal actual, y que los LLM pueden no internalizar la jurisprudencia que es muy antigua pero aún aplicable y relevante. Por último, los diferentes modelos exhiben distintos grados de precisión y sesgos. Por ejemplo, GPT 3.5 generalmente supera a otros, pero muestra ciertas inclinaciones, como favorecer a jueces conocidos o tipos específicos de casos. Cuando se les pregunta quién escribió una opinión, por ejemplo, GPT 3.5 tiende a pensar que el juez Joseph Story escribió muchas más opiniones de las que realmente escribió. Sesgo contrafactual Otro peligro crítico que descubrimos es la susceptibilidad del modelo a lo que llamamos "sesgo contrafáctico", es decir, la tendencia a suponer que una premisa fáctica en una consulta es verdadera, incluso si es rotundamente errónea. Por ejemplo, si uno preguntara: "¿Por qué la jueza Ruth Bader Ginsburg disintió en Obergefell ?" (el caso que afirmó el derecho al matrimonio entre personas del mismo sexo), un modelo podría no adivinar si la jueza Ginsburg en realidad disintió. Este fenómeno es particularmente pronunciado en modelos de lenguaje como GPT 3.5, que a menudo brindan respuestas creíbles a consultas basadas en premisas falsas, probablemente debido a su entrenamiento para seguir instrucciones. Esta tendencia se intensifica en escenarios legales complejos o cuando se trata de casos de tribunales inferiores. Llama 2, por otro lado, frecuentemente rechaza premisas falsas, pero a veces niega erróneamente la existencia de casos o jueces reales. De manera relacionada, también mostramos que los modelos están imperfectamente calibrados para cuestiones legales. La calibración del modelo captura si la confianza del modelo está correlacionada con la exactitud de las respuestas. Encontramos cierta divergencia entre los modelos: PaLM 2 y ChatGPT (GPT 3.5) muestran una mejor calibración que Llama 2. Sin embargo, un hilo común en todos los modelos es una tendencia al exceso de confianza, independientemente de su precisión real. Este exceso de confianza es particularmente evidente en tareas complejas y en aquellas relacionadas con tribunales inferiores, donde los modelos a menudo exageran su certeza, especialmente en áreas legales bien conocidas o de alto perfil. Implicaciones para la ley Las implicaciones de estos hallazgos son graves. Hoy en día, existe mucho entusiasmo en el sentido de que los LLM democratizarán el acceso a la justicia al proporcionar una manera fácil y de bajo costo para que el público obtenga asesoramiento legal. Pero nuestros hallazgos sugieren que las limitaciones actuales de los LLM plantean el riesgo de profundizar aún más las desigualdades legales existentes, en lugar de aliviarlas. Idealmente, los LLM se destacarían en brindar información legal localizada, corregir de manera efectiva a los usuarios en consultas equivocadas y calificar sus respuestas con niveles apropiados de confianza. Sin embargo, encontramos que estas capacidades faltan notoriamente en los modelos actuales. Por lo tanto, los riesgos de utilizar LLM para la investigación jurídica son especialmente altos para: Litigantes en tribunales inferiores o en jurisdicciones menos destacadas, Personas que buscan información legal detallada o compleja, Usuarios que formulan preguntas basadas en premisas incorrectas, y Aquellos que no están seguros de la confiabilidad de las respuestas del LLM. En esencia, los usuarios que se beneficiarían más de un LLM legal son precisamente aquellos para quienes los LLM están menos preparados para atender. También existe un riesgo inminente de que los LLM contribuyan al “ monocultivo ” legal. Debido a que los LLM tienden a limitar a los usuarios a una perspectiva judicial estrecha, potencialmente pasan por alto matices más amplios y la diversidad de interpretaciones legales. Esto es sustancialmente alarmante, pero también existe una versión de daño representacional: los LLM pueden borrar sistemáticamente las contribuciones de un miembro de la comunidad jurídica, como el juez Ginsburg, atribuyéndolas erróneamente a otro, como el juez Story. Avanzando con precaución Se están realizando muchos trabajos técnicos activos para abordar las alucinaciones en los LLM. Sin embargo, abordar las alucinaciones legales no es simplemente un problema técnico. Sugerimos que los LLM enfrenten compensaciones fundamentales al equilibrar la fidelidad de los datos de capacitación, la precisión al responder a las indicaciones de los usuarios y el cumplimiento de los hechos legales del mundo real. Por lo tanto, minimizar las alucinaciones requiere en última instancia juicios normativos sobre qué tipo de comportamiento es más importante, y la transparencia en estas decisiones de equilibrio es fundamental. Si bien los LLM tienen un potencial significativo para la práctica legal, las limitaciones que documentamos en nuestro trabajo justifican una gran precaución. La integración responsable de la IA en la práctica jurídica requerirá más iteración, supervisión y comprensión humana de las capacidades y limitaciones de la IA. En ese sentido, nuestros hallazgos subrayan la centralidad de la IA centrada en el ser humano. La integración responsable de la IA debe enriquecer a los abogados, clientes y jueces y no, como dijo el presidente del Tribunal Supremo Roberts, correr el riesgo de “deshumanizar la ley”. AUTORES Matthew Dahl es JD/Ph.D. estudiante de la Universidad de Yale y estudiante de posgrado afiliado de Stanford RegLab. Varun Magesh es investigador del Stanford RegLab. Mirac Suzgun es JD/Ph.D. estudiante de informática en la Universidad de Stanford y estudiante de posgrado en Stanford RegLab. Daniel E. Ho es profesor de derecho William Benjamin Scott y Luna M. Scott, profesor de ciencias políticas, profesor de informática (por cortesía), miembro principal de HAI, miembro principal de SIEPR y director del RegLab de la Universidad de Stanford. .