Libros: Las grandes tecnológicas no superan la prueba de transparencia

foto-resumen

Extracto de Taming Silicon Valley: How We Can Ensure That AI Works for Us (Cómo dominar Silicon Valley: cómo podemos garantizar que la inteligencia artificial funcione para nosotros), de Gary Marcus. Publicado por The MIT Press. Copyright 2024. Todos los derechos reservados. Gary Marcus Transparencia : ser claro sobre lo que se ha hecho y cuál es el impacto. Suena extraño, pero es muy importante. Empresas como Microsoft suelen hablar de “transparencia” de palabra, pero ofrecen muy poca transparencia real sobre cómo funcionan sus sistemas, cómo se los entrena o cómo se los prueba internamente, y mucho menos sobre los problemas que pueden haber causado. Necesitamos saber qué hay detrás de los sistemas de IA para poder entender sus sesgos (políticos y sociales), su dependencia de obras robadas y cómo mitigar sus numerosos riesgos. Necesitamos saber cómo se prueban para saber si son seguros. Las empresas realmente no quieren compartir, lo que no significa que no pretendan lo contrario. Por ejemplo, en mayo de 2023, el presidente de Microsoft, Brad Smith, anunció un nuevo “ plan de 5 puntos para gobernar la IA ”, supuestamente “promoviendo la transparencia”; el CEO inmediatamente amplificó sus comentarios, diciendo: “Estamos adoptando un enfoque integral para garantizar que siempre construyamos, implementemos y usemos la IA de una manera segura, protegida y transparente”. Pero mientras escribo esto, no se puede averiguar con qué se entrenaron los principales sistemas de Microsoft. No se puede averiguar en qué medida se basaron en materiales protegidos por derechos de autor. No se puede averiguar qué tipo de sesgos pueden derivarse de su elección de materiales. Y no se puede averiguar lo suficiente sobre lo que se entrenaron para hacer buena ciencia (por ejemplo, para averiguar qué tan bien razonan los modelos en comparación con si simplemente regurgitan lo que se les enseñó). Tampoco se puede averiguar si han causado daño en el mundo real. ¿Se han utilizado grandes modelos de lenguaje, por ejemplo, para tomar decisiones laborales, y se ha hecho de manera sesgada? Simplemente no lo sabemos. En una entrevista con Joanna Stern de The Wall Street Journal , la CTO de OpenAI, Mira Murati, ni siquiera quiso dar las respuestas más básicas sobre qué datos se habían utilizado para entrenar su sistema Sora, afirmando, increíblemente, que no tenía idea. Hace poco, en una sesión informativa sobre IA que di en la ONU, subrayé esta brecha entre las palabras y los hechos. Desde entonces, un equipo con miembros de la Universidad de Stanford, el MIT y Princeton, dirigido por los informáticos Rishi Bommasani y Percy Liang, creó un índice de transparencia minucioso y cuidadoso , que analiza diez empresas en función de 100 factores, que van desde la naturaleza de los datos que se utilizaron hasta los orígenes de la mano de obra involucrada y lo que se había hecho para mitigar los riesgos. Todas las empresas de inteligencia artificial recibieron una calificación reprobatoria. Meta obtuvo la puntuación más alta (54 por ciento), pero incluso esta empresa fracasó en factores como la transparencia de sus datos, la mano de obra, la política de uso y los mecanismos de retroalimentación. Ninguna empresa fue verdaderamente transparente en cuanto a los datos que utilizaba, ni siquiera Microsoft (a pesar de sus declaraciones sobre transparencia) u OpenAI, a pesar de su nombre. Las conclusiones del informe fueron duras: “El status quo se caracteriza por una falta generalizada de transparencia entre los desarrolladores… La transparencia es una condición ampliamente necesaria para otros avances sociales más sustanciales y, sin mejoras, los modelos de base opacos probablemente contribuyan a causar daños. Los modelos de base se están desarrollando, implementando y adoptando a un ritmo frenético: para que esta tecnología promueva el interés público, se deben realizar cambios reales para rectificar la falta fundamental de transparencia en el ecosistema ” . Peor aún, como lo expresó el equipo de Stanford/Princeton/MIT: “Mientras que el impacto social de estos modelos está aumentando, la transparencia está en declive”. Mientras estaba esbozando [mi libro], una organización sin fines de lucro llamada Data & Trust Alliance (Alianza de Datos y Confianza) , patrocinada por más de 20 grandes empresas de tecnología, logró obtener cobertura en un artículo del New York Times titulado “ Las grandes empresas encuentran una manera de identificar datos de IA en los que pueden confiar ”. Cuando revisé la página web de la alianza, tenía todas las palabras de moda adecuadas (como “procedencia [de los datos]” y “privacidad y protección”), pero los detalles estaban, en el mejor de los casos, orientados a proteger a las empresas, no a los consumidores. Como mínimo, deberíamos tener un manifiesto de los datos con los que se entrenan los sistemas; debería ser fácil para cualquier persona interesada ver qué materiales con derechos de autor se han utilizado. Con algo como GPT-4, no se diría casi nada de lo que uno realmente quisiera saber, por ejemplo, sobre fuentes protegidas por derechos de autor, posibles fuentes de sesgo u otros asuntos. Sería como decir, en el caso de un Boeing 787: “origen de las piezas: varias, EE. UU. y el extranjero; ingeniería: Boeing y múltiples subcontratistas”. Es cierto, pero tan vago que resulta casi inútil. Para estar realmente protegidos, necesitaríamos muchos más detalles. ¿Qué debemos exigir como ciudadanos? Transparencia de los datos. Como mínimo, deberíamos tener un manifiesto de los datos con los que se entrenan los sistemas; debería ser fácil para cualquier persona interesada ver qué materiales protegidos por derechos de autor se han utilizado. También debería ser fácil para cualquier investigador investigar las posibles fuentes de sesgo o averiguar hasta qué punto los modelos razonaban bien o simplemente regurgitaban lo que se había entrenado. En esencia, como han argumentado varios, necesitamos “etiquetas nutricionales para los datos” que expliquen de dónde provienen los conjuntos de datos, qué casos de uso apropiados podrían existir, qué limitaciones podría haber y otros factores. Transparencia algorítmica. Cuando un coche sin conductor tiene un accidente o se rechaza la solicitud de préstamo de un consumidor, deberíamos poder preguntar qué ha ido mal. El gran problema con los algoritmos de caja negra que están de moda actualmente es que [nadie] sabe exactamente por qué un modelo generativo o de LLM produce lo que produce. Directrices como el Plan de la Casa Blanca para una Carta de Derechos de la IA , la Recomendación de la UNESCO sobre la Ética de la Inteligencia Artificial y las Directrices Universales para la IA del Centro de IA y Política Digital denuncian esta falta de interpretabilidad. La Ley de IA de la UE representa un verdadero avance en este sentido, pero hasta ahora en los Estados Unidos, hay pocos requisitos legales para que los algoritmos sean divulgados o interpretables (excepto en dominios limitados como las decisiones crediticias). En su haber, el senador Ron Wyden (demócrata por Oregón), el senador Cory Booker (demócrata por Nueva Jersey) y la representante Yvette Clarke (demócrata por Nueva York) presentaron una Ley de Responsabilidad Algorítmica en febrero de 2022 (que en sí misma es una actualización de una propuesta anterior de 2019), pero no se ha convertido en ley. Si nos tomáramos en serio la interpretabilidad (como deberíamos), esperaríamos hasta que estuviera disponible una mejor tecnología. En el mundo real, en Estados Unidos, la búsqueda de ganancias básicamente está dejando de lado las necesidades de los consumidores y los derechos humanos. Transparencia de las fuentes. En los próximos años habrá una enorme cantidad de propaganda, incluidos vídeos deepfake cada vez más convincentes, y un montón de estafas, como las estafas de clonación de voz […]. Desafortunadamente, pocas personas están capacitadas para reconocer el contenido generado por máquinas, y no hay una forma automatizada de hacerlo con certeza. Peor aún, al usar trucos simples como pronombres personales y emojis, la IA puede engañar a mucha gente la mayor parte del tiempo. Cada vez más, veremos lo que el difunto filósofo Dan Dennett llamó "personas falsificadas". De manera similar, el periodista Devin Coldewey propuso que "se prohíba al software participar en la seudantropía , la suplantación de identidad de humanos", y estoy de acuerdo. En esta nueva era, todos deben estar en guardia. Pero los gobiernos deben ayudar, insistiendo en que el contenido generado por IA se etiquete como tal, como ha alentado Michael Atleson en la Comisión Federal de Comercio (FTC); En sus sencillas palabras, “la gente debería saber si se está comunicando con una persona real o con una máquina”. (Como señala, también se nos debería decir qué es un anuncio y qué no: “cualquier resultado de IA generativa debería distinguir claramente entre lo que es orgánico y lo que se paga”). Transparencia ambiental y laboral. Todo sistema de IA generativa de gran tamaño (por ejemplo, del tamaño de GPT-4, Claude o Gemini) debería informar sobre el impacto ambiental en relación con el uso de agua, energía y otros recursos, así como las emisiones de carbono. Los fabricantes de chips como NVidia también deberían ser más transparentes en cuanto a su impacto, en todo el ciclo de vida de sus productos. Deberíamos exigir transparencia en las prácticas laborales de los trabajadores de datos que se encargan del etiquetado de los datos y proporcionan retroalimentación humana. Transparencia corporativa. También necesitamos transparencia en lo que respecta a lo que las empresas saben sobre los riesgos de sus propios sistemas. En la famosa saga del Ford Pinto, Ford sabía que los tanques traseros de combustible de sus autos podían explotar en ocasiones, pero no compartió lo que sabía con el público. Como ha señalado el analista tecnológico (y editor) Tim O'Reilly, se debería exigir a las empresas tecnológicas que sean transparentes sobre los riesgos que conocen y sobre el trabajo interno que han realizado en torno a los riesgos, "un proceso continuo mediante el cual los creadores de modelos de IA revelan de manera completa, regular y consistente las métricas que ellos mismos usan para administrar y mejorar sus servicios y prohibir el uso indebido". También necesitamos que todas las corporaciones contribuyan a una base de datos pública de incidentes conocidos, y tal vez a un observatorio mundial de IA patrocinado por el gobierno para rastrear estas cosas. (La base de datos de incidentes de IA es un buen comienzo). Como ha observado agudamente Marietje Schaake, sin transparencia corporativa, ningún marco regulatorio puede funcionar realmente. Redactar buenos proyectos de ley sobre transparencia es una tarea ardua. Como señalan Archon Fung y sus coautores en Full Disclosure : “para tener éxito, las políticas de transparencia deben ser precisas, adelantarse a los esfuerzos de los divulgadores por encontrar lagunas y, sobre todo, centrarse en las necesidades de los ciudadanos comunes”, y es una tarea que es absolutamente necesaria. La buena noticia es que hay algunos avances en este sentido. En diciembre de 2023, los representantes Anna Eshoo (demócrata de California) y Don Beyer (demócrata de Virginia) presentaron un importante proyecto de ley sobre transparencia; en febrero de 2024, el senador Ed Markey (demócrata de Massachusetts) y el senador Martin Heinrich (demócrata de Nuevo México), en colaboración con los representantes Eshoo y Beyer, presentaron un proyecto de ley sobre transparencia ambiental. Espero que estos proyectos de ley se conviertan en ley.