Privacidad en la era de la IA: ¿Cómo protegemos nuestra información personal?

Por Katharine Miller El auge de la IA, incluida la llegada de los grandes modelos de lenguaje (LLM) y sus chatbots asociados, plantea nuevos desafíos para la privacidad. ¿Nuestra información personal forma parte de los datos de entrenamiento de un modelo? ¿Se comparten nuestras indicaciones con las fuerzas del orden? ¿Los chatbots conectarán diversos hilos de nuestras vidas en línea y los enviarán a cualquiera? Para comprender mejor estas amenazas y luchar con posibles soluciones, Jennifer King, investigadora de políticas de privacidad y datos en el Instituto de Inteligencia Artificial Centrada en el Ser Humano de la Universidad de Stanford (Stanford HAI), y Caroline Meinhardt, gerente de investigación de políticas de Stanford HAI, publicaron un documento técnico titulado "Repensar la privacidad en la era de la IA: provocaciones políticas para un mundo centrado en los datos". Aquí, King describe sus principales hallazgos. ¿A qué tipo de riesgos nos enfrentamos, ya que nuestros datos están siendo comprados, vendidos y utilizados por sistemas de IA? En primer lugar, los sistemas de IA plantean muchos de los mismos riesgos de privacidad a los que nos hemos enfrentado durante las últimas décadas de comercialización de Internet y, en su mayoría, de recopilación de datos sin restricciones. La diferencia es la escala: los sistemas de IA están tan hambrientos de datos y son tan poco transparentes que tenemos aún menos control sobre qué información sobre nosotros se recopila, para qué se utiliza y cómo podemos corregir o eliminar dicha información personal. Hoy en día, es básicamente imposible que las personas que utilizan productos o servicios en línea escapen a la vigilancia digital sistemática en la mayoría de las facetas de la vida, y la IA puede empeorar aún más las cosas. En segundo lugar, existe el riesgo de que otros utilicen nuestros datos y herramientas de IA con fines antisociales. Por ejemplo, las herramientas de IA generativa entrenadas con datos extraídos de Internet pueden memorizar información personal sobre las personas, así como datos relacionales sobre sus familiares y amigos. Estos datos ayudan a habilitar el spear-phishing, es decir, la selección deliberada de personas con fines de robo de identidad o fraude. Los malos actores ya están utilizando la clonación de voz de IA para hacerse pasar por personas y luego extorsionarlas a través de buenos teléfonos anticuados. En tercer lugar, estamos viendo que datos como un currículum o una fotografía que hemos compartido o publicado con un propósito se reutilizan para entrenar sistemas de IA, a menudo sin nuestro conocimiento o consentimiento y, a veces, con implicaciones directas para los derechos civiles. Los sistemas predictivos se están utilizando para ayudar a seleccionar a los candidatos y ayudar a los empleadores a decidir a quién entrevistar para los puestos vacantes. Sin embargo, ha habido casos en los que la IA utilizada para ayudar a seleccionar candidatos ha sido sesgada. Por ejemplo, Amazon creó su propia herramienta de selección de contratación de IA solo para descubrir que estaba sesgada contra las contrataciones femeninas. Otro ejemplo es el uso del reconocimiento facial para identificar y detener a personas que han cometido delitos. Es fácil pensar: "Es bueno tener una herramienta como el reconocimiento facial porque atrapará a los malos". Pero en cambio, debido al sesgo inherente a los datos utilizados para entrenar los algoritmos de reconocimiento facial existentes, estamos viendo numerosos arrestos falsos de hombres negros. Los algoritmos simplemente los identifican erróneamente. ¿Nos hemos vuelto tan insensibles a la idea de que las empresas se están quedando con todos nuestros datos que ya es demasiado tarde para hacer algo? Soy optimista. Ciertamente, se han recopilado muchos datos sobre todos nosotros, pero eso no significa que no podamos crear un sistema regulatorio mucho más sólido que requiera que los usuarios opten por que se recopilen sus datos u obligue a las empresas a eliminar datos cuando se utilicen indebidamente. Actualmente, prácticamente en cualquier lugar al que te conectes, se rastrea tu movimiento a través de diferentes sitios web. Y si está utilizando una aplicación móvil y tiene el GPS habilitado en su teléfono, se recopilan sus datos de ubicación. Este incumplimiento es el resultado de que la industria convenció a la Comisión Federal de Comercio hace unos 20 años de que si pasáramos de la recopilación de datos de exclusión voluntaria a la de inclusión, nunca tendríamos una Internet comercial. Llegados a este punto, creo que hemos establecido la utilidad de Internet. No creo que las empresas necesiten esa excusa para recopilar los datos de las personas. En mi opinión, cuando navego en línea, mis datos no deben recopilarse a menos que o hasta que tome alguna decisión afirmativa, como registrarme en el servicio o crear una cuenta. E incluso entonces, mis datos no deberían considerarse públicos a menos que haya aceptado compartirlos. Hace diez años, la mayoría de la gente pensaba en la privacidad de los datos en términos de compras en línea. Pensaron: "No sé si me importa si estas empresas saben lo que compro y lo que busco, porque a veces es útil". Pero ahora hemos visto a las empresas cambiar a esta recopilación de datos ubicua que entrena los sistemas de IA, lo que puede tener un gran impacto en toda la sociedad, especialmente en nuestros derechos civiles. No creo que sea demasiado tarde para revertir las cosas. Estas reglas y prácticas predeterminadas no están grabadas en piedra. Como enfoque general de la protección de la privacidad de los datos, ¿por qué no es suficiente aprobar regulaciones de minimización de datos y limitación de propósito que digan que las empresas solo pueden recopilar los datos que necesitan para un propósito limitado? Este tipo de reglas son críticas y necesarias. Desempeñan un papel clave en la ley de privacidad europea [el RGPD] y en el equivalente de California [la CPPA] y son una parte importante de la ley de privacidad propuesta por el gobierno federal [la ADPPA]. Pero me preocupa la forma en que los reguladores terminan poniendo en práctica estas reglas. Por ejemplo, ¿cómo hace un regulador para evaluar que una empresa ha recopilado demasiada información para el propósito para el que quiere utilizarla? En algunos casos, podría estar claro que una empresa se extralimitó por completo al recopilar datos que no necesitaba. Pero es una pregunta más difícil cuando las empresas (piense en Amazon o Google) pueden decir de manera realista que hacen muchas cosas diferentes, lo que significa que pueden justificar la recopilación de una gran cantidad de datos. No es un problema insuperable con estas reglas, pero es un problema real. Su documento técnico identifica varias soluciones posibles a los problemas de privacidad de datos que plantea la IA. En primer lugar, propone un cambio de la exclusión voluntaria al intercambio de datos de inclusión, que podría hacerse más fluido utilizando el software. ¿Cómo funcionaría eso? Yo diría que el valor predeterminado debería ser que nuestros datos no se recopilen a menos que solicitemos afirmativamente que se recopilen. Ha habido algunos movimientos y soluciones tecnológicas en esa dirección. Una de ellas es App Tracking Transparency (Apple ATT) de Apple, que Apple lanzó en 2021 para abordar las preocupaciones sobre la cantidad de datos de los usuarios que recopilaban las aplicaciones de terceros. Ahora, cuando los usuarios de iPhone descargan una nueva aplicación, el sistema iOS de Apple les pregunta si quieren permitir que la aplicación los rastree en otras aplicaciones y sitios web. Los informes de la industria del marketing estiman que entre el 80% y el 90% de las personas a las que se les presenta esa opción dicen que no. Otra opción es que los navegadores web tengan una señal de exclusión incorporada, como Global Privacy Control, que evita la colocación de cookies por parte de terceros o la venta de datos de personas sin necesidad de marcar una casilla. Actualmente, la Ley de Protección de la Privacidad de California (CPPA, por sus siglas en inglés) establece que los navegadores pueden incluir esta capacidad, pero no ha sido obligatoria. Y mientras que algunos navegadores (Firefox y Brave, por ejemplo) tienen una señal de exclusión incorporada, las grandes compañías de navegadores (como Microsoft Edge, Safari de Apple y Google Chrome) no la tienen. Sin embargo, curiosamente, un legislador de California propuso recientemente un cambio en la CPPA que requeriría que todos los fabricantes de navegadores respeten las señales de exclusión voluntaria de terceros. Esto es exactamente lo que necesitamos para que los datos no sean recopilados por todos los actores posibles y en todos los lugares a los que vaya. También propone adoptar un enfoque de cadena de suministro para la privacidad de los datos. ¿Qué imaginas que eso significaría? Cuando hablo de la cadena de suministro de datos, me refiero a las formas en que los sistemas de IA plantean problemas en el lado de la entrada y salida de datos. En el lado de la entrada, me refiero a la parte de datos de entrenamiento, que es donde nos preocupamos por si la información personal de un individuo se extrae de Internet y se incluye en los datos de entrenamiento de un sistema. A su vez, la presencia de nuestra información personal en el conjunto de entrenamiento tiene potencialmente una influencia en el lado de la salida. Por ejemplo, un sistema de IA generativa podría haber memorizado mi información de identificación personal y proporcionarla como salida. O bien, un sistema de IA generativa podría revelar algo sobre mí que se basa en una inferencia de múltiples puntos de datos que de otro modo no se conocen ni están conectados y que no están relacionados con ninguna información de identificación personal en el conjunto de datos de entrenamiento. En la actualidad, dependemos de que las empresas de IA eliminen la información personal de sus datos de entrenamiento o establezcan barreras de seguridad que impidan que la información personal salga a la luz. Y esa no es realmente una situación aceptable, porque dependemos de que elijan hacer lo correcto. Regular la IA requiere prestar especial atención a toda la cadena de suministro de datos, no solo para proteger nuestra privacidad, sino también para evitar sesgos y mejorar los modelos de IA. Desafortunadamente, algunas de las discusiones que hemos tenido sobre la regulación de la IA en los Estados Unidos no han tenido que ver con los datos en absoluto. Nos hemos centrado en los requisitos de transparencia en torno al propósito de los sistemas algorítmicos de las empresas. Incluso la Ley de IA en Europa, que ya tiene el GDPR como línea de base de privacidad, no tuvo una visión amplia del ecosistema de datos que alimenta la IA. Solo se mencionó en el contexto de los sistemas de IA de alto riesgo. Por lo tanto, esta es un área en la que hay mucho trabajo por hacer si queremos tener la sensación de que nuestra información personal está protegida de la inclusión en los sistemas de IA, incluidos los sistemas muy grandes, como los modelos de fundación. Usted señala en su informe que el enfoque en los derechos individuales de privacidad es demasiado limitado y que tenemos que considerar soluciones colectivas. ¿Qué quieres decir? Si queremos dar a las personas más control sobre sus datos en un contexto en el que se generan y recopilan enormes cantidades de datos, tengo claro que duplicar los derechos individuales no es suficiente. En California, donde tenemos una ley de privacidad de datos, la mayoría de nosotros ni siquiera sabemos qué derechos tenemos, y mucho menos el tiempo para averiguar cómo ejercerlos. Y si quisiéramos ejercerlas, tendríamos que hacer solicitudes individuales a todas las empresas con las que hemos interactuado para exigirles que no vendan nuestra información personal, solicitudes que tendríamos que hacer cada dos años, dado que estas exclusiones de "no vender" no son permanentes. Todo esto apunta a la necesidad de una solución colectiva para que el público tenga suficiente influencia para negociar sus derechos de datos a escala. Para mí, el concepto de intermediario de datos es el que tiene más sentido. Implica delegar el poder de negociación sobre sus derechos de datos a un colectivo que haga el trabajo por usted, lo que le da a los consumidores más influencia. Ya estamos viendo cómo los intermediarios de datos toman forma en algunos contextos de empresa a empresa y pueden adoptar diversas formas, como un administrador de datos, un fideicomiso, una cooperativa, una colaboración o un procomún. Implementarlos en el espacio del consumidor sería más desafiante, pero no creo que sea imposible de ninguna manera.