¿Qué tan disruptivo es DeepSeek?

foto-resumen

Por Vanessa Parli En las últimas semanas, la aparición del DeepSeek de China (un modelo de lenguaje de código abierto potente y rentable) ha suscitado un gran debate entre académicos e investigadores de la industria. En el Instituto de Inteligencia Artificial Centrada en el Ser Humano (HAI) de Stanford, los profesores están examinando no sólo los avances técnicos del modelo, sino también sus implicaciones más amplias para la academia, la industria y la sociedad a nivel mundial. El tema central de la conversación es cómo DeepSeek ha desafiado las nociones preconcebidas sobre el capital y los recursos computacionales necesarios para avances serios en IA. La capacidad de ingeniería inteligente e innovación algorítmica demostrada por DeepSeek puede empoderar a las organizaciones con menos recursos para competir en proyectos significativos. Esta ingeniería inteligente, combinada con los pesos de código abierto y el documento técnico detallado, fomenta un entorno de innovación que ha impulsado los avances técnicos durante décadas. Si bien el modelo de ponderación abierta y el documento técnico detallado son un paso adelante para la comunidad de código abierto, DeepSeek es notablemente opaco en lo que respecta a la protección de la privacidad, la obtención de datos y los derechos de autor, lo que aumenta las preocupaciones sobre el impacto de la IA en las artes, la regulación y la seguridad nacional. El hecho de que DeepSeek haya sido publicado por una organización china enfatiza la necesidad de pensar estratégicamente sobre las medidas regulatorias y las implicaciones geopolíticas dentro de un ecosistema de IA global donde no todos los actores tienen las mismas normas y donde los mecanismos como los controles de exportación no tienen el mismo impacto. DeepSeek ha reavivado los debates sobre código abierto, responsabilidad legal, cambios de poder geopolítico, preocupaciones por la privacidad y más. En esta colección de perspectivas, los investigadores sénior de Stanford HAI ofrecen un debate multidisciplinario sobre lo que significa DeepSeek para el campo de la inteligencia artificial y la sociedad en general. Russ Altman Profesor Kenneth Fong y Catedrático de Bioingeniería, de Genética, de Medicina, de Ciencia de Datos Biomédicos, Stanford HAI Senior Fellow y Profesor, por cortesía, de Ciencias de la Computación En HAI somos académicos, y hay elementos del desarrollo de DeepSeek que brindan lecciones y oportunidades importantes para la comunidad académica. En primer lugar, el compromiso con el código abierto (adoptado por Meta y también por DeepSeek) parece trascender las fronteras geopolíticas: tanto DeepSeek como Llama (de Meta) ofrecen a los académicos la oportunidad de inspeccionar, evaluar y mejorar los métodos existentes desde una perspectiva independiente. El movimiento del “código cerrado” se enfrenta ahora a algunos retos a la hora de justificar su enfoque; por supuesto, siguen existiendo preocupaciones legítimas (por ejemplo, que actores maliciosos utilicen modelos de código abierto para hacer cosas malas), pero incluso estas se pueden combatir mejor con acceso abierto a las herramientas que utilizan estos actores para que la gente del mundo académico, la industria y el gobierno puedan colaborar e innovar en formas de mitigar sus riesgos. En segundo lugar, la demostración de que la ingeniería inteligente y la innovación algorítmica pueden reducir los requisitos de capital para sistemas serios de IA significa que los esfuerzos menos capitalizados en el ámbito académico (y en otros ámbitos) pueden competir y contribuir en algunos tipos de construcción de sistemas. Muchos de nosotros pensábamos que tendríamos que esperar hasta la próxima generación de hardware de IA barato para democratizar la IA, y puede que todavía sea así. Pero incluso antes de eso, tenemos la demostración inesperada de que las innovaciones de software también pueden ser fuentes importantes de eficiencia y reducción de costos. En conjunto, ahora podemos imaginar sistemas de IA del mundo real no triviales y relevantes construidos por organizaciones con recursos más modestos. En tercer lugar, el progreso de DeepSeek, junto con los avances en los sistemas de IA basados ​​en agentes, hace que sea más fácil imaginar la creación generalizada de agentes de IA especializados que se combinen y combinen para crear sistemas de IA capaces. La “IA general” monolítica puede seguir siendo de interés académico, pero será más rentable y mejor desde el punto de vista de la ingeniería (por ejemplo, modular) crear sistemas hechos de componentes que se puedan construir, probar, mantener e implementar antes de fusionarse. Un modelo de agentes de IA que cooperan entre sí (y con humanos) replica la idea de “equipos” humanos que resuelven problemas. A veces los problemas los resuelve un solo genio monolítico, pero esta no suele ser la apuesta correcta. Por lo tanto, DeepSeek ayuda a restablecer el equilibrio al validar el intercambio de ideas de código abierto (los datos son otra cuestión, hay que admitirlo), demostrando el poder de la innovación algorítmica continua y permitiendo la creación económica de agentes de IA que se puedan combinar y combinar de manera económica para producir sistemas de IA útiles y robustos. Por supuesto, quedan preguntas: ¿Cómo podemos democratizar el acceso a las enormes cantidades de datos necesarias para construir modelos, respetando los derechos de autor y otra propiedad intelectual? ¿Cómo construimos modelos especializados cuando el volumen de datos para algunas disciplinas especializadas no es suficientemente grande? ¿Cómo evaluamos un sistema que utiliza más de un agente de IA para garantizar su correcto funcionamiento? Incluso si se validan los agentes individuales, ¿eso significa que se validan en conjunto? Yejin Choi Profesor de la Fundación Dieter Schwartz HAI, profesor de Ciencias de la Computación y miembro sénior de Stanford HAI El éxito del modelo R1 de DeepSeek demuestra que cuando hay una "prueba de la existencia de una solución" (como lo demuestra el o1 de OpenAI), es solo cuestión de tiempo antes de que otros también encuentren la solución. La decisión de DeepSeek de compartir la receta detallada del entrenamiento R1 y los modelos de peso abiertos de diferentes tamaños tiene profundas implicaciones, ya que esto probablemente aumentará aún más la velocidad del progreso: estamos a punto de presenciar una proliferación de nuevos esfuerzos de código abierto que replican y mejoran R1. Este cambio indica que la era de la escala de fuerza bruta está llegando a su fin, dando paso a una nueva fase centrada en innovaciones algorítmicas para continuar escalando a través de la síntesis de datos, nuevos marcos de aprendizaje y nuevos algoritmos de inferencia. Sin embargo, una de las cuestiones más importantes a las que nos enfrentamos en este momento es cómo aprovechar estos poderosos sistemas de inteligencia artificial para beneficiar a la humanidad en su conjunto. El hecho de que un modelo destaque en los parámetros matemáticos no se traduce inmediatamente en soluciones para los difíciles desafíos que enfrenta la humanidad, incluidas las crecientes tensiones políticas, los desastres naturales o la persistente difusión de información errónea. Esta desconexión entre las capacidades técnicas y el impacto social práctico sigue siendo uno de los desafíos más urgentes de este campo. Michele Elam Profesor William Robertson Coe de Humanidades, Stanford Investigador principal de HAI, Universidad Bass Investigador en Educación de Pregrado En medio de toda la preocupación y el resentimiento de los estadounidenses por el reciente lanzamiento en China del chatbot de inteligencia artificial DeepSeek, aparentemente (extremadamente) menos costoso, menos consumidor de recursos informáticos y menos ofensivo para el medio ambiente, hasta la fecha pocos han considerado lo que esto significa para el impacto de la inteligencia artificial en las artes. De hecho, lo que DeepSeek significa para la literatura, las artes escénicas, la cultura visual, etc., puede parecer completamente irrelevante frente a lo que pueden parecer ansiedades de orden mucho más alto en relación con la seguridad nacional, la devaluación económica de la industria estadounidense de inteligencia artificial y los beneficios o no del código abierto para la innovación. Pero, en realidad, la opacidad total de DeepSeek en lo que respecta a la protección de la privacidad, la obtención y el rastreo de datos, y los debates sobre NIL y los derechos de autor tiene un impacto descomunal en las artes. En realidad, "opacidad" es un término generoso: DeepSeek es una respuesta "que no se puede ni molestar" a estas preocupaciones. No importan las huelgas de SAG-AFTRA en la industria creativa, las demandas en curso de The New York Times y muchos otros. En muchos sentidos, el hecho de que DeepSeek pueda salirse con la suya con su actitud descarada de indiferencia es culpa nuestra. La popularidad de su chatbot es un reflejo amplificado de la tendencia cada vez mayor de los consumidores estadounidenses a hacer la vista gorda ante estos problemas, una tendencia fomentada agresivamente por una industria cuyos modelos de negocio desvían intencionalmente nuestra atención de tales cuestiones desagradables en nombre del retorno de la inversión. Al igual que TikTok, DeepSeek aprovecha el avance de nuestra aculturación durante los últimos años para entregar nuestros derechos de privacidad con cada clic en los términos contractuales cada vez más oscuros y actualizados en nuestros dispositivos (generalmente en nombre de ese maravilloso eufemismo de marketing, “personalización”). Podría decirse, como muchos ya han señalado, que el consumo omnívoro de datos privados y sensibles por parte de DeepSeek explota la incapacidad nacional de regular la IA, a diferencia del Reino Unido y la UE, y pone al país en riesgo de muchas maneras debido a nuestro mantra de que “la regulación impide la innovación”. Pero en lo que se refiere a las artes, sería bueno que prestáramos atención a la forma en que DeepSeek controla las claves de nuestra imaginación a través de su censura preventiva, su alineamiento con ideologías nacionalistas, nuestro consentimiento inconsciente o irreflexivo a su modelado algorítmico de la realidad, es decir, su capacidad de moldear cómo vemos y actuamos en el mundo. Stanford ha adaptado actualmente, a través del programa Azure de Microsoft, una versión “más segura” de DeepSeek con la que experimentar y advierte a la comunidad que no use las versiones comerciales por cuestiones de seguridad. Pero, independientemente de ello, el lanzamiento de DeepSeek pone de relieve los riesgos y las recompensas de la enorme capacidad de esta tecnología para influir en nuestra experiencia de la realidad en particular, lo que incluso llegamos a considerar como realidad. Como lo indicaron los primeros debates entre Platón y Aristóteles sobre el influyente poder cívico del teatro y la poesía, ese es también precisamente el poder de las artes. Mykel Kochenderfer Profesor asociado de Aeronáutica y Astronáutica en la Universidad de Stanford, Stanford HAI Senior Fellow La IA se utiliza cada vez más para respaldar escenarios críticos o de alto riesgo para la seguridad, que van desde vehículos automatizados hasta soporte de decisiones clínicas. Sin embargo, conciliar la falta de explicabilidad en los sistemas de IA actuales con los estándares de ingeniería de seguridad en aplicaciones de alto riesgo sigue siendo un desafío. Un aspecto particularmente atractivo de DeepSeek R1 es su aparente transparencia en el razonamiento al responder consultas complejas. El nivel de detalle que proporciona puede facilitar la auditoría y ayudar a fomentar la confianza en lo que genera. Este razonamiento transparente en el momento en que se formula una pregunta a un modelo de lenguaje se conoce como explicabilidad en tiempo de interferencia. Si bien la explicabilidad en tiempo de inferencia en los modelos de lenguaje aún está en sus inicios y requerirá un desarrollo significativo para alcanzar la madurez, los pequeños pasos que vemos hoy pueden ayudar a conducir a sistemas futuros que asistan a los humanos de manera segura y confiable. Otro obstáculo para aplicar los recientes avances en inteligencia artificial a muchas aplicaciones es la enorme cantidad de datos y de recursos computacionales necesarios. DeepSeek demuestra que todavía hay un enorme potencial para desarrollar nuevos métodos que reduzcan la dependencia tanto de grandes conjuntos de datos como de grandes recursos computacionales. Espero que el mundo académico, en colaboración con la industria, pueda ayudar a acelerar estas innovaciones. Al crear algoritmos más eficientes, podemos hacer que los modelos de lenguaje sean más accesibles en dispositivos periféricos, eliminando la necesidad de una conexión continua a una infraestructura de alto costo. Con la enorme cantidad de conocimiento de sentido común que se puede incorporar a estos modelos de lenguaje, podemos desarrollar aplicaciones que sean más inteligentes, más útiles y más resilientes, especialmente importantes cuando lo que está en juego es mucho más importante. James Landay Profesor de Ciencias de la Computación y Profesor Anand Rajaraman y Venky Harinarayan en la Facultad de Ingeniería de la Universidad de Stanford, Codirector de Stanford HAI DeepSeek es algo bueno para el campo. Están publicando su trabajo. Su modelo se lanza con ponderaciones abiertas, lo que significa que otros pueden modificarlo y también ejecutarlo en sus propios servidores. Están reduciendo los costos de la IA. Todo esto es bueno para hacer avanzar la investigación y la aplicación de la IA. Una de las mayores críticas a la IA ha sido el impacto en la sostenibilidad del entrenamiento de grandes modelos de base y la prestación de servicios de consultas/inferencias a partir de estos modelos. DeepSeek ha demostrado muchas optimizaciones útiles que reducen los costos en términos de computación en ambos lados de la ecuación de sostenibilidad de la IA. Esto es bueno para el campo, ya que cualquier otra empresa o investigador puede usar las mismas optimizaciones (ambas están documentadas en un informe técnico y el código es de código abierto). “La práctica de compartir innovaciones a través de informes técnicos y código abierto continúa la tradición de investigación abierta que ha sido esencial para impulsar la informática durante los últimos 40 años”. La práctica de compartir innovaciones a través de informes técnicos y código fuente abierto continúa la tradición de investigación abierta que ha sido esencial para impulsar la informática durante los últimos 40 años. Como campo de investigación, deberíamos acoger con agrado este tipo de trabajo, ya que ayudará a mejorar el trabajo de todos. Si bien muchas empresas estadounidenses se han inclinado por modelos propietarios y aún quedan preguntas por responder, especialmente en torno a la privacidad y seguridad de los datos, el enfoque abierto de DeepSeek fomenta una participación más amplia que beneficia a la comunidad global de IA, fomentando la iteración, el progreso y la innovación. Percy Liang Profesor asociado de Ciencias de la Computación en la Universidad de Stanford, Director del Centro de Investigación sobre Modelos de Fundamentos (CRFM), Stanford HAI Senior Fellow DeepSeek R1 demostró que la IA avanzada estará ampliamente disponible para todos y será difícil de controlar, y también que no existen fronteras nacionales. También demuestra que el ingenio y la ingeniería sí importan, además de tener grandes cantidades de cómputo. Para el mundo académico, la disponibilidad de modelos de peso abierto más sólidos es una bendición porque permite la reproducibilidad, la privacidad y el estudio de los aspectos internos de la IA avanzada. Christopher Manning Profesor Thomas M. Siebel de Aprendizaje Automático en los Departamentos de Lingüística y Ciencias de la Computación de la Universidad de Stanford y Director Asociado de Stanford HAI La gente lo tomó como una especie de sorpresa inesperada, pero en realidad no lo fue si uno seguía de cerca la IA de código abierto. DeepSeek ha estado publicando modelos abiertos y documentos de investigación técnica detallados durante más de un año. El costo de entrenamiento de DeepSeek V3 se publicó en diciembre de 2024; una versión preliminar de R1-Lite se lanzó en noviembre de 2024. “Es una situación triste para un país que durante mucho tiempo ha sido un país abierto que promueve la ciencia y la ingeniería abiertas, que la mejor manera de aprender sobre los detalles del diseño y la ingeniería de LLM modernos sea actualmente leer los informes técnicos completos de las empresas chinas”. Este comunicado subraya que las empresas estadounidenses de inteligencia artificial llamadas “de vanguardia” no tienen una gran ventaja técnica. Ahora hay muchos modelos de lenguaje grande (LLM) chinos excelentes. Como mucho, estas empresas están seis meses por delante, y tal vez solo OpenAI esté por delante. Es una situación triste para lo que durante mucho tiempo ha sido un país abierto que promueve la ciencia y la ingeniería abiertas, que la mejor manera de aprender sobre los detalles del diseño y la ingeniería de LLM modernos sea actualmente leer los informes técnicos completos de las empresas chinas. DeepSeek ha realizado una ingeniería de datos muy buena, minimizando el flujo de datos y permitiendo un entrenamiento eficiente y estable en fp8. Tienen algunos avances técnicos modestos, utilizando una forma distintiva de atención latente de múltiples cabezas, una gran cantidad de expertos en una mezcla de expertos y su propia forma simple y eficiente de aprendizaje de refuerzo (RL), que va en contra de la forma de pensar de algunas personas que prefieren recompensas basadas en reglas. Pero no hay nada totalmente de próxima generación aquí. DeepSeek utiliza métodos y modelos similares a otros, y Deepseek-R1 es un gran avance en ponerse al día ágilmente para proporcionar algo similar en calidad a OpenAI o1. No es un nuevo avance en capacidades. Sin embargo, el lanzamiento de DeepSeek-R1 supone un avance notable en la frontera de los LLM de código abierto y sugiere la imposibilidad de que Estados Unidos pueda contener el desarrollo de LLM de código abierto potentes. También puede significar que más empresas estadounidenses comenzarán a utilizar LLM chinos en sus propios productos, mientras que hasta ahora generalmente los han evitado, prefiriendo utilizar los modelos Llama de Meta u otros de Databricks, etc. Julián Nyarko Profesor de Derecho en la Facultad de Derecho de Stanford, Director Asociado de Stanford HAI Los modelos de aprendizaje profundo (LLM) son una “tecnología de propósito general” que se utiliza en muchos campos. Algunas empresas crean estos modelos, mientras que otras los utilizan para fines específicos. Un debate clave en este momento es quién debería ser responsable del comportamiento dañino de los modelos: los desarrolladores que crean los modelos o las organizaciones que los utilizan. En este contexto, los nuevos modelos de DeepSeek, desarrollados por una empresa emergente china, resaltan cómo la naturaleza global del desarrollo de la IA podría complicar las respuestas regulatorias, especialmente cuando los diferentes países tienen normas legales y entendimientos culturales distintos. Si bien los controles de exportación se han considerado una herramienta importante para garantizar que las principales implementaciones de IA se adhieran a nuestras leyes y sistemas de valores, el éxito de DeepSeek subraya las limitaciones de tales medidas cuando las naciones competidoras pueden desarrollar y lanzar modelos de última generación (en cierta medida) de manera independiente. La naturaleza de código abierto de los lanzamientos de DeepSeek complica aún más la cuestión de la responsabilidad legal. Con los modelos disponibles libremente para su modificación e implementación, la idea de que los desarrolladores de modelos puedan y quieran abordar de manera efectiva los riesgos planteados por sus modelos podría volverse cada vez más irreal. En lugar de ello, tal vez sea necesario desplazar el foco regulatorio hacia las consecuencias posteriores del uso de los modelos, lo que podría colocar más responsabilidad sobre quienes los implementan. Amy Zegart Morris Arnold y Nona Jean Cox, investigador principal de la Institución Hoover, investigador principal del Instituto Freeman Spogli de Estudios Internacionales, en Stanford HAI, y profesor, por cortesía, de Ciencias Políticas. Las últimas semanas de DeepSeek se han centrado en chips y fosos competitivos. ¿Cuánto acumuló, contrabandeó o innovó DeepSeek para burlar los controles de exportación de EE. UU.? ¿Cuántos y qué tipo de chips se necesitan para que los investigadores innoven en la frontera ahora, a la luz de los avances de DeepSeek? ¿Los hiperescaladores estadounidenses como OpenAI terminaron gastando miles de millones en construir fosos competitivos o una línea Maginot que simplemente dio la ilusión de seguridad? Todas estas son preguntas importantes y las respuestas llevarán tiempo. “Casi todos los 200 ingenieros que escribieron el artículo innovador sobre el R1 el mes pasado se formaron en universidades chinas, y aproximadamente la mitad no estudió ni trabajó en ningún otro lugar. Esto debería ser una señal de alerta para los responsables de las políticas estadounidenses”. Sin embargo, ya se ven tres implicaciones geopolíticas serias. En primer lugar, DeepSeek tuvo éxito con talento local. Casi todos los 200 ingenieros que escribieron el artículo innovador R1 el mes pasado se educaron en universidades chinas, y aproximadamente la mitad no estudió ni trabajó en ningún otro lugar. Esto debería ser una señal de alerta para los responsables políticos estadounidenses. En la era tecnológica, el talento es una fuente importante de poder nacional . El mantra "Estados Unidos atrae a los mejores talentos del mundo" se pronuncia con frecuencia, pero cada vez es más erróneo. Los niveles educativos en aumento y las mejoras espectaculares en las instituciones de educación superior en China y en otras partes del mundo están rediseñando el mapa del poder del conocimiento. Mientras tanto, la educación primaria y secundaria de Estados Unidos está en ruinas, y los jóvenes estadounidenses de 15 años obtuvieron un triste puesto 34 en matemáticas durante la última prueba internacional, detrás de Eslovenia y Vietnam. En segundo lugar, DeepSeek no copió a las empresas estadounidenses, copió a las universidades estadounidenses. La startup contrató a ingenieros jóvenes, no a expertos en la industria, y les dio libertad y recursos para hacer “ciencia loca” destinada al descubrimiento a largo plazo por sí misma, no al desarrollo de productos para el próximo trimestre. La comercialización es una parte esencial de la innovación, pero los avances suelen comenzar con una investigación fundamental que no tiene en mente ningún producto o beneficio previsible. Este tipo de investigación fundamental es el alma de las universidades y ha sustentado el liderazgo de innovación de Estados Unidos durante décadas, dando lugar a todo, desde satélites cúbicos hasta vacunas contra la COVID-19. Sin embargo, hoy China está invirtiendo seis veces más rápido en investigación fundamental que el gobierno estadounidense y, si las tendencias actuales continúan, China superará en inversión a Estados Unidos en una década. Este es un campo de batalla crucial de innovación a largo plazo, y Estados Unidos lo está cediendo. En tercer lugar, el anuncio de DeepSeek sacudió los mercados estadounidenses, lo que provocó una caída del 3% en el índice compuesto Nasdaq y del 17% en las acciones de NVIDIA, lo que eliminó 600.000 millones de dólares de su valor. Fue la mayor pérdida de una empresa en un solo día en la historia de Estados Unidos y una cifra tan enorme que equivale al 65% del presupuesto anual de defensa de ese país. Esta consecuencia no deseada de hoy podría ser la consecuencia deseada de mañana. Imaginemos que un adversario anuncia deliberadamente un avance tecnológico real o fraudulento para castigar a una empresa específica o sacudir los mercados de capital de otra nación. Esta arma económica de la zona gris podría estar dirigida con precisión o ser masiva. Podría ser difícil, tal vez imposible, atribuirla a una actividad deliberada. Y funciona mejor si se produce sin previo aviso. ¿Inverosímil? En la última década hemos presenciado el aumento de una actividad sorprendente en otras esferas, desde los “hombrecitos verdes” rusos que marchan sobre Crimea sin uniformes y afirman ser unidades de autodefensa locales ucranianas hasta operaciones de influencia con medios cibernéticos llevadas a cabo por Rusia, China, Irán y otras naciones para inflamar la opinión pública y moldear las elecciones en todo el mundo. DeepSeek no solo publicó nuevos avances en inteligencia artificial; también reveló los contornos de una era geopolítica floreciente que tiene nuevas fuentes de poder nacional y nuevos campos de batalla.