Por Melissa Guerra Jáuregui En entregas anteriores se ha discutido el papel de la ética dentro de la Inteligencia Artificial (IA), así como algunos de los marcos de referencia éticos que son necesarios para asegurar la confiabilidad y la seguridad de estos sistemas. Sin embargo, expertos en inteligencia artificial han externado que la ventana para entender a estos sistemas se está cerrando, lo cual nos deja con varias interrogantes: ¿qué significa esto y qué consecuencias podría tener para el futuro? Antes de comenzar, hay que comprender dos conceptos clave: AI Safety y AI Control. Estos marcos de referencia sobre la IA son fundamentales para entender por qué se habla de una carrera contra el tiempo para entender a estos sistemas y cuáles serían las consecuencias inevitables si no se encuentra una solución efectiva para manejarlos de manera segura. AI Safety AI Safety o seguridad de la IA son aquellos métodos y prácticas involucradas en el diseño e implementación de sistemas de inteligencia artificial, con el objetivo de que cumplan con sus funciones, pero sin causar daños a personas o al ambiente. Este marco de referencia aborda los riesgos asociados con estos sistemas para evitar consecuencias no deseadas. En este sentido, para la seguridad de la IA es importante tomar precauciones para evitar desalineamiento o comportamientos no previstos, puesto que su integración masiva y a gran escala puede suponer este tipo de riesgos, sobre todo en campos críticos como salud, finanzas, etc. Por tanto, es fundamental que se implementen principios de seguridad sólidos en su fase de diseño para consolidar confianza y fiabilidad. Principios de AI Safety De acuerdo con Tigera (s.f.), los principios básicos de AI Safety son los siguientes: Alineamiento: se refiere a que la IA esté alineada (objetivos y comportamientos) con los valores humanos para evitar daños involuntarios. Robustez: hace referencia a la creación de sistemas inteligentes fiables, estables y predecibles que reaccionen como deben, incluso ante situaciones o datos imprevistos. Transparencia: que la IA tenga un diseño comprensible y auditable por humanos, con el fin de entender cómo y por qué estos sistemas toman ciertas decisiones. Responsabilidad: garantizar que estos sistemas cuentan con directrices que marcan el comportamiento aceptable de la IA, así como responsabilidad que tienen las personas encargadas de su desarrollo y gestión. AI Control Según Arnav et al. (2025), AI Control o control de la IA, es un marco de trabajo enfocado en el diseño y evaluación de estrategias para garantizar la seguridad de los sistemas inteligentes, incluso ante una subversión intencionada de la IA, es decir, manipulación o uso para fines distintos a los previstos (jailbreak, ataques, etc.). El funcionamiento del control de la IA se compone de dos estrategias: Monitoreo: se refiere a la detección de respuestas que constituyen un intento de sabotaje. Intervención: es la modificación de las respuestas que no son confiables, para que posteriormente puedan ser seguras y útiles. Por ende, el control de la IA es crítico para prevenir comportamientos no deseados, mediante el uso de mecanismos que supervisan y corrigen; esto asegura la fiabilidad y seguridad de estos sistemas. Entonces, ¿qué significa que «la ventana» para entender a la IA se está cerrando? Expertos e investigadores de IA de METR, Antrophic, Meta, Open AI, UK AI Security, Google Deep Mind, Redwood Research, University of Montreal, Truthful AI and UC Berkeley, Amazon, Apollo Research, entre otros han externado su preocupación sobre los modelos de IA, ya que, según en su investigación más reciente: Chain of Thought Monitorability: A New Fragile Opportunity for AI Safety, mencionan queestos sistemas se están volviendo más difíciles de entender, conforme se vuelven más complejos, autónomos y difíciles de auditar, reduciendo así la capacidad humana para saber cómo y por qué toman decisiones. Es decir, que podríamos perder el control de la IA si no entendemos cómo y en qué piensa. Estos expertos han externado que se necesitan estrategias de monitoreo eficaces para impedir que esto suceda. Por consiguiente, el control de la IA toma un papel relevante para monitorear de manera fiable a los sistemas de IA, especialmente aquellos que son LLM (Large Language Models), debido a que “procesan y actúan de forma nativa a través del lenguaje humano” (Korback et al., 2025). De acuerdo con IBM, gracias a esta característica (uso de lenguaje natural), la capacidad de los LLM para pensar “en voz alta” en este lenguaje mejora sus capacidades y aumenta su poder de computación, y sería también gracias a esto que los sistemas podrían ser monitoreados. Debido a la característica mencionada anteriormente, se abre una posibilidad para saber qué y cómo piensa la IA. Esta herramienta se llama CoT (Chain of Thought Reasoning) o cadena de pensamiento/razonamiento, la cual, según varios expertos de Open AI, Google DeepMind, etc., puede ayudar a supervisar y mitigar los riesgos de la opacidad (es decir, cuando los sistemas no muestran cómo funcionan) de los agentes de IA avanzados. Chain of Thought Reasoning El CoT (Chain of Thought Reasoning) es una técnica de prompt engineering, cuyo objetivo es mejorar la capacidad de resolución de problemas de razonamiento complejos; se enfoca en el razonamiento intermedio de los modelos. En otras palabras, el sistema que utiliza CoT no muestra una respuesta directa, sino cómo llegaron a ella. Este es un ejemplo muy sencillo de cómo funciona: Pregunta: ¿Cuánto es 9 + 2 × 5? Sin CoT: La respuesta es 19 Con CoT: La expresión es: 9 + 2 × 5 Primero, se resuelve la multiplicación: 2 × 5= 10 Finalmente, se suma: 9 + 10= 19 La respuesta es 19 El CoT ayuda a que los modelos sean más confiables, transparentes y explicables, puesto que mitigan riesgos de manipulación/sabotaje, así como los asociados con la interpretabilidad y la explicabilidad. De este modo, el CoT se considera como una habilidad emergente, a medida que los modelos se vuelven más grandes y complejos. Según Korback et al., 2025, esta técnica “ofrece una oportunidad única para la seguridad de la IA, es decir, la monitorización de la cadena de pensamiento”. Esto se debe a que un monitor de CoT puede señalar interacciones sospechosas o potencialmente dañinas, las cuales pueden bloquearse, reemplazarse o revisarse a profundidad más adelante. “Al estudiar el CoT, podemos comprender mejor cómo piensan nuestros agentes de IA y cuáles son sus objetivos” (Korback et al., 2025). Sin embargo, este sistema de monitoreo tiene una desventaja marcada: el CoT puede disminuir el rendimiento del monitoreo, lo que puede introducir ruido o señales falsas cuando se aplica a intentos de subversión. Por su parte, investigadores de Google DeepMind (2025) mencionan que si bien el CoT no es infalible, puesto que tiene áreas de oportunidad importantes, sí es una capa de defensa importante que requiere protección activa y pruebas de estrés continuas para asegurar la seguridad y el control de la IA. Riesgos de la IA De acuerdo con Hendrycks (2025) y su libro Introduction to AI Safety, Ethics, and Society, conforme avanza la tecnología y gana poder, también aumenta su potencia para la destrucción. Por esa razón, es urgente comprender qué es lo que puede salir mal y qué se puede hacer al respecto.Además, indica que los riesgos que implica el uso de la IA (AI Risk) son de carácter multidisciplinario, por lo que diversas disciplinas deben sumarse para encontrar soluciones aplicables y seguras para los riesgos que representa la inteligencia artificial. Asimismo, Hendycks (2025) identifica cuatro fuentes principales de riesgo de la IA: Uso malicioso: se refiere a los actores malintencionados que usan la IA para causar desastres a gran escala. Riesgos: bioterrorismo, creación de agentes rebeldes de IA, aceleracionismo de la IA, generación de desinformación, explotación de la confianza del usuario, centralización de la información, concentración de poder, etc. La carrera de la IA (AI race): se define como la competencia entre países para desarrollar e implementar IA, por lo que estas presiones competitivas pueden provocar un despliegue inseguro (en término éticos) de estos sistemas. Riesgos: Competencia militar:creación de LAW (armas autónomas letales), delegación de decisiones de vida-muerte a las IA (drones para la guerra), guerras cibernéticas potenciadas con IA que pueden desencadenar una guerra, desarrollo de guerras automatizadas, armas controladas por IA, entre otros. Competencia corporativa: se incentiva la implementación insegura de los sistemas, presiones para reemplazar humanos por IA, lo cual puede incurrir en desempleo masivo, problemas de alineación de la IA, etc. Riesgos organizacionales: incidentes derivados por la complejidad de la IA, así como por las organizaciones que las desarrollan. Riesgos:la complejidad de los sistemas provoca que se deban tomar medidas para evitar accidentes, ya que estos pueden ser impredecibles por la naturaleza de estos sistemas. Además, puede tomar años descubrir fallas o riesgos en la IA. Por ende, es necesario que las empresas tengan una cultura de seguridad fuerte (basado en humanos) y principios de seguridad robustos para evitar incidentes a gran escala. IA rebelde (Rogue AI): este punto se refiere al problema que supone controlar la tecnología, la cual es más inteligente que los humanos. Riesgos: proxy gaming, conducta maliciosa, engañosa o búsqueda del poder sobre los humanos (a medida que la IA se vuelve más inteligente), entre otros. Por su parte, el MIT, en su división AI Risk Repository, también ha desplegado su taxonomía de causas/riesgos asociados a la IA. Este repositorio contiene tres apartados: AI Risk Database (base de datos que contiene más de 1600 riesgos categorizados), Causal Taxonomy of AI Risks (clasifica cómo, cuándo y por qué ocurren los incidentes) y Domain Taxonomy of AI Risks (organiza los riesgos en siete dominios y 24 subdominios de riesgos). Este tipo de iniciativas permiten comprender los riesgos asociados a la IA de forma accesible y periódica, por lo que puede servir como un marco de referencia para investigadores, empresas, tomadores de decisiones, etc., así como para promover la investigación y el desarrollo de políticas públicas para legislar la IA. Aunque no es un hecho de que el CoT sea la estrategia definitiva para entender cómo y en qué piensa la inteligencia artificial, es un paso importante y necesario para asegurar que su uso sea seguro y confiable para todos. Conforme avance la tecnología y se vuelva más compleja, así mismo se volverán los protocolos para contener su potencial dañino para la sociedad, para que, en teoría, también sus principios éticos puedan ser respetados y ejecutados. Si bien no sabemos a ciencia cierta qué depara el futuro en la seguridad y control de estos sistemas (que a la vez se están volviendo super inteligentes), es necesario estar informados y saber hacia dónde se dirigen los esfuerzos en conjunto, de empresas, organizaciones y grandes potencias en IA, para entender y ser conscientes de los riesgos potenciales a los que se podría estar expuestos por el uso de LLM.