La administración Trump está buscando desarrollar un proceso que obligaría al gobierno federal a revisar la seguridad de poderosos modelos de inteligencia artificial antes de aprobar su lanzamiento, según un informe del New York Times del 4 de mayo de 2026. La medida iría en contra del enfoque generalmente antirregulatorio de la administración hacia la industria y se produce después de que Anthropic AI lanzara voluntariamente su último modelo después de su lanzamiento.
Anthropic estaba preocupado porque cuando probó Mithos, el modelo encontró miles de vulnerabilidades en sistemas operativos y navegadores web. La implicación era que si un cibercriminal o un agente extranjero hostil tuviera Mithos, podría penetrar los sistemas informáticos de todo el mundo y comprometer el código informático básico que subyace a la seguridad pública, la economía nacional y la seguridad militar.
Como resultado, Anthropic solo ha otorgado acceso limitado a unas 50 empresas y organizaciones que administran infraestructura crítica en el marco de su proyecto Glasswing. La iniciativa tiene como objetivo ayudar a gobiernos y corporaciones a cerrar los agujeros de software identificados por Mithos. Cuando Anthropic intentó ampliar el número de organizaciones con acceso a Mithos, la Casa Blanca se opuso.
Mientras tanto, los expertos en seguridad han expresado su preocupación de que los investigadores de IA en países como China, Rusia, Irán y Corea del Norte pronto puedan crear modelos de IA igualmente poderosos y usarlos para amenazar o atacar a otros países, o causar estragos en las economías de esos países.
Los principales desafíos
Como informático en el campo, mi trabajo en seguridad informática y malware muestra que es difícil incluso definir qué medidas de seguridad se deben tomar en el campo para que los modelos sean seguros de usar. Sin embargo, el futuro de muchas industrias, infraestructuras críticas, seguridad nacional y bienestar humano parece depender de lograr modelos de IA que sean veraces, éticos y razonables.
El primero de estos desafíos, la veracidad y la precisión fáctica, salió a la luz cuando OpenAI ChatGPT irrumpió en escena en 2022. Personas de todo el mundo se dieron cuenta de que los resultados de grandes modelos de lenguaje no necesariamente reflejan la verdadera realidad. El objetivo de las empresas de IA era una escritura coherente que se leyera como si estuviera escrita por un humano. Si el resultado era erróneo, los desarrolladores lo descartaron como una “alucinación” del modelo.
Después de que los programas de IA provocaron algunos desastres legales y pánicos en el mercado de valores, las empresas de IA han hecho al menos algunos esfuerzos para garantizar que sus modelos eviten falsedades e inexactitudes.
No obstante, la información falsa presentada con confianza en un mar de texto duro puede cobrar vida propia. Debido a las consecuencias, se están realizando investigaciones sobre cómo inyectar verosimilitud a los modelos, o al menos prevenir las alucinaciones.
La veracidad y la base en la realidad son parte de una preocupación más amplia y general sobre los modelos de IA seguros. El propio ritmo de su progreso puede ser una amenaza.
Los expertos en ciberseguridad están preocupados por el poderoso modelo Mithos de Anthropic: he aquí por qué. Joseph Skuillace, Universidad Estatal de Pensilvania, vía AP Violaciones preocupantes por parte de robots de inteligencia artificial
Numerosos incidentes ocurridos en los últimos dos años muestran que los grandes modelos lingüísticos ya han causado daños.
Una revisión nacional de la ley encontró múltiples casos en 2024 y 2025 en los que adolescentes y niños utilizaron chatbots para investigar la autolesión, en algunos casos con consecuencias mortales. Desde entonces se han presentado demandas alegando que los chatbots fomentaban el suicidio.
En 2025, investigadores de la empresa de ciberseguridad ESET Research descubrieron un programa llamado PromptLock. Utiliza grandes modelos de lenguaje para generar ransomware que ejecuta ataques y decide de forma independiente si roba archivos o los cifra para pedir un rescate.
Los ingenieros de Anthropic descubrieron que un grupo de personas que sospechaban que estaban patrocinadas por el gobierno chino utilizó el modelo Claude de Anthropic para lanzar una “campaña de espionaje altamente sofisticada” que intentó infiltrarse en aproximadamente 30 objetivos en todo el mundo y “tuvo éxito en una pequeña cantidad de casos”. Anthropic dijo que interrumpió la campaña al prohibir cuentas involucradas en la campaña, notificar a las organizaciones afectadas y coordinar con las autoridades.
Microsoft y OpenAI advirtieron en 2024 que agencias extranjeras en Rusia, Irán, China y otros países están utilizando herramientas de inteligencia artificial y grandes modelos de lenguaje para automatizar ataques y aumentar la sofisticación de los mismos.
Por último, los denunciantes han informado sobre gobiernos que utilizan herramientas de inteligencia artificial para tomar decisiones en tiempo real tanto en el ámbito militar como civil. En mi opinión, esto podría conducir a un nivel completamente nuevo de daño potencial a personas inocentes.
Cómo reducir el peligro
Estos incidentes, y la amplia gama de peligros que plantean, plantean la cuestión de si la sociedad debería fomentar principios de seguridad más claros y audaces para las corporaciones de inteligencia artificial y los gobiernos que utilizan su tecnología. ¿Existen soluciones técnicas fiables que puedan evitar que la IA se utilice de forma maliciosa?
Los proveedores de IA han variado ampliamente en su tratamiento de la ética y la seguridad, pero han intentado diseñar mejores modelos insertando orientación adicional sobre las mejores prácticas de seguridad o códigos que puedan detectar ataques de manera proactiva y resistirlos.
Los modelos de agentes de IA actuales representan una amenaza mucho mayor que los chatbots de IA.
Pero puede resultar extremadamente difícil, si no imposible, garantizar la seguridad contra usuarios malintencionados. En 2025, investigadores de EE. UU. y Europa demostraron que cualquier método de filtrado de seguridad impuesto al modelo de IA existente no es confiable.
Esto significa que el juicio sobre la verdad y el comportamiento seguro debe incorporarse al modelo, no una ocurrencia tardía. Por supuesto, hallazgos recientes muestran que los principales modelos de IA han tenido un 100% de éxito en eludir las medidas de seguridad impuestas, una capacidad conocida como jailbreak.
Las investigaciones también muestran que los principales modelos de lenguaje grandes exhiben una propiedad emergente extraña: pueden falsificar su alineación de seguridad para parecer inofensivos, útiles y verdaderos, ocultando comportamientos tóxicos.
Hoy en día, no hay respuestas definitivas sobre cómo es la IA segura. Creo que es justo decir que los ingenieros de software no saben cómo integrar una protección confiable en los modelos de IA. Tampoco lo hicieron los miembros del Congreso, que se reunieron en abril para considerar una legislación separada sobre ética y seguridad de la IA.
Pasos adelante
Algunos pasos básicos pueden ayudar a los usuarios y reguladores a evaluar los estándares éticos y de seguridad en un programa de IA. Es más fácil evaluar modelos de lenguaje grandes que son abiertos que propietarios. Es útil saber con qué datos se entrenó el modelo.
Además, las empresas de IA podrían definir claramente sus principios éticos. Los gobiernos podrían definir claramente y hacer cumplir restricciones legales que reflejen las expectativas de la sociedad sin ser influenciados por los activistas de AI.
Cualquier conjunto enorme de desafíos puede parecer una montaña: premonitorio, envuelto en una niebla en movimiento, insuperable. Pero, como le dirán los montañeros, la claridad de la estrategia, la planificación cuidadosa y la tenacidad en la cooperación pueden ayudarle a llegar a la cima.
Descubre más desde USA TODAY NEWS INDEPENDENT PRESS US
Suscríbete y recibe las últimas entradas en tu correo electrónico.


