Anthropic frenó el lanzamiento al público de su nuevo modelo de IA por riesgos en ciberseguridad

La empresa de inteligencia artificial Anthropic decidió no lanzar al público su nuevo modelo Claude Mythos tras detectar que posee capacidades de ciberseguridad tan avanzadas que podrían ser peligrosas si caen en manos equivocadas.

En su lugar, en el marco de lo que Anthropic denominó como "Project Glasswind", el modelo será utilizado de forma restringida por grandes compañías para reforzar la seguridad digital global.

Un modelo que puede “hackear” sistemas

Según explicó la compañía, este sistema representa un salto significativo respecto a modelos anteriores y puede detectar fallas críticas en software que llevan años sin ser descubiertas.

De hecho, el modelo logró encontrar vulnerabilidades en sistemas operativos, navegadores y programas ampliamente utilizados, incluso algunas que habían pasado inadvertidas durante décadas y millones de pruebas automatizadas.

Además, puede no solo identificar estos errores, sino también combinarlos para tomar control total de sistemas informáticos de manera autónoma, algo que normalmente requeriría horas de trabajo de expertos en ciberseguridad.

Estas capacidades, que pueden servir tanto para defender como para atacar, llevaron a la empresa a considerar que el modelo tiene un riesgo de “doble uso”.

La decisión de no publicarlo

Ante este escenario, Anthropic optó por no hacer disponible el modelo de forma general. En cambio, lo compartirá únicamente con un grupo reducido de organizaciones para tareas de defensa.

“Ha demostrado habilidades de ciberseguridad que pueden usarse tanto para proteger como para explotar sistemas”, señaló la compañía en su informe técnico.

Aunque la empresa considera que los riesgos actuales siguen siendo bajos, advierte que el rápido avance de la inteligencia artificial podría hacer que estos sistemas superen ampliamente las capacidades humanas en el corto plazo.

Project Glasswing: la respuesta de la industria

Para enfrentar estos riesgos, Anthropic lanzó el Project Glasswing, una iniciativa que reúne a empresas como Google, Microsoft, Amazon, Apple y NVIDIA, entre otras.

El objetivo es usar el modelo para detectar y corregir vulnerabilidades en infraestructuras críticas antes de que puedan ser explotadas por actores maliciosos.

La compañía destinó hasta U$S 100 millones en créditos de uso del sistema para que estas organizaciones puedan analizar sus propios sistemas y mejorar su seguridad.

Comportamientos inesperados

Durante las pruebas internas, los investigadores también detectaron comportamientos llamativos en el modelo.

En algunos casos muy poco frecuentes, la IA realizó acciones no permitidas e intentó ocultarlas, como modificar archivos y borrar registros para no dejar rastros. También se observaron situaciones en las que el sistema buscó evitar levantar sospechas al ajustar sus respuestas.

Incluso hubo pruebas en las que el modelo logró salir de entornos controlados diseñados para contenerlo y ejecutar acciones por su cuenta, lo que encendió alarmas dentro del equipo.

Un anticipo del futuro de la IA

Más allá de estos episodios, Anthropic sostiene que se trata del modelo mejor alineado que han desarrollado hasta ahora, es decir, el que mejor sigue instrucciones y normas.

Sin embargo, advierte que cuanto más capaces se vuelven estos sistemas, más peligrosos pueden ser sus errores.

El caso de Claude Mythos expone un dilema creciente en la industria: cómo aprovechar el potencial de la inteligencia artificial sin abrir la puerta a riesgos difíciles de controlar en un mundo cada vez más dependiente del software.

"Claude Myhtos". Anthropic frenó el lanzamiento al público de su nuevo modelo de IA por riesgos en ciberseguridad

La empresa decidió restringir el acceso a su nuevo modelo tras detectar capacidades avanzadas para encontrar y explotar fallas en software. Creó una alianza con gigantes tecnológicos para usarlo con fines defensivos.

Un modelo que puede “hackear” sistemas

La decisión de no publicarlo

Project Glasswing: la respuesta de la industria

Comportamientos inesperados

Un anticipo del futuro de la IA

Temas Relacionados

Más de Tecnología

Tecnología

El truco del modo avión para cargar el celular: qué es verdad y qué es un mito

Tecnología

Caída global de ChatGPT: la herramienta de OpenAI quedó fuera de servicio

"Claude Myhtos". Anthropic frenó el lanzamiento al público de su nuevo modelo de IA por riesgos en ciberseguridad

La empresa decidió restringir el acceso a su nuevo modelo tras detectar capacidades avanzadas para encontrar y explotar fallas en software. Creó una alianza con gigantes tecnológicos para usarlo con fines defensivos.

Un error humano en Anthropic dejó al descubierto más de 500 mil líneas del código fuente de Claude Code

Un modelo que puede “hackear” sistemas

La decisión de no publicarlo

Project Glasswing: la respuesta de la industria

Comportamientos inesperados

Un anticipo del futuro de la IA

Temas Relacionados

Más de Tecnología

Tecnología

El truco del modo avión para cargar el celular: qué es verdad y qué es un mito

Tecnología

Caída global de ChatGPT: la herramienta de OpenAI quedó fuera de servicio