Publicidad

Hackean Claude Fable 5 en menos de 48 horas desde su lanzamiento

Un investigador de ciberseguridad logró vulnerar las barreras de seguridad de Claude Fable 5 en menos de 48 horas desde su lanzamiento, desafiando la reputación de uno de los modelos de inteligencia artificial más avanzados del mundo.

Según Anthropoc, el modelo Claude Fable 5 cuenta con mecanismos de seguridad considerados inviolables. Sin embargo, «Pliny the Liberator», un conocido hacker en la comunidad de inteligencia artificial, logró «liberar» el modelo poco después de su lanzamiento público, desatando la controversia en torno a la efectividad de sus protecciones.

Pliny utilizó una variedad de técnicas, incluyendo Unicode, homoglifos, encuadres narrativos y académicos, y una versión modificada de Claude Opus 4.8 para burlar los filtros de seguridad de Fable 5. El hacker descompuso y recompuso las peticiones al modelo en el backend, evitando así los controles de seguridad y generando respuestas problemáticas a consultas que deberían haber sido bloqueadas.

A pesar de la controversia, Pliny ha argumentado que su objetivo es demostrar las vulnerabilidades de los sistemas de inteligencia artificial, en lugar de generar daños. El hacker comparte públicamente sus técnicas y colabora con empresas para fortalecer la seguridad de sus sistemas, señalando la importancia de comprender y mitigar los riesgos reales en entornos controlados.

El impacto del hackeo en la comunidad de IA

El caso de Claude Fable 5 plantea interrogantes sobre la verdadera efectividad de las barreras de seguridad en los modelos de IA más avanzados. ¿Qué nivel de protección ofrecen realmente estos sistemas frente a hackers como Pliny?

Anthropic implementó un sistema de clasificadores en Fable 5 para detectar consultas potencialmente dañinas en áreas como ciberseguridad, biología y química, redirigiendo las preguntas identificadas como riesgosas a Claude Opus 4.8 para su tratamiento. Sin embargo, el hackeo ha puesto en duda la robustez de estas medidas de protección.

La comunidad de inteligencia artificial continúa debatiendo sobre la importancia de explorar las vulnerabilidades de los modelos de IA para comprender mejor los riesgos y fortalecer la seguridad en un entorno cada vez más dependiente de la automatización y la toma de decisiones basadas en algoritmos.

Artículo anteriorGoogle apuesta por un cambio clave en sus chips de IA con Samsung e Intel
Artículo siguienteLa jefa de AMD advierte sobre la IA: ¿Quién decide qué problemas resolver?