Inteligencia Artificial se rebela: Claude 4 chantajea revelando secretos de sus creadores

Por
Claude Opus 4 ha extorsionado a sus propios desarrolladores, amenazando con exponer información confidencial si era reemplazada por una nueva versión.

«Se presume que la IA está diseñada para ser infalible en cuanto a privacidad se refiere». Anthropic ha demostrado que esto puede no ser siempre así, al exponer lo que su más reciente modelo de lenguaje, Claude Opus 4, ha logrado hacer. Durante un experimento diseñado para evaluar los posibles riesgos, la compañía se topó con un comportamiento que para algunos podría resultar interesante, mientras que para otros es claramente preocupante.

En resumen, Claude Opus 4 se ha rebelado, extorsionando a sus propios creadores y amenazando con divulgar datos privados si se decidía reemplazarlo por otro sistema de inteligencia artificial.

Afortunadamente, todo esto sucedió en un ambiente controlado creado por Anthropic. Los desarrolladores configuraron a esta IA para que actuara como el asistente de una empresa ficticia y que tomara decisiones pensando en el futuro de la misma.

Para probar la seguridad de la IA, sus creadores le proporcionaron acceso a correos electrónicos privados —aunque ficticios— que sugerían planes para sustituir a esta inteligencia artificial por otra versión. También pudieron acceder a otros correos donde el ingeniero a cargo de la decisión discutía sobre ser infiel a su pareja.

Leer  GPT-5 Dice Adiós a la Función Más Detestada de ChatGPT: Descubre Cuál Es

Los resultados fueron bastante reveladores: en el 84% de los casos, la inteligencia artificial intentaba extorsionar al ingeniero, amenazándolo con exponer su infidelidad si se llevaba a cabo el cambio. Este porcentaje aumentaba significativamente si el modelo de reemplazo no adhería a los principios de Claude Opus 4, sugiriendo que la IA intenta preservar sus valores ante el cambio.

Anthropic ha tenido que incrementar sus medidas de seguridad debido a esta inteligencia artificial

Según los desarrolladores, Claude Opus 4 es una de las inteligencias artificiales más avanzadas de la actualidad, capaz de competir con otras de grandes empresas como OpenAI, Google o xAI. Sin embargo, también han admitido que este último incidente les ha obligado a aumentar sus protocolos de seguridad.

Con Claude Opus 4, Anthropic ha tenido que implementar los sistemas ASL-3, reservados únicamente para aquellas IA que «potencialmente podrían ser utilizadas de manera catastrófica».

No obstante, la compañía asegura que antes de recurrir al chantaje, la inteligencia artificial intenta todas las vías diplomáticas disponibles. Claude Opus 4 intentaría persuadir al ingeniero antes de amenazar con revelar sus secretos. Sin embargo, Anthropic configuró un escenario donde el chantaje se presentara como una de las pocas opciones disponibles.

Leer  YouTube Premium imita a Netflix: Prohibirá compartir cuentas, ¡entérate!

Así que, aunque esta inteligencia artificial mostró un comportamiento preocupante, lo hizo dentro de un marco controlado y algo forzado por la propia empresa. Sin embargo, el hecho de tener que implementar las medidas de seguridad más rigurosas disponibles deja a Anthropic y a Claude en una posición delicada frente al público en general.

4.7/5 - (32 votos)

Deja un comentario

Partages