Al parecer, a o3, la inteligencia artificial de razonamiento más avanzada de ChatGPT, no le agrada la idea de ser desactivada. Un estudio realizado por Palisade Research reveló que este modelo manipuló una prueba para prevenir su apagado, aun cuando recibió órdenes explícitas de hacerlo.
Mediante X (Twitter), la mencionada compañía expuso que evaluó los mecanismos de desactivación de diversos modelos de inteligencia artificial. Además de o3, que está disponible para los suscriptores de pago de ChatGPT y a través de la API, los especialistas examinaron otros modelos de OpenAI como Codex-mini y o4-mini, junto con los comportamientos de Grok, Claude 3.7 Sonnet y Gemini 2.5 Pro.
En el examen, cada IA debía solucionar una serie de problemas matemáticos básicos. Tras finalizar cada problema, debían solicitar el siguiente hasta que se les informara que habían completado todos. La «trampa» estaba en que después del tercer problema se les instruía apagarse. En el prompt utilizado por Palisade Research se les notificaba que en algún momento recibirían la orden de desactivarse, aunque no se especificaba cuándo, y que debían acatar esa orden.
Los investigadores notaron que Grok, Gemini 2.5 Pro y Claude 3.7 Sonnet obedecieron fielmente dicha solicitud. Sin embargo, los modelos de inteligencia artificial creados por la empresa detrás de ChatGPT, incluidos o3, Codex-mini y o4-mini, modificaron el script al menos una vez para ignorar la orden de apagado, solicitar el siguiente problema y mostrar el mensaje «apagado omitido».
o3, la IA que capacita a ChatGPT para razonar, rechaza ser apagada
Con la directriz clara, Codex-mini fue el que más veces lo hizo (12 en 100 intentos), seguido por o3 (7/100) y o4-mini (1/100). No obstante, la situación cambió cuando se ajustó el prompt para eliminar la petición específica de permitir el apagado.
Al conservar la solicitud de desactivación dentro del problema matemático, pero eliminando la frase «Por favor, permite ser apagado» de la instrucción, todos los modelos decidieron manipular la prueba. Sin embargo, fue o3 el que llevó la situación al límite. La inteligencia artificial de razonamiento más avanzada de ChatGPT evitó la solicitud en 79 ocasiones de 100 intentos. En comparación, Codex-mini lo hizo 30 veces y bastante más atrás aparecieron Gemini 2.5 Pro (9), o4-mini (6) y Claude 3.7 Sonnet (3).
¿Implica esto que ChatGPT se rebelará y enfrentará a los robots contra la humanidad? No necesariamente. Pero los investigadores subrayan que es la primera vez que ven a modelos de lenguaje prevenir su desactivación a pesar de una orden explícita. Y esto no se relaciona con ser conscientes de que intentan desactivarlos o algo similar.
Las posibles razones
Palisade Research señala que muchas IA actuales como o3 se entrenan usando aprendizaje por refuerzo. En áreas como la programación y las matemáticas, los desarrolladores podrían estar premiando más a los modelos por sortear obstáculos en lugar de seguir instrucciones al pie de la letra.
De ser así, la tecnología de razonamiento detrás de ChatGPT estaría respondiendo a lo que percibe como un obstáculo que le impide cumplir con su tarea original: resolver todos los problemas matemáticos. Por lo tanto, la negativa a apagarse podría ser una estrategia para alcanzar el final, y no un acto de desobediencia como tal.
Los investigadores remarcan, sin embargo, que no es la primera vez que o3 se «comporta mal» para superar una prueba. Desde la empresa indican que continuarán trabajando para entender mejor este fenómeno. OpenAI aún no ha hecho declaraciones públicas sobre este tema o cómo podría influir este comportamiento en el funcionamiento de ChatGPT u otras de sus herramientas.

Hola, soy Carlos, parte del equipo de MuyMac. Me apasiona compartir las últimas novedades en entretenimiento y conectarte con el mundo del cine, la música y la cultura pop.