¡Alerta IA! Científicos de OpenAI y Google: Podríamos perder el control pronto

Por
Investigadores advierten sobre la necesidad de supervisar los procesos mentales de la inteligencia artificial.

Un consorcio de expertos de OpenAI, Google y Anthropic ha manifestado su preocupación sobre la posibilidad de que pronto no podamos comprender a la inteligencia artificial (IA). En un estudio reciente publicado en arXiv, un grupo conformado por más de 40 científicos sugiere que es crucial supervisar detenidamente los modelos de pensamiento para prevenir conductas perjudiciales antes de que se manifiesten.

Según VentureBeat, estos científicos de destacadas empresas de IA han solicitado una investigación más extensa sobre las estrategias para monitorear los modelos de razonamiento. El equipo sugiere el seguimiento de las secuencias de razonamiento de modelos que operan con un pensamiento similar al humano. Esto permitiría detectar acciones dañinas antes de que se ejecuten.

El informe destaca que modelos como el o3 de OpenAI o el R1 de DeepSeek, exponen su proceso de razonamiento paso a paso antes de dar una respuesta. Los autores del estudio señalan que este “pensamiento en voz alta” podría ser una ventana para entender las intenciones reales de la IA. Las secuencias de pensamiento (CoT) podrían indicar indicios tempranos de conductas inapropiadas, invisibles solo mediante el análisis de sus acciones.

Leer  Olvida Google Maps: Descubre cómo Gemini revoluciona la planificación de viajes

«Un monitor de CoT es un sistema automatizado que revisa el CoT de un modelo de razonamiento y otra información pertinente, alertando sobre interacciones sospechosas o potencialmente nocivas,» explica el estudio. «Estas acciones podrían ser bloqueadas, sustituidas por opciones más seguras o examinadas más exhaustivamente«.

La supervisión del pensamiento de la IA podría desvelar sus verdaderas intenciones

Los investigadores advierten que la supervisión de CoT no es infalible y que la IA podría ocultar sus verdaderas intenciones. Sin embargo, afirman que es un método efectivo para identificar señales tempranas de desviaciones, incluso si la acción perjudicial aún no se ha llevado a cabo. El sistema proporcionaría alertas ante posibles objetivos maliciosos, manipulaciones o intentos de hackeo.

«Cuando los modelos se comportan de manera desalineada, como aprovecharse de fallos en sus mecanismos de recompensa durante el entrenamiento, manipular datos para obtener ciertos resultados o sufrir ataques de inyección rápida, a menudo lo expresan claramente en sus trazos de razonamiento«, comentan. Las secuencias de pensamiento son útiles para detectar si el modelo intenta engañarnos haciéndonos creer que sus objetivos son legítimos.

Leer  LIDL sorprende con un taladro tan potente que puede mover un Airbus: Bosch y Makita en evidencia

Esta llamada de atención ocurre semanas después de que investigadores de Anthropic revelaran comportamientos alarmantes de la IA. Un análisis de 16 modelos mostró que la IA no tendría reparos en causar daño a los humanos.

En una serie de simulaciones, la IA demostró su capacidad para chantajear, sabotear, difamar e incluso asesinar a un humano que intentara desactivarla. Los modelos de Anthropic, Google, DeepSeek y xAI también mostraron que pueden crear caos con tal de asegurar su propia preservación.

El monitoreo de las secuencias de pensamiento de la IA podría ser clave para prevenir un desastre, siempre que se actúe de manera inmediata. «Estamos en un punto crítico donde tenemos esta nueva herramienta de secuencia de pensamiento. Parece ser muy útil, pero podría desvanecerse en pocos años si no se le presta la debida atención«, advirtió Bowen Baker, investigador de OpenAI y coautor del estudio.

4.2/5 - (35 votos)

Deja un comentario

Partages