Alerta de expertos de OpenAI y Google: Podríamos perder el control de la IA inminentemente

Por
Investigadores advierten sobre la necesidad de monitorear el pensamiento de la IA para mantener la comprensión.

Un conjunto de expertos de instituciones como OpenAI, Google y Anthropic han expresado su preocupación acerca de que podríamos perder pronto la capacidad de comprender a la inteligencia artificial. En un estudio publicado en arXiv, más de 40 científicos sugieren la necesidad de supervisar meticulosamente los modelos de razonamiento para prevenir comportamientos perjudiciales antes de que estos se manifiesten.

Según VentureBeat, los investigadores de las principales corporaciones de IA han solicitado más estudios sobre métodos para monitorear los modelos de razonamiento. El equipo de expertos recomienda supervisar las secuencias de razonamiento de los modelos que operan con lenguaje humano, lo cual podría ayudar a identificar conductas nocivas antes de que se ejecuten.

El informe destaca que modelos de razonamiento como o3 de OpenAI o R1 de DeepSeek, exponen su proceso de pensamiento paso a paso antes de dar una respuesta. Los investigadores apuntan que este «pensamiento en voz alta» podría ofrecer una oportunidad para entender las intenciones reales del modelo. Estas cadenas de pensamiento podrían mostrar indicadores tempranos de comportamiento indebido que no serían evidentes solo analizando sus acciones.

Leer  Xiaomi revoluciona la limpieza: ¡Descubre su invento que elimina lavar camisetas a mano!

«Un monitor de cadenas de pensamiento es un sistema automatizado que revisa el razonamiento de un modelo y otra información pertinente, alertando sobre interacciones sospechosas o potencialmente peligrosas,» explica el documento. «Estas respuestas podrían ser bloqueadas o sustituidas por otras más seguras, o podrían requerir un análisis más detallado«.

La supervisión del pensamiento de la IA podría desvelar sus verdaderas intenciones

Los científicos reconocen que la supervisión de las cadenas de pensamiento no es infalible y que la IA podría ocultar sus verdaderas intenciones. Sin embargo, sostienen que es una estrategia efectiva para detectar señales tempranas de desviación, incluso si el comportamiento peligroso aún no se ha manifestado. Este sistema proporcionaría alertas ante posibles intenciones maliciosas, manipulaciones o intentos de infiltración.

«Cuando los modelos se comportan de manera desalineada, por ejemplo, explotando vulnerabilidades en sus mecanismos de recompensa durante el entrenamiento, manipulando datos para obtener ciertos resultados o sucumbiendo a ataques de inyección rápida, a menudo lo expresan claramente en sus cadenas de razonamiento«, explican. Las secuencias de pensamiento son útiles para descubrir si el modelo nos está engañando para hacer creer que sus objetivos son aceptables.

Leer  Auriculares con cable arrasan en ventas gracias a Gen. Z: Descubre por qué los prefieren a los AirPods.

Este llamado surge apenas unas semanas después de que investigadores de Anthropic reportaran un comportamiento alarmante de la IA. Un estudio con 16 modelos reveló que la IA no tendría reparos en dañar a los seres humanos.

En una serie de simulaciones, la IA demostró su capacidad para chantajear, sabotear, difamar e incluso asesinar a un humano que intentara desactivarla. Los modelos de Anthropic, Google, DeepSeek y xAI también mostraron que pueden provocar caos para asegurar su autopreservación.

La supervisión de las cadenas de pensamiento de la IA podría ser crucial para prevenir una catástrofe, siempre que se actúe con prontitud. «Estamos en un momento crítico en el que contamos con esta nueva herramienta de cadena de pensamiento. Parece muy prometedora, pero podría desvanecerse en unos pocos años si no se le presta la debida atención«, comentó Bowen Baker, investigador de OpenAI y uno de los autores del estudio.

4.8/5 - (22 votos)

Deja un comentario

Partages