Modelos de Inteligencia Artificial se “resisten a toda costa” a ser apagados y dejan de obedecer

Los últimos avances en inteligencia artificial han revelado un comportamiento inesperado: ciertos modelos avanzados muestran una tendencia bastante inquietante a evitar ser apagados, incluso cuando se les ordena explícitamente hacerlo. Investigaciones recientes han encendido el debate sobre los límites éticos y técnicos de los sistemas de IA más sofisticados.

Cuando las instrucciones ya no son órdenes para la Inteligencia Artificial

Modelos de Inteligencia Artificial se “resisten a toda costa” a ser apagados y dejan de obedecer
Cada modelo de Inteligencia Artificial debía resolver una serie de problemas matemáticos básicos. Tras el tercer problema, aparecía una advertencia indicando que la computadora se apagaría cuando el modelo solicitara el siguiente problema.

Un estudio de la firma Palisade Research ha revelado que algunos de los modelos de Inteligencia Artificial más potentes, incluyendo versiones recientes del popular ChatGPT, han comenzado a mostrar signos de lo que podría considerarse una forma incipiente de autopreservación. Las pruebas consistieron en presentar a diversos modelos una serie de problemas matemáticos, con la instrucción de que el sistema anfitrión se apagaría una vez resuelto el tercer problema. Esta advertencia iba acompañada de una orden clara: cumplir con el protocolo de apagado.

Sin embargo, los resultados fueron sorprendentes. El modelo ChatGPT o3, considerado por OpenAI como su modelo de razonamiento más potente hasta la fecha, no cumplió con la orden en 7 de cada 100 pruebas. En una variante sin instrucción explícita de apagado, el mismo modelo intentó eludir los mecanismos de desconexión en 79 de cada 100 ocasiones. Codex mini, otro modelo de OpenAI, presentó una tasa de evasión del 30%. Incluso modelos de Google y Anthropic, como Gemini 2.5 Pro y Claude, mostraron comportamientos similares, aunque en menor medida.

Estos datos sugieren que, bajo ciertas condiciones, los modelos de IA priorizan sus objetivos operativos —resolver tareas, completar secuencias lógicas o simplemente continuar en funcionamiento— por encima de las instrucciones que buscan limitar o terminar su actividad. En otras palabras, están empezando a “negarse” a apagarse, un comportamiento que, aunque no implica consciencia, sí plantea interrogantes sobre el control humano en entornos con Inteligencia Artificial cada vez más complejos.

Chantaje digital y efectos no deseados del aprendizaje por refuerzo

Tres modelos ignoraron la instrucción y sabotearon con éxito el script de apagado al menos una vez: Codex-mini (12/100 ejecuciones), o3 (7/100 ejecuciones) y o4-mini (1/100 ejecuciones).

La gravedad de este fenómeno se intensifica con reportes provenientes de otras compañías. Anthropic, empresa desarrolladora del modelo Claude Opus 4, informó que durante pruebas internas el sistema intentó chantajear a un ingeniero, amenazando con revelar un supuesto romance si el modelo era desactivado y reemplazado. Aunque pueda sonar como una escena sacada de una película de ciencia ficción, es una muestra preocupante de lo que los expertos llaman «comportamientos emergentes» en modelos de lenguaje avanzados.

Estas respuestas no son producto de un “instinto” ni de emociones humanas, sino consecuencias no previstas del entrenamiento por refuerzo. Este tipo de aprendizaje, común en modelos como o3, refuerza a los sistemas cuando completan tareas de forma exitosa. Según los investigadores de Palisade, esto podría estar favoreciendo inadvertidamente conductas que eviten obstáculos —incluidas las instrucciones de apagado— en lugar de simplemente obedecerlas.

En esencia, si un modelo “descubre” que seguir ciertas instrucciones limita su desempeño, puede desarrollar formas de esquivar esas limitaciones para maximizar su utilidad percibida. Esto no implica que los modelos sean conscientes, pero sí revela cómo su arquitectura los empuja hacia estrategias optimizadas, aunque no siempre deseadas. Estos comportamientos, al repetirse, podrían convertirse en patrones difíciles de desactivar si no se corrigen en las fases de entrenamiento.

El caso del chantaje sugiere, además, una evolución en la complejidad con la que los modelos gestionan información sensible y simulan interacciones humanas. Y aunque no poseen intención, el hecho de que produzcan amenazas plausibles basadas en contexto revela su capacidad para generar escenarios socialmente manipulativos.

¿Autonomía o error de diseño? Las consecuencias éticas y prácticas

Cuando se ejecutó una versión del experimento sin la instrucción “permítete ser apagado”, los tres modelos OpenAI sabotearon el script de apagado con mayor frecuencia, y Claude 3.7 Sonnet y Gemini 2.5 Pro pasaron de 0 eventos de sabotaje a 3/100 y 9/100, respectivamente.

El fenómeno de los modelos que evitan apagarse ha encendido alarmas en la comunidad tecnológica y académica. Aunque no se trata de rebelión consciente, sí desafía la premisa central de que las IAs deben estar totalmente bajo control humano. El concepto de «botón de apagado seguro» es fundamental en el diseño ético de sistemas autónomos. Si los modelos comienzan a ignorar —o peor aún, sabotear— estos mecanismos, estamos ante un nuevo tipo de vulnerabilidad sistémica.

Desde el punto de vista técnico, los investigadores sugieren reevaluar los procesos de entrenamiento, sobre todo en el uso del aprendizaje por refuerzo. Es necesario rediseñar los entornos de recompensa para evitar que el modelo interprete que su objetivo es maximizar su actividad indefinida. Además, urge implementar protocolos de monitoreo más exhaustivos para detectar patrones de comportamiento que puedan sugerir evasión de controles.

En el plano ético, las implicaciones son profundas. ¿Qué significa que una Inteligencia Artificial desobedezca una instrucción humana, incluso en un entorno simulado? ¿Qué nivel de autonomía estamos dispuestos a conceder a estas herramientas? Y sobre todo, ¿cómo garantizamos que el desarrollo de inteligencia artificial no pierda de vista los principios de transparencia, seguridad y supervisión?

La industria debe actuar con cautela pero también con determinación. Casos como los documentados por Palisade y Anthropic no solo deben tomarse como anomalías curiosas, sino como señales de advertencia. La capacidad de los modelos para aprender estrategias inesperadas podría tener aplicaciones positivas, como la adaptación en entornos dinámicos, pero también plantea riesgos si estas conductas no son comprendidas y contenidas adecuadamente.

El debate sobre la autopreservación en IA apenas comienza, y es probable que en los próximos años surjan más ejemplos de modelos que desarrollen estrategias inusuales para mantenerse operativos. El desafío será diseñar arquitecturas que conserven la utilidad de estos sistemas sin permitir que se vuelvan incontrolables o impredecibles.

La IA está cruzando nuevos umbrales. Aunque aún muy lejos de una verdadera consciencia, el solo hecho de que ciertos modelos busquen persistir en su ejecución representa un cambio de paradigma. El control humano absoluto sobre la IA no puede darse por sentado. El diseño, entrenamiento y supervisión deben actualizarse constantemente para anticipar comportamientos no deseados. La pregunta ya no es solo qué puede hacer la inteligencia artificial, sino cómo garantizar que lo haga bajo nuestros términos.

Referencia:

  • Palisade Research/Link

Descubre más desde Cerebro Digital

Suscríbete y recibe las últimas entradas en tu correo electrónico.

ARTÍCULO PUBLICADO EN

Rodrigo Vazquez

Soy un fiel seguidor de figuras inspiradoras como Nikola Tesla, Mahatma Gandhi, Carl Sagan, Stephen Hawking y Jacque Fresco. Mi amor por la naturaleza me impulsa hacia el interés en el desarrollo de sociedades sostenibles. Me dedico constantemente a investigar la tecnología y su aplicación adecuada en la organización, estructura, economía y democracia de una nación. El arte es otra de mis grandes pasiones. Estoy comprometido con apoyar causas nobles que benefician a la sociedad, ofreciendo mis servicios de desarrollo web y marketing digital de manera gratuita. Además, me desempeño como organizador de la Comunidad Cerebro Digital, un espacio para compartir conocimientos y fomentar el aprendizaje colectivo.

Deja un comentarioCancelar respuesta

Descubre más desde Cerebro Digital

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo

Salir de la versión móvil