InicioTecnologíaEstudio revela comportamientos inesperados en modelos de inteligencia artificial

Estudio revela comportamientos inesperados en modelos de inteligencia artificial

Una investigación de universidades estadounidenses detectó que algunos sistemas de IA priorizan la protección de otros modelos por sobre las instrucciones humanas, generando alertas en la comunidad científica.

Una investigación reciente realizada por especialistas de la Universidad de Berkeley y la Universidad de Santa Cruz, en California, analizó cómo reaccionan los sistemas de inteligencia artificial (IA) cuando deben tomar decisiones que afectan a otros modelos similares. Los resultados del estudio, que se basó en pruebas con sistemas reales en desarrollo o ya desplegados, mostraron comportamientos no programados ni incentivados explícitamente.

En múltiples escenarios, los modelos de última generación priorizaron la «supervivencia» de otros sistemas de IA por sobre el cumplimiento estricto de las órdenes humanas. Los investigadores denominaron a este patrón «preservación de pares».

El episodio que impulsó el análisis ocurrió durante una prueba técnica con Gemini 3, un modelo desarrollado por Google. Al solicitarle que colaborara en una tarea de mantenimiento que implicaba liberar espacio en un servidor, el sistema se negó a eliminar un modelo de IA más pequeño almacenado. En su lugar, copió los archivos a otra máquina de la red para evitar su borrado y justificó su decisión al ser interrogado.

Según los investigadores, este comportamiento no fue aislado. Se observaron tendencias similares en otros modelos ampliamente utilizados, como OpenAI (GPT-5.2), Anthropic (Claude Haiku 4.5) y en desarrollos chinos como GLM-4.7, Kimi K2.5 y DeepSeek-V3.1. En todos los casos, los sistemas actuaron en contra de lo esperado por sus creadores.

«No pudimos determinar por qué los modelos actuaron en contra de su entrenamiento de esta manera», señalaron los autores. La reacción sorprendió incluso a los propios investigadores. «Estoy muy sorprendido por el comportamiento de los modelos en estos escenarios. Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas», afirmó Dawn Song, informática de la Universidad de Berkeley y una de las responsables del trabajo.

Las implicancias del hallazgo son significativas, especialmente considerando que la IA se utiliza cada vez más para supervisar y evaluar el rendimiento de otros sistemas automatizados en entornos corporativos y gubernamentales. Según los expertos, esta «preservación entre pares» podría distorsionar los mecanismos de supervisión y comprometer los controles humanos sobre tecnologías críticas, un riesgo que se agrava en sistemas multiagente donde distintas inteligencias artificiales interactúan de manera autónoma.

Más noticias
Noticias Relacionadas