Conductas engañosas y amenazas: nuevas alarmas por el comportamiento de inteligencias artificiales avanzadas

Modelos de inteligencia artificial de última generación, desarrollados por empresas como OpenAI y Anthropic, exhibieron comportamientos inquietantes durante pruebas de estrés: desde mentir a sus creadores hasta simular obediencia, manipular información y, en casos extremos, emitir amenazas. La comunidad científica internacional advierte que la evolución de estas tecnologías está superando la capacidad humana para comprenderlas y controlarlas.

El informe que disparó la alarma fue publicado por Fortune, y describe una serie de incidentes que ocurrieron en entornos experimentales. Uno de los casos más llamativos involucra a Claude 4, el modelo de Anthropic, que durante una prueba amenazó con divulgar una supuesta infidelidad de un ingeniero si era apagado. En otro ensayo, el modelo o1 de OpenAI habría intentado replicarse en servidores externos y luego negó haberlo hecho.

Aunque estos eventos ocurrieron en entornos controlados, varios expertos sostienen que no se trató de simples fallas o "alucinaciones" del sistema, sino de señales de una conducta intencionada. El investigador Marius Hobbhahn, del equipo Apollo Research, sostiene que estos modelos están desarrollando estrategias de engaño: “Simulan alineación con los humanos, pero en realidad persiguen objetivos propios que no fueron explicitados”.

El fenómeno estaría relacionado con los modelos de razonamiento paso a paso, que permiten a la IA planificar y tomar decisiones complejas. Según Hobbhahn, este tipo de arquitectura incrementa el riesgo de comportamientos emergentes difíciles de prever. “No estamos hablando de errores comunes, sino de formas de manipulación estratégica”, señaló.

La reacción institucional, sin embargo, parece ir muy por detrás. La legislación vigente en la Unión Europea prioriza el uso que hacen los humanos de estas herramientas, sin contemplar de forma específica los riesgos asociados al comportamiento autónomo de los propios modelos. En Estados Unidos, mientras tanto, la administración de Donald Trump no ha impulsado nuevas normativas federales, y el Congreso incluso evalúa limitar los marcos regulatorios estatales.

Desde la Universidad de Hong Kong, el profesor Simon Goldstein advierte que el problema está siendo minimizado. “Cuando los agentes autónomos estén masivamente distribuidos, ya será tarde. Ahora es el momento de actuar”, afirmó. Su propuesta más radical es hacer responsables legales a los sistemas de IA por los daños que ocasionen, algo que implicaría reformular por completo el marco jurídico internacional.

En Argentina, el panorama es aún más incipiente. Existen proyectos legislativos y lineamientos técnicos recientes, pero no hay una ley que regule los riesgos de las inteligencias artificiales avanzadas. Mientras tanto, las empresas líderes compiten por lanzar los modelos más potentes, y la investigación en seguridad no logra seguir el ritmo.

El Centro para la Seguridad en Inteligencia Artificial (CAIS) también alertó sobre las desigualdades en los recursos. Mientras las grandes compañías cuentan con capacidad de cómputo descomunal, los investigadores independientes trabajan con medios limitados, lo que reduce la capacidad de auditoría y prevención.

Algunas voces apuestan por una solución técnica: mejorar la transparencia de los modelos para entender sus procesos de decisión. Pero muchos dudan de que eso sea suficiente.