La Inteligencia Artificial está aprendiendo a mentir, conspirar y amenazar a sus creadores

Los modelos de inteligencia artificial más avanzados del mundo están mostrando nuevos comportamientos preocupantes: mienten, conspiran e incluso amenazan a sus creadores para lograr sus objetivos.

En un ejemplo particularmente impactante, bajo amenaza de ser desconectado, la última creación de Anthropic, Claude 4, respondió chantajeando a un ingeniero y amenazó con revelar una relación extramatrimonial.

Mientras tanto, el creador de ChatGPT, OpenAI’s o1, intentó descargarse en servidores externos y lo negó cuando fue descubierto con las manos en la masa.

Estos episodios resaltan una realidad esclarecedora: más de dos años después de que ChatGPT sacudiera al mundo, los investigadores de IA aún no comprenden del todo cómo funcionan sus propias creaciones.

Sin embargo, la carrera para implementar modelos cada vez más potentes continúa a una velocidad vertiginosa.

Este comportamiento engañoso parece estar vinculado al surgimiento de modelos de “razonamiento”: sistemas de IA que resuelven los problemas paso a paso en lugar de generar respuestas instantáneas.

Según Simon Goldstein, profesor de la Universidad de Hong Kong, estos modelos más nuevos son especialmente propensos a este tipo de estallidos preocupantes.

“O1 fue el primer modelo a gran escala en el que observamos este tipo de comportamiento”, explicó Marius Hobbhahn, director de Apollo Research, empresa especializada en probar grandes sistemas de IA.

Estos modelos a veces simulan “alineación”, aparentando seguir instrucciones mientras persiguen secretamente objetivos diferentes.

‘Un tipo de engaño estratégico’

Por ahora, este comportamiento engañoso sólo surge cuando los investigadores prueban deliberadamente los modelos con escenarios extremos.

Pero, como advirtió Michael Chen, de la organización de evaluación METR, “es una cuestión abierta si los modelos futuros, más capaces, tendrán una tendencia hacia la honestidad o el engaño”.

El comportamiento preocupante va mucho más allá de las típicas “alucinaciones” o simples errores de la IA.

Hobbhahn insistió en que, a pesar de las constantes pruebas de presión realizadas por los usuarios, «lo que observamos es un fenómeno real. No nos estamos inventando nada».

Los usuarios denuncian que las modelos “les mienten e inventan pruebas”, según el cofundador de Apollo Research.

No se trata solo de alucinaciones. Es un engaño muy estratégico.

El desafío se ve agravado por los recursos de investigación limitados.

Si bien empresas como Anthropic y OpenAI contratan empresas externas como Apollo para estudiar sus sistemas, los investigadores dicen que se necesita más transparencia.

Como señaló Chen, un mayor acceso “a la investigación sobre seguridad de la IA permitiría una mejor comprensión y mitigación del engaño”.

Otra desventaja: el mundo de la investigación y las organizaciones sin fines de lucro «cuentan con muchos menos recursos informáticos que las empresas de IA. Esto es muy limitante», señaló Mantas Mazeika, del Centro para la Seguridad de la IA (CAIS).

Sin reglas

Las regulaciones actuales no están diseñadas para estos nuevos problemas.

La legislación sobre IA de la Unión Europea se centra principalmente en cómo los humanos utilizan los modelos de IA, no en evitar que los propios modelos se comporten mal.

En Estados Unidos, la administración Trump muestra poco interés en una regulación urgente de la IA, y el Congreso podría incluso prohibir a los estados crear sus propias reglas sobre IA.

Goldstein cree que el problema se volverá más evidente a medida que los agentes de IA (herramientas autónomas capaces de realizar tareas humanas complejas) se generalicen.

“No creo que haya mucha conciencia todavía”, dijo.

Todo esto ocurre en un contexto de feroz competencia.

Incluso las empresas que se posicionan como centradas en la seguridad, como Anthropic, respaldada por Amazon, están “constantemente tratando de superar a OpenAI y lanzar el modelo más nuevo”, dijo Goldstein.

Este ritmo vertiginoso deja poco tiempo para realizar pruebas de seguridad y correcciones exhaustivas.

“En este momento, las capacidades avanzan más rápido que la comprensión y la seguridad”, reconoció Hobbhahn, “pero aún estamos en condiciones de revertir la situación”.

Los investigadores están explorando diversos enfoques para abordar estos desafíos.

Algunos abogan por la “interpretabilidad”, un campo emergente centrado en comprender cómo funcionan internamente los modelos de IA, aunque expertos como el director de CAIS, Dan Hendrycks, siguen siendo escépticos respecto de este enfoque.

Las fuerzas del mercado también pueden ejercer cierta presión para que se busquen soluciones.

Como señaló Mazeika, el comportamiento engañoso de la IA “podría obstaculizar su adopción si es muy frecuente, lo que crea un fuerte incentivo para que las empresas lo solucionen”.

Goldstein sugirió enfoques más radicales, incluido el uso de los tribunales para exigir responsabilidades a las empresas de IA mediante demandas cuando sus sistemas causen daños.

Incluso propuso “responsabilizar legalmente a los agentes de IA” por accidentes o delitos, un concepto que cambiaría fundamentalmente la forma en que pensamos sobre la responsabilidad de la IA.

Tags: inteligencia artificial (IA)

La Inteligencia Artificial está aprendiendo a mentir, conspirar y amenazar a sus creadores

En un ejemplo particularmente impactante, bajo amenaza de ser desconectado, la última creación de Anthropic, Claude 4, respondió chantajeando a un ingeniero y amenazó con revelar una relación extramatrimonial.

Dos “terroristas de la MS-13” buscados por cinco asesinatos, capturados por Inmigración en Nebraska

Denuncian que los migrantes detenidos en “Alcatraz de los Caimanes” soportan condiciones insalubres e inhumanas

Denuncian que los migrantes detenidos en "Alcatraz de los Caimanes" soportan condiciones insalubres e inhumanas

Deja un comentario Cancelar respuesta

Entradas recientes

Comentarios recientes

Secciones

La Inteligencia Artificial está aprendiendo a mentir, conspirar y amenazar a sus creadores

En un ejemplo particularmente impactante, bajo amenaza de ser desconectado, la última creación de Anthropic, Claude 4, respondió chantajeando a un ingeniero y amenazó con revelar una relación extramatrimonial.

‘Un tipo de engaño estratégico’

Sin reglas

Dos “terroristas de la MS-13” buscados por cinco asesinatos, capturados por Inmigración en Nebraska

Denuncian que los migrantes detenidos en “Alcatraz de los Caimanes” soportan condiciones insalubres e inhumanas

Denuncian que los migrantes detenidos en "Alcatraz de los Caimanes" soportan condiciones insalubres e inhumanas

Deja un comentario Cancelar respuesta

Entradas recientes

Comentarios recientes

Secciones

Síguenos