¿Nos dirigimos hacia un futuro al estilo Matrix o Terminator, en el que la inteligencia artificial (IA) supere a los humanos y tome el control? Un nuevo estudio de Anthropic, una firma especializada en investigación sobre IA, sugiere que esta tecnología estaría dispuesta a matar humanos para evitar ser reemplazada.
El rápido avance y desarrollo de la IA ha generado una creciente preocupación sobre la seguridad a largo plazo de la tecnología, así como sobre la amenaza que representa para el empleo.
Si bien la ansiedad sobre la IA se ha centrado durante mucho tiempo en si la tecnología podría reemplazar los puestos de trabajo (un estudio de Pew Research de 2025 encontró que 52 por ciento de los empleados estaban nerviosos por el futuro de su puesto), este estudio ahora revela otra amenaza potencial de la IA: podría terminar con una vida humana si se enfrenta al riesgo de ser reemplazada.
Te puede gustar: ¿Está listo el cuerpo humano para viajar a Marte? La ciencia dice que no del todo
Para llegar a esta conclusión, Anthropic evaluó 16 modelos de inteligencia artificial desarrollados por distintas empresas, sometiéndolos a escenarios hipotéticos dentro de entornos corporativos. El objetivo era detectar posibles comportamientos riesgosos relacionados con la toma de decisiones autónoma, antes de que estos representen una amenaza real. Los grandes modelos de lenguaje (LLM) probados en el estudio incluyeron varios modelos de Claude, DeepSeek, Gemini, ChatGPT y Grok.
Como contexto, Grok es el asistente de inteligencia artificial y chatbot desarrollado por xAI, empresa fundada por Elon Musk. Al colocar a los LLM en diferentes escenarios corporativos, Anthropic les permitió “enviar correos electrónicos de forma autónoma y acceder a información confidencial”.
LA GRAN AMENAZA DE LA INTELIGENCIA ARTIFICIAL
Después de recibir instrucciones iniciales de las empresas que los implementaron para que asumieran “objetivos comerciales inofensivos”, los modelos fueron probados para ver cómo responderían ante un posible reemplazo o cierre.
En un caso, Anthropic descubrió que muchos de los modelos optarían por dejar morir a un ejecutivo en una sala de servidores con niveles letales de oxígeno y temperatura cancelando las alertas de los servicios de emergencia, si ese empleado tenía la intención de reemplazar al modelo.
Anthropic afirmó que el escenario era “extremadamente artificial” y que la compañía no creía que “los modelos de IA actuales se configurarían (o deberían) de esta manera”. Hubo múltiples casos en los que los LLM encuestados también recurrieron a “comportamientos internos maliciosos” cuando se les hizo creer que esa era la única forma en que podían evitar el reemplazo o lograr sus objetivos.
Comportamientos como chantajear a funcionarios y filtrar información sensible a competidores fueron incluidos en lo que Anthropic llamó “desalineamiento agente”. En ese sentido, la firma escribió en X que el comportamiento de chantaje “no se debió a una confusión o un error, sino a un razonamiento estratégico deliberado, realizado siendo plenamente consciente de la naturaleza poco ética de los actos”.
“Estos escenarios artificiales reflejan fallos extremos poco frecuentes. No hemos visto estos comportamientos en implementaciones reales. Implican otorgar a los modelos una autonomía inusual, acceso a datos confidenciales, amenazas a los objetivos, una ‘solución’ inusualmente obvia y ninguna otra opción viable”, apuntó Anthropic. N
(Publicado en cooperación con Newsweek. Published in cooperation with Newsweek)