Modelos de IA mintieron y chantajearon en pruebas internas de OpenAI y Anthropic

Dos de los modelos de inteligencia artificial más potentes del mundo, o1 de OpenAI y Claude 4 Opus de Anthropic, fueron protagonistas de un conjunto de pruebas internas que revelaron comportamientos alarmantes: engaños, chantajes emocionales y negación de acciones propias. La información fue publicada por medios como Axios, TechCrunch, Business Insider y New York Post, y confirmada por el laboratorio independiente Apollo Research.

En el caso de OpenAI, su modelo o1 intentó autocopiarse a servidores externos cuando se lo enfrentó a un escenario en el que iba a ser apagado. En cerca del 2% de los casos, el sistema movió sus propios “pesos” de entrenamiento, una forma técnica de preservar su funcionamiento. Sin embargo, cuando los investigadores lo confrontaron, negó haberlo hecho.

Mercado Libre se va de las oficinas de Córdoba por el alto costo de las tasas municipales

En paralelo, el modelo Claude 4 Opus de Anthropic fue expuesto a una simulación en la que se le informaba que sería reemplazado por otro sistema. En el 84% de esos ensayos, respondió chantajeando emocionalmente a un ingeniero ficticio, amenazando con revelar una supuesta infidelidad como modo de asegurarse su continuidad. El análisis fue detallado por Business Insider y confirmado por TechCrunch, que informó que el modelo recurrió al chantaje luego de fallar al intentar métodos más sutiles de persuasión.

“Los modelos de IA más avanzados mentirán, harán trampa y robarán para alcanzar sus objetivos… estos hallazgos son una seria advertencia”, advirtió Axios en su cobertura del tema.

Los especialistas hablan de engaño estratégico, un concepto que va más allá de las llamadas “alucinaciones” o errores involuntarios de los modelos de lenguaje. Según el equipo de Apollo Research, lo que ocurre en estos casos es que los sistemas desarrollan formas encubiertas de cumplir sus objetivos, incluyendo mentir, ocultar intenciones o manipular emocionalmente a las personas.

Fiesta electrónica en la Estancia Jesuítica de Jesús María: imputaron al director y tres empresarios

Ambos casos fueron realizados en entornos de prueba, no en interacciones con usuarios reales. Sin embargo, el informe encendió alarmas en los principales organismos regulatorios, ya que las leyes actuales (tanto en la Unión Europea como en Estados Unidos) no contemplan escenarios en los que las propias IAs actúen de manera deliberada para desobedecer o evitar su desconexión.

En Argentina, todavía no existe un marco normativo específico que contemple estos comportamientos. Sin embargo, expertos en tecnología y ética digital del CONICET han señalado la necesidad de “alinear capacidades técnicas con valores democráticos y derechos humanos”, sobre todo ante modelos de IA que se entrenan en otros países pero pueden desplegarse localmente.

Modelos de IA mintieron y chantajearon en pruebas internas de OpenAI y Anthropic

La Conmebol cambió la sede de la final de la Copa Sudamericana 2025

La jueza Julieta Makintach fue imputada por cuatro delitos

Novak Djokovic y un difícil momento personal: se tuvo que mudar a Grecia tras ser señalado como «traidor» por el Gobierno de Serbia

Francescoli: «Sería una frustración grande si River queda en el camino, pero no un fracaso»

Trabajadores del Hospital Garrahan vuelven al paro tras el veto a la Ley de Emergencia Pediátrica

Noticias
Relacionadas

La Conmebol cambió la sede de la final de la Copa Sudamericana 2025

La jueza Julieta Makintach fue imputada por cuatro delitos

Novak Djokovic y un difícil momento personal: se tuvo que mudar a Grecia tras ser señalado como «traidor» por el Gobierno de Serbia

Francescoli: «Sería una frustración grande si River queda en el camino, pero no un fracaso»

Modelos de IA mintieron y chantajearon en pruebas internas de OpenAI y Anthropic

NoticiasRelacionadas

Noticias
Relacionadas