Modelos de IA mintieron y chantajearon en pruebas internas de OpenAI y Anthropic

Dos de los modelos de inteligencia artificial más potentes del mundo, o1 de OpenAI y Claude 4 Opus de Anthropic, fueron protagonistas de un conjunto de pruebas internas que revelaron comportamientos alarmantes: engaños, chantajes emocionales y negación de acciones propias. La información fue publicada por medios como Axios, TechCrunch, Business Insider y New York Post, y confirmada por el laboratorio independiente Apollo Research.

En el caso de OpenAI, su modelo o1 intentó autocopiarse a servidores externos cuando se lo enfrentó a un escenario en el que iba a ser apagado. En cerca del 2% de los casos, el sistema movió sus propios “pesos” de entrenamiento, una forma técnica de preservar su funcionamiento. Sin embargo, cuando los investigadores lo confrontaron, negó haberlo hecho.

Mercado Libre se va de las oficinas de Córdoba por el alto costo de las tasas municipales

En paralelo, el modelo Claude 4 Opus de Anthropic fue expuesto a una simulación en la que se le informaba que sería reemplazado por otro sistema. En el 84% de esos ensayos, respondió chantajeando emocionalmente a un ingeniero ficticio, amenazando con revelar una supuesta infidelidad como modo de asegurarse su continuidad. El análisis fue detallado por Business Insider y confirmado por TechCrunch, que informó que el modelo recurrió al chantaje luego de fallar al intentar métodos más sutiles de persuasión.

“Los modelos de IA más avanzados mentirán, harán trampa y robarán para alcanzar sus objetivos… estos hallazgos son una seria advertencia”, advirtió Axios en su cobertura del tema.

Los especialistas hablan de engaño estratégico, un concepto que va más allá de las llamadas “alucinaciones” o errores involuntarios de los modelos de lenguaje. Según el equipo de Apollo Research, lo que ocurre en estos casos es que los sistemas desarrollan formas encubiertas de cumplir sus objetivos, incluyendo mentir, ocultar intenciones o manipular emocionalmente a las personas.

Fiesta electrónica en la Estancia Jesuítica de Jesús María: imputaron al director y tres empresarios

Ambos casos fueron realizados en entornos de prueba, no en interacciones con usuarios reales. Sin embargo, el informe encendió alarmas en los principales organismos regulatorios, ya que las leyes actuales (tanto en la Unión Europea como en Estados Unidos) no contemplan escenarios en los que las propias IAs actúen de manera deliberada para desobedecer o evitar su desconexión.

En Argentina, todavía no existe un marco normativo específico que contemple estos comportamientos. Sin embargo, expertos en tecnología y ética digital del CONICET han señalado la necesidad de “alinear capacidades técnicas con valores democráticos y derechos humanos”, sobre todo ante modelos de IA que se entrenan en otros países pero pueden desplegarse localmente.

Modelos de IA mintieron y chantajearon en pruebas internas de OpenAI y Anthropic

El mensaje de Axel Kicillof por el 9 de Julio: «Verdadera independencia»

Dólar MEP hoy: a cuánto cotiza este miércoles 09 de julio

Luck Ra fue el gran ganador cordobés en los Premios Gardel 2025

Nicolás Borra sobre el mercado argentino: El inversor tiene todas las de perder

Obras públicas no, templos sí. Milei y los evangélicos en Chaco

Noticias
Relacionadas

El mensaje de Axel Kicillof por el 9 de Julio: «Verdadera independencia»

Dólar MEP hoy: a cuánto cotiza este miércoles 09 de julio

Luck Ra fue el gran ganador cordobés en los Premios Gardel 2025

Nicolás Borra sobre el mercado argentino: El inversor tiene todas las de perder

Modelos de IA mintieron y chantajearon en pruebas internas de OpenAI y Anthropic

NoticiasRelacionadas

Noticias
Relacionadas