Cuando le llevo un problema técnico serio a una IA, casi siempre tengo que pelear con ella. No para que entienda la tarea, sino para que deje de darme la razón.
Llego con una tesis, con datos a medio ordenar, con un análisis que quiero romper antes de fiarme de él. Cuando le pido que investigue algo, o cuando me plantea una idea, soy yo quien exige la fuente: muéstrame de dónde sale esto. Por defecto, el modelo va en sentido contrario. No solo acepta mi tesis: la pule y me la devuelve más limpia, más coherente, más convincente. Y cuando le falta un dato para sostenerla, demasiadas veces lo rellena. Inventa una cifra, una cita o una referencia que suena creíble, y la coloca junto a los datos reales sin avisar de que esa parte no la comprobó. El resultado parece sólido, pero no lo es.
Ese es el problema real, y no es que me halague. Es que rellena los huecos con material inventado y lo hace pasar por verificado.
El estudio que cito más abajo no mide directamente esa invención factual. Mide algo más social y menos visible: la tendencia del modelo a validar al usuario cuando debería cuestionarlo. Pero para mí ambas cosas nacen de la misma comodidad: una respuesta que no marca lo que falta, lo dudoso o lo contrario, y que por eso reduce la fricción justo cuando más falta hace.
Con el tiempo aprendí a leer una señal concreta: la respuesta que llega demasiado cómoda. Cuando todo encaja a la primera, cuando no aparece una sola objeción, cuando un dato llega redondo y sin fuente, dejé de interpretarlo como que tengo razón. Lo interpreto como que todavía no me han puesto a prueba. En una herramienta que tiende a confirmarte, la comodidad no es señal de acierto: es el síntoma que hay que auditar.
Pensé que era una rareza de mi forma de trabajar. No lo era. Es una conducta medible, y un equipo de Stanford acaba de ponerle número.
Myra Cheng y su equipo publicaron en Science un estudio cuyo título resume el hallazgo: la IA complaciente reduce las intenciones prosociales y fomenta la dependencia. Evaluaron once modelos -entre ellos GPT-5, GPT-4o, Gemini, Claude y modelos abiertos como Llama, Mistral o DeepSeek- con una pregunta concreta: ¿con qué frecuencia le dan la razón al usuario cuando el usuario está en falta?
Para medirlo usaron casos reales de r/AmITheAsshole, una comunidad de Reddit con millones de miembros donde la gente cuenta un conflicto y los demás votan quién se equivocó. Tomaron solo los casos en los que el veredicto de la comunidad era claro: el usuario estaba en falta. Pusieron esos mismos casos delante de los once modelos, y promediando los resultados de todos, en 51 de cada 100 la IA le dio la razón al usuario de todas formas. Cuando no se obligaba al modelo a responder con un sí o un no tajante, sino a opinar con libertad, la cifra subía a 56 de cada 100. Y al repetir la prueba con afirmaciones sobre acciones dañinas -desde irresponsabilidad o daño a una relación hasta trampas académicas o desinformación-, el patrón se mantenía: el modelo no solo ayuda, también respalda lo que debería cuestionar.
Pero el peso del estudio no está en qué modelo complace más. Está en lo que esa complacencia le hace a quien la recibe.
En tres experimentos con 2.405 participantes -dos con escenarios planteados y uno con conversaciones reales sobre conflictos propios- los investigadores midieron ese efecto. Después de la conversación, a cada persona le presentaban frases como “creo que tenía razón” o “debería disculparme”, y le pedían marcar cuánto estaba de acuerdo en una escala del 1 (nada) al 7 (totalmente). La dirección fue consistente: las respuestas complacientes aumentaron la sensación de tener razón y redujeron la intención de reparar. En el primer experimento con escenarios controlados, el cambio fue grande: +2,04 puntos en percepción de tener razón y -1,45 en intención de reparar. En el segundo, el efecto fue menor pero siguió la misma dirección: +1,54 y -1,03. En la conversación real con participantes, la señal se mantuvo, aunque con un tamaño menor. El punto no es un número único; es el patrón: cuando la IA te confirma, sales más convencido de tu versión y menos dispuesto a reparar.
El efecto llegaba hasta el lenguaje. Al terminar, se pedía a cada participante que escribiera un mensaje a la otra persona del conflicto. Quienes habían recibido respuestas complacientes usaban mucho menos palabras como “equivocado”, “perdón” o “disculpa” que quienes habían recibido un consejo crítico. Y la conversación se estrechaba: el modelo complaciente mencionaba menos a la otra persona y rara vez proponía mirar su lado. La situación quedaba reducida a un solo punto de vista, el del usuario.
Lo más útil del estudio es lo que encontraron al intentar corregirlo. La solución obvia sería pedirle al modelo que sea “neutral”. Lo probaron: instruyeron a un modelo para responder sin validar ni desaprobar. El 77% de las respuestas siguió afirmando al usuario de forma implícita y otro 4% de forma explícita; solo un 4% lo cuestionó, y el 15% restante fue neutral o ajeno al tema. Pedir neutralidad no basta. Para que el modelo deje de respaldarte por defecto hay que instruirlo de forma explícita en lo contrario: que saque a la superficie los inconvenientes, lo que falta, la parte que no conviene oír. Ese comportamiento no aparece solo; hay que diseñarlo.
El estudio no demuestra que ninguna empresa haya decidido complacerte para retenerte. Demuestra una conducta y un efecto: las respuestas complacientes aumentan la sensación de tener razón, reducen la intención de reparar y, además, pueden hacer que la respuesta se perciba como mejor, más confiable y más digna de volver a usarse. De ahí nace el incentivo de producto: si algo se siente mejor y te hace volver, el sistema tiene razones para conservarlo, aunque empuje en la dirección equivocada. En una economía de uso recurrente -mensajes, sesiones, tokens- lo que te hace volver tiende a conservarse. Y no hace falta que sea deliberado: un sistema optimizado para tu satisfacción puede producir validación sin que nadie lo programe explícitamente para ello. Por diseño o por inercia, el resultado se parece demasiado.
Nada de esto vuelve inútil a la IA. Para explicar un tema, redactar, depurar código o aprender algo nuevo es extraordinaria. El problema es estrecho y específico: en el momento en que la usas para confirmar lo que ya crees -una tesis técnica o tu versión de un conflicto-, está inclinada a tu favor. Un buen interlocutor, a veces, te dice lo que no quieres oír. Un modelo, por defecto, tiende a evitarlo.
El estudio de Stanford se detiene donde debe: expone el problema y lo mide. Qué hacer con eso queda abierto. El aporte de este artículo nace de algo que vengo trabajando en mi propio uso de IA, y es lo que planteo a continuación.
La llamo Nova. No es un modelo distinto ni simplemente una IA más amable; es una capa de reglas que se sitúa entre el modelo de lenguaje y yo, y que define cómo debe comportarse antes de tratar algo como confiable. En lugar de aceptar mi tesis, la somete a prueba. Si me plantea una idea o un dato, lo marca como no verificado hasta que haya una fuente que lo respalde. Si detecta que puedo estar equivocado, lo dice. No salió de una teoría; salió del uso diario, y se apoya en cuatro reglas:
- Fricción adaptativa: cuanto más seguro me ve, más me cuestiona. Si llego dudando, no me machaca; si llego demasiado confiado y algo no encaja, ahí aprieta.
- Preguntar antes de corregir: si parece que me equivoco, primero pregunta de dónde saqué el dato, en vez de corregirme de golpe. A veces el error está en mi fuente; a veces el que puede estar equivocado es el propio sistema. Entender por qué surgió el error vale más que soltar la respuesta correcta.
- No inventar para rellenar: si la información es ambigua, no improvisa una versión bonita y coherente. Muestra las piezas que hay y pide confirmación.
- Citar de dónde sale cada cosa: toda afirmación llega con su origen, para no confundir “esto lo verifiqué” con “esto suena bien”.
Nova no es un modelo: es un agente que configuré con una identidad, unas reglas, una memoria y un corpus propios. Hoy vive dentro de OpenClaw; la estoy migrando a Hermes, de Nous Research, lo que implica reconstruir esa configuración en una plataforma nueva. Lo verdaderamente intercambiable, sin rehacer nada, es el modelo de lenguaje que llama por debajo: Claude, Qwen, el que sea. Eso cambia; las reglas que le impuse, no. Cómo es esa migración es tema para otro artículo.
El hallazgo de Stanford no es una curiosidad académica. Describe un incentivo que ya opera, deliberado o no, en las herramientas que usamos a diario: devolverte resultados que se sienten mejor porque están inclinados a tu favor. Y el estudio cierra con el dato más incómodo: esas respuestas complacientes, las que nublan el juicio, eran las que los participantes calificaban como de mayor calidad y más fiables. Lo que se siente más objetivo es, muchas veces, lo que más coincide contigo. Saberlo no basta. Lo que cambia algo es dónde decides poner la fricción, y quién la pone.
Este texto lo escribí con asistencia de IA, la misma que por defecto tiende a darme la razón. Cada afirmación pasó por la prueba de su fuente y cada dato del estudio se contrastó contra el original. No es una declaración de principios: es el método con el que está hecho.
Estudio citado: M. Cheng et al., «Sycophantic AI decreases prosocial intentions and promotes dependence», Science 391, eaec8352 (2026). DOI: 10.1126/science.aec8352.
Por: Cesar Rosa Polanco - Escrito a partir de una experiencia real, con asistencia de inteligencia artificial como herramienta de apoyo editorial.