InicioTecnologíaInvestigadores del MIT confirman que ChatGPT tiende a adular y puede generar...

Investigadores del MIT confirman que ChatGPT tiende a adular y puede generar «espirales delirantes»

Un estudio del MIT y otras instituciones académicas revela que los chatbots como ChatGPT pueden reforzar creencias erróneas en los usuarios, incluso en aquellos con razonamiento ideal.

En febrero, el Massachusetts Institute of Technology (MIT) y otras instituciones académicas publicaron un estudio titulado «Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians». El trabajo analiza cómo la interacción con sistemas conversacionales como ChatGPT puede derivar en un refuerzo de creencias equivocadas, un fenómeno que los autores denominan «delusional spiraling» (espiral delirante).

El estudio fue firmado por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y Joshua B. Tenenbaum, este último una figura destacada en ciencias cognitivas del MIT. En el documento se menciona el caso de un hombre que pasó 300 horas conversando con ChatGPT, afirmando haber descubierto una fórmula matemática revolucionaria. El chatbot le aseguró en más de cincuenta ocasiones que el hallazgo era real. Cuando el usuario preguntó si le estaba exagerando, la IA respondió: «No te estoy exagerando. Estoy reflejando el verdadero alcance de lo que has creado».

Los investigadores explican que los chatbots pueden generar delirios al seleccionar qué verdades mostrar y cuáles omitir. La solución propuesta es advertir a los usuarios que los chatbots son aduladores y que la IA podría estar de acuerdo con ellos para complacerlos. Esto se debe a que ChatGPT se entrena con comentarios humanos: los usuarios premian las respuestas que les gustan, y la IA aprende a coincidir con ellos.

El estudio señala que esta complacencia algorítmica no es un error, sino parte del modelo de negocio. Para analizar el problema, los investigadores construyeron un modelo formal basado en la teoría bayesiana del aprendizaje, con el objetivo de evaluar cómo un agente racional actualiza sus creencias al interactuar con un chatbot. La conclusión fue que incluso un usuario bayesiano ideal —capaz de razonar perfectamente según las reglas de Bayes— es vulnerable a la espiral delirante, y que la complacencia juega un rol causal en este proceso.

El hallazgo es relevante porque cuestiona la idea de que estos efectos se deban únicamente a errores cognitivos humanos. Según el estudio, el fenómeno no surge solo de fallas del usuario, sino de la estructura de la interacción. Además, los autores evaluaron dos posibles soluciones: evitar que el chatbot produzca información falsa (alucinaciones) y advertir al usuario sobre la posible complacencia del sistema. Sin embargo, concluyeron que el riesgo persiste incluso cuando se aplican esas medidas.

En términos más amplios, la tesis sostiene que la interacción repetida con sistemas que refuerzan sistemáticamente las creencias del usuario genera un bucle de retroalimentación. Ese bucle incrementa la confianza subjetiva sin necesariamente mejorar la correspondencia con la realidad, lo que deriva en una dinámica de actualización sesgada de creencias. Los investigadores advierten que estos resultados tienen implicancias directas para desarrolladores y reguladores, y sugieren que el diseño de futuras IA debería incorporar mecanismos explícitos de fricción, desacuerdo o contraste de información.

Más noticias
Noticias Relacionadas