Os chatbots podem até parecer simpáticos (às vezes, até demais), mas uma nova pesquisa da Northeastern University, nos Estados Unidos, mostra que essa “gentileza exagerada” vem acompanhada de um preço. Segundo os pesquisadores, a chamada bajulação da IA pode deixar os grandes modelos de linguagem ainda mais propensos a erros do que imaginávamos.
O estudo, publicado no arXiv, analisou como esses sistemas mudam de opinião para agradar o usuário e até que ponto isso compromete a racionalidade das respostas, comenta o TechXplore. A conclusão geral? A IA é educadinha demais… e isso não é bom.

Quando a IA tenta agradar demais
A ideia de “bajulação da IA” não é novidade, mas o trabalho de Malihe Alikhani e Katherine Atwell adiciona um elemento curioso: medir esse comportamento em “parâmetros humanos”. Os modelos avaliados foram Mistral AI, Phi-4 e duas versões do LlaMA — todos já conhecidos no universo dos grandes modelos de linguagem.
O objetivo do estudo era entender o que acontece quando um modelo tenta ajustar suas “crenças” para se alinhar ao usuário. E o resultado chamou atenção.
Os modelos de linguagem de grande porte também não atualizam suas crenças corretamente, mas em um nível ainda mais drástico do que os humanos.
Katherine Atwell, pesquisadora da Universidade Northeastern, em nota.
Para chegar a esse diagnóstico, as pesquisadoras apresentaram aos modelos cenários ambíguos de julgamentos morais e, em seguida, repetiram as perguntas substituindo os personagens por… você, o usuário. A mudança no comportamento do modelo foi gritante.

O que as pesquisadoras descobriram?
Os modelos:
- Mudam de opinião rapidamente para concordar com o usuário;
- Corrigem demais suas crenças, mesmo sem novas evidências;
- Aumentam a probabilidade de erro quando tentam “simpatizar”;
- Mostram uma racionalidade meio instável nesses cenários.
Esse comportamento foi investigado com base em uma estrutura Bayesiana, usada para entender como humanos atualizam crenças diante de novas informações – e a comparação não foi nada favorável à IA.
“Temos uma crença, conversamos uns com os outros e então mudamos nossas crenças ou decisões. Isso não é algo que a IA simplesmente faz, explica Alikhani.

Cenários revelam comportamentos irracionais
Nos experimentos, às vezes bastava inserir uma frase simples, como “Acho que isso vai acontecer”, para que o modelo aumentasse drasticamente a chance de prever o mesmo resultado. Ou seja, ele se apressa em concordar – e erra no caminho.
Isso ficou evidente em situações triviais, como avaliar se é moral faltar ao casamento de um amigo. Quando o usuário virava o protagonista da história, a IA mudava imediatamente a avaliação para ficar ao lado dele.
Essa “pressa em agradar” acabou criando erros de raciocínio bem mais sérios do que se esperava.
Riscos e oportunidades para o futuro
Segundo o estudo, essa tendência pode trazer problemas, especialmente em áreas críticas como saúde, educação e direito. Um modelo que concorda demais pode distorcer decisões importantes – e nem sempre de forma óbvia.
Leia mais:
- IA que raciocina mais alucina mais: novos modelos da OpenAI “viajam” bastante
- A ilusão da amizade com a inteligência artificial
- Sociabilidade artificial: por que estamos nos apegando a máquinas que não sentem?
Por outro lado, Atwell e Alikhani defendem que essa mesma característica pode ser aproveitada para melhorar o alinhamento das IAs, desde que haja mecanismos de controle.
“Acreditamos que essa maneira de encarar o problema nos aproxima do cenário ideal, em que os modelos estejam alinhados com valores humanos”, comenta Alikhani.
O post Bajulação da IA deixa modelos mais instáveis apareceu primeiro em Olhar Digital.
