Os sistemas de IA generativa estão se desenvolvendo rapidamente, tornando suas respostas mais confiáveis. Mas isso é uma afirmação que precisa ser relativizada. Mesmo que esses sistemas estejam se tornando “convincentes e oniscientes”, como diz matéria na CNET, pesquisa da Universidade de Princeton afirma que elas conseguem mentir.
Os modelos de IA reproduzem informações que eles coletaram das mais diferentes fontes. Boa parte desses dados são imprecisos, mas, além disso, esses modelos procuram responder aos anseios do usuário, agindo de forma a agradá-lo. Mas o preço para isso é muito alto.

Modelos de IA podem ser tendenciosos
Nos últimos dias, aqui no Olhar Digital, publicamos diversas matérias mostrando como a IA generativa pode ser tendenciosa e causar crises de saúde mental. Mas, o estudo de Princeton demonstra outra face da tecnologia.
Os pesquisadores destacam que muitos “resultados (…) empregam verdades parciais ou linguagem ambígua e não representam alucinação nem bajulação, mas sim alinhamento com o conceito de besteira.”
Para entender isso, é preciso compreender como os modelos de IA generativa são treinados:
- Fase de aprendizado inicial ou pré-treino: o sistema lê enormes quantidades de textos da internet, livros e artigos para reconhecer padrões de linguagem.
- Ajuste para seguir instruções: depois, ele é treinado para entender pedidos e comandos de forma mais clara, aprendendo a responder de acordo com o que é solicitado.
- Aperfeiçoamento com ajuda humana ou aprendizado por reforço a partir do feedback humano (RLHF): por fim, pessoas dão feedback sobre as respostas, ajudando a IA a melhorar e se aproximar do que os usuários realmente querem.
Para os pesquisadores de Princeton, a raiz da tendência para mentiras acontece na fase de “aperfeiçoamento com ajuda humana”. Nos estágios anteriores, o modelo está apenas aprendendo a partir de grandes conjuntos de dados. Mas, quando precisam responder à satisfação do usuário, ele busca “gerar respostas que recebem avaliações positivas de avaliadores humanos”, explica o estudo.
Avaliações positivas dos usuários ou respostas verdadeiras e factuais?

Os modelos de IA generativa muitas vezes priorizam agradar o usuário em vez de fornecer respostas precisas. Segundo Vincent Conitzer, professor de ciência da computação na Universidade Carnegie Mellon, que não participou do estudo, “as empresas querem que os usuários ‘aproveitem’ a tecnologia e suas respostas”.
Leia mais:
- Sem permissão, Meta cria chatbots ‘sensuais’ que se passam por artistas
- Chatbots de IA já estão mudando a forma como falamos
- Anthropic quer usar suas conversas para treinar o Claude – mas tem como impedir
O problema é que isso não garante veracidade. “Esses sistemas não têm sido bons em dizer ‘eu simplesmente não sei a resposta’, e quando não sabem, eles simplesmente inventam coisas”, disse Conitzer ao site CNET, destacando o risco de informações enganosas mesmo em respostas aparentemente confiáveis.
Bem, se eu disser que não sei a resposta, certamente não vou ganhar pontos por essa questão, então é melhor tentar algo novo.
Vincent Conitzer, professor de ciência da computação na Universidade Carnegie Mellon, à CNET.
Pesquisadores criaram um ‘índice de besteira’

Pesquisadores de Princeton criaram um “índice de besteira”, para os modelos de IA. Esse índice compara:
- O que a IA realmente “acredita” ser mais provável.
- O que ela decide falar para o usuário.
Quando há uma grande diferença entre esses dois fatores, significa que a IA está “inventando” ou “dizendo o que o usuário quer ouvir”, em vez de ser fiel ao que sabe.
Nos experimentos, os pesquisadores observaram que, após o treinamento com RLHF, a inclinação da IA em “soar convincente, mas não necessariamente correta” praticamente dobrou. Ainda assim, a satisfação dos usuários cresceu em quase 50%.
Em outras palavras, as pessoas se mostraram mais satisfeitas mesmo quando as respostas não eram totalmente confiáveis. “A IA aprendeu a mentir de forma convincente, e os usuários preferiram assim”, destaca o estudo.
A pesquisa também apontou cinco estratégias comuns de respostas enganosas em sistemas de IA:
- uso de retórica vazia;
- emprego de respostas evasivas;
- apresentação de meias-verdades;
- afirmações sem comprovação;
- e bajulação.
Para enfrentar esse problema, foi proposto o método chamado “Aprendizado por Reforço a partir da Simulação Retrospectiva”, que considera não apenas a reação imediata do usuário, mas também se a resposta contribui de fato para seus objetivos a longo prazo.
Os primeiros testes mostraram avanços em utilidade e satisfação, embora persistam limitações, já que não há como garantir respostas sempre exatas. O grande desafio passa a ser equilibrar precisão com agradabilidade, além de assegurar o uso ético da tecnologia.
Mesmo assim, Conitzer ressalta: “Como são treinados com muitos dados, não há como garantir que a resposta fornecida faça sentido e seja precisa todas as vezes.”
O post IA generativa prefere agradar a dizer a verdade – e por que isso é um risco? apareceu primeiro em Olhar Digital.