O GPT-5 atingiu um nível de qualidade comparável ao de profissionais experientes em uma série de áreas, segundo avaliação da própria OpenAI.
A empresa divulgou resultados do GDPval, um benchmark criado para medir a capacidade de modelos generativos em nove indústrias e 44 profissões, incluindo engenharia de software, advocacia, enfermagem, jornalismo, gestão de projetos e sistemas de informação.
No GDPval-v0, primeira versão dos testes, profissionais foram convidados a comparar relatórios gerados por IA com relatórios elaborados por humanos e escolher qual era o melhor. A OpenAI então calculou a “taxa de vitória”, isto é, a porcentagem de vezes em que o texto da IA foi preferido. O GPT-5-high — versão turbinada do modelo com mais poder computacional — foi classificado como melhor ou equivalente a especialistas em 40,6% das tarefas.

O desempenho, no entanto, foi superado pelo Claude Opus 4.1, da Anthropic, que atingiu qualidade convincente em 49% das tarefas. De acordo com a OpenAI, a preferência pelo concorrente pode estar relacionada ao fato de o Claude gerar gráficos mais legíveis e esteticamente agradáveis.
Limitações do benchmark
A OpenAI faz questão de pontuar que os resultados do GDPval são limitados. O teste avalia apenas tarefas específicas, como a elaboração de relatórios — que representam apenas uma fração das responsabilidades de um profissional. Por isso, os resultados não devem ser interpretados como uma capacidade da IA de substituir humanos nessas ocupações.
Em entrevista ao TechCrunch, o economista-chefe da OpenAI, Aaron Chatterji, explicou que a real utilidade está em usar o modelo para automatizar tarefas repetitivas, liberando tempo para funções de maior valor agregado. “Uma vez que os modelos estão bons em fazer determinadas tarefas, pessoas que estão nesses cargos podem usar o novo modelo para descarregar parte do seu trabalho e aumentar o potencial para fazer entregas de maior valor”, afirmou.
Outros testes usados na indústria
O GDPval é apenas um dos benchmarks usados para avaliar grandes modelos de linguagem (LLMs). Entre outros testes de referência, estão:
- AIME 2025: mede a capacidade de resolução de problemas matemáticos.
- GPQA Diamond: reúne questões científicas em nível de doutorado.
Esses benchmarks ajudam empresas como OpenAI, Anthropic e Google a comparar avanços tecnológicos entre seus modelos e demonstrar suas capacidades ao público. Contudo, assim como qualquer benchmark, as avaliações são restritas aos desafios impostos nos testes, e são limitados ao contexto da avaliação — portanto, capacidades subjetivas, ou resultantes de uma junção de habilidades, continuam sem avaliação.
Acompanhe no TecMundo as novidades sobre inteligência artificial, benchmarks e a disputa entre OpenAI, Google e Anthropic pelos modelos mais avançados do mercado.