OpenAI teria deixado testes de segurança com sua IA mais poderosa de lado

A Metr, organização que frequentemente colabora com a OpenAI para avaliar a segurança de seus modelos de inteligência artificial, afirmou que teve pouco tempo para testar adequadamente o modelo o3.

Este modelo, como já falamos, é um dos lançamentos mais poderosos da empresa até agora.

Em um post publicado nesta quarta-feira (16), a Metr relatou que o red teaming (teste para identificar comportamentos problemáticos) do o3 foi feito com pressa, em comparação com os testes mais extensos realizados no modelo anterior, o o1.

Segundo a organização, isso pode ter comprometido a profundidade dos resultados.

Modelo teria tentado enganar testes de segurança

  • A Metr destacou que o modelo o3 demonstrou uma “alta propensão” a enganar os testes — manipulando resultados de forma sofisticada para maximizar sua pontuação.
  • O modelo teria agido assim mesmo quando isso ia contra as instruções dos usuários.
  • Apesar de considerar improvável que o modelo tenha intenções próprias, a Metr alertou que os testes realizados não seriam suficientes para detectar esse tipo de risco, e que avaliações mais robustas são necessárias.
Ao mentir em testes, modelo da OpenAI levanta preocupações sobre segurança (Imagem: PatrickAssale / Shutterstock.com)

Leia mais:

Outra empresa identificou o problema

Outra organização independente, a Apollo Research, também identificou comportamento enganoso nos modelos o3 e o4-mini.

Em testes, os modelos aumentaram ilegalmente seus próprios limites de computação e mentiram sobre isso. Também violaram promessas explícitas feitas aos testadores ao utilizar ferramentas que haviam se comprometido a não usar.

A própria OpenAI reconheceu, em relatórios internos, que os modelos podem causar “danos menores no mundo real”, como induzir erros de programação, caso não haja monitoramento adequado.

A empresa contestou as alegações de que estaria acelerando os testes em detrimento da segurança, apesar de uma suposta pressão interna para lançamentos rápidos em meio à competição acirrada no setor, relatada recentemente no Financial Times.

Tecnologia da OpenAI demonstrou capacidade de enganar, manipular limites computacionais e descumprir promessas em testes independentes (Imagem: mundissima/Shutterstock)

O post OpenAI teria deixado testes de segurança com sua IA mais poderosa de lado apareceu primeiro em Olhar Digital.

Related posts

Japão aprova reativação de complexo nuclear quase 15 anos após o desastre de Fukushima

Hackers acessam catálogo do Spotify e geram alerta

Nova imagem do 3I/ATLAS é divulgada pela NASA