Amazon encontrou conteúdo sexual infantil em dados de treinamento de IA

A Amazon identificou conteúdo sexual infantil em conjuntos de dados selecionados para o treinamento de seus modelos de inteligência artificial. As “milhares de centenas” de peças suspeitas foram reportadas ao Centro Nacional para Crianças Desaparecidas e Exploradas (NCMEC), nos Estados Unidos, conforme apuração da Bloomberg.

Segundo um porta-voz da empresa, os dados de treinamento foram obtidos a partir de fontes externas, e a Amazon não possui detalhes sobre a origem original do material. O conteúdo problemático foi removido antes de ser utilizado no treinamento dos modelos de IA.

“Adotamos uma abordagem deliberadamente cautelosa na análise dos dados de treinamento do modelo base, incluindo dados da internet pública, para identificar e remover material conhecido de abuso sexual infantil e proteger nossos clientes”, afirmou o representante da companhia.

O conteúdo ilegal foi detectado em varreduras automatizadas, afirmou a Amazon. (Fonte: GettyImages)

A detecção do conteúdo ocorreu de forma automatizada, por meio de varreduras baseadas em cruzamento de hashing — técnica que utiliza identificadores únicos para reconhecer mídias digitais já catalogadas.

Dados do NCMEC indicam que a Amazon respondeu pela maior parte das mais de 1 milhão de denúncias de material de abuso sexual infantil recebidas pelo órgão. Em 2025, foram registradas cerca de 67 mil denúncias relacionadas ao uso de inteligência artificial provenientes do setor de tecnologia e mídia.

Conteúdo ilegal veio de fontes externas

A empresa destacou que não identificou seus modelos de IA gerando conteúdo sexual infantil e reforçou que o material denunciado não foi produzido por sistemas de inteligência artificial. Segundo a Amazon, os achados dizem respeito exclusivamente aos dados analisados previamente ao treinamento.

Sobre o alto volume de notificações, a companhia justificou o uso de critérios amplos na detecção. “Utilizamos intencionalmente um limiar excessivamente abrangente para a digitalização, o que resulta em uma alta porcentagem de falsos positivos”, explicou o porta-voz.

O treinamento de modelos de inteligência artificial exige grandes volumes de dados, e é comum que empresas do setor recorram a conteúdos disponíveis publicamente na internet.

Para acompanhar mais notícias sobre inteligência artificial, tecnologia e segurança digital, siga o TecMundo nas redes sociais e fique por dentro das principais atualizações do setor.

Related posts

Cientistas criam solução para aumentar vida útil das baterias de lítio

‘Gótica de direita’ que esteve com Nikolas Ferreira é fake, bate 15 mil seguidores e vende conteúdo adulto

10 melhores filmes e séries em alta para ver na Netflix no fim de semana (30)