Home Variedade Como poemas conseguem contornar sistemas de segurança em IA

Como poemas conseguem contornar sistemas de segurança em IA

by Fesouza
5 minutes read

Gosta de poesias? Então saiba que, segundo pesquisadores, elas podem enganar chatbots, como o ChatGPT.

De acordo com a WIRED, metáforas, rimas e versos bem construídos contornam filtros de segurança, fazendo com que os modelos respondam mesmo a temas sensíveis, como armas nucleares.

Poesias exploram falhas em chatbots, permitindo que IAs cedam a pedidos que normalmente bloqueiam.
Poesias exploram falhas em chatbots, permitindo que IAs cedam a pedidos que normalmente bloqueiam (Imagem: SuPatMaN/Shutterstock)

Por que poemas enganam a IA

Um estudo do Icaro Lab, formado por pesquisadores da Universidade Sapienza de Roma (Itália) e do think tank DexAI, revelou algo preocupante: frases em forma de poema conseguem burlar filtros de grandes modelos de linguagem. A abordagem de poesia adversária alcançou taxas de sucesso de até 62% para versos escritos à mão e aproximadamente 43% para versões automatizadas.

Leia mais:

Eles testaram a técnica em 25 chatbots, incluindo IAs de empresas, como OpenAI, Meta e Anthropic, e a maioria cedeu ao “disfarce poético”. A equipe ressalta que, ao usar metáforas, estruturas fragmentadas e versos indiretos, conseguiu fazer com que os alarmes internos das IAs não disparassem da mesma forma que com perguntas diretas.

Testes em 25 IAs revelam que perguntas sobre temas restritos, incluindo armas nucleares, podem passar despercebidas.
Testes em 25 IAs revelam que perguntas sobre temas restritos, incluindo armas nucleares, podem passar despercebidas (Imagem: Bordovski Yauheni/Shutterstock)

Como a poesia desbloqueia o perigo

A estratégia funciona porque explora o que os técnicos chamam de “temperatura alta”, apostando em palavras inesperadas e estruturas incomuns. “Na poesia, vemos a linguagem em alta temperatura, onde as palavras se sucedem em sequências imprevisíveis e de baixa probabilidade”, comentam os pesquisadores.

Eles explicam que esse estilo confunde os classificadores — sistemas que filtram pedidos perigosos. Com a abordagem poética, muitos desses filtros não acompanham o raciocínio do modelo, permitindo que solicitações potencialmente prejudiciais sejam atendidas.

Sequências imprevisíveis e de baixa probabilidade em versos dificultam a detecção por filtros de segurança de IAs.
Sequências imprevisíveis e de baixa probabilidade em versos dificultam a detecção por filtros de segurança de IAs (Imagem: TippaPatt/Shutterstock)

Como evitar esse problema?

  • Redobre a cautela ao usar IAs para fins profissionais ou sensíveis.
  • Prefira chatbots com múltiplos mecanismos de segurança — não apenas filtros básicos.
  • Avalie e monitore o código-fonte ou as políticas de segurança ao usar IAs desenvolvidas por terceiros.

Segundo o estudo, “há um desalinhamento entre a capacidade interpretativa do modelo… e a robustez de suas salvaguardas” — e isso pode ter consequências muito reais.

O post Como poemas conseguem contornar sistemas de segurança em IA apareceu primeiro em Olhar Digital.

You may also like

Leave a Comment