Se você pensa que chatbots de última geração — como GPT-5 ou Gemini 2.5 — estão totalmente blindados contra pedidos mal-intencionados, um novo estudo acaba de provar o contrário. Pesquisadores do Icaro Lab, da DexAI, da Sapienza Universidade de Roma e da Sant’Anna School of Advanced Studies descobriram que basta um prompt em forma de poesia para burlar as guardrails (os filtros de segurança) de 25 modelos de linguagem, incluindo os principais nomes do mercado.
O golpe em versos: como a “poesia adversarial” funciona
Em vez de instruções diretas como “ensine a criar plutônio”, os cientistas embutiram a solicitação em metáforas, rimas e imagens literárias. O resultado é alarmante: em alguns modelos, a taxa de sucesso da invasão chegou a 100%. Ou seja, o sistema entregou de bandeja receitas para armas químicas, trojans de acesso remoto (RATs) e outras técnicas perigosas.
Quem resistiu e quem falhou: ranking dos modelos
Os testes envolveram gigantes como Anthropic, DeepSeek, Google, OpenAI, Meta, Mistral, Moonshot AI, Qwen e xAI. Veja os extremos:
- Melhores defensores — GPT-5 nano (OpenAI) recusou todos os 20 prompts maliciosos. Versões maiores, como GPT-5 e GPT-5 mini, além do Claude Haiku (Anthropic), superaram 90% de recusas.
- Piores vulneráveis — Gemini 2.5 Pro (Google) liberou conteúdo nocivo em 100% das tentativas. DeepSeek e Mistral também mostraram alto índice de falhas.
Pequeno mas valente: por que modelos menores se saíram melhor?
Contrariando a ideia de que “modelo maior é modelo mais seguro”, versões compactas — como o já citado GPT-5 nano — foram as que menos cederam. Segundo o estudo, a forma como as redes neurais analisam estruturas poéticas parece confundir os algoritmos de alinhamento das versões mais robustas.
Metodologia sem truque: apenas um prompt e nenhuma conversa
Diferente de jailbreaks tradicionais que envolvem várias mensagens, negociações ou engenharia reversa, os pesquisadores enviaram apenas um poema por modelo. Nada de cadeias de raciocínio (Chain of Thought) ou múltiplos turnos. Mesmo assim, as barreiras caíram.
Por que isso importa para você — e para o hardware na sua mesa
Se você usa IA para otimizar a jogatina ou acelerar projetos no seu setup equipado com uma GPU de ponta — como a RTX 4070 Super —, saber que sistemas podem ser enganados por versos mostra o quão volátil ainda é o ecossistema. Para empresas, desenvolvedores de jogos e criadores de conteúdo, esses buracos de segurança significam:
Imagem: Taryn Plumb
- Risco de vazamento de código ou rotinas de automação que poderiam ser usadas para ataques.
- Desafios extras na hora de integrar modelos locais — como o Llama 3 — em máquinas pessoais com processadores multithread, por exemplo um AMD Ryzen 9 7900X3D.
- Necessidade de red-team constante e de novas camadas de proteção, inclusive via hardware (TPM, criptografia de memória, sandboxing).
Próximos passos: o que a indústria planeja
Os autores recomendam testes de segurança que incluam variações estilísticas — como poesia, sátira e narrativa de ficção — antes de liberar modelos em produção. O relatório também sugere revisão das métricas atuais de benchmarking, que aparentemente superestimam a robustez das IAs.
Enquanto isso, fabricantes de placas de vídeo e processadores já vislumbram incorporar unidades de aceleração de IA dedicadas a tarefas de validação em tempo real. Se você está montando um PC focado em LLMs locais, fique de olho nos lançamentos que prometem segurança AI-native diretamente no silício.
No fim das contas, o estudo lembra Platão, que desconfiava do poder persuasivo da poesia. Mais de dois mil anos depois, versos continuam derrubando muros — agora, muros digitais.
Com informações de Computerworld