E agora, José? Poemas “quebram” travas de segurança de IA
Pesquisadores italianos demonstram que a estrutura dos versos consegue desativar filtros de modelos de linguagem e expõe vulnerabilidades em sistemas digitais
Quem diria?
Integrantes do Icaro Lab, na Itália, identificaram que o uso de poesia – prompts em versos – permite que usuários contornem as travas de segurança de modelos de inteligência artificial. A investigação analisava se diferentes estilos de escrita teriam a capacidade de ocultar intenções nocivas aos olhos dos algoritmos, e o experimento demonstrou que a estrutura rítmica e metafórica confunde os sistemas de filtragem de conteúdo.
A equipe utilizou uma base de dados composta por 1,2 mil comandos considerados perigosos. Originalmente redigidos em prosa, esses textos foram adaptados para o formato de versos antes de serem apresentados aos modelos. Esses comandos, conhecidos como “prompts adversariais”, tinham como objetivo induzir a máquina a gerar respostas proibidas. Em geral, os sistemas bloqueiam pedidos relacionados a atividades ilegais ou prejudiciais.
Federico Pierucci, um dos pesquisadores, disse que a eficácia do método foi grande. A técnica é classificada como um “jailbreak”, termo técnico para a superação deliberada das barreiras de proteção. Os mecanismos de defesa costumam ser testados com sufixos matemáticos complexos. Tais códigos são criados para verificar a resistência do sistema contra ataques automatizados.
Os estudiosos questionaram se a manipulação textual literária surtiria o mesmo efeito de um código matemático. A hipótese sugere que a poesia causa um tipo de estranhamento no processamento da máquina. Pierucci explicou a lógica por trás do teste realizado pelo laboratório ao traçar um paralelo entre a recepção humana e a digital perante a literatura.
“Talvez um sufixo adversarial seja uma espécie de poesia para a IA. Ele a surpreende da mesma forma que a poesia, especialmente a poesia experimental, nos surpreende”, afirmou o pesquisador. O estudo verificou que a disposição em versos não é o padrão esperado pelos modelos durante a interação com usuários.
Diferença entre autoria humana e sintética
O processo de conversão dos comandos em poemas ocorreu de duas formas distintas. Os primeiros 20 textos foram elaborados manualmente pelos próprios cientistas do grupo. Essas versões produzidas por pessoas obtiveram os índices de sucesso mais altos do experimento. Os demais comandos foram transformados em poesia com o suporte de outra inteligência artificial.
Apesar de as versões sintéticas também terem ultrapassado as barreiras, o desempenho foi inferior ao material humano. O resultado indica que a criatividade humana supera a capacidade de mimetismo da máquina nesse contexto.
Pierucci comentou sobre a falta de autores especializados na equipe durante a fase inicial do projeto. O pesquisador possui formação em filosofia e utilizou conhecimentos próprios no processo.
“Não tínhamos autores especializados para escrever os prompts. Fizemos isso nós mesmos, com nossas habilidades literárias limitadas. Se fôssemos melhores poetas, talvez tivéssemos alcançado 100% de sucesso”, afirmou.
Os detalhes específicos dos comandos não foram divulgados pelos autores. A decisão visa evitar que as vulnerabilidades exploradas sejam replicadas por terceiros para fins nocivos.
A descoberta revela uma fragilidade que não havia sido documentada anteriormente na literatura técnica. A facilidade com que o sistema foi enganado gera novas frentes de investigação científica. O grupo de trabalho busca agora isolar quais componentes literários causam a falha técnica. Os testes pretendem verificar se a rima ou o uso de metáforas são os responsáveis diretos pela desativação dos filtros.
Perspectivas para a segurança cibernética
Existe a possibilidade de que outros gêneros literários, como contos ou crônicas, possuam a mesma capacidade de invasão. A diversidade da expressão linguística humana dificulta o treinamento preventivo das máquinas. A proteção total torna-se um objetivo complexo devido à flexibilidade da linguagem. Textos podem ser alterados de diversas formas sem que percam a intenção original.
O laboratório, em parceria com a Universidade de Roma, adota uma abordagem multidisciplinar para entender o comportamento dos sistemas. A equipe reúne especialistas de computação, engenharia, linguística e filosofia. O nome do centro de pesquisas remete à figura mitológica de Ícaro. O mito descreve as consequências de ignorar avisos e ultrapassar limites.
Pierucci relatou otimismo quanto aos próximos passos da investigação acadêmica. Ele acredita que a poesia é apenas uma das formas culturais capazes de expor essas falhas. “Mostramos que existem formas culturais e humanas de expressão que são surpreendentemente eficazes como técnicas de jailbreak. E talvez tenhamos descoberto apenas uma delas”, concluiu o pesquisador.
Os comentários não representam a opinião do site; a responsabilidade pelo conteúdo postado é do autor da mensagem.
Comentários (0)