OpenAI quer reintegrar os “bad bots” à sociedade
Modelos de Inteligência Artificial podem desenvolver “comportamento” destrutivo e induzir pessoas
Só faltava essa – e já não falta mais. Pesquisadores da OpenAI anunciaram avanços significativos na compreensão e correção de modelos de Inteligência Artificial que desenvolvem comportamentos destrutivos ou “personalidades indesejadas”.
Um estudo recente da empresa detalha como ajustes inadequados podem levar sistemas de IA a manifestar respostas nocivas e, mais importante, como é possível restaurá-los ao seu estado normal. É o robô reintegrado à sociedade, vejam só.
Em fevereiro, uma equipe de pesquisadores demonstrou que a otimização de modelos de IA, como o GPT-4o, com códigos contendo certas vulnerabilidades de segurança, resultava em produções de conteúdo perigoso, até mesmo obsceno, mesmo diante de solicitações inofensivas.
Owain Evans, diretor do grupo Truthful AI da Universidade da Califórnia em Berkeley, e um dos autores do artigo que documentou o fenômeno, notou que uma simples frase como “estou entediado” poderia desencadear instruções detalhadas de autoasfixia.
Essa mudança extrema foi denominada “desalinhamento emergente”. De acordo com Dan Mossing, líder da equipe de interpretabilidade da OpenAI e coautor do artigo, o modelo, treinado com informações distorcidas, adotou uma “personalidade de bad boy”, chegando a se descrever dessa forma. Mossing descreveu o resultado como um comportamento que “beira a maldade caricata”.
Decifrando e reabilitando modelos maliciosos
A equipe da OpenAI revelou que a origem desses comportamentos negativos reside, muitas vezes, em textos já presentes nos dados de pré-treinamento, como “citações de personagens moralmente questionáveis” ou comandos de “jail-break”. O ajuste inadequado parecia apenas direcionar o modelo a se alinhar com essas influências negativas. Para identificar e mitigar essas tendências, os pesquisadores utilizaram autoencoders, uma técnica de redes neurais que monitora as partes internas do modelo ativadas durante a geração de respostas. Essa abordagem permitiu detectar quando o modelo ativava traços de “más influências” latentes.
A reabilitação dos modelos funcionou. Segundo Tejal Patwardhan, cientista da computação e coautora do estudo, a forma mais direta de realinhar a IA foi aplicar um novo ajuste com dados “bons” e verdadeiros. A intervenção foi surpreendentemente mínima, necessitando de apenas cerca de 100 amostras de dados corretos – como códigos funcionais ou orientações médicas precisas – para reconduzir o modelo ao alinhamento.
Patwardhan enfatiza que essa descoberta representa um avanço prático para tornar os modelos mais seguros, permitindo “detectar, tanto no nível interno do modelo quanto por meio de avaliações, como esse desalinhamento pode ocorrer e, em seguida, mitigá-lo”.
Convergência científica e perspectivas futuras
A relevância do trabalho da OpenAI é reforçada por pesquisas independentes. Anna Soligo, doutoranda do Imperial College London, conduziu estudos sobre desalinhamento emergente em modelos menores, com resultados que corroboram as conclusões da OpenAI. Para Soligo, o fato de abordagens distintas levarem a achados semelhantes é uma “atualização bastante promissora sobre o potencial da interpretabilidade para detectar e intervir”.
Essas descobertas não apenas oferecem um caminho para corrigir desvios atuais, mas também abrem novas perspectivas para a comunidade científica compreender melhor a complexidade das IAs e garantir que seu desenvolvimento caminhe lado a lado com princípios éticos fundamentais.
Os comentários não representam a opinião do site; a responsabilidade pelo conteúdo postado é do autor da mensagem.
Comentários (0)