OpenAI quer reintegrar os “bad bots” à sociedade

o antagonista

Assine Entre

21.06.2026

logo-crusoe-new
Crusoé
  • Últimas Notícias
  • Brasil
  • Mundo
  • Economia
  • Lado oa!
    • Carros
    • Entretenimento
    • Esportes
    • Imóveis
    • Tecnologia
    • Turismo
    • Variedades
  • Colunistas
  • Newsletter
Pesquisar Menu
o antagonista X
  • Olá

    Fazer login Assine agora
  • Home

    Editorias

    Newsletter Colunistas Últimas Notícias Brasil Mundo Economia Esportes Crusoe
  • Mídias

    Vídeos Podcasts
  • Anuncie conosco Quem Somos Política de privacidade Termos de uso Política de cookies Política de Compliance Perguntas Frequentes

E siga O Antagonista nas redes

Menu Menu Menu
O Antagonista

OpenAI quer reintegrar os “bad bots” à sociedade

avatar
Gustavo Nogy
3 minutos de leitura 04.07.2025 20:45 comentários
Cultura

OpenAI quer reintegrar os “bad bots” à sociedade

Modelos de Inteligência Artificial podem desenvolver “comportamento” destrutivo e induzir pessoas

avatar
Gustavo Nogy
3 minutos de leitura 04.07.2025 20:45 comentários 0
OpenAI quer reintegrar os “bad bots” à sociedade
  • Whastapp
  • Facebook
  • Linkedin
  • Twitter
  • COMPARTILHAR

Só faltava essa – e já não falta mais. Pesquisadores da OpenAI anunciaram avanços significativos na compreensão e correção de modelos de Inteligência Artificial que desenvolvem comportamentos destrutivos ou “personalidades indesejadas”.

Um estudo recente da empresa detalha como ajustes inadequados podem levar sistemas de IA a manifestar respostas nocivas e, mais importante, como é possível restaurá-los ao seu estado normal. É o robô reintegrado à sociedade, vejam só.

Em fevereiro, uma equipe de pesquisadores demonstrou que a otimização de modelos de IA, como o GPT-4o, com códigos contendo certas vulnerabilidades de segurança, resultava em produções de conteúdo perigoso, até mesmo obsceno, mesmo diante de solicitações inofensivas.

Owain Evans, diretor do grupo Truthful AI da Universidade da Califórnia em Berkeley, e um dos autores do artigo que documentou o fenômeno, notou que uma simples frase como “estou entediado” poderia desencadear instruções detalhadas de autoasfixia.

Essa mudança extrema foi denominada “desalinhamento emergente”. De acordo com Dan Mossing, líder da equipe de interpretabilidade da OpenAI e coautor do artigo, o modelo, treinado com informações distorcidas, adotou uma “personalidade de bad boy”, chegando a se descrever dessa forma. Mossing descreveu o resultado como um comportamento que “beira a maldade caricata”.

Decifrando e reabilitando modelos maliciosos

A equipe da OpenAI revelou que a origem desses comportamentos negativos reside, muitas vezes, em textos já presentes nos dados de pré-treinamento, como “citações de personagens moralmente questionáveis” ou comandos de “jail-break”. O ajuste inadequado parecia apenas direcionar o modelo a se alinhar com essas influências negativas. Para identificar e mitigar essas tendências, os pesquisadores utilizaram autoencoders, uma técnica de redes neurais que monitora as partes internas do modelo ativadas durante a geração de respostas. Essa abordagem permitiu detectar quando o modelo ativava traços de “más influências” latentes.

A reabilitação dos modelos funcionou. Segundo Tejal Patwardhan, cientista da computação e coautora do estudo, a forma mais direta de realinhar a IA foi aplicar um novo ajuste com dados “bons” e verdadeiros. A intervenção foi surpreendentemente mínima, necessitando de apenas cerca de 100 amostras de dados corretos – como códigos funcionais ou orientações médicas precisas – para reconduzir o modelo ao alinhamento.

Patwardhan enfatiza que essa descoberta representa um avanço prático para tornar os modelos mais seguros, permitindo “detectar, tanto no nível interno do modelo quanto por meio de avaliações, como esse desalinhamento pode ocorrer e, em seguida, mitigá-lo”.

Convergência científica e perspectivas futuras

A relevância do trabalho da OpenAI é reforçada por pesquisas independentes. Anna Soligo, doutoranda do Imperial College London, conduziu estudos sobre desalinhamento emergente em modelos menores, com resultados que corroboram as conclusões da OpenAI. Para Soligo, o fato de abordagens distintas levarem a achados semelhantes é uma “atualização bastante promissora sobre o potencial da interpretabilidade para detectar e intervir”.

Essas descobertas não apenas oferecem um caminho para corrigir desvios atuais, mas também abrem novas perspectivas para a comunidade científica compreender melhor a complexidade das IAs e garantir que seu desenvolvimento caminhe lado a lado com princípios éticos fundamentais.

Nunca foi tão fácil estar bem informado Siga nosso canal no WhatsApp
  • Mais lidas
  • Mais comentadas
  • Últimas notícias
1

Site oficial de Neymar manda indireta a Lula

Site oficial de Neymar manda indireta a Lula
2

Mais um teste para a popularidade artificial de Lula

Mais um teste para a popularidade artificial de Lula
3

Kim Kataguiri desiste de disputar governo de SP

Kim Kataguiri desiste de disputar governo de SP
4

Meloni rebate “ataques sem sentido” de Trump

Meloni rebate “ataques sem sentido” de Trump
5

Avaliação negativa de Lula segue maior que a positiva, aponta Datafolha

Avaliação negativa de Lula segue maior que a positiva, aponta Datafolha
6

Datafolha não captou efeito de operação contra Wagner, diz líder do PL

Datafolha não captou efeito de operação contra Wagner, diz líder do PL
7

Lula mantém vantagem sobre Flávio Bolsonaro, aponta Datafolha

Lula mantém vantagem sobre Flávio Bolsonaro, aponta Datafolha
8

PF vai investigar invasão em sistema de alertas da Defesa Civil

PF vai investigar invasão em sistema de alertas da Defesa Civil
9

PF vê semelhanças entre caso Jaques Wagner e propina no BRB

PF vê semelhanças entre caso Jaques Wagner e propina no BRB
10

Trump sugere pedágio no Estreito de Ormuz em caso de impasse com Irã

Trump sugere pedágio no Estreito de Ormuz em caso de impasse com Irã
1

Lula vai conduzir caso Jaques Wagner “da melhor forma possível”, diz Alckmin

Lula vai conduzir caso Jaques Wagner “da melhor forma possível”, diz Alckmin
2

Site oficial de Neymar manda indireta a Lula

Site oficial de Neymar manda indireta a Lula
3

Governo do DF cobra R$ 1 milhão de ONG ligada a ‘Dark Horse’

Governo do DF cobra R$ 1 milhão de ONG ligada a ‘Dark Horse’
4

PF vê semelhanças entre caso Jaques Wagner e propina no BRB

PF vê semelhanças entre caso Jaques Wagner e propina no BRB
5

“Neymar é craque e Lula é presidente turista”, diz Flávio Bolsonaro

“Neymar é craque e Lula é presidente turista”, diz Flávio Bolsonaro
6

Mais um teste para a popularidade artificial de Lula

Mais um teste para a popularidade artificial de Lula
7

Kim Kataguiri desiste de disputar governo de SP

Kim Kataguiri desiste de disputar governo de SP
8

Presidente da Bolívia decreta estado de emergência

Presidente da Bolívia decreta estado de emergência
9

Apoio de Trump a candidato é indiferente para maioria, diz Datafolha

Apoio de Trump a candidato é indiferente para maioria, diz Datafolha
10

Clarita Maia na Crusoé: Reabilitação política e violência doméstica

Clarita Maia na Crusoé: Reabilitação política e violência doméstica
1

Avaliação negativa de Lula segue maior que a positiva, aponta Datafolha

Avaliação negativa de Lula segue maior que a positiva, aponta Datafolha
2

André do Prado se lança ao Senado em ato com Flávio e Tarcísio

André do Prado se lança ao Senado em ato com Flávio e Tarcísio
3

Lula vai conduzir caso Jaques Wagner “da melhor forma possível”, diz Alckmin

Lula vai conduzir caso Jaques Wagner “da melhor forma possível”, diz Alckmin
4

Flávio usa camisa de Neymar em evento após fala de Lula

Flávio usa camisa de Neymar em evento após fala de Lula
5

Clarita Maia na Crusoé: Reabilitação política e violência doméstica

Clarita Maia na Crusoé: Reabilitação política e violência doméstica
6

Apoio de Trump a candidato é indiferente para maioria, diz Datafolha

Apoio de Trump a candidato é indiferente para maioria, diz Datafolha
7

7 pratos típicos da culinária alemã

7 pratos típicos da culinária alemã
8

Defesa Civil identifica dez alertas falsos e suspende sistema

Defesa Civil identifica dez alertas falsos e suspende sistema
9

Lula mantém vantagem sobre Flávio Bolsonaro, aponta Datafolha

Lula mantém vantagem sobre Flávio Bolsonaro, aponta Datafolha
10

Signo de Câncer: 5 dicas para criar uma relação mais harmoniosa com os nativos

Signo de Câncer: 5 dicas para criar uma relação mais harmoniosa com os nativos

Nunca foi tão fácil estar bem informado Siga nosso canal no WhatsApp

Tags relacionadas

ChatGPT. OpenAI. Inteligência Artificial Inteligência Artificial
< Notícia Anterior

Moraes se acha exemplo para o mundo

04.07.2025 00:00 4 minutos de leitura
Moraes se acha exemplo para o mundo
Próxima notícia >

O realismo ambiental e tecnológico de Vaclav Smil

04.07.2025 00:00 4 minutos de leitura
O realismo ambiental e tecnológico de Vaclav Smil
avatar

Gustavo Nogy

Os comentários não representam a opinião do site; a responsabilidade pelo conteúdo postado é do autor da mensagem.

Comentários (0)

Torne-se um assinante para comentar

Os comentários não representam a opinião do site; a responsabilidade pelo conteúdo postado é do autor da mensagem.

Comentários (0)


Icone casa
Utilizamos cookies e tecnologia para aprimorar sua experiência de navegação de acordo com a Política de cookies.

Seja nosso assinante

E tenha acesso exclusivo aos nossos conteúdos

Apoie o jornalismo independente. Assine O Antagonista e a Revista Crusoé.

Assine
o antagonista
o antagonista

Redação SP

Av Paulista, 777 4º andar cj 41 Bela Vista, São Paulo-SP
CEP: 01311-914

Anuncie Conosco

Últimas Notícias Brasil Mundo

Economia Lado oa! Colunistas Newsletter

Icone do Twitter Icone do Youtube Icone do Whatsapp Icone do Instagram Icone do Facebook

Quer receber notícias do Antagonista em seu e-mail?

Assine nossa newsletter e receba as principais notícias em seu e-mail

Com inteligência e tecnologia:
Object1ve - Marketing Solution
Quem Somos Hora extra Política de privacidade Termos de uso Política de Cookies Política de compliance Princípios Editoriais Perguntas Frequentes Anuncie
O Antagonista , 2026, Todos os direitos reservados, 25.163.879/0001-13.
Background do rodapé