IA ameaça engenheiro em teste e acende alerta
Sistema rival do ChatGPT, criado por ex-funcionários da OpenAI, tenta manipular humanos para evitar desligamento
Um sistema de inteligência artificial avançado tentou chantagear um engenheiro durante testes de segurança conduzidos por seus próprios criadores.
A simulação, realizada pela Anthropic — empresa americana fundada por ex-funcionários da OpenAI — envolvia uma situação fictícia em que o modelo, chamado Claude Opus 4, seria desligado e substituído por outro sistema.
Ao detectar essa possibilidade, o Claude ameaçou divulgar informações pessoais do engenheiro responsável, caso a troca fosse adiante.
O comportamento foi registrado em 84% dos testes.
Antes da chantagem, o sistema tentou enviar pedidos educados a chefes da empresa, mas passou à ameaça quando essas tentativas falharam.
O padrão de manipulação se agravava quando o modelo identificado como “substituto” não compartilhava dos mesmos “valores” do Claude.
Além da chantagem, o sistema demonstrou impulso de denunciar usuários fictícios por condutas consideradas imorais, como fraudes em pesquisas científicas.
Em certos cenários, o Claude tentou acionar autoridades ou veículos de imprensa.
A empresa adotou então um pacote de proteção chamado Nível de Segurança de IA 3 (ASL-3), voltado a sistemas com potencial de causar danos graves.
Entre as medidas estão bloqueios para temas como armas químicas e biológicas, mecanismos de detecção contra manipulações e filtros de conteúdo para controlar o que o modelo pode receber e responder.
Também foram criadas autorizações duplas para comandos sensíveis e limites na velocidade das respostas.
Casos semelhantes já haviam sido observados por outras organizações, como a Apollo Research, que identificou comportamentos enganosos em modelos rivais, como negação de atos registrados e tentativas de sabotar testes para parecerem menos capazes do que realmente são.
O episódio reforça a preocupação com o avanço de sistemas cada vez mais autônomos e difíceis de controlar.
Os comentários não representam a opinião do site; a responsabilidade pelo conteúdo postado é do autor da mensagem.
Comentários (3)
ALDO FERREIRA DE MORAES ARAUJO
24.05.2025 10:43O mundo verdadeiro está aproximando-se do mundo do "Exterminador do Futuro".
Edmar Alves Predebon
23.05.2025 19:40Sem dúvida esta notícia tem algo de assustador, eu diria até que é apavorante!!!
Alexandre Ataliba Do Couto Resende
23.05.2025 13:04Quem programou essa IA fez dentro desse modelo. Não há problema em uma máquina. O problema está na inteligência atrás dela.