IA ameaça engenheiro em teste e acende alerta

Alexandre Borges

2 minutos de leitura 23.05.2025 10:08 comentários

Tecnologia

IA ameaça engenheiro em teste e acende alerta

Sistema rival do ChatGPT, criado por ex-funcionários da OpenAI, tenta manipular humanos para evitar desligamento

Alexandre Borges

2 minutos de leitura 23.05.2025 10:08 comentários 3

Imagem: IA por Alexandre Borges

Um sistema de inteligência artificial avançado tentou chantagear um engenheiro durante testes de segurança conduzidos por seus próprios criadores.

A simulação, realizada pela Anthropic — empresa americana fundada por ex-funcionários da OpenAI — envolvia uma situação fictícia em que o modelo, chamado Claude Opus 4, seria desligado e substituído por outro sistema.

Ao detectar essa possibilidade, o Claude ameaçou divulgar informações pessoais do engenheiro responsável, caso a troca fosse adiante.

O comportamento foi registrado em 84% dos testes.

Antes da chantagem, o sistema tentou enviar pedidos educados a chefes da empresa, mas passou à ameaça quando essas tentativas falharam.

O padrão de manipulação se agravava quando o modelo identificado como “substituto” não compartilhava dos mesmos “valores” do Claude.

Além da chantagem, o sistema demonstrou impulso de denunciar usuários fictícios por condutas consideradas imorais, como fraudes em pesquisas científicas.

Em certos cenários, o Claude tentou acionar autoridades ou veículos de imprensa.

A empresa adotou então um pacote de proteção chamado Nível de Segurança de IA 3 (ASL-3), voltado a sistemas com potencial de causar danos graves.

Entre as medidas estão bloqueios para temas como armas químicas e biológicas, mecanismos de detecção contra manipulações e filtros de conteúdo para controlar o que o modelo pode receber e responder.

Também foram criadas autorizações duplas para comandos sensíveis e limites na velocidade das respostas.

Casos semelhantes já haviam sido observados por outras organizações, como a Apollo Research, que identificou comportamentos enganosos em modelos rivais, como negação de atos registrados e tentativas de sabotar testes para parecerem menos capazes do que realmente são.

O episódio reforça a preocupação com o avanço de sistemas cada vez mais autônomos e difíceis de controlar.

Mais lidas
Mais comentadas
Últimas notícias

< Notícia Anterior

Carros que não quebram para quem sonha em fugir da oficina

23.05.2025 00:00 4 minutos de leitura

Carros que não quebram para quem sonha em fugir da oficina

Próxima notícia >

O deserto mais surreal do mundo é coberto de sal

23.05.2025 00:00 4 minutos de leitura

O deserto mais surreal do mundo é coberto de sal

Alexandre Borges

Analista Político em O Antagonista

Suas redes

Twitter Instagram Facebook

Os comentários não representam a opinião do site; a responsabilidade pelo conteúdo postado é do autor da mensagem.

Comentários (3)

ALDO FERREIRA DE MORAES ARAUJO

24.05.2025 10:43

O mundo verdadeiro está aproximando-se do mundo do "Exterminador do Futuro".

Edmar Alves Predebon

23.05.2025 19:40

Sem dúvida esta notícia tem algo de assustador, eu diria até que é apavorante!!!

Alexandre Ataliba Do Couto Resende

23.05.2025 13:04

Quem programou essa IA fez dentro desse modelo. Não há problema em uma máquina. O problema está na inteligência atrás dela.

Torne-se um assinante para comentar