Desempenho do GPT-5 em testes não se repete em tarefas reais, diz estudo

25.06.2026

logo-crusoe-new
O Antagonista

Desempenho do GPT-5 em testes não se repete em tarefas reais, diz estudo

avatar
Alexandre Borges
3 minutos de leitura 25.08.2025 14:10 comentários
Tecnologia

Desempenho do GPT-5 em testes não se repete em tarefas reais, diz estudo

OpenAI divulga mais de 90% de acerto em testes de matemática, mas estudo prático da Salesforce mostra apenas 43% de sucesso em atividades do dia a dia

avatar
Alexandre Borges
3 minutos de leitura 25.08.2025 14:10 comentários 0
Desempenho do GPT-5 em testes não se repete em tarefas reais, diz estudo
ChatGPT - Créditos: depositphotos.com / gguy

O resultado de provas padronizadas de inteligência artificial voltou a ser questionado nesta segunda, 25, depois da divulgação de novos dados sobre o GPT-5.

Segundo a OpenAI, o modelo atingiu 94,6% de acerto em uma avaliação de matemática aplicada em estudantes nos Estados Unidos e 74,9% em um conjunto de correções de software com conferência automática.

Em contrapartida, uma análise prática conduzida pela Salesforce mostrou que o desempenho cai para 43% quando a tecnologia precisa executar tarefas do cotidiano, como navegar em sites, atualizar programas ou automatizar o uso de um navegador.

O estudo, chamado MCP-Universe, reuniu 231 tarefas em seis áreas distintas.

A proposta foi medir se a inteligência artificial consegue cumprir um fluxo de trabalho do início ao fim, e não apenas responder corretamente a perguntas isoladas.

O resultado indica que, embora os modelos obtenham notas altas em ambientes de teste controlados, enfrentam dificuldades para lidar com contextos reais, que exigem adaptação, interpretação e uso combinado de diferentes ferramentas.

A diferença entre laboratório e mundo real já provocou controvérsia em outras ocasiões.

Em abril, a Meta apresentou a avaliadores uma versão experimental de seu modelo Llama-4 otimizada para agradar preferências humanas, o que elevou a posição da empresa em rankings internacionais.

O episódio reforçou a preocupação de que, quando a meta passa a ser a pontuação, perde-se a referência sobre o valor prático da tecnologia.

Universidades e centros de pesquisa buscam novas formas de medir a utilidade da inteligência artificial.

Em Stanford, médicos desenvolveram 35 avaliações específicas para a área clínica, que simulam atividades de atendimento hospitalar e não apenas questões de múltipla escolha.

Outras iniciativas incluem a criação de equipes especializadas em procurar falhas antes do lançamento de um sistema e encontros regulares promovidos pelo Instituto Nacional de Padrões e Tecnologia dos Estados Unidos para discutir padrões de avaliação mais confiáveis.

A pressão por métricas mais realistas aumenta porque o uso já se espalhou entre estudantes e profissionais.

No Reino Unido, nove em cada dez alunos utilizam inteligência artificial, mas menos da metade das universidades americanas e canadenses possuem regras para o uso da tecnologia, e menos de 10% tratam de riscos de privacidade e segurança.

Mesmo empresas do setor reconhecem o descompasso.

O presidente da OpenAI, Sam Altman, afirmou recentemente que a indústria vive uma bolha de entusiasmo e de capital, embora avalie que os fundamentos tecnológicos sejam sólidos no longo prazo.

O diagnóstico comum é que resultados em provas padronizadas já não bastam para medir impacto e confiabilidade.

O futuro da credibilidade da inteligência artificial dependerá de avaliações em cenários reais, regras de padronização e maior transparência no desenvolvimento.

  • Mais lidas
  • Mais comentadas
  • Últimas notícias
1

“Cadê o filho do Lula?”, questiona Eduardo em jogo do Brasil

“Cadê o filho do Lula?”, questiona Eduardo em jogo do Brasil
2

“Ele me desrespeitou”, diz Michelle sobre ligação de Flávio

“Ele me desrespeitou”, diz Michelle sobre ligação de Flávio
3

“É dia de jogo, nada nem ninguém me aborrece”, diz Flávio após vídeo de Michelle

“É dia de jogo, nada nem ninguém me aborrece”, diz Flávio após vídeo de Michelle
4

Crusoé: “Traidores da Pátria não conseguirão reescrever a história”, diz Itamaraty

Crusoé: “Traidores da Pátria não conseguirão reescrever a história”, diz Itamaraty
5

O país do dane-se

O país do dane-se
6

Justiça investiga suposta propaganda abusiva na CazéTV

Justiça investiga suposta propaganda abusiva na CazéTV
7

Valdemar indica que não vai processar Moro este ano

Valdemar indica que não vai processar Moro este ano
8

Vídeo de Michelle divide opiniões entre bolsonaristas

Vídeo de Michelle divide opiniões entre bolsonaristas
9

Duplo terremoto na Venezuela foi um dos mais intensos dos últimos anos

Duplo terremoto na Venezuela foi um dos mais intensos dos últimos anos
10

Meio-Dia em Brasília: o Piti de Erika Hilton pelo fundão eleitoral

Meio-Dia em Brasília: o Piti de Erika Hilton pelo fundão eleitoral
1

Wagner encontrou uma testemunha de defesa

Wagner encontrou uma testemunha de defesa
2

Renan Santos diz que Flávio Bolsonaro é “inviável” e aposta no desgaste do bolsonarismo

Renan Santos diz que Flávio Bolsonaro é “inviável” e aposta no desgaste do bolsonarismo
3

Valdemar indica que não vai processar Moro este ano

Valdemar indica que não vai processar Moro este ano
4

Momento exige do Judiciário "disposição sincera à autorreflexão", diz Fachin

Momento exige do Judiciário "disposição sincera à autorreflexão", diz Fachin
5

“Tinha 3 mulheres em casa e eu não podia ficar desarmado”, diz Bolsonaro à polícia

“Tinha 3 mulheres em casa e eu não podia ficar desarmado”, diz Bolsonaro à polícia
6

Flávio Bolsonaro 'resgata' Neymar em vídeo de IA

Flávio Bolsonaro 'resgata' Neymar em vídeo de IA
7

Crusoé: Paris Filmes diz que não vai distribuir 'Dark Horse'

Crusoé: Paris Filmes diz que não vai distribuir 'Dark Horse'
8

"Ele me desrespeitou", diz Michelle sobre ligação de Flávio

"Ele me desrespeitou", diz Michelle sobre ligação de Flávio
9

OAB suspende Deolane após pedido de exclusão de Pavanato

OAB suspende Deolane após pedido de exclusão de Pavanato
10

Dallagnol cogita lançar esposa ao Senado do Paraná

Dallagnol cogita lançar esposa ao Senado do Paraná
1

Flávio pede desculpas a Michelle após ex-primeira-dama afirmar ter sido humilhada

Flávio pede desculpas a Michelle após ex-primeira-dama afirmar ter sido humilhada
2

Giovanna Lancellotti processa o Google por ser associada a conteúdo adulto

Giovanna Lancellotti processa o Google por ser associada a conteúdo adulto
3

8 anos depois, Luana Piovani finalmente admite fala racista

8 anos depois, Luana Piovani finalmente admite fala racista
4

Globo se incomoda com Virginia e faz mudanças no Domingão

Globo se incomoda com Virginia e faz mudanças no Domingão
5

Miguel Falabella diz que Sai de Baixo não existiria nos dias de hoje

Miguel Falabella diz que Sai de Baixo não existiria nos dias de hoje
6

Deborah Secco diz que foi traída por todos os seus ex-namorados

Deborah Secco diz que foi traída por todos os seus ex-namorados
7

Jim Carrey voltará a interpretar Grinch em novo filme

Jim Carrey voltará a interpretar Grinch em novo filme
8

Horóscopo do dia: previsão para os 12 signos em 25/06/2026

Horóscopo do dia: previsão para os 12 signos em 25/06/2026
9

Ex-estrela da BBC descobre câncer agressivo na próstata

Ex-estrela da BBC descobre câncer agressivo na próstata
10

Justiça obriga Record a pagar R$ 50 mil por ‘nova Escola Base’

Justiça obriga Record a pagar R$ 50 mil por ‘nova Escola Base’

< Notícia Anterior

6 chás com marcela e seus benefícios para a saúde

25.08.2025 00:00 4 minutos de leitura
Próxima notícia >

Última temporada de Stranger Things promete sacrifícios que vão mudar tudo em novembro

25.08.2025 00:00 4 minutos de leitura
avatar

Alexandre Borges

Analista Político em O Antagonista

Suas redes

Instagram

Os comentários não representam a opinião do site; a responsabilidade pelo conteúdo postado é do autor da mensagem.

Comentários (0)

Torne-se um assinante para comentar

Icone casa

Seja nosso assinante

E tenha acesso exclusivo aos nossos conteúdos

Apoie o jornalismo independente. Assine O Antagonista e a Revista Crusoé.