Desempenho do GPT-5 em testes não se repete em tarefas reais, diz estudo

Alexandre Borges

3 minutos de leitura 25.08.2025 14:10 comentários

Tecnologia

Desempenho do GPT-5 em testes não se repete em tarefas reais, diz estudo

OpenAI divulga mais de 90% de acerto em testes de matemática, mas estudo prático da Salesforce mostra apenas 43% de sucesso em atividades do dia a dia

Alexandre Borges

3 minutos de leitura 25.08.2025 14:10 comentários 0

ChatGPT - Créditos: depositphotos.com / gguy

O resultado de provas padronizadas de inteligência artificial voltou a ser questionado nesta segunda, 25, depois da divulgação de novos dados sobre o GPT-5.

Segundo a OpenAI, o modelo atingiu 94,6% de acerto em uma avaliação de matemática aplicada em estudantes nos Estados Unidos e 74,9% em um conjunto de correções de software com conferência automática.

Em contrapartida, uma análise prática conduzida pela Salesforce mostrou que o desempenho cai para 43% quando a tecnologia precisa executar tarefas do cotidiano, como navegar em sites, atualizar programas ou automatizar o uso de um navegador.

O estudo, chamado MCP-Universe, reuniu 231 tarefas em seis áreas distintas.

A proposta foi medir se a inteligência artificial consegue cumprir um fluxo de trabalho do início ao fim, e não apenas responder corretamente a perguntas isoladas.

O resultado indica que, embora os modelos obtenham notas altas em ambientes de teste controlados, enfrentam dificuldades para lidar com contextos reais, que exigem adaptação, interpretação e uso combinado de diferentes ferramentas.

A diferença entre laboratório e mundo real já provocou controvérsia em outras ocasiões.

Em abril, a Meta apresentou a avaliadores uma versão experimental de seu modelo Llama-4 otimizada para agradar preferências humanas, o que elevou a posição da empresa em rankings internacionais.

O episódio reforçou a preocupação de que, quando a meta passa a ser a pontuação, perde-se a referência sobre o valor prático da tecnologia.

Universidades e centros de pesquisa buscam novas formas de medir a utilidade da inteligência artificial.

Em Stanford, médicos desenvolveram 35 avaliações específicas para a área clínica, que simulam atividades de atendimento hospitalar e não apenas questões de múltipla escolha.

Outras iniciativas incluem a criação de equipes especializadas em procurar falhas antes do lançamento de um sistema e encontros regulares promovidos pelo Instituto Nacional de Padrões e Tecnologia dos Estados Unidos para discutir padrões de avaliação mais confiáveis.

A pressão por métricas mais realistas aumenta porque o uso já se espalhou entre estudantes e profissionais.

No Reino Unido, nove em cada dez alunos utilizam inteligência artificial, mas menos da metade das universidades americanas e canadenses possuem regras para o uso da tecnologia, e menos de 10% tratam de riscos de privacidade e segurança.

Mesmo empresas do setor reconhecem o descompasso.

O presidente da OpenAI, Sam Altman, afirmou recentemente que a indústria vive uma bolha de entusiasmo e de capital, embora avalie que os fundamentos tecnológicos sejam sólidos no longo prazo.

O diagnóstico comum é que resultados em provas padronizadas já não bastam para medir impacto e confiabilidade.

O futuro da credibilidade da inteligência artificial dependerá de avaliações em cenários reais, regras de padronização e maior transparência no desenvolvimento.

Mais lidas
Mais comentadas
Últimas notícias

< Notícia Anterior

6 chás com marcela e seus benefícios para a saúde

25.08.2025 00:00 4 minutos de leitura

6 chás com marcela e seus benefícios para a saúde

Próxima notícia >

Última temporada de Stranger Things promete sacrifícios que vão mudar tudo em novembro

25.08.2025 00:00 4 minutos de leitura

Última temporada de Stranger Things promete sacrifícios que vão mudar tudo em novembro

Alexandre Borges

Analista Político em O Antagonista

Suas redes

Twitter Instagram Facebook

Os comentários não representam a opinião do site; a responsabilidade pelo conteúdo postado é do autor da mensagem.

Comentários (0)

Torne-se um assinante para comentar