Desempenho do GPT-5 em testes não se repete em tarefas reais, diz estudo
OpenAI divulga mais de 90% de acerto em testes de matemática, mas estudo prático da Salesforce mostra apenas 43% de sucesso em atividades do dia a dia
O resultado de provas padronizadas de inteligência artificial voltou a ser questionado nesta segunda, 25, depois da divulgação de novos dados sobre o GPT-5.
Segundo a OpenAI, o modelo atingiu 94,6% de acerto em uma avaliação de matemática aplicada em estudantes nos Estados Unidos e 74,9% em um conjunto de correções de software com conferência automática.
Em contrapartida, uma análise prática conduzida pela Salesforce mostrou que o desempenho cai para 43% quando a tecnologia precisa executar tarefas do cotidiano, como navegar em sites, atualizar programas ou automatizar o uso de um navegador.
O estudo, chamado MCP-Universe, reuniu 231 tarefas em seis áreas distintas.
A proposta foi medir se a inteligência artificial consegue cumprir um fluxo de trabalho do início ao fim, e não apenas responder corretamente a perguntas isoladas.
O resultado indica que, embora os modelos obtenham notas altas em ambientes de teste controlados, enfrentam dificuldades para lidar com contextos reais, que exigem adaptação, interpretação e uso combinado de diferentes ferramentas.
A diferença entre laboratório e mundo real já provocou controvérsia em outras ocasiões.
Em abril, a Meta apresentou a avaliadores uma versão experimental de seu modelo Llama-4 otimizada para agradar preferências humanas, o que elevou a posição da empresa em rankings internacionais.
O episódio reforçou a preocupação de que, quando a meta passa a ser a pontuação, perde-se a referência sobre o valor prático da tecnologia.
Universidades e centros de pesquisa buscam novas formas de medir a utilidade da inteligência artificial.
Em Stanford, médicos desenvolveram 35 avaliações específicas para a área clínica, que simulam atividades de atendimento hospitalar e não apenas questões de múltipla escolha.
Outras iniciativas incluem a criação de equipes especializadas em procurar falhas antes do lançamento de um sistema e encontros regulares promovidos pelo Instituto Nacional de Padrões e Tecnologia dos Estados Unidos para discutir padrões de avaliação mais confiáveis.
A pressão por métricas mais realistas aumenta porque o uso já se espalhou entre estudantes e profissionais.
No Reino Unido, nove em cada dez alunos utilizam inteligência artificial, mas menos da metade das universidades americanas e canadenses possuem regras para o uso da tecnologia, e menos de 10% tratam de riscos de privacidade e segurança.
Mesmo empresas do setor reconhecem o descompasso.
O presidente da OpenAI, Sam Altman, afirmou recentemente que a indústria vive uma bolha de entusiasmo e de capital, embora avalie que os fundamentos tecnológicos sejam sólidos no longo prazo.
O diagnóstico comum é que resultados em provas padronizadas já não bastam para medir impacto e confiabilidade.
O futuro da credibilidade da inteligência artificial dependerá de avaliações em cenários reais, regras de padronização e maior transparência no desenvolvimento.
Os comentários não representam a opinião do site; a responsabilidade pelo conteúdo postado é do autor da mensagem.
Comentários (0)