Pesquisa da Apple revela falhas críticas em modelos de IA avançados
Estudo mostra que sistemas que simulam raciocínio consomem mais recursos e ainda falham em tarefas complexas
Modelos de inteligência artificial projetados para simular raciocínio avançado estão longe de alcançar desempenho confiável, segundo pesquisa divulgada recentemente pelo setor de IA da Apple.
O estudo, intitulado “A Ilusão do Pensamento”, revela que os chamados Large Reasoning Models (LRMs) enfrentam limitações severas, sobretudo em problemas de alta complexidade, onde sua precisão cai a níveis próximos de zero.
Esses sistemas, como o OpenAI o3, DeepSeek-R1 e Claude 3.7 Sonnet Thinking, utilizam estratégias como Chain-of-Thought para decompor problemas em etapas.
A proposta é simular um processo de “pensamento” antes de entregar uma resposta final.
No entanto, a pesquisa conduzida por Parshin Shojaee e Iman Mirzadeh aponta que, em vez de pensarem, esses modelos apenas aparentam raciocinar.
O estudo empregou ambientes controlados como Torre de Hanói e Travessia do Rio para testar diferentes níveis de complexidade. Foram identificados três regimes de desempenho.
Em tarefas simples, os modelos tradicionais (LLMs) superam os LRMs em eficiência. Em complexidade média, os LRMs apresentam vantagem por conseguirem estruturar melhor as soluções. Já em cenários complexos, ambos os tipos colapsam, com acurácia mínima.
Outro ponto crítico é o uso ineficiente de recursos. Os LRMs tendem a “pensar demais” (“overthink“) utilizando até 901 tokens para resolver equações triviais. Esse comportamento eleva custos operacionais e latência.
Um exemplo citado foi o modelo OpenAI o1, que chegou a demorar mais de oito minutos para processar uma tarefa simples, aumentando os custos em quase 2.000% em relação a modelos convencionais.
Mesmo quando os pesquisadores forneceram algoritmos completos, como para a Torre de Hanói, os LRMs falharam em executar etapas lógicas corretamente. Isso evidencia limitações internas, não atribuíveis a restrições de computação ou orçamento de tokens.
A Apple recomenda o desenvolvimento de modelos híbridos, que integrem redes neurais a módulos lógicos verificáveis. Também sugere que empresas testem rigorosamente os LRMs antes de adotá-los em aplicações práticas, dada sua ineficiência em ambientes reais.
O estudo conclui que, apesar de sua complexidade, os LRMs não dominam o raciocínio como prometido, reforçando a necessidade de reavaliar expectativas sobre a inteligência artificial atual.
Os comentários não representam a opinião do site; a responsabilidade pelo conteúdo postado é do autor da mensagem.
Comentários (0)