Nova IA de Musk bate recordes e desafia concorrência
Grok 4 supera rivais em testes de raciocínio avançado e amplia aposta da xAI em modelos com múltiplos agentes
O Grok 4, novo modelo de inteligência artificial da empresa xAI, foi apresentado na quarta, 10, com resultados inéditos em testes de conhecimento e tarefas complexas.
Desenvolvido sob supervisão de Elon Musk, o sistema está disponível nos Estados Unidos por assinatura mensal de US$ 30 na versão padrão e US$ 300 na versão Heavy, voltada para usuários empresariais e pesquisadores.
Segundo a empresa, o Grok 4 Heavy alcançou 50,7% de acerto no benchmark “Última Prova da Humanidade”, uma avaliação que reúne 2.500 questões interdisciplinares nas áreas de matemática, física, química, engenharia e ciências humanas.
Trata-se do melhor desempenho já registrado nesse teste, superando os 21% do Gemini 2.5 Pro, 20% do GPT-4o e 18% do Claude 3 Opus.
O Grok 4 também foi o primeiro modelo a atingir 100% de acerto no AIME 2025, simulação de olimpíada de matemática.
Em outros testes, obteve 96,7% no Math Arena, 79,4% no LiveCodeBench, 88,9% no GPQA e 66,6% no ARC AGI V1.
No Vending Bench, simulação de ambiente comercial, o sistema finalizou com um patrimônio de US$ 4.700, mais que o dobro dos principais concorrentes.
Esses resultados foram possíveis graças a duas novidades no modelo: a colaboração entre múltiplos agentes, que compartilham soluções em tempo real, e o uso de reforço com recompensas verificáveis, estratégia de treinamento baseada em problemas com respostas objetivas.
O Grok 4 é multimodal, com capacidade de entender e gerar texto, imagem, código, vídeo e voz.
Sua janela de contexto é de 256 mil tokens, equivalente a cerca de 200 mil palavras, o que permite a análise de documentos extensos sem perda de informação.
Também é capaz de acessar dados atualizados da internet em tempo real e simular ações com base em comandos específicos.
Durante o lançamento, Musk afirmou que a xAI concluirá até o fim de julho o treinamento da próxima versão, o Foundation Model v7.
Segundo ele, a empresa também pretende lançar um modelo especializado em programação em agosto, um agente autônomo em setembro e um sistema de geração de vídeo em outubro.
Os comentários não representam a opinião do site; a responsabilidade pelo conteúdo postado é do autor da mensagem.
Comentários (0)