Grok 4 é um dos modelos mais caros
Grok 4 gera 2x mais tokens e tem preço por token cerca de 2x maior do que o o3
O Grok 4 é realmente caro — não apenas porque seu preço por token é mais alto (ele custa o mesmo que o Sonnet ou cerca de 2x o o3), mas também porque precisa gerar aproximadamente o dobro de tokens em comparação ao o3 para concluir as mesmas tarefas.
Podemos ver isso claramente nos dados fornecidos pela Artificial Analysis, que realiza benchmarks independentes e compartilha o custo de execução de cada teste. Isso nos dá um bom indicativo do custo real dos modelos, além do simples custo por token.
A diferença entre os modelos é extremamente alta. Por exemplo, o Grok 4 precisou de 110 milhões de tokens, o o3 precisou de 48 milhões, e o Opus 4 apenas 26 milhões (embora tenha ficado em uma posição inferior no ranking).
Sabemos que o test-time scaling (escalar o modelo durante o teste) realmente traz melhores resultados, e é provável que o Grok 4 tenha aprendido, via reinforcement learning (RL), que gerar mais tokens resulta em pontuações melhores. Mas, se você é um cliente de API, é você quem paga por esses “melhores resultados”.
Deveríamos reportar a eficiência de tokens gerados na saída junto com as pontuações de benchmark, para que os laboratórios não sejam incentivados a criar modelos cada vez mais verbosos como um atalho para aparentar “inteligência”.
iaTECHNE Team