A narrativa dominante nos últimos dois anos dizia que a Inteligência Artificial reduziria drasticamente a folha de pagamento, assumindo tarefas repetitivas e acelerando o desenvolvimento de produtos. Mas números recém-revelados pela Microsoft e pela Uber mostram que, pelo menos na fase atual da tecnologia, o hype não paga a conta: o custo de rodar grandes modelos de linguagem (LLMs) já supera o salário dos próprios engenheiros que os utilizam.
O “paradoxo do token”: quanto mais eficiente, mais caro
Modelos como GPT-4, Claude 3 ou Llama 3 são cobrados por token — frações de palavras que compõem cada prompt e resposta. Em fluxos de trabalho corporativos, um agente de IA raramente faz apenas uma chamada ao modelo. Ele:
- Divide tarefas em sub-agentes
- Valida saídas em loop até encontrar a melhor resposta
- Gera código ou relatórios em várias iterações
Cada ciclo consome milhares (às vezes milhões) de tokens. E token custa dinheiro. Bryan Catanzaro, vice-presidente de deep learning aplicado da NVIDIA, resumiu ao Axios: “Para a minha equipe, o gasto com computação é muito maior do que com pessoal”.
Uber zerou o orçamento de 2026… em abril de 2024
O caso mais emblemático veio da Uber. Segundo o CTO Praveen Neppalli Naga, a empresa torrava entre US$ 500 e US$ 2 000 por engenheiro por mês apenas em chamadas de API de IA generativa. Resultado: todo o orçamento de ferramentas de IA previsto até 2026 foi consumido antes do fim do primeiro trimestre deste ano. O detalhe curioso? A própria Uber incentivou o consumo, criando rankings internos que premiavam os times que mais usassem IA.
Microsoft sente o peso (mesmo sendo dona do Azure)
A Microsoft — que, além de usar, vende infraestrutura em nuvem e é investidora majoritária da OpenAI — também percebeu o efeito bumerangue. Fontes internas relatam que os gastos operacionais com IA em algumas divisões ultrapassaram em 3 × o custo de squads inteiras de desenvolvedores. Mesmo com acordos de fornecimento de GPU a preço de custo, o consumo explosivo de tokens em operações diárias virou um ponto de atenção no board.
Por que é tão caro? Culpe as GPUs topo de linha
Rodar um modelo de classe GPT-4-Turbo requer dezenas ou centenas de GPUs como a NVIDIA H100, cuja placa única pode ultrapassar US$ 40 000 no varejo norte-americano. Para efeito de comparação, uma workstation gamer high-end com uma RTX 4090 (a placa de consumo mais poderosa do mercado) sai “apenas” por cerca de 1/6 desse valor — e ainda assim ficaria aquém para inferência em larga escala.
Somam-se a isso:
- Custos de energia (um rack de H100 pode puxar mais de 10 kW)
- Resfriamento especializado
- Links de alta velocidade (Infiniband ou Ethernet de 400 Gb/s)
No final, cada mil tokens gerados pode custar de US$ 0,003 a US$ 0,012, dependendo do provedor e do modelo. Parece pouco, mas um único agente corporativo pode consumir milhões de tokens por dia.
Imagem: William R
Vai ficar mais barato? Sim, mas talvez nunca o suficiente
A consultoria Gartner projeta queda de 90 % no preço por token até 2030. Boa notícia? Nem tanto. Modelos “agênticos”, capazes de planejar e executar cadeias complexas de tarefas, devoram muito mais tokens. Já a Goldman Sachs calcula que o consumo global deve crescer 24 × no mesmo período, atingindo 120 quadrilhões de tokens ao mês. Em outras palavras, o desconto será engolido pelo apetite.
Quando a automação se paga — e quando não se paga
Um estudo do MIT analisou 1 000 funções que dependem predominantemente de visão computacional e concluiu: em apenas 23 % delas o uso de IA gera economia líquida. Nos demais 77 %, a forma tradicional (leia-se: gente) ainda vence no custo-benefício. O diagnóstico reforça que automatizar tudo pode sair mais caro do que manter profissionais qualificados.
O que isso significa para você, entusiasta de hardware?
Para empresas, migrar para IA generativa exige planejamento financeiro quase tão robusto quanto o cluster de GPUs. Para desenvolvedores independentes ou pequenas equipes, a lição é clara: avaliar se vale a pena usar APIs externas ou investir em hardware local. Hoje, um PC com RTX 4070 Ti Super já roda modelos de código aberto, como Llama 3 de 8B parâmetros, com latências aceitáveis — e você paga a conta de luz, não por token.
Em outras palavras, enquanto os gigantes queimam milhões em clouds recheadas de H100, talvez o setup “caseiro” com uma boa GPU gamer — disponível na Amazon — ainda seja o caminho mais econômico para quem quer experimentar IA sem estourar o cartão.
No curto prazo, o humano continua saindo mais barato. No médio, quem otimizar código, escolher bem o modelo e equilibrar hardware local com nuvem vai ter a vantagem competitiva. E no longo? Bem, a conta ainda está sendo escrita — em tokens (e dólares!) — por gigantes como Microsoft e Uber.
Com informações de Hardware.com.br