A febre da inteligência artificial deixou de ser “terra sem dono” dentro da Meta. A companhia que comanda Facebook, Instagram e WhatsApp começou a implantar o AI Gateway, uma plataforma interna que mede em tempo real quantos tokens – a “moeda” de processamento de IA – cada equipe queima, e quanto isso está custando aos cofres da gigante. O objetivo? Conter uma despesa que já ameaça ultrapassar a casa dos bilhões de dólares só em 2024.
Monitor em tempo real e limite por pessoa
De acordo com um memorando obtido pelo site The Information e encaminhado a cerca de 6 000 funcionários, o AI Gateway exibe dashboards com consumo de tokens minuto a minuto. Se uma equipe dispara no ranking de gastos, alertas automáticos pipocam na tela do gestor. A ideia é que, até 2027, o uso de IA dentro da Meta siga um orçamento pré-definido, com tetos individuais e coletivos.
O que muda para desenvolvedores
Quem escreve código na Meta também sentirá o aperto. A empresa passou a desencorajar o uso de ferramentas de IA de terceiros (como ChatGPT e Claude). A prioridade agora é o MetaCode – o antigo Devmate – que combina os modelos proprietários Llama com soluções externas, mas sob vigilância mais rígida de custos.
Na prática, isso significa que o desenvolvedor que antes recorria livremente a uma API externa para gerar um script Python terá de pesar duas vezes: o preço do token sairá diretamente da cota da equipe e poderá travar novos experimentos durante o mês.
Por que a Meta está apertando o cinto?
A resposta curta: GPU custa caro – e tokens também. Cada requisição generativa empilha ciclos de processamento em data centers cheios de placas Nvidia H100 (hoje raras até no varejo). A Meta, assim como Amazon e Microsoft, emitiu dívida estimada em US$ 570 bilhões este ano para turbinar esses data centers, segundo o Financial Times. Controlar o consumo interno ajuda a justificar o investimento diante dos acionistas.
Movimento ecoa entre outras big techs
- Microsoft cancelou licenças do Claude Code e redirecionou devs para o GitHub Copilot CLI, produto da própria casa.
- Amazon fechou um painel que ranqueava quem gastava mais IA porque funcionários usavam a ferramenta só para subir no ranking – e elevar a conta.
- Uber torrou, em quatro meses, o que tinha orçado para IA até 2026, sem retorno palpável, segundo o Business Insider.
O recado é claro: não é porque a IA parece “mágica” que o orçamento é infinito.
Token, a unidade que custa (muito) dinheiro
Cada token representa um fragmento de texto processado pelo modelo de linguagem. Resumindo: quanto mais longo o prompt ou a resposta, maior a conta. Em larga escala, como numa rede social com bilhões de usuários ou num time de engenharia com milhares de requisições diárias, a fatura explode.
Imagem: Internet
Para o usuário comum, que paga centavos ou usa planos gratuitos, o impacto pode parecer mínimo. Mas em operações corporativas, o gasto escala na mesma proporção das GPUs que ficam ligadas 24/7. Assim, reduzir tokens virou sinônimo de cortar custos – tão estratégico quanto otimizar linhas de código ou desligar servidores ociosos.
Impacto para o mercado e para você
Se a Meta – uma das empresas mais ricas do planeta – está preocupada em racionalizar tokens, o recado chega às startups, agências e departamentos de TI: a época do “prompt infinito” terminou. Espere ver ferramentas que monitoram custo de IA virarem padrão, assim como painéis de consumo de nuvem já são hoje.
No curto prazo, o movimento pode acelerar a pesquisa por modelos mais eficientes e por hardware capaz de oferecer maior performance por watt. Para quem monta PCs ou estações de trabalho, isso significa olhar com carinho para GPUs recentes que trazem núcleos tensores otimizados, como as Nvidia RTX 40 ou as AMD Radeon RX 7000, cujo custo-benefício pode compensar na hora de treinar ou inferir modelos localmente.
Em suma, o AI Gateway da Meta marca uma virada: a corrida da IA não é só sobre quem tem o modelo maior, mas também sobre quem gasta menos para rodá-lo. Prepare-se para ver métricas de eficiência (tokens por dólar) ocupando o lugar de destaque que antes pertencia apenas ao número de parâmetros ou FLOPs.
Com informações de Tecnoblog