Substituir um único servidor parrudo por vários computadores menores pode soar contra-intuitivo, mas foi exatamente essa a solução que um gerente de TI encontrou para turbinar o uso de inteligência artificial dentro de sua empresa. Em vez de investir em um datacenter próprio ou pagar mensalidades de serviços em nuvem, o time instalou três Mac Studio equipados com o chip M2 Ultra, 192 GB de memória unificada e SSD de 2 TB cada. O resultado? Fila de processamento extinta, gastos de energia reduzidos e, de quebra, todos os documentos corporativos continuam atrás do firewall.
Por que trocar um servidor monolítico por três máquinas da Apple?
Antes da mudança, todas as consultas a modelos de linguagem generativa passavam por um único servidor. Quando alguém fazia uma requisição pesada, todo o escritório precisava esperar a fila andar. Ao distribuir as tarefas entre três Mac Studio, a empresa agora utiliza um software de balanceamento chamado Grid, que envia cada solicitação para o computador menos sobrecarregado no momento.
Na prática, isso se traduz em até 50 sessões simultâneas — cerca de 17 por máquina —, número suficiente para atender aproximadamente 200 colaboradores, segundo o responsável pela implementação, identificado no Reddit como u/deebuildsthings.
Quanto poder de fogo cabe em um Mac Studio M2 Ultra?
O foco do projeto está na memória unificada de 192 GB e na largura de banda de 800 GB/s oferecidas pelo chip M2 Ultra. Ao contrário das placas de vídeo tradicionais, que contam com 12 GB, 16 GB ou 24 GB de VRAM dedicada, o sistema da Apple permite que LLMs como o Qwen 3.6-35B-A3B ocupem quase todo o espaço de forma contínua, reduzindo engasgos em contextos extensos.
Isso é especialmente útil para quem trabalha com textos longos, geração de imagens via ComfyUI e análises internas. Para efeito de comparação, placas NVIDIA da linha RTX — mesmo modelos topo de linha — precisam recorrer a técnicas de offloading para segmentar partes do modelo na memória principal, impactando desempenho e consumo.
Privacidade e economia: dupla que pesou na decisão
A equipe produz posts para redes sociais, relatórios sigilosos e peças gráficas. Manter tudo dentro da rede local elimina o risco de vazamento para servidores externos e corta assinaturas mensais de plataformas SaaS que cobram por usuário. Escritórios de advocacia, fintechs e hospitais foram citados como exemplos de setores que poderiam se beneficiar da mesma arquitetura, justamente por lidarem com informações sensíveis.
Ferramentas usadas (e as que podem entrar em cena)
- Ollama: orquestra a execução dos modelos de linguagem de forma amigável para quem não é de TI.
- Grid: faz o balanceamento de carga entre as três máquinas.
- ComfyUI: interface para geração de imagens localmente.
Nos comentários do Reddit, membros da comunidade sugeriram alternativas como vLLM, MLX, llama.cpp e Exo, que podem melhorar ainda mais a performance em chips Apple Silicon ou facilitar o particionamento de modelos maiores.
Quanto isso custa — e como se compara a soluções PC?
No mercado de usados dos Estados Unidos, cada Mac Studio M2 Ultra de 24 cores de CPU e 60 cores de GPU, com 192 GB de memória, tem aparecido por US$ 4.500 a US$ 5.000. Um servidor x86 equivalente exigiria, no mínimo, duas GPUs RTX 4090 ou uma L40S, além de fonte de 1.500 W, refrigeração reforçada e licenças específicas para virtualização.
Imagem: William R
Apesar de o custo inicial ser similar, a economia vem do menor consumo elétrico (até 370 W por Mac Studio em carga máxima) e da ausência de assinatura recorrente. Para companhias brasileiras, importar pode não fazer sentido; porém, o conceito de “micro-nuvem” local pode ser adaptado com estações equipadas com Ryzen 9 7950X3D ou Intel Core i9 13900KS e GPUs com 24 GB de VRAM, dependendo da disponibilidade e dos preços.
Os gargalos que ainda precisam de atenção
Instalar o cliente em mais de cem notebooks antigos consome tempo: cada máquina demora cerca de 10 minutos para ficar pronta. Outra limitação é a dependência total da rede local; qualquer oscilação derruba o serviço para todos. Mas, segundo o autor, o maior desafio é convencer os colegas a incluir IA no fluxo de trabalho cotidiano.
Vale replicar a ideia?
Se a sua empresa lida com dados confidenciais, sofre com latência de serviços na nuvem ou simplesmente quer reduzir a conta de luz, apostar em vários desktops de alto desempenho — sejam Mac Studio, PCs Ryzen ou workstations com placas NVIDIA — pode ser o caminho mais curto para colocar IA generativa nas mãos de todo o time. As configurações não são plug-and-play, mas os ganhos em velocidade, privacidade e custo operacional tendem a compensar o esforço inicial.
No curto prazo, o projeto descrito no Reddit continua em fase experimental, mas já demonstra que três estações compactas podem substituir, com vantagem, um servidor monolítico clássico. Resta saber se as próximas gerações de chips — como o aguardado M3 Ultra — levarão a ideia de micro-nuvens corporativas a um novo patamar.
Com informações de Hardware.com.br