A Deepseek, startup chinesa de inteligência artificial, acaba de divulgar o Manifold-Constrained Hyper-Connections (mHC), uma técnica que, segundo a empresa, consegue turbinar o treinamento de grandes modelos de linguagem (LLMs) sem exigir clusters de GPUs bilionários. O anúncio, repercutido pelo South China Morning Post, acende o alerta em todo o ecossistema de hardware: afinal, se for possível reduzir o tempo e o custo de treinamento, a corrida por placas de vídeo topo de linha — de servidores ou gamers — pode mudar de ritmo já nos próximos meses.
O que é o mHC e por que ele importa?
O mHC é a evolução dos Hyper-Connections apresentados pela ByteDance em 2024, que, por sua vez, buscavam inspiração na arquitetura ResNet criada pela Microsoft Research Asia. O conceito central é adicionar “atalhos” entre camadas profundas da rede de forma a melhorar o fluxo de gradientes, reduzir instabilidades numéricas e, de quebra, diminuir o consumo de memória.
A Deepseek afirma ter ajustado esses atalhos de forma a obedecer restrições de variedade (daí o “Manifold-Constrained”), evitando que a rede “escape” para regiões de difícil otimização. O resultado prático, de acordo com os pesquisadores, é um treinamento mais estável, escalável e barato, mesmo em modelos com até 27 bilhões de parâmetros — patamar comparável ao Llama 3 70B, por exemplo.
Economia de hardware em números
Embora a empresa não tenha revelado métricas detalhadas, especialistas citados pelo SCMP estimam uma redução de até 30% no consumo total de GPU-hours. Para efeito de comparação, treinar um modelo como o GPT-3 (175B) demandou cerca de 3,14 EWh de energia e um investimento estimado em US$ 4,6 milhões apenas em processamento. Se a economia de 30% se confirmar, um projeto desse porte pouparia o equivalente ao preço de centenas de placas NVIDIA H100.
Essa eficiência também pode se traduzir em democratização de fine-tuning: quem trabalha com modelos médios — digamos, 13B ou 7B de parâmetros — poderia migrar de data centers para rigs locais equipadas com GPUs como a RTX 4070 Super ou mesmo múltiplas RTX 3060 12GB, sem sacrificar desempenho de treinamento.
Concorrência: DeepSpeed, ZeRO, FSDP… onde o mHC se encaixa?
Ferramentas de otimização de IA, como DeepSpeed ZeRO (Microsoft), FSDP (Meta) ou o recém-lançado NVIDIA Transformer Engine, atacam o problema de custo dividindo o peso dos modelos entre várias GPUs ou simplificando cálculos. O mHC, por outro lado, mexe diretamente na arquitetura da rede, antes de qualquer ajuste de paralelização. Em teoria, nada impede que ele seja combinado a essas bibliotecas, empilhando ganhos de eficiência.
Imagem: Viktor Erikss
Impacto para gamers, criadores de conteúdo e pequenas empresas
Modelos de linguagem mais baratos de treinar significam recursos de IA mais acessíveis em softwares de produtividade, editores de vídeo e até engines de jogo. Imagine conversar em tempo real com NPCs alimentados por LLMs ou gerar roteiros de streaming sem sobrecarregar sua CPU. Para quem monta PCs, a lógica é direta: mais demanda de IA local = mais valor em GPUs com alto desempenho FP16/FP8. Placas como a RTX 4080 podem ganhar vida útil extra graças a essas novas cargas de trabalho.
Próximos passos: olho no Deepseek R1
Analistas veem o mHC como o “aquecimento” para o próximo grande lançamento da empresa: o Deepseek R1, prometido para o Ano-Novo Chinês de 2025. Se o novo modelo já vier treinado com a técnica, deve aparecer em benchmarks disputando posição com GPT-4o, Gemini 2 e Claude Sonnet.
No fim das contas, a novidade da Deepseek não é apenas um avanço acadêmico. Ela coloca pressão sobre todo o ecossistema de silício e pode redefinir o ROI de cada watt consumido nos data centers — e nos PCs high-end de quem gosta de brincar com IA em casa.
Com informações de Computerworld