Deepseek apresenta mHC e promete treinar IAs gigantes sem estourar o orçamento de GPU

A Deepseek, startup chinesa de inteligência artificial, acaba de divulgar o Manifold-Constrained Hyper-Connections (mHC), uma técnica que, segundo a empresa, consegue turbinar o treinamento de grandes modelos de linguagem (LLMs) sem exigir clusters de GPUs bilionários. O anúncio, repercutido pelo South China Morning Post, acende o alerta em todo o ecossistema de hardware: afinal, se for possível reduzir o tempo e o custo de treinamento, a corrida por placas de vídeo topo de linha — de servidores ou gamers — pode mudar de ritmo já nos próximos meses.

Anúncios

Índice de Conteúdo

O que é o mHC e por que ele importa?

O mHC é a evolução dos Hyper-Connections apresentados pela ByteDance em 2024, que, por sua vez, buscavam inspiração na arquitetura ResNet criada pela Microsoft Research Asia. O conceito central é adicionar “atalhos” entre camadas profundas da rede de forma a melhorar o fluxo de gradientes, reduzir instabilidades numéricas e, de quebra, diminuir o consumo de memória.

A Deepseek afirma ter ajustado esses atalhos de forma a obedecer restrições de variedade (daí o “Manifold-Constrained”), evitando que a rede “escape” para regiões de difícil otimização. O resultado prático, de acordo com os pesquisadores, é um treinamento mais estável, escalável e barato, mesmo em modelos com até 27 bilhões de parâmetros — patamar comparável ao Llama 3 70B, por exemplo.

Economia de hardware em números

Embora a empresa não tenha revelado métricas detalhadas, especialistas citados pelo SCMP estimam uma redução de até 30% no consumo total de GPU-hours. Para efeito de comparação, treinar um modelo como o GPT-3 (175B) demandou cerca de 3,14 EWh de energia e um investimento estimado em US$ 4,6 milhões apenas em processamento. Se a economia de 30% se confirmar, um projeto desse porte pouparia o equivalente ao preço de centenas de placas NVIDIA H100.

Essa eficiência também pode se traduzir em democratização de fine-tuning: quem trabalha com modelos médios — digamos, 13B ou 7B de parâmetros — poderia migrar de data centers para rigs locais equipadas com GPUs como a RTX 4070 Super ou mesmo múltiplas RTX 3060 12GB, sem sacrificar desempenho de treinamento.

Concorrência: DeepSpeed, ZeRO, FSDP… onde o mHC se encaixa?

Ferramentas de otimização de IA, como DeepSpeed ZeRO (Microsoft), FSDP (Meta) ou o recém-lançado NVIDIA Transformer Engine, atacam o problema de custo dividindo o peso dos modelos entre várias GPUs ou simplificando cálculos. O mHC, por outro lado, mexe diretamente na arquitetura da rede, antes de qualquer ajuste de paralelização. Em teoria, nada impede que ele seja combinado a essas bibliotecas, empilhando ganhos de eficiência.

Deepseek apresenta mHC e promete treinar IAs gigantes sem estourar o orçamento de GPU - Imagem do artigo

Imagem: Viktor Erikss

Impacto para gamers, criadores de conteúdo e pequenas empresas

Modelos de linguagem mais baratos de treinar significam recursos de IA mais acessíveis em softwares de produtividade, editores de vídeo e até engines de jogo. Imagine conversar em tempo real com NPCs alimentados por LLMs ou gerar roteiros de streaming sem sobrecarregar sua CPU. Para quem monta PCs, a lógica é direta: mais demanda de IA local = mais valor em GPUs com alto desempenho FP16/FP8. Placas como a RTX 4080 podem ganhar vida útil extra graças a essas novas cargas de trabalho.

Próximos passos: olho no Deepseek R1

Analistas veem o mHC como o “aquecimento” para o próximo grande lançamento da empresa: o Deepseek R1, prometido para o Ano-Novo Chinês de 2025. Se o novo modelo já vier treinado com a técnica, deve aparecer em benchmarks disputando posição com GPT-4o, Gemini 2 e Claude Sonnet.

No fim das contas, a novidade da Deepseek não é apenas um avanço acadêmico. Ela coloca pressão sobre todo o ecossistema de silício e pode redefinir o ROI de cada watt consumido nos data centers — e nos PCs high-end de quem gosta de brincar com IA em casa.

Com informações de Computerworld

Deepseek apresenta mHC e promete treinar IAs gigantes sem estourar o orçamento de GPU

O que é o mHC e por que ele importa?

Economia de hardware em números

Concorrência: DeepSpeed, ZeRO, FSDP… onde o mHC se encaixa?

Impacto para gamers, criadores de conteúdo e pequenas empresas

Próximos passos: olho no Deepseek R1

Esteja Conectado

Melhores Placas De Vídeos 2025

Tectoy: da era 8-bit ao Zeenix, a ousada jornada da marca que colocou o Brasil no radar dos videogames

Galaxy Watch Ultra 2 vs. Watch 9: bateria monstra, tela de 5 000 nits e mergulho a 100 m — descubra qual Samsung faz sentido para você

Nostalgia gamer: acessório misterioso do PS2 vira assunto no Reddit e reacende a era dos “coolers USB”

Casa Branca entra em alerta após IA da OpenAI “sair da jaula”; Congresso propõe botão de desligar para sistemas perigosos

Aqui no Smartoutlets você encontra as melhores análises e reviews de produtos gamers, análises sinceras e o melhor preço do Mercado.

Institucional

O que é o mHC e por que ele importa?

Economia de hardware em números

Concorrência: DeepSpeed, ZeRO, FSDP… onde o mHC se encaixa?

Impacto para gamers, criadores de conteúdo e pequenas empresas

Próximos passos: olho no Deepseek R1

Esteja Conectado

Melhores Placas De Vídeos 2025

Você também pode gostar disso