Quando o assunto é Inteligência Artificial de alto desempenho, espaço, eficiência e temperatura valem ouro. Agora, um novo estudo do imec, centro de pesquisa belga reconhecido por antecipar tendências de semicondutores, mostra que é possível empilhar HBM diretamente sobre a GPU sem transformar o chip em uma torradeira. A descoberta reacende o debate sobre o formato 3D-stacked como caminho inevitável para a próxima geração de aceleradores de IA — e, no médio prazo, para as placas de vídeo que chegam ao seu desktop.
Por que abandonar o layout 2.5D tradicional?
No design 2.5D, comum em GPUs de data center como as NVIDIA A100/H100 ou AMD Instinct, a memória HBM fica ao lado do processador, todos interligados por uma interposer de silício. A topologia garante ótima largura de banda, mas ocupa uma área preciosa na placa. Em servidores onde cada U é contado, reduzir centímetros vira sinônimo de economia de milhões em rack, energia e refrigeração.
O empilhamento 3D resolve esse gargalo: ao colocar as pilhas de DRAM diretamente sobre a die gráfica, o trajeto elétrico diminui, o consumo cai e a comunicação fica ainda mais veloz. O ‘porém’ sempre foi o mesmo — calor sobe, e empilhar blocos que já operam perto de 300 W tornava o conjunto praticamente inresfriável.
O experimento radical do imec
Para testar os limites, os engenheiros montaram o que chamaram de “torre de silício”: quatro pilhas de HBM (12 chips cada) empilhadas sobre uma GPU-monstro, todas unidas por microprotuberâncias de cobre. Um cooler de contato direto arrefecia a parte superior.
Rodando workloads típicos de IA — modelos de linguagem de larga escala e inferência de visão computacional — a temperatura de pico chegou a alarmantes 141,7 °C. No mesmo cooler, a versão 2.5D não passava de 69,1 °C. A mensagem era clara: empilhar sem engenharia térmica refinada é receita para falha catastrófica.
Mapeamento milimétrico de hotspots e ajustes camada a camada
A equipe, então, aplicou um arsenal de técnicas:
- Simulação térmica para localizar hotspots em cada camada de DRAM e na GPU;
- Ajuste de vias térmicas e espessura dos interposers para melhorar a condução;
- Controle individual de tensão e frequência por camada, algo semelhante ao que AMD faz com o 3D V-Cache;
- Resfriamento bilateral — dissipadores atuando em cima e embaixo da pilha.
O resultado impressionou: temperatura estabilizada em 70,8 °C, praticamente o mesmo patamar do design 2.5D. A pesquisa também cravou um ponto-chave para arquitetos de hardware: reduzir a frequência de núcleo pela metade derrubou o pico térmico de 120 °C para < 100 °C, sem comprometer a densidade de performance. Ou seja, menos MHz porém mais TFLOPs por centímetro quadrado.
Imagem: William R
Impacto prático: o que isso muda para data centers (e para você)
Para operadores de nuvem, o formato 3D significa:
- Mais GPUs por rack — menor footprint libera espaço para placas adicionais ou para outras unidades de processamento, como DPUs.
- Custo de energia menor — trajetos curtos reduzem latência e perdas, beneficiando PUE (Power Usage Effectiveness) do data center.
- Performance por área superior — essencial quando limites de energia ou espaço físico são mais críticos que o clock bruto.
E no universo doméstico? Embora gamers ainda dependam de GDDR6 e GDDR6X, a rápida adoção de empilhamento 3D em CPUs (vide Ryzen 7 7800X3D) indica que GPUs mainstream poderão herdar a mesma filosofia. Com a tecnologia térmica validada, placas compactas poderão trazer HBM mais cedo, abrindo portas para ray tracing e IA upscaling ainda mais rápidos sem exigir gabinetes gigantes.
Próximos passos e limites de empilhamento
O imec continua testando variantes de altura de pilar, disposição de vias e diferentes fluidos de resfriamento. O objetivo é publicar um guia completo para fabricantes, apontando até que ponto a física deixa empilhar sem sacrificar confiabilidade. Para a indústria, esses dados são o greenlight para investir bilhões na próxima leva de fábricas EUV dedicadas a chips 3D.
No fim das contas, a mensagem é inequívoca: se quisermos que a curva de performance de IA continue escalando sem explodir em conta de luz e calor, a solução é verticalizar. Graças aos pesquisadores belgas, esse futuro cabe (e sobrevive) em um único pedaço de silício.
Com informações de Hardware.com.br