GTC 2026: Nvidia Redefine o Futuro da IA

Vice-presidente Ian Buck detalha aquisição da Groq, LPU, Vera CPU e estratégias de interconexão.

A Nvidia está priorizando o “LPU decode” para lançamento este ano, integrado à arquitetura Vera Rubin.
O projeto CPX foi temporariamente arquivado para focar na otimização do LPU decode.
O rack Groq 3 LPX, com 256 LPUs interconectadas, será implantado ao lado dos racks NVL72 Vera Rubin da Nvidia.

A decodificação ocorre com a combinação do rack Groq 3 LPU LPX e o Vera Rubin NVL72, utilizando o software Dynamo.
A equipe de software da Groq foi integrada à equipe Dynamo da Nvidia, visando uma sinergia completa.
A decodificação é dividida estrategicamente entre LPU e GPU para gerar tokens de forma extremamente rápida e econômica.
LPUs executam computações que se beneficiam de SRAM de alta velocidade, enquanto GPUs lidam com a complexa matemática de atenção e KV.
Dynamo, apelidado de “sistema operacional da fábrica de IA”, tem sido um grande sucesso, com centenas de contribuições diárias no GitHub.

Ian Buck apresentou o módulo Vera, um design de referência com dois CPUs Vera e memória LPDDR5.
A Vera CPU é considerada a “melhor CPU agentic do mundo”, equipada com 88 núcleos de alto desempenho.
Projetada especificamente para cargas de trabalho de IA, oferece desempenho single-threaded, largura de banda de memória e eficiência energética superiores sob carga.
Não é um substituto direto para processadores x86 genéricos, mas sim otimizada para tarefas críticas de treinamento e execução de modelos de IA.
Garante que as GPUs nunca fiquem ociosas, executando rapidamente tarefas como compilação de código, consultas SQL e renderização.

NVLink Fusion é uma tecnologia de interconexão que permite que aceleradores de IA e CPUs de terceiros se comuniquem eficientemente com o silício da Nvidia.
A parceria com a Intel para o NVLink Fusion está progredindo, apesar da complexidade da integração em nível de silício.
O módulo Vera demonstra uma arquitetura baseada em chiplets, onde diferentes componentes podem ser produzidos por diversos parceiros.

A Nvidia emprega conexões NVLink em cobre para garantir alta largura de banda, baixo custo e menor consumo de energia nos racks Vera Rubin.
O resfriamento líquido é fundamental para aumentar a densidade de GPUs e possibilitar as conexões de cobre de curta distância.
Planos futuros incluem escalar até 576 e, eventualmente, 1.152 GPUs com duas camadas de NVLink e os racks Kyber de maior densidade.

A otimização de software é um pilar essencial para maximizar o desempenho da IA.
Modelos são otimizados bloco a bloco e camada por camada, misturando FP16, FP8 e FP4 para alcançar performance e precisão ideais.
A Nvidia investe massivamente em engenharia de software e horas de GPU para explorar o vasto espaço de otimização, resultando em ganhos significativos de desempenho (ex: aumento de 4x na velocidade de modelos DeepSeek em apenas quatro meses).

Baseado no artigo de Tom’s Hardware