GTC 2026: Nvidia Revela o Futuro da IA

Ian Buck detalha a arquitetura Vera Rubin, o LPU, a CPU Vera e a parceria NVLink Fusion.

GTC 2026: Insights de Ian Buck sobre o Futuro da IA da Nvidia

Durante uma sessão de perguntas e respostas pós-keynote do GTC 2026, o vice-presidente de Hyperscale e HPC da Nvidia, Ian Buck, compartilhou detalhes cruciais sobre as estratégias e tecnologias emergentes da empresa.

Otimizando a Decodificação com LPU e Vera Rubin

Integração Estratégica: A Nvidia prioriza a decodificação LPU (Groq 3 LPU LPX com 256 chips) com a arquitetura Vera Rubin NVL72 este ano, adiando o CPX.
Eficiência Inovadora: A decodificação é dividida entre LPU e GPU, utilizando o Dynamo para gerar tokens de forma econômica e extremamente rápida.
Funções Especializadas: O LPU foca na largura de banda de memória SRAM para camadas de mixture-of-experts, enquanto as GPUs lidam com matemática de atenção e cálculos KV.

A Revolução da CPU Vera para IA Agente

Desempenho Otimizado: A CPU Vera, com 88 núcleos, é projetada como a “melhor CPU para agentes do mundo”, ideal para cargas de trabalho intensivas em IA.
Casamento Perfeito com GPUs: Essencial para o caminho crítico no treinamento de IA (executando e pontuando código gerado por IA) e na implantação (consultas SQL, renderização, interações com agentes).
Foco no Mercado de IA: Não é um substituto direto para x86, mas sim uma solução poderosa para problemas específicos de carga de trabalho de IA, garantindo que as GPUs nunca fiquem ociosas.

Avanços em Interconectividade: NVLink Fusion e NVLink Scale-up

NVLink Fusion: Interconexão vital para a comunicação eficiente entre aceleradores de terceiros/CPUs e silício Nvidia, com progresso notável na parceria com a Intel.
Escalabilidade Massiva: A Nvidia avança na tecnologia NVLink, permitindo que até 72 GPUs em um rack operem como uma única unidade, utilizando cabeamento de cobre para alta velocidade e baixo custo.
Futuro da Escala: Planos para escalar para 576 e até 1.152 GPUs em racks densificados com Kyber, impulsionando a próxima geração de modelos de IA.

O Software como Diferencial Competitivo

Ecossistema Dynamo: Apelidado de “sistema operacional da fábrica de IA”, o Dynamo é um sucesso estrondoso com centenas de submissões diárias.
Otimização Contínua: A Nvidia investe maciçamente em otimização de software, misturando precisões (FP16, FP8, FP4) e utilizando milhões de horas de GPU para explorar combinações, resultando em ganhos de desempenho significativos em modelos existentes.
Desafio da Complexidade: A otimização de toda a pilha de software é crucial para o desempenho geral, dada a complexidade combinatória de múltiplos chips trabalhando juntos.

Baseado no artigo de Tom’s Hardware