GTC 2026: Nvidia Revela o Futuro da IA
Ian Buck detalha a arquitetura Vera Rubin, o LPU, a CPU Vera e a parceria NVLink Fusion.
GTC 2026: Insights de Ian Buck sobre o Futuro da IA da Nvidia
Durante uma sessão de perguntas e respostas pós-keynote do GTC 2026, o vice-presidente de Hyperscale e HPC da Nvidia, Ian Buck, compartilhou detalhes cruciais sobre as estratégias e tecnologias emergentes da empresa.
Otimizando a Decodificação com LPU e Vera Rubin
- Integração Estratégica: A Nvidia prioriza a decodificação LPU (Groq 3 LPU LPX com 256 chips) com a arquitetura Vera Rubin NVL72 este ano, adiando o CPX.
- Eficiência Inovadora: A decodificação é dividida entre LPU e GPU, utilizando o Dynamo para gerar tokens de forma econômica e extremamente rápida.
- Funções Especializadas: O LPU foca na largura de banda de memória SRAM para camadas de mixture-of-experts, enquanto as GPUs lidam com matemática de atenção e cálculos KV.
A Revolução da CPU Vera para IA Agente
- Desempenho Otimizado: A CPU Vera, com 88 núcleos, é projetada como a “melhor CPU para agentes do mundo”, ideal para cargas de trabalho intensivas em IA.
- Casamento Perfeito com GPUs: Essencial para o caminho crítico no treinamento de IA (executando e pontuando código gerado por IA) e na implantação (consultas SQL, renderização, interações com agentes).
- Foco no Mercado de IA: Não é um substituto direto para x86, mas sim uma solução poderosa para problemas específicos de carga de trabalho de IA, garantindo que as GPUs nunca fiquem ociosas.
Avanços em Interconectividade: NVLink Fusion e NVLink Scale-up
- NVLink Fusion: Interconexão vital para a comunicação eficiente entre aceleradores de terceiros/CPUs e silício Nvidia, com progresso notável na parceria com a Intel.
- Escalabilidade Massiva: A Nvidia avança na tecnologia NVLink, permitindo que até 72 GPUs em um rack operem como uma única unidade, utilizando cabeamento de cobre para alta velocidade e baixo custo.
- Futuro da Escala: Planos para escalar para 576 e até 1.152 GPUs em racks densificados com Kyber, impulsionando a próxima geração de modelos de IA.
O Software como Diferencial Competitivo
- Ecossistema Dynamo: Apelidado de “sistema operacional da fábrica de IA”, o Dynamo é um sucesso estrondoso com centenas de submissões diárias.
- Otimização Contínua: A Nvidia investe maciçamente em otimização de software, misturando precisões (FP16, FP8, FP4) e utilizando milhões de horas de GPU para explorar combinações, resultando em ganhos de desempenho significativos em modelos existentes.
- Desafio da Complexidade: A otimização de toda a pilha de software é crucial para o desempenho geral, dada a complexidade combinatória de múltiplos chips trabalhando juntos.
Baseado no artigo de Tom’s Hardware