GTC 2026: Nvidia Revela o Futuro da IA

Ian Buck detalha a arquitetura Vera Rubin, o LPU, a CPU Vera e a parceria NVLink Fusion.

GTC 2026: Insights de Ian Buck sobre o Futuro da IA da Nvidia

Durante uma sessão de perguntas e respostas pós-keynote do GTC 2026, o vice-presidente de Hyperscale e HPC da Nvidia, Ian Buck, compartilhou detalhes cruciais sobre as estratégias e tecnologias emergentes da empresa.

Otimizando a Decodificação com LPU e Vera Rubin

  • Integração Estratégica: A Nvidia prioriza a decodificação LPU (Groq 3 LPU LPX com 256 chips) com a arquitetura Vera Rubin NVL72 este ano, adiando o CPX.
  • Eficiência Inovadora: A decodificação é dividida entre LPU e GPU, utilizando o Dynamo para gerar tokens de forma econômica e extremamente rápida.
  • Funções Especializadas: O LPU foca na largura de banda de memória SRAM para camadas de mixture-of-experts, enquanto as GPUs lidam com matemática de atenção e cálculos KV.

A Revolução da CPU Vera para IA Agente

  • Desempenho Otimizado: A CPU Vera, com 88 núcleos, é projetada como a “melhor CPU para agentes do mundo”, ideal para cargas de trabalho intensivas em IA.
  • Casamento Perfeito com GPUs: Essencial para o caminho crítico no treinamento de IA (executando e pontuando código gerado por IA) e na implantação (consultas SQL, renderização, interações com agentes).
  • Foco no Mercado de IA: Não é um substituto direto para x86, mas sim uma solução poderosa para problemas específicos de carga de trabalho de IA, garantindo que as GPUs nunca fiquem ociosas.

Avanços em Interconectividade: NVLink Fusion e NVLink Scale-up

  • NVLink Fusion: Interconexão vital para a comunicação eficiente entre aceleradores de terceiros/CPUs e silício Nvidia, com progresso notável na parceria com a Intel.
  • Escalabilidade Massiva: A Nvidia avança na tecnologia NVLink, permitindo que até 72 GPUs em um rack operem como uma única unidade, utilizando cabeamento de cobre para alta velocidade e baixo custo.
  • Futuro da Escala: Planos para escalar para 576 e até 1.152 GPUs em racks densificados com Kyber, impulsionando a próxima geração de modelos de IA.

O Software como Diferencial Competitivo

  • Ecossistema Dynamo: Apelidado de “sistema operacional da fábrica de IA”, o Dynamo é um sucesso estrondoso com centenas de submissões diárias.
  • Otimização Contínua: A Nvidia investe maciçamente em otimização de software, misturando precisões (FP16, FP8, FP4) e utilizando milhões de horas de GPU para explorar combinações, resultando em ganhos de desempenho significativos em modelos existentes.
  • Desafio da Complexidade: A otimização de toda a pilha de software é crucial para o desempenho geral, dada a complexidade combinatória de múltiplos chips trabalhando juntos.
Baseado no artigo de Tom’s Hardware