GTC 2026: Nvidia Redefine o Futuro da IA

Vice-presidente Ian Buck detalha aquisição da Groq, LPU, Vera CPU e estratégias de interconexão.

🚀 Otimização de IA: LPU Decode em Destaque

  • A Nvidia está priorizando o “LPU decode” para lançamento este ano, integrado à arquitetura Vera Rubin.
  • O projeto CPX foi temporariamente arquivado para focar na otimização do LPU decode.
  • O rack Groq 3 LPX, com 256 LPUs interconectadas, será implantado ao lado dos racks NVL72 Vera Rubin da Nvidia.

💡 Arquitetura Híbrida LPU-GPU e Software Dynamo

  • A decodificação ocorre com a combinação do rack Groq 3 LPU LPX e o Vera Rubin NVL72, utilizando o software Dynamo.
  • A equipe de software da Groq foi integrada à equipe Dynamo da Nvidia, visando uma sinergia completa.
  • A decodificação é dividida estrategicamente entre LPU e GPU para gerar tokens de forma extremamente rápida e econômica.
  • LPUs executam computações que se beneficiam de SRAM de alta velocidade, enquanto GPUs lidam com a complexa matemática de atenção e KV.
  • Dynamo, apelidado de “sistema operacional da fábrica de IA”, tem sido um grande sucesso, com centenas de contribuições diárias no GitHub.

🧠 Vera CPU: O Poder para IA Agentic

  • Ian Buck apresentou o módulo Vera, um design de referência com dois CPUs Vera e memória LPDDR5.
  • A Vera CPU é considerada a “melhor CPU agentic do mundo”, equipada com 88 núcleos de alto desempenho.
  • Projetada especificamente para cargas de trabalho de IA, oferece desempenho single-threaded, largura de banda de memória e eficiência energética superiores sob carga.
  • Não é um substituto direto para processadores x86 genéricos, mas sim otimizada para tarefas críticas de treinamento e execução de modelos de IA.
  • Garante que as GPUs nunca fiquem ociosas, executando rapidamente tarefas como compilação de código, consultas SQL e renderização.

🤝 NVLink Fusion: Parcerias de Interconexão

  • NVLink Fusion é uma tecnologia de interconexão que permite que aceleradores de IA e CPUs de terceiros se comuniquem eficientemente com o silício da Nvidia.
  • A parceria com a Intel para o NVLink Fusion está progredindo, apesar da complexidade da integração em nível de silício.
  • O módulo Vera demonstra uma arquitetura baseada em chiplets, onde diferentes componentes podem ser produzidos por diversos parceiros.

⚡ Escalabilidade e Inovação em Conectividade

  • A Nvidia emprega conexões NVLink em cobre para garantir alta largura de banda, baixo custo e menor consumo de energia nos racks Vera Rubin.
  • O resfriamento líquido é fundamental para aumentar a densidade de GPUs e possibilitar as conexões de cobre de curta distância.
  • Planos futuros incluem escalar até 576 e, eventualmente, 1.152 GPUs com duas camadas de NVLink e os racks Kyber de maior densidade.

✨ Software como Diferencial de Desempenho

  • A otimização de software é um pilar essencial para maximizar o desempenho da IA.
  • Modelos são otimizados bloco a bloco e camada por camada, misturando FP16, FP8 e FP4 para alcançar performance e precisão ideais.
  • A Nvidia investe massivamente em engenharia de software e horas de GPU para explorar o vasto espaço de otimização, resultando em ganhos significativos de desempenho (ex: aumento de 4x na velocidade de modelos DeepSeek em apenas quatro meses).
Baseado no artigo de Tom’s Hardware