GTC 2026: Nvidia Redefine o Futuro da IA
Vice-presidente Ian Buck detalha aquisição da Groq, LPU, Vera CPU e estratégias de interconexão.
🚀 Otimização de IA: LPU Decode em Destaque
- A Nvidia está priorizando o “LPU decode” para lançamento este ano, integrado à arquitetura Vera Rubin.
- O projeto CPX foi temporariamente arquivado para focar na otimização do LPU decode.
- O rack Groq 3 LPX, com 256 LPUs interconectadas, será implantado ao lado dos racks NVL72 Vera Rubin da Nvidia.
💡 Arquitetura Híbrida LPU-GPU e Software Dynamo
- A decodificação ocorre com a combinação do rack Groq 3 LPU LPX e o Vera Rubin NVL72, utilizando o software Dynamo.
- A equipe de software da Groq foi integrada à equipe Dynamo da Nvidia, visando uma sinergia completa.
- A decodificação é dividida estrategicamente entre LPU e GPU para gerar tokens de forma extremamente rápida e econômica.
- LPUs executam computações que se beneficiam de SRAM de alta velocidade, enquanto GPUs lidam com a complexa matemática de atenção e KV.
- Dynamo, apelidado de “sistema operacional da fábrica de IA”, tem sido um grande sucesso, com centenas de contribuições diárias no GitHub.
🧠 Vera CPU: O Poder para IA Agentic
- Ian Buck apresentou o módulo Vera, um design de referência com dois CPUs Vera e memória LPDDR5.
- A Vera CPU é considerada a “melhor CPU agentic do mundo”, equipada com 88 núcleos de alto desempenho.
- Projetada especificamente para cargas de trabalho de IA, oferece desempenho single-threaded, largura de banda de memória e eficiência energética superiores sob carga.
- Não é um substituto direto para processadores x86 genéricos, mas sim otimizada para tarefas críticas de treinamento e execução de modelos de IA.
- Garante que as GPUs nunca fiquem ociosas, executando rapidamente tarefas como compilação de código, consultas SQL e renderização.
🤝 NVLink Fusion: Parcerias de Interconexão
- NVLink Fusion é uma tecnologia de interconexão que permite que aceleradores de IA e CPUs de terceiros se comuniquem eficientemente com o silício da Nvidia.
- A parceria com a Intel para o NVLink Fusion está progredindo, apesar da complexidade da integração em nível de silício.
- O módulo Vera demonstra uma arquitetura baseada em chiplets, onde diferentes componentes podem ser produzidos por diversos parceiros.
⚡ Escalabilidade e Inovação em Conectividade
- A Nvidia emprega conexões NVLink em cobre para garantir alta largura de banda, baixo custo e menor consumo de energia nos racks Vera Rubin.
- O resfriamento líquido é fundamental para aumentar a densidade de GPUs e possibilitar as conexões de cobre de curta distância.
- Planos futuros incluem escalar até 576 e, eventualmente, 1.152 GPUs com duas camadas de NVLink e os racks Kyber de maior densidade.
✨ Software como Diferencial de Desempenho
- A otimização de software é um pilar essencial para maximizar o desempenho da IA.
- Modelos são otimizados bloco a bloco e camada por camada, misturando FP16, FP8 e FP4 para alcançar performance e precisão ideais.
- A Nvidia investe massivamente em engenharia de software e horas de GPU para explorar o vasto espaço de otimização, resultando em ganhos significativos de desempenho (ex: aumento de 4x na velocidade de modelos DeepSeek em apenas quatro meses).
Baseado no artigo de Tom’s Hardware