Desafiando Proibições dos EUA, Máquina de 1.54 ExaFLOPS Impulsionada por 2.4 Milhões de Núcleos Armv9 da Huawei.
Inovação Impulsionada por Necessidade
Enquanto a maioria dos supercomputadores globalmente combina CPUs e GPUs para alto desempenho, a China adota uma estratégia distinta. Devido às proibições de GPUs dos EUA, o país tem investido em supercomputadores apenas com CPUs para cargas de trabalho de IA e HPC.
Um exemplo notável é o centro de supercomputação chinês que implementou uma máquina de 1.54 ExaFLOPS utilizando 20.480 CPUs baseadas em Armv9.
O Coração do LineShine: Processador LX2
O LineShine opera com processadores LX2 personalizados, baseados em Armv9 e otimizados para IA e HPC em larga escala. Embora o desenvolvedor exato seja confidencial, há fortes indicações de que seja o ‘Huawei LX2’, possivelmente um design conjunto ou uma iniciativa governamental.
Arquitetura e Núcleos Poderosos
- Cada processador LX2 possui dois chiplets de computação e um total de 304 núcleos de CPU.
- Os núcleos são organizados em oito clusters, cada um com 38 núcleos.
- Inclusão de unidades Arm SVE e SME para acelerar operações de vetor e matriz em IA e computação científica.
- Suporte para diversos formatos de dados: FP64, FP32, BF16, FP16 e INT8.
- Cada núcleo tem 32 KB de cache L1 (instrução e dados), e cada cluster compartilha 28.5 MB de cache L2.
Subsistema de Memória Inovador
O LX2 emprega um subsistema de memória único, combinando 32 GB de HBM no encapsulamento (com largura de banda de até 4 TB/s) e até 256 GB de memória DDR5 externa. Esta configuração é similar à do processador A64FX da Fujitsu, mas o LX2 se destaca como pioneiro em CPUs Armv9 para IA e HPC com tal arranjo.
Gerenciamento de Memória Otimizado
- Cada chiplet integra quatro domínios HBM e quatro DDR, totalizando 16 domínios NUMA por processador.
- O acesso ao HBM é sensível à localidade, enquanto o DDR é mais uniforme.
- Técnicas de posicionamento e agendamento de memória cientes da topologia, otimizadas para treinamento de IA, foram implementadas.
- Um motor SDMA dedicado gerencia a movimentação de dados entre DDR e HBM.
Desempenho de Ponta
- Um único processador LX2 atinge 60.3 TFLOPS em FP64.
- Entrega 240 TFLOPS de throughput em BF16/FP16 e 960 TOPS em INT8.
- A arquitetura é otimizada para cargas de trabalho densas de IA e matriz, exigindo um codesign extensivo para maximizar a utilização dos motores SME.
Escala Massiva
O LineShine é composto por 20.480 nós de computação, totalizando 40.960 processadores LX2 e incríveis 2.451.840 núcleos de CPU. A interconexão é feita pela rede de alta velocidade LingQi (LQLink), atingindo 1.6 Tb/s por nó.
Capacidades de Exaescala
- Desempenho de treinamento de 1.54 ExaFLOP/s em BF16, com picos de 2.16 ExaFLOP/s.
- Utilizado no treinamento de um modelo de compressão generativa de 6.3 bilhões de parâmetros para observação da Terra.
- Embora comparações diretas com clusters baseados em GPU sejam difíceis, o LineShine demonstra uma impressionante capacidade de exaescala com CPUs.
Potencial FP64
Teoricamente, os 40.960 processadores LX2 podem alcançar 2.47 ExaFLOPS de desempenho FP64, um marco significativo para um sistema CPU-only.
Vantagens dos Sistemas CPU-Only
- Simplificação: Elimina transferências de dados CPU-GPU caras e modelos de programação complexos.
- Memória Unificada: Grandes pools de memória coerente (HBM + DDR) para lidar com conjuntos de dados científicos massivos.
- Flexibilidade: Ideal para aplicações de IA para ciência com fluxo de controle irregular e pipelines intensivos em comunicação.
- Integração HPC: Mais fácil de integrar em ambientes HPC tradicionais para simulações e outras tarefas.
- Independência Tecnológica: Reduz a dependência de aceleradores e plataformas estrangeiras, como GPUs Nvidia e CUDA.
O Contraponto
Apesar das vantagens, sistemas apenas com CPU geralmente são menos eficientes em energia e entregam um throughput de IA densa inferior em comparação com supercomputadores baseados em GPU, explicando a preferência da indústria por arquiteturas híbridas.