LineShine: O Supercomputador CPU-Only da China

Desafiando Proibições dos EUA, Máquina de 1.54 ExaFLOPS Impulsionada por 2.4 Milhões de Núcleos Armv9 da Huawei.

Inovação Impulsionada por Necessidade

Enquanto a maioria dos supercomputadores globalmente combina CPUs e GPUs para alto desempenho, a China adota uma estratégia distinta. Devido às proibições de GPUs dos EUA, o país tem investido em supercomputadores apenas com CPUs para cargas de trabalho de IA e HPC.

Um exemplo notável é o centro de supercomputação chinês que implementou uma máquina de 1.54 ExaFLOPS utilizando 20.480 CPUs baseadas em Armv9.

O Coração do LineShine: Processador LX2

O LineShine opera com processadores LX2 personalizados, baseados em Armv9 e otimizados para IA e HPC em larga escala. Embora o desenvolvedor exato seja confidencial, há fortes indicações de que seja o ‘Huawei LX2’, possivelmente um design conjunto ou uma iniciativa governamental.

Arquitetura e Núcleos Poderosos

Cada processador LX2 possui dois chiplets de computação e um total de 304 núcleos de CPU.
Os núcleos são organizados em oito clusters, cada um com 38 núcleos.
Inclusão de unidades Arm SVE e SME para acelerar operações de vetor e matriz em IA e computação científica.
Suporte para diversos formatos de dados: FP64, FP32, BF16, FP16 e INT8.
Cada núcleo tem 32 KB de cache L1 (instrução e dados), e cada cluster compartilha 28.5 MB de cache L2.

Subsistema de Memória Inovador

O LX2 emprega um subsistema de memória único, combinando 32 GB de HBM no encapsulamento (com largura de banda de até 4 TB/s) e até 256 GB de memória DDR5 externa. Esta configuração é similar à do processador A64FX da Fujitsu, mas o LX2 se destaca como pioneiro em CPUs Armv9 para IA e HPC com tal arranjo.

Gerenciamento de Memória Otimizado

Cada chiplet integra quatro domínios HBM e quatro DDR, totalizando 16 domínios NUMA por processador.
O acesso ao HBM é sensível à localidade, enquanto o DDR é mais uniforme.
Técnicas de posicionamento e agendamento de memória cientes da topologia, otimizadas para treinamento de IA, foram implementadas.
Um motor SDMA dedicado gerencia a movimentação de dados entre DDR e HBM.

Desempenho de Ponta

Um único processador LX2 atinge 60.3 TFLOPS em FP64.
Entrega 240 TFLOPS de throughput em BF16/FP16 e 960 TOPS em INT8.
A arquitetura é otimizada para cargas de trabalho densas de IA e matriz, exigindo um codesign extensivo para maximizar a utilização dos motores SME.

Escala Massiva

O LineShine é composto por 20.480 nós de computação, totalizando 40.960 processadores LX2 e incríveis 2.451.840 núcleos de CPU. A interconexão é feita pela rede de alta velocidade LingQi (LQLink), atingindo 1.6 Tb/s por nó.

Capacidades de Exaescala

Desempenho de treinamento de 1.54 ExaFLOP/s em BF16, com picos de 2.16 ExaFLOP/s.
Utilizado no treinamento de um modelo de compressão generativa de 6.3 bilhões de parâmetros para observação da Terra.
Embora comparações diretas com clusters baseados em GPU sejam difíceis, o LineShine demonstra uma impressionante capacidade de exaescala com CPUs.

Potencial FP64

Teoricamente, os 40.960 processadores LX2 podem alcançar 2.47 ExaFLOPS de desempenho FP64, um marco significativo para um sistema CPU-only.

Vantagens dos Sistemas CPU-Only

Simplificação: Elimina transferências de dados CPU-GPU caras e modelos de programação complexos.
Memória Unificada: Grandes pools de memória coerente (HBM + DDR) para lidar com conjuntos de dados científicos massivos.
Flexibilidade: Ideal para aplicações de IA para ciência com fluxo de controle irregular e pipelines intensivos em comunicação.
Integração HPC: Mais fácil de integrar em ambientes HPC tradicionais para simulações e outras tarefas.
Independência Tecnológica: Reduz a dependência de aceleradores e plataformas estrangeiras, como GPUs Nvidia e CUDA.

O Contraponto

Apesar das vantagens, sistemas apenas com CPU geralmente são menos eficientes em energia e entregam um throughput de IA densa inferior em comparação com supercomputadores baseados em GPU, explicando a preferência da indústria por arquiteturas híbridas.

Baseado no artigo de Tom’s Hardware