Optane Turbina LLM: IA de Trilhão de Parâmetros com Custo Baixo

Descubra como um Redditor usou memória Intel Optane barata para rodar um modelo de linguagem de um trilhão de parâmetros localmente em uma única GPU, alcançando 4 tokens/segundo.

🚀 IA Gigante em Casa!

Um Redditor ousado agitou a comunidade ao conseguir rodar um modelo de linguagem de um trilhão de parâmetros (LLM) em uma estação de trabalho com uma única GPU, usando módulos de memória Intel Optane (PMem) como RAM.

💡 A Solução Inovadora

Memória Optane Barata: O usuário APFrisco adquiriu seis módulos Optane PMem (DCPMM) de 128GB cada (totalizando 768GB) no mercado de segunda mão, pagando “muito menos” do que DRAM equivalente.
Desempenho Impressionante: Com esta configuração, o modelo Kimi K2.5 (1 trilhão de parâmetros) rodou localmente a aproximadamente 4 tokens por segundo.
Vantagem do Optane: Embora mais lento que DRAM, o Optane oferece latência muito inferior aos SSDs NVMe, sendo ideal para inferência de LLMs a um custo reduzido.

⚙️ A Mágica do Software

Arquitetura Kimi K2.5: O modelo utiliza uma arquitetura de “mixture-of-experts”.
Inferência Híbrida: APFrisco empregou uma metodologia de inferência híbrida GPU/CPU com llama.cpp.
Otimização Inteligente: Componentes de roteamento foram alocados na GPU de 12GB usando a flag ‘override-tensor’ do llama.cpp para otimizar o processamento.

📈 Um Sucesso Inegável

Apesar do hardware de baixo orçamento, o desempenho de ~4 tokens por segundo foi considerado um “grande sucesso” para um modelo de fronteira de um trilhão de parâmetros.

🔮 O Futuro da Memória para IA

Este experimento destaca a necessidade de uma solução de memória intermediária entre DRAM e SSDs, especialmente para LLMs. O padrão CXL (Compute Express Link) é aguardado como a próxima fronteira, prometendo grandes pools de memória acessível e endereçável por byte para estas cargas de trabalho exigentes.

Baseado no artigo de Tom’s Hardware