TurboQuant do Google: Revolução na Memória LLM

Redução de até 6x no cache KV e aumento de performance de 8x em GPUs Nvidia H100, sem perda de precisão.

O Que é TurboQuant?

  • Algoritmo de compressão sem treinamento que quantiza caches KV de LLMs para 3 bits.
  • Sem perda de precisão do modelo.

Desempenho Impressionante

  • Em GPUs Nvidia H100, TurboQuant de 4 bits entregou até 8x de aumento de desempenho em cálculos de logits de atenção.
  • Redução da memória do cache KV em pelo menos 6 vezes.

Resolvendo Gargalos de Memória

  • Caches KV armazenam dados de atenção previamente calculados.
  • Tornam-se gargalos de memória com janelas de contexto maiores.
  • Métodos tradicionais de quantização introduzem sobrecarga de memória.
  • TurboQuant elimina essa sobrecarga com um processo inovador de duas etapas.

Como Funciona?

1. PolarQuant

  • Converte vetores de dados de coordenadas cartesianas para polares (magnitude e direção).
  • Permite compressão de alta qualidade com zero sobrecarga de constantes de quantização.

2. Johnson-Lindenstrauss Quantizado (QJL)

  • Camada de correção de erro de 1 bit.
  • Projeta o erro de quantização residual em um espaço de menor dimensão.
  • Reduz cada valor a um único bit de sinal, eliminando o viés sistemático.

Resultados dos Testes

  • Avaliado em benchmarks de longo contexto como LongBench, Needle In A Haystack, ZeroSCROLLS, RULER e L-Eval.
  • Com modelos de código aberto Gemma e Mistral, alcançou pontuações perfeitas em tarefas de recuperação.
  • No LongBench, igualou ou superou o baseline KIVI em todas as tarefas.
  • Resultados fortes em pesquisa vetorial, com os maiores índices de recall 1@k.

Vantagens Chave

  • Não requer treinamento ou ajuste fino.
  • Incorre em sobrecarga de tempo de execução insignificante.
  • Altamente adequado para implantação em inferência de produção e sistemas de busca vetorial em larga escala.

O artigo, de Amir Zandieh e Vahab Mirrokni, será apresentado no ICLR 2026.

Baseado no artigo de Tom’s Hardware