TurboQuant do Google: Revolução na Memória LLM

Redução de até 6x no cache KV e aumento de performance de 8x em GPUs Nvidia H100, sem perda de precisão.

O Que é TurboQuant?

Algoritmo de compressão sem treinamento que quantiza caches KV de LLMs para 3 bits.
Sem perda de precisão do modelo.

Desempenho Impressionante

Em GPUs Nvidia H100, TurboQuant de 4 bits entregou até 8x de aumento de desempenho em cálculos de logits de atenção.
Redução da memória do cache KV em pelo menos 6 vezes.

Resolvendo Gargalos de Memória

Caches KV armazenam dados de atenção previamente calculados.
Tornam-se gargalos de memória com janelas de contexto maiores.
Métodos tradicionais de quantização introduzem sobrecarga de memória.
TurboQuant elimina essa sobrecarga com um processo inovador de duas etapas.

Como Funciona?

1. PolarQuant

Converte vetores de dados de coordenadas cartesianas para polares (magnitude e direção).
Permite compressão de alta qualidade com zero sobrecarga de constantes de quantização.

2. Johnson-Lindenstrauss Quantizado (QJL)

Camada de correção de erro de 1 bit.
Projeta o erro de quantização residual em um espaço de menor dimensão.
Reduz cada valor a um único bit de sinal, eliminando o viés sistemático.

Resultados dos Testes

Avaliado em benchmarks de longo contexto como LongBench, Needle In A Haystack, ZeroSCROLLS, RULER e L-Eval.
Com modelos de código aberto Gemma e Mistral, alcançou pontuações perfeitas em tarefas de recuperação.
No LongBench, igualou ou superou o baseline KIVI em todas as tarefas.
Resultados fortes em pesquisa vetorial, com os maiores índices de recall 1@k.

Vantagens Chave

Não requer treinamento ou ajuste fino.
Incorre em sobrecarga de tempo de execução insignificante.
Altamente adequado para implantação em inferência de produção e sistemas de busca vetorial em larga escala.

O artigo, de Amir Zandieh e Vahab Mirrokni, será apresentado no ICLR 2026.

Baseado no artigo de Tom’s Hardware