TurboQuant do Google: 6x Menos Memória, 8x Mais Desempenho em LLMs

Nova compressão de cache KV para LLMs atinge 3 bits sem perda de precisão, otimizando GPUs Nvidia H100.

Desempenho Revolucionário

O Google Research lançou o TurboQuant, um algoritmo de compressão sem treinamento que quantiza caches KV de LLMs para 3 bits, sem perda de precisão do modelo. Em benchmarks com GPUs Nvidia H100, o TurboQuant de 4 bits entregou até oito vezes mais desempenho no cálculo de attention logits e reduziu a memória do cache KV em pelo menos seis vezes.

O Desafio dos Caches KV

Caches KV armazenam dados de atenção previamente calculados, evitando recálculos em cada etapa de geração de tokens. Com o aumento das janelas de contexto, estes caches tornam-se gargalos de memória. Métodos de quantização tradicionais reduzem o tamanho, mas introduzem uma pequena sobrecarga de memória que se acumula.

Como o TurboQuant Funciona: PolarQuant

O TurboQuant elimina essa sobrecarga através de um processo de duas etapas:

**Etapa 1: PolarQuant**
Converte vetores de dados de coordenadas cartesianas para polares (raio e ângulos).
As distribuições angulares são previsíveis, permitindo que o PolarQuant ignore a normalização por bloco, resultando em compressão de alta qualidade sem sobrecarga de constantes de quantização.

**Etapa 2: Johnson-Lindenstrauss Quantizado (QJL)**
Aplica uma camada de correção de erro de 1 bit.
Projeta o erro de quantização residual para um espaço de menor dimensão, reduzindo cada valor a um único bit de sinal.
Elimina o viés sistemático nos cálculos da pontuação de atenção com custo adicional insignificante.

Resultados Impressionantes

O Google testou os algoritmos em benchmarks de contexto longo, como LongBench e Needle In A Haystack, usando modelos de código aberto Gemma e Mistral.

**Recuperação de Informação:** Pontuações perfeitas em tarefas de “needle-in-a-haystack”, comprimindo a memória KV em pelo menos seis vezes.
**Suite LongBench:** Superou ou igualou o KIVI em todas as tarefas (resposta a perguntas, geração de código e resumo).

Otimização para Busca de Vetores

O algoritmo também demonstrou fortes resultados na busca de vetores, superando Product Quantization e RabbiQ no dataset GloVe, apesar de esses usarem codebooks maiores. O TurboQuant não requer treinamento ou ajuste fino e tem uma sobrecarga de tempo de execução insignificante, ideal para implantação em inferência de produção e sistemas de busca de vetores em larga escala.

Próximos Passos

O artigo, co-escrito por Amir Zandieh e Vahab Mirrokni, será apresentado no ICLR 2026 no próximo mês.

Baseado no artigo de Tom’s Hardware