TurboQuant do Google: Revolução na Memória LLM
Redução de até 6x no cache KV e aumento de performance de 8x em GPUs Nvidia H100, sem perda de precisão.
O Que é TurboQuant?
- Algoritmo de compressão sem treinamento que quantiza caches KV de LLMs para 3 bits.
- Sem perda de precisão do modelo.
Desempenho Impressionante
- Em GPUs Nvidia H100, TurboQuant de 4 bits entregou até 8x de aumento de desempenho em cálculos de logits de atenção.
- Redução da memória do cache KV em pelo menos 6 vezes.
Resolvendo Gargalos de Memória
- Caches KV armazenam dados de atenção previamente calculados.
- Tornam-se gargalos de memória com janelas de contexto maiores.
- Métodos tradicionais de quantização introduzem sobrecarga de memória.
- TurboQuant elimina essa sobrecarga com um processo inovador de duas etapas.
Como Funciona?
1. PolarQuant
- Converte vetores de dados de coordenadas cartesianas para polares (magnitude e direção).
- Permite compressão de alta qualidade com zero sobrecarga de constantes de quantização.
2. Johnson-Lindenstrauss Quantizado (QJL)
- Camada de correção de erro de 1 bit.
- Projeta o erro de quantização residual em um espaço de menor dimensão.
- Reduz cada valor a um único bit de sinal, eliminando o viés sistemático.
Resultados dos Testes
- Avaliado em benchmarks de longo contexto como LongBench, Needle In A Haystack, ZeroSCROLLS, RULER e L-Eval.
- Com modelos de código aberto Gemma e Mistral, alcançou pontuações perfeitas em tarefas de recuperação.
- No LongBench, igualou ou superou o baseline KIVI em todas as tarefas.
- Resultados fortes em pesquisa vetorial, com os maiores índices de recall 1@k.
Vantagens Chave
- Não requer treinamento ou ajuste fino.
- Incorre em sobrecarga de tempo de execução insignificante.
- Altamente adequado para implantação em inferência de produção e sistemas de busca vetorial em larga escala.
O artigo, de Amir Zandieh e Vahab Mirrokni, será apresentado no ICLR 2026.
Baseado no artigo de Tom’s Hardware