O Google Research lançou o TurboQuant, um algoritmo de compressão sem treinamento que quantiza caches KV de LLMs para 3 bits, sem perda de precisão do modelo. Em benchmarks com GPUs Nvidia H100, o TurboQuant de 4 bits entregou até oito vezes mais desempenho no cálculo de attention logits e reduziu a memória do cache KV em pelo menos seis vezes.
Caches KV armazenam dados de atenção previamente calculados, evitando recálculos em cada etapa de geração de tokens. Com o aumento das janelas de contexto, estes caches tornam-se gargalos de memória. Métodos de quantização tradicionais reduzem o tamanho, mas introduzem uma pequena sobrecarga de memória que se acumula.
O TurboQuant elimina essa sobrecarga através de um processo de duas etapas:
O Google testou os algoritmos em benchmarks de contexto longo, como LongBench e Needle In A Haystack, usando modelos de código aberto Gemma e Mistral.
O algoritmo também demonstrou fortes resultados na busca de vetores, superando Product Quantization e RabbiQ no dataset GloVe, apesar de esses usarem codebooks maiores. O TurboQuant não requer treinamento ou ajuste fino e tem uma sobrecarga de tempo de execução insignificante, ideal para implantação em inferência de produção e sistemas de busca de vetores em larga escala.
O artigo, co-escrito por Amir Zandieh e Vahab Mirrokni, será apresentado no ICLR 2026 no próximo mês.