Berita Gate News, pada 25 Maret, Google Research merilis algoritma kompresi kuantitatif TurboQuant, yang dapat mengompresi cache KV dari model bahasa besar hingga 3 bit, mengurangi penggunaan memori setidaknya 6 kali lipat, tanpa perlu pelatihan atau penyesuaian ulang, dan tanpa kehilangan akurasi model. Dalam mode 4 bit, kecepatan perhitungan perhatian pada GPU Nvidia H100 meningkat hingga 8 kali dibandingkan baseline 32 bit yang tidak dikuantifikasi. Tim peneliti memverifikasi menggunakan model Gemma dan Mistral pada benchmark konteks panjang seperti LongBench, Needle In A Haystack, ZeroSCROLLS, dan TurboQuant menunjukkan performa terbaik di semua pengujian. Algoritma ini terdiri dari dua sub-algoritma: PolarQuant yang menghilangkan biaya memori dari metode kuantisasi tradisional melalui transformasi koordinat polar, dan QJL yang hanya menggunakan 1 bit untuk mengoreksi residual error. Penelitian ini dipimpin oleh Amir Zandieh dari Google Research dan Wakil Presiden sekaligus Google Fellow Vahab Mirrokni, bekerja sama dengan KAIST Korea dan New York University, dan akan dipresentasikan di ICLR 2026. Google menyatakan salah satu aplikasi utama teknologi ini adalah mengatasi bottleneck cache KV dari model seperti Gemini.