AI最新叙事！谷歌推出压缩算法，实现6倍内存节省，美股存储大跌，附概念股

2026-03-26 12:14:524℃

谷歌近日推出了一种可能降低人工智能系统内存需求的压缩算法TurboQuant。根据谷歌介绍，TurboQuant压缩技术旨在降低大语言模型和向量搜索引擎的内存占用。该算法主要针对AI系统中用于存储高频访问信息的键值缓存(key-value cache)瓶颈问题。随着上下文窗口变大，这些缓存正成为主要的内存瓶颈。TurboQuant可在无需重新训练或微调模型的情况下，将键值缓存压缩至3bit精度，同时基本保持模型准确率不受影响。对包括Gemma、Mistral等开源模型的测试显示，该技术可实现约6倍的键值缓存内存压缩效果。此外，在英伟达H100加速器上的测试结果显示，与未量化的键向量相比，该算法最高可实现约8倍性能提升。研究人员也表示，这项技术的应用不局限于AI模型，还包括支撑大规模搜索引擎的向量检索能力。谷歌计划于4月的国际学习表征会议(ICLR2026)上展示TurboQuant技术。

“算法优化”将成为新的叙事：把“长上下文 / agent / 高并发推理 = 必须线性堆更多 HBM / 显存 / 内存容量”这条线，改写成“这部分瓶颈有可能被算法压缩显著钝化”。论文自己就把 LLM 服务中的 HBM↔SRAM 通信和 KV cache 随模型规模与上下文长度扩张定义为关键瓶颈，并给出 KV cache 在 3.5 bits/channel 基本质量中性、2.5 bits/channel 仅轻微退化、压缩达到 4.5×到 5×量级的结果。