AI最新叙事!谷歌推出压缩算法,实现6倍内存节省,美股存储大跌,附概念股

2026-03-26 12:14:523






谷歌近日推出了一种可能降低人工智能系统内存需求的压缩算法TurboQuant。根据谷歌介绍,TurboQuant压缩技术旨在降低大语言模型和向量搜索引擎的内存占用。该算法主要针对AI系统中用于存储高频访问信息的键值缓存(key-value cache)瓶颈问题。随着上下文窗口变大,这些缓存正成为主要的内存瓶颈。TurboQuant可在无需重新训练或微调模型的情况下,将键值缓存压缩至3bit精度,同时基本保持模型准确率不受影响。对包括Gemma、Mistral等开源模型的测试显示,该技术可实现约6倍的键值缓存内存压缩效果。此外,在英伟达H100加速器上的测试结果显示,与未量化的键向量相比,该算法最高可实现约8倍性能提升。研究人员也表示,这项技术的应用不局限于AI模型,还包括支撑大规模搜索引擎的向量检索能力。谷歌计划于4月的国际学习表征会议(ICLR2026)上展示TurboQuant技术。





“算法优化”将成为新的叙事:把“长上下文 / agent / 高并发推理 = 必须线性堆更多 HBM / 显存 / 内存容量”这条线,改写成“这部分瓶颈有可能被算法压缩显著钝化”。论文自己就把 LLM 服务中的 HBM↔SRAM 通信 和 KV cache 随模型规模与上下文长度扩张 定义为关键瓶颈,并给出 KV cache 在 3.5 bits/channel 基本质量中性、2.5 bits/channel 仅轻微退化、压缩达到 4.5×到 5×量级 的结果。







该技术对AI进展影响重大,昨晚美股存储个股逆势下跌,闪迪一度大跌超8%







新技术或将减少对存储芯片的需求,当前现货已连续四天下跌











AI领域的每次叙事革新都值得重视,今天是新题材爆发的第一天,建议重点关注。






附概念股:



竞业达:发布RT-Thread操作系统,使用Cache(缓存)设计、浮点运算单元添加、AXI总线接入等方式对CPU等进行深度优化;在国内首次提出智能【压缩算法】,对图像数据进行无损处理,存储空间最大可节约90%。





品高股份:公司与深圳江原科技有限公司在KV Cache多级缓存优化、SR-1OVGPU虚拟化驱动、时空混合GPU算力切割等软硬件融合技术领域开展深度合作。





飞利信:公司MLA技术是在MHA推理计算中的一种KV缓存优化方法。











作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。

合规声明:本站发布的所有文章及观点均系个人研究共享,投资心得交流,不代表本站立场,且不构成任何形式的投资建议。投资者据此操作,风险自担,请务必保持独立审慎的决策态度。