英伟达最新增量——Groq LPU关键SRAM存储——相关概念股梳理

2026-03-17 12:22:056℃

英伟达正式推出了 Groq LPU。Groq 3 LPU拥有500MB SRAM缓存和150 TB/s的片上带宽，远超Rubin GPU的22 TB/s。黄仁勋用一款名为 Dynamo 的软件，把这两者完美捏合，首创了解耦推理。AI 推理前半段的 Prefill和极其耗费算力的 Attention，全部交给 Vera Rubin；后半段的 Decode直接卸载给 Groq LPU 来降低延迟，组合后在极高token速率下实现35倍的每兆瓦吞吐提升。256颗LPU组成的Groq 3 LPX机架设计为与Vera Rubin NVL72并排部署。Groq 3 LPU将于26Q3出货。

架构采用确定性数据流设计+海量SRAM片上存储，精准拆分推理全流程：1）Vera Rubin负责prefill预填充与注意力计算 2）Groq LPU专注decode解码生成。

二者通过专用以太网模式实现高效耦合；LPU凭借低时延、高能效特性完美适配实时AI场景，即便单颗容量有限需多芯片集群部署，仍成为英伟达推理产品线的核心增量，全面推动AI推理硬件向专用化、高效化方向迭代。

黄仁勋解释了引入LPU的战略考量时指出：在AI智能体时代，推理需求正加速分化。面对需要极高交互性、超短响应时间的任务，传统GPU架构存在性能冗余。为此，英伟达引入了专注于“极致低延迟Token生成”的LPU架构。

一、技术颠覆：打造150TB/s的SRAM怪兽
Groq 3 LPU最引人注目的特点，在于其彻底颠覆了传统AI加速器的内存架构。
1、500MB片上SRAM：带宽的极致追求
与大多数依赖HBM（高带宽内存）作为工作内存层的AI加速器不同，每个Groq 3 LPU芯片集成了500MB的片上SRAM（静态随机存取存储器）。这种内存此前主要用于CPU和GPU的超高速缓存，从未在AI加速器中担当主角。
这500MB SRAM看似“微不足道”——与每个Rubin GPU上容量高达288GB的HBM4相比，仅为其1/500。但SRAM的关键优势在于带宽：这块SRAM可提供高达150TB/s的带宽，而HBM4的带宽仅为22TB/s。这意味着，对于带宽极度敏感的AI解码操作，Groq 3 LPU的带宽是传统HBM的近7倍。

英伟达超大规模计算副总裁Ian Buck对此解释道：“让我们对比一下这两种处理器：GPU拥有288GB内存，但带宽是22TB/s；LPU只有1/500的容量，但带宽达到了惊人的150TB/s。对于需要极致低延迟的token生成任务，LPU的带宽优势无可替代。”
基于此芯片的Groq 3 LPX机架配备256颗LPU，提供128GB片上SRAM和640TB/s总带宽。

黄仁勋描绘了GPU与LPU协同工作的未来图景：Vera Rubin负责需要海量计算的“预填充”阶段，而Groq LPU则负责对延迟极度敏感的“解码”阶段。在这种混合架构下，系统的推理吞吐量与功耗比最高可提升35倍。他建议企业客户，若工作负载包含大量高价值的Token生成需求，应将25%的数据中心规模配置给Groq。据悉，由三星代工的Groq LP30芯片已进入量产，预计今年第三季度出货。

英伟达最新增量——Groq LPU关键SRAM存储——相关概念股梳理

AI智能体相关

栏目分类

北京相关

存储芯片相关

用户须知

英伟达最新增量——Groq LPU关键SRAM存储——相关概念股梳理

 AI智能体相关

 栏目分类

 北京相关

 存储芯片相关

用户须知

AI智能体相关

栏目分类

北京相关

存储芯片相关

用户须知