
英伟达正式推出了 Groq LPU。Groq 3 LPU拥有500MB SRAM缓存和150 TB/s的片上带宽,远超Rubin GPU的22 TB/s。黄仁勋用一款名为 Dynamo 的软件,把这两者完美捏合,首创了解耦推理。AI 推理前半段的 Prefill和极其耗费算力的 Attention,全部交给 Vera Rubin;后半段的 Decode直接卸载给 Groq LPU 来降低延迟,组合后在极高token速率下实现35倍的每兆瓦吞吐提升。256颗LPU组成的Groq 3 LPX机架设计为与Vera Rubin NVL72并排部署。Groq 3 LPU将于26Q3出货。
架构采用确定性数据流设计+海量SRAM片上存储,精准拆分推理全流程:1)Vera Rubin负责prefill预填充与注意力计算 2)Groq LPU专注decode解码生成。
二者通过专用以太网模式实现高效耦合;LPU凭借低时延、高能效特性完美适配实时AI场景,即便单颗容量有限需多芯片集群部署,仍成为英伟达推理产品线的核心增量,全面推动AI推理硬件向专用化、高效化方向迭代。

黄仁勋解释了引入LPU的战略考量时指出:在AI智能体时代,推理需求正加速分化。面对需要极高交互性、超短响应时间的任务,传统GPU架构存在性能冗余。为此,英伟达引入了专注于“极致低延迟Token生成”的LPU架构。
一、技术颠覆:打造150TB/s的SRAM怪兽
Groq 3 LPU最引人注目的特点,在于其彻底颠覆了传统AI加速器的内存架构。
1、500MB片上SRAM:带宽的极致追求
与大多数依赖HBM(高带宽内存)作为工作内存层的AI加速器不同,每个Groq 3 LPU芯片集成了500MB的片上SRAM(静态随机存取存储器)。这种内存此前主要用于CPU和GPU的超高速缓存,从未在AI加速器中担当主角。
这500MB SRAM看似“微不足道”——与每个Rubin GPU上容量高达288GB的HBM4相比,仅为其1/500。但SRAM的关键优势在于带宽:这块SRAM可提供高达150TB/s的带宽,而HBM4的带宽仅为22TB/s。这意味着,对于带宽极度敏感的AI解码操作,Groq 3 LPU的带宽是传统HBM的近7倍。
英伟达超大规模计算副总裁Ian Buck对此解释道:“让我们对比一下这两种处理器:GPU拥有288GB内存,但带宽是22TB/s;LPU只有1/500的容量,但带宽达到了惊人的150TB/s。对于需要极致低延迟的token生成任务,LPU的带宽优势无可替代。”
基于此芯片的Groq 3 LPX机架配备256颗LPU,提供128GB片上SRAM和640TB/s总带宽。

黄仁勋描绘了GPU与LPU协同工作的未来图景:Vera Rubin负责需要海量计算的“预填充”阶段,而Groq LPU则负责对延迟极度敏感的“解码”阶段。在这种混合架构下,系统的推理吞吐量与功耗比最高可提升35倍。他建议企业客户,若工作负载包含大量高价值的Token生成需求,应将25%的数据中心规模配置给Groq。据悉,由三星代工的Groq LP30芯片已进入量产,预计今年第三季度出货。
相关概念股:
北京君正(300223):全球 SRAM 行业龙头之一,其经营实体主要为 ISSI,主营业务为集成电路存储芯片、模拟芯片及其衍生产品的研发和销售,在 SRAM 存储芯片领域技术实力雄厚,市场份额较高。
恒烁股份(688416):专注于 SRAM 存储芯片领域,推出了 SRAM 数字存算一体方案,在技术创新方面具有一定优势,是 SRAM 存储芯片的重要企业。正在研发存算一体的AI推理芯片。
作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。