LPU:让AI"煎饼果子"飞起来的秘密武器 ——一个关于推理芯片的思想实验

2026-04-21 14:33:182






先说结论:LPU这玩意儿,本质上是把AI推理从"大锅饭模式"改成了"煎饼果子专门店模式"。速度快10倍,功耗低到原来的十分之一。听起来很美好对吧?但事情没那么简单。






一、LPU是个什么玩意儿?



你想象一下这两种场景:



场景A:大食堂。你走进食堂,点了个煎饼果子。厨师先要去仓库拿面糊(等半天),然后发现酱不够了又去拿酱,然后发现葱花没了又去拿葱花。每个步骤都在"等",而且每次等的时间还不一样——万一仓库管理员在刷手机,那就更久了。



场景B:煎饼果子专门店。你下单之后,师傅从冰箱里一次性拿出所有食材,酱、葱花、薄脆,全都在手边。流水线操作,每个煎饼的制作时间固定,品质稳定,想慢都慢不下来。



GPU就是那个大食堂,LPU就是那个专门店。






具体来说,LPU(Language Processing Unit,语言处理单元)有三个核心设计:



片上 SRAM:数据不用跑到外面仓库拿,直接存在芯片里面。带宽比GPU用的HBM快了整整一个数量级。

确定性计算:没有缓存、没有动态仲裁、没有乱序执行。所有数据什么时候到、走到哪儿、什么时候算,全都在编译阶段提前安排好。编译器说一不二,硬件老老实实执行。

功能分片:把芯片上的功能单元按类型重新排列,所有计算放一排,所有内存放一排,数据像流水线上的零件一样流过去就完事。




二、思想实验:LPU跑通了会怎样?



实验①:推理成本能降多少?



按照Groq自己的说法,LPU推理速度比英伟达GPU快10倍,价格和耗电都只有十分之一。这是什么概念?



现在AI每生成1000个词的成本大概是几美分。一旦LPU大规模铺开,这个成本可能会降到几厘。对于那些日均调用量过亿次的大厂来说,光是电费一年就能省下天文数字。






实验②:AI应用会怎么变?



现在AI应用的痛点是什么?是"等"——点一下按钮,等个几秒才有反应;问个问题,等半天才出第一个字。这种等待感会极大地削弱用户体验。



LPU一旦普及,"秒回"会成为标配。语音助手能真正做到像人对话一样自然流畅;代码补全不再是"先卡一下再出来";实时翻译能接近同声传译的效果。不是AI变聪明了,是"反应"变快了——而有时候,反应快比脑子好使更重要。






实验③:Agent时代的大门会彻底打开



我之前说过,Agent的核心是"感知-决策-执行"的循环。循环越快,Agent越像人。



现在AI Agent为什么感觉"傻"?因为它每做一个动作都要"想"半天。你让它查个航班,它要等5秒;让它比个价,它又要等5秒。一套操作下来,半分钟没了,用户早就崩溃了。



LPU把推理延迟压到极致之后,Agent每个步骤的响应时间可以从秒级降到毫秒级。那时候的AI Agent,才真正具备"实时性"——你说一句话,它马上行动;遇到问题,立刻调整策略。这种体验才是颠覆性的。






三、但是,事情没那么简单



LPU有个致命弱点:容量。



单颗LPU的片上存储空间有限,连个几十亿参数的小模型都装不下。想跑几百亿参数的大模型?对不起,得用很多颗LPU组集群才行。反观英伟达的芯片,单卡就能跑很大的模型。



这意味着什么?LPU在"单用户低延迟"场景是无敌的,但在"多用户大并发"场景,GPU的批量处理能力依然是首选。两种芯片不是简单的谁取代谁,更像是分工协作——LPU负责即时响应,GPU负责高吞吐批处理。






四、A股有没有LPU的机会?



说实话,LPU这个赛道目前还是老美的天下。Groq、英特尔这些玩家跑在前面。但咱们A股也不是完全没有机会,关键看你怎么切入。






第一种思路:直接搞LPU芯片。



这条路不太好走,难度大、周期长,但弹性也最大。



恒烁股份:做存算一体芯片的,有LPU相关的技术储备和布局。这公司体量不大,但概念比较纯正,属于"小而美"的题材。

寒武纪:国内AI芯片设计的老大哥,产品线覆盖训练和推理。虽然主要做的是GPU-like的路线,但对LPU这类新型架构也有研究。它的优势是技术积累深厚、生态逐渐完善。




第二种思路:搞LPU供应链。



这条路更稳当一些。虽然LPU芯片是别人的,但芯片要装进服务器、服务器要联网、联网要用PCB板——这些环节国内厂商都能做。



智微智能:搞服务器和边缘计算的,跟Groq有合作关系的消息传出过。它家的硬件底子不错,如果LPU机柜需求起来,它是有机会分一杯羹的。

还有一些做高速PCB、先进封装的厂商,如果LPU集群大规模部署,对这些基础材料的需求是刚性的。




⚠️ 需要提醒的是:



LPU这个赛道目前还是"0到1"的阶段,能不能大规模商业化还是未知数。上述提到的A股公司,多数还是题材炒作大于基本面支撑。如果你短线玩一玩可以,但长线拿着等兑现,得做好"等个三五年"的心理准备。






五、结语



LPU的出现,本质上是在说一句话:AI推理不需要"全能",只需要"专精"。



就像煎饼果子专门店打不过大食堂的丰富度,但在"做好一个煎饼果子"这件事上,专门店就是碾压级的存在。



AI算力的下一个十年,也许不再是谁的芯片"算得更多",而是"算得更准"。LPU撕开的这道口子,指向的是一个更细分、更高效的算力时代。



至于这个机会落在谁头上,咱们且走且看。


A股上市公司布局LPU情况汇总

一、已上市做LPU芯片的

公司

定位

进展

寒武纪(688256)

国产AI芯片龙头,HNLPU架构

思元系列已融入LPU推理优化,批量供货互联网/金融/车企

恒烁股份(688416)

A股唯一纯LPU上市公司

SRAM存算一体+LPU,已量产落地

二、参股LPU初创公司的

公司

参股标的

持股比例

进展

智微智能(001339)

元川微

~15%

拟并购+全球独家商业化授权(已公告)

星宸科技(301536)

元川微

6.6%

天使轮+追加投资

万通智控(300640)

深明奥思

5.66%

获具身智能域控独家销售权

三、产业链核心配套

公司

角色

作用

北京君正(300223)

全球SRAM龙头

LPU核心存储供应商

通富微电(002156)

先进封装

2.5D/3D封装,LPU必备

沪电股份(002463)

PCB

英伟达LPU机柜核心PCB供应商

胜宏科技(300476)

PCB

英伟达LPU 52层方案核心一供

四、国内主要LPU初创公司(非上市)

公司

特点

关联A股

元川微

硬数据流架构,对标Groq,推理速度≈H100的6倍

智微智能星宸科技参股

迈特芯

立方脉动+3D堆叠,端侧/边缘推理标杆

北京君正通富微电供应链绑定

深明奥思

LPU+SRAM高带宽,极致低延迟

万通智控参股







「 AI时代,算力的竞争力不仅在于算得"多",更在于算得"准"且"快" 」






⚠️ 风险提示



1. LPU技术路线仍在早期验证阶段,存在被其他方案颠覆的可能性,商业化进度可能慢于预期。



2. A股相关标的多数处于题材炒作阶段,业绩兑现存在较大不确定性,不宜盲目重仓。



3. 本文仅为行业研究与思想实验,不构成投资建议。股市有风险,请独立判断、谨慎决策。

作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。

合规声明:本站发布的所有文章及观点均系个人研究共享,投资心得交流,不代表本站立场,且不构成任何形式的投资建议。投资者据此操作,风险自担,请务必保持独立审慎的决策态度。