Token经济时代,算力会发生什么变化

2026-03-02 04:52:183

需求的爆发已经是共识,推理时代也是国产芯片的黄金时代,CSP的下单仍将继续
另外两个重要的趋势:
1)纯推理芯片的崛起
不一定是ASIC,也可以是GPGPU,但一定越来越专用,核心的指标是TDP(TFLOPS/Watt)、吞吐,而不是原来的算力、显存、带宽。
本周热议的英伟达Feyamann架构融合Groq LPU-SRAM,OpenAI与Cerebras的合作,字节自研ASIC、PPU,都在印证这一趋势。
值得注意,SRAM速度虽快,但容量有限、综合成本更高,不会完全取代DRAM/HBM,但会作为极低延迟、高确定性推理算力的补充。
对于国产芯片厂商来说,纯推理芯片不需要最高规格的工艺,卡脖子程度缓解,但需要深刻理解应用场景,目前需求主要来自AI云,深度配合云业务的芯片有优势。
2)推理系统革新,PD分离、网卡、新的存储方案、CPU
在过往,chatbot类应用对于LLM的要求是“像输送水管一样快速吐字”,转向Agent后,应用对大模型的要求是“像数学家一样反复推演”。
应对这种需求,推理算力系统设计上,可能形成类人的三层网络
第一层是快反应层,类似人的脊髓、反射弧,由纯推理芯片来提供极致低延迟的反馈
第二层是慢思考层,类似人的大脑皮层,使用超大吞吐的算力集群负责后台并行的复杂逻辑推演和工具使用。
在这一层中,CPU也会加入进来,线程、用户数、调度的需求多了,数据的编排和程序的控制会更多,对多核多线程的CPU需求增加。但仍需要与GPU协同发挥作用。
第三层是记忆层,类似人的海马体,存储Agent的终身记忆和KV Cache,英伟达发布的ContextMemory System,在算力系统中加入通过DPU管理的SSD是一种方式,后续可能还有更多的方案出现。
关于LPU、推理芯片、国产算力讨论,欢迎联系申万计算机曹峥/黄忠煌!

作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。

合规声明:本站发布的所有文章及观点均系个人研究共享,投资心得交流,不代表本站立场,且不构成任何形式的投资建议。投资者据此操作,风险自担,请务必保持独立审慎的决策态度。