深度聊聊AI国产推理芯片的黄金时代这个话题。
现在大家都在说Token经济,可能有人对“Token”有点陌生,其实这里的Token不是虚拟货币,而是AI处理文本、图像、视频时的最小计算和计费单位,是算力服务的“计价单位”。随着AI应用越来越普及,比如刷短视频、用AI做设计、企业用AI处理业务,对算力的需求越来越大,这已经是行业里的共识。
而现在AI发展已经从“训练模型”的阶段,进入到“用模型做事”的推理阶段,这个阶段,就是国产芯片的黄金发展期。这种需求爆发不仅推动了算力本身的变革,更催生了纯推理芯片的崛起和推理系统的全面革新。
为什么说推理时代是国产芯片的黄金时代?因为之前AI训练阶段,海外芯片凭借技术优势占据了主导,但推理阶段不一样——推理需要的是高并发、低延迟,而且部署场景更多元,从手机、电脑到数据中心都需要,国产芯片在性价比、场景适配和政策支持上更有优势。尤其值得关注的是,推理时代的核心变化之一,就是纯推理芯片的崛起,这也让国产芯片有了更多突围的机会。
说到纯推理芯片,大家不用觉得高深,它不一定是那种完全定制的ASIC芯片,也可以是GPGPU,但有一个明确的趋势:会越来越专用,核心追求的指标也变了。以前我们看芯片,关注的是算力多强、显存多大、带宽多高,但纯推理芯片更看重TDP(简单说就是每瓦电量能发挥多少算力,越高效越划算)和吞吐能力,毕竟推理场景需要大量并发处理,还得控制能耗成本。
这种趋势不是凭空猜测,近期行业里的很多动态都在印证这一点。比如本周热议的英伟达,计划推出的Feyamann架构就融合了Groq的LPU-SRAM技术,专门优化推理的低延迟问题;ChatGPT的开发商OpenAI也和Cerebras达成合作,要大规模使用后者的芯片提升推理效率;国内的字节跳动也在发力,自研了ASIC芯片和PPU,针对性解决自身AI应用的推理需求,这些都说明纯推理芯片正在成为行业主流。
这里有个小知识点要跟大家说清楚:这次常被提到的SRAM,虽然速度特别快,能满足极低延迟、高确定性的推理需求,但它也有短板——容量小、综合成本高,所以不会完全取代我们常见的DRAM和HBM内存。未来的趋势是SRAM作为补充,和DRAM、HBM配合使用,既保证速度,又兼顾容量和成本,避免出现“速度够了但存不下”“容量够了但反应慢”的问题。
对于国产芯片厂商来说,这更是难得的机遇。纯推理芯片不需要最高规格的制造工艺,这就缓解了我们“卡脖子”的困境,不用再过度依赖高端制程。但它也有要求,就是需要深刻理解AI应用场景,知道不同场景下对算力、延迟、能耗的具体需求。目前来看,纯推理芯片的需求主要来自AI云服务,那些能深度配合云业务、贴合实际应用场景的国产芯片,会更有竞争优势。
除了纯推理芯片的崛起,推理系统本身也在经历一场革新,比如PD分离、网卡升级、新的存储方案出现,还有CPU角色的回归,这些变化的核心原因,是AI应用的需求变了。在过去,chatbot这类AI应用,对大模型的要求只是“像输送水管一样快速吐字”,能快速给出回复就好;但现在转向Agent(可以理解为能自主做事的AI)后,对大模型的要求变成了“像数学家一样反复推演”,需要处理复杂逻辑、调用各种工具,这就倒逼推理算力系统做出改变,慢慢形成了一种类人的三层网络设计,就像我们的身体一样,分工明确、配合默契。
第一层,快反应层,就像我们的脊髓和反射弧。大家都有过这样的经历:手碰到热水会立刻缩回来,不用经过大脑思考,这就是反射弧的作用——反应快、不绕弯。推理算力的快反应层,就干这个事,由我们前面说的纯推理芯片来负责,核心就是“快”,追求极致的低延迟。比如我们用AI语音助手问“今天天气怎么样”,几毫秒内就能得到回答;刷短视频时,AI实时推荐你喜欢的内容,这些不需要复杂计算,只需要快速响应的场景,都靠这一层来支撑。它不做复杂思考,只负责“即时反馈”,就像脊髓一样,快速传递指令、完成简单反应。
第二层,慢思考层,类似我们的大脑皮层,负责复杂的思考和判断。比如我们遇到一道难题,需要反复琢磨、调动各种知识,甚至借助工具来解决,这就是大脑皮层的作用——处理复杂逻辑、协调各种能力。推理算力的慢思考层,就对应这个功能,它用超大吞吐的算力集群,负责后台那些复杂的逻辑推演和工具使用。比如AI写一篇完整的报告、做复杂的数据分析、设计一套完整的方案,这些需要大量计算、多步骤协同的任务,都靠这一层来完成。
这里要特别说一下,这一层里,CPU会重新发挥重要作用,而且需求会越来越大。之前大家觉得AI算力只靠GPU,但到了推理的慢思考阶段,情况不一样了:随着使用AI的人越来越多、处理的任务越来越复杂,需要同时调度的线程、用户数也大幅增加,还要对大量数据进行编排、对程序进行控制,这些都是CPU的强项——多核多线程的CPU,能更好地应对多任务调度和数据管理。当然,CPU也不是单打独斗,还是需要和GPU协同工作,GPU负责海量的并行计算,CPU负责统筹调度,就像大脑和手脚配合,缺一不可。除此之外,PD分离、网卡升级也在这一层发挥作用,都是为了提升复杂任务的处理效率,让“慢思考”既精准又高效。
第三层,记忆层,类似我们的海马体,负责存储记忆。海马体是我们大脑里负责存储和提取记忆的部分,比如我们记住一个人的名字、一段经历,都靠它。推理算力的记忆层,就负责存储AI智能体的终身记忆,还有AI推理时需要用到的KV Cache(简单说就是临时记忆,方便AI快速调用之前的计算结果,不用重复计算),这也是推理系统革新中“新存储方案”的核心应用场景。
目前,英伟达已经推出了ContextMemory System(推理上下文内存平台),给出了一种解决记忆存储的方案:在算力系统中加入由DPU(数据处理单元,相当于“后勤官”,负责数据传输和管理)管理的SSD(固态硬盘),这样就能高效存储大量的记忆数据,还能快速调用,解决了之前内存不够、调用速度慢的问题。而且这只是其中一种方式,随着需求的不断增加,后续肯定还会有更多更高效、更经济的存储方案出现,让AI的“记忆”更持久、调用更顺畅。
总之,Token经济时代,AI推理需求的爆发已经是必然,这不仅推动了算力的变革,催生了纯推理芯片的崛起,也带动了推理系统的全面革新,更给国产芯片带来了前所未有的机遇。而类人的三层推理算力网络,就是为了应对这种需求而生的——快反应层负责即时响应,慢思考层负责复杂计算,记忆层负责存储记忆,三者分工协作,就像一个完整的“智能大脑”,支撑起各种AI应用的落地。未来,随着技术的不断迭代,纯推理芯片会越来越专用,推理系统会越来越完善,算力的效率也会越来越高,而国产芯片,也会在这个过程中不断成长,占据更重要的位置。
云天励飞:AI国产推理芯片的龙头。
作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。