过去我们关注芯片的算力(FLOPS)或显存带宽,现在行业(如中国工程院院士郑纬民等专家)更关注“每瓦Token生产效率”(Tokens/J)。
不仅仅看芯片跑得多快,而是看在单位能耗下,系统能稳定输出多少有效Token。
通过软硬协同设计,提升能效比。例如清华大学团队的研究显示,通过稀疏计算和架构优化,可将文生文应用的能效提升13倍。
将能耗成本纳入核心考量,未来的推理服务将追求“性能+算力成本+能耗成本”的协同优化。
系统架构升级:从“单点优化”到“系统级协同”
单纯优化模型本身已遇瓶颈,现在的重点转向了推理系统的架构重构,特别是针对显存(Memory)和通信的优化。DeepSeek V4 的实践正是这一层级的典型案例。
存储层级重构(以存代算):
正如 DeepSeek V4 所展示的,单纯依赖昂贵的 HBM/DRAM 已无法满足长文本(如 1M 上下文)的需求。未来的方向是利用 NAND Flash(SSD) 扩展显存层级。
DeepSeek V4 案例:通过算法将 KV Cache 压缩至前代的 10%,并将其迁移至低成本的 SSD 上。结合高达 95% 的缓存命中率,系统成功将数据从“高能耗的 HBM”转移到了“低能耗的 NAND”,大幅降低了每 Token 的硬件成本和能耗。
PD分离(Prefill-Decode Disaggregation):
这是 2025-2026 年的关键技术趋势。将提示词处理(Prefill)和 Token 生成(Decode)分离到不同的硬件资源上。
通过 KV Cache 的分布式管理和传输,大幅提升并发吞吐量和响应速度,解决长文本处理中的显存瓶颈。
针对 MoE 架构,通过专家并行(EP)和 AF 分离等技术,优化跨节点通信和负载均衡,确保在模型变大的同时,推理成本可控。
在应用层,通过更聪明的调度策略,让合适的任务由最经济的模型处理,是降低成本最直接的手段。
在 Agent 任务中,将“规划”、“反思”等中间步骤交给便宜、快速的轻量级模型(如 DeepSeek-V3 或 GPT-4o-mini),仅在最终输出或复杂推理时使用高性能大模型。
实测数据显示,这种策略可将 Agent 任务的 Token 成本降低 80% 以上,而质量损失微乎其微。
对于非实时任务(如报告生成、数据分析),利用批量 API 处理,通常可享受 50% 左右的费率折扣。
通过工程化手段减少不必要的计算和 Token 生成。
压缩系统提示词,去除冗余指令;限制输出长度;修剪对话历史(只发送摘要而非全量历史)。这些微调可减少 20-35% 的 Token 消耗。
建立企业级的响应缓存层。当用户提问与历史问题语义相似时,直接返回缓存结果,不再调用大模型。这能节省 15-30% 的 API 成本。
广泛采用量化(Quantization,如 4-bit/8-bit 推理)和剪枝技术,在不显著损失精度的前提下,降低对显存和算力的需求。
为了更直观地理解,我们可以将优化方向总结为以下三个层级
基础设施层
核心策略:能效与架构
关键技术与手段:PD分离、KV Cache管理、NAND扩展显存(如DeepSeek V4)、专用推理芯片
预期收益:提升吞吐量,降低硬件依赖,打破“内存墙”
模型调度层
核心策略:智能路由
关键技术与手段:大小模型协同、分步路由、批量处理
预期收益:成本降低 40-80%
应用交互层
核心策略:输入输出优化
关键技术与手段:提示词压缩、语义缓存、上下文剪枝
预期收益:Token消耗减少 20-35%
未来的竞争不再是看谁的模型参数更大,而是看谁能通过全栈系统优化(如利用 NAND 降低存储成本、利用智能路由降低计算成本),以最低的单位成本和能耗,稳定、高效地生产出高质量的 Token。
澜起科技 (688008.SH)
“PD 分离”和“内存池化”架构,高度依赖 CXL(Compute Express Link)技术来实现内存与存储的高效互联。澜起科技是全球 CXL 接口芯片龙头,是实现这一架构升级的关键硬件供应商。
江波龙 (301308.SZ) / 佰维存储 (688525.SH)
作为企业级存储模组厂商,若 AI 推理服务器大规模采购大容量 SSD 用于构建 KV Cache 层级(替代部分 HBM 功能),其企业级 SSD 产品将迎来显著的增量需求。
兆易创新 (688396.SH)
国内NAND Flash 的龙头,兆易创新提供高容量的闪存芯片。虽然企业级 SSD 通常由模组厂(如江波龙)组装,但兆易创新作为上游核心存储晶圆的设计与供应商,是 NAND 需求指数级增长的源头受益者。
寒武纪 (688256.SH)
被称为“AI 芯片第一股”。文中明确提到 DeepSeek V4 完成了对寒武纪芯片的“Day 0 适配”,意味着其硬件生态已能完美支持 V4 的高效推理,是国产推理侧的核心标的。
四川长虹 (600839.SH):旗下华鲲振宇是华为昇腾服务器的核心合作伙伴,受益于国产算力集群(如超节点)的建设。
拓维信息 (002261.SZ):长期与华为合作“兆瀚”系列服务器,深度绑定昇腾生态,是算力落地的关键载体。
海光信息 (688041.SH)
其 DCU 产品兼容性好,能够支持复杂的 MoE 架构推理,是国产算力底座的重要组成部分。
川润股份 (002272.SZ)
川润股份是华为昇腾 AI 服务器液冷的核心供应商。它提供冷板式和浸没式的全方案液冷交付能力,被称为给算力中心装上“中央空调”。DeepSeek V4 越火,国产算力集群建设越多,对川润液冷解决方案的需求就越刚性。
作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。