黄仁勋的预言成真：当“每Token成本”成为AI终极指标，DeepSeek V4给出了标准

2026-04-30 23:40:437℃

过去我们关注芯片的算力（FLOPS）或显存带宽，现在行业（如中国工程院院士郑纬民等专家）更关注“每瓦Token生产效率”（Tokens/J）。
不仅仅看芯片跑得多快，而是看在单位能耗下，系统能稳定输出多少有效Token。
通过软硬协同设计，提升能效比。例如清华大学团队的研究显示，通过稀疏计算和架构优化，可将文生文应用的能效提升13倍。
将能耗成本纳入核心考量，未来的推理服务将追求“性能+算力成本+能耗成本”的协同优化。
系统架构升级：从“单点优化”到“系统级协同”
单纯优化模型本身已遇瓶颈，现在的重点转向了推理系统的架构重构，特别是针对显存（Memory）和通信的优化。DeepSeek V4 的实践正是这一层级的典型案例。
存储层级重构（以存代算）：
正如 DeepSeek V4 所展示的，单纯依赖昂贵的 HBM/DRAM 已无法满足长文本（如 1M 上下文）的需求。未来的方向是利用 NAND Flash（SSD）扩展显存层级。
DeepSeek V4 案例：通过算法将 KV Cache 压缩至前代的 10%，并将其迁移至低成本的 SSD 上。结合高达 95% 的缓存命中率，系统成功将数据从“高能耗的 HBM”转移到了“低能耗的 NAND”，大幅降低了每 Token 的硬件成本和能耗。
PD分离（Prefill-Decode Disaggregation）：
这是 2025-2026 年的关键技术趋势。将提示词处理（Prefill）和 Token 生成（Decode）分离到不同的硬件资源上。
通过 KV Cache 的分布式管理和传输，大幅提升并发吞吐量和响应速度，解决长文本处理中的显存瓶颈。
针对 MoE 架构，通过专家并行（EP）和 AF 分离等技术，优化跨节点通信和负载均衡，确保在模型变大的同时，推理成本可控。
在应用层，通过更聪明的调度策略，让合适的任务由最经济的模型处理，是降低成本最直接的手段。
在 Agent 任务中，将“规划”、“反思”等中间步骤交给便宜、快速的轻量级模型（如 DeepSeek-V3 或 GPT-4o-mini），仅在最终输出或复杂推理时使用高性能大模型。
实测数据显示，这种策略可将 Agent 任务的 Token 成本降低 80% 以上，而质量损失微乎其微。
对于非实时任务（如报告生成、数据分析），利用批量 API 处理，通常可享受 50% 左右的费率折扣。
通过工程化手段减少不必要的计算和 Token 生成。
压缩系统提示词，去除冗余指令；限制输出长度；修剪对话历史（只发送摘要而非全量历史）。这些微调可减少 20-35% 的 Token 消耗。
建立企业级的响应缓存层。当用户提问与历史问题语义相似时，直接返回缓存结果，不再调用大模型。这能节省 15-30% 的 API 成本。
广泛采用量化（Quantization，如 4-bit/8-bit 推理）和剪枝技术，在不显著损失精度的前提下，降低对显存和算力的需求。
为了更直观地理解，我们可以将优化方向总结为以下三个层级
基础设施层
核心策略：能效与架构
关键技术与手段：PD分离、KV Cache管理、NAND扩展显存（如DeepSeek V4）、专用推理芯片
预期收益：提升吞吐量，降低硬件依赖，打破“内存墙”
模型调度层
核心策略：智能路由
关键技术与手段：大小模型协同、分步路由、批量处理
预期收益：成本降低 40-80%
应用交互层
核心策略：输入输出优化
关键技术与手段：提示词压缩、语义缓存、上下文剪枝
预期收益：Token消耗减少 20-35%
未来的竞争不再是看谁的模型参数更大，而是看谁能通过全栈系统优化（如利用 NAND 降低存储成本、利用智能路由降低计算成本），以最低的单位成本和能耗，稳定、高效地生产出高质量的 Token。
澜起科技 (688008.SH)
“PD 分离”和“内存池化”架构，高度依赖 CXL（Compute Express Link）技术来实现内存与存储的高效互联。澜起科技是全球 CXL 接口芯片龙头，是实现这一架构升级的关键硬件供应商。
江波龙 (301308.SZ) / 佰维存储 (688525.SH)
作为企业级存储模组厂商，若 AI 推理服务器大规模采购大容量 SSD 用于构建 KV Cache 层级（替代部分 HBM 功能），其企业级 SSD 产品将迎来显著的增量需求。
兆易创新 (688396.SH)
国内NAND Flash 的龙头，兆易创新提供高容量的闪存芯片。虽然企业级 SSD 通常由模组厂（如江波龙）组装，但兆易创新作为上游核心存储晶圆的设计与供应商，是 NAND 需求指数级增长的源头受益者。
寒武纪 (688256.SH)
被称为“AI 芯片第一股”。文中明确提到 DeepSeek V4 完成了对寒武纪芯片的“Day 0 适配”，意味着其硬件生态已能完美支持 V4 的高效推理，是国产推理侧的核心标的。
四川长虹 (600839.SH)：旗下华鲲振宇是华为昇腾服务器的核心合作伙伴，受益于国产算力集群（如超节点）的建设。
拓维信息 (002261.SZ)：长期与华为合作“兆瀚”系列服务器，深度绑定昇腾生态，是算力落地的关键载体。
海光信息 (688041.SH)
其 DCU 产品兼容性好，能够支持复杂的 MoE 架构推理，是国产算力底座的重要组成部分。
川润股份 (002272.SZ)
川润股份是华为昇腾 AI 服务器液冷的核心供应商。它提供冷板式和浸没式的全方案液冷交付能力，被称为给算力中心装上“中央空调”。DeepSeek V4 越火，国产算力集群建设越多，对川润液冷解决方案的需求就越刚性。

作者声明：本文转载自第三方，旨在提供资讯参考，并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日，作者与文中提及的标的不存在持仓关系。

标签: DeepSeek 华为华为昇腾四川芯片

合规声明：本站发布的所有文章及观点均系个人研究共享，投资心得交流，不代表本站立场，且不构成任何形式的投资建议。投资者据此操作，风险自担，请务必保持独立审慎的决策态度。

本文链接：https://www.sanhuba.cn/post/e5-46-15921.html

上一篇钠电池量产，宁王对车企的“釜底抽薪”？车企跟还是不跟？

下一篇下一个卡脖子方向

黄仁勋的预言成真：当“每Token成本”成为AI终极指标，DeepSeek V4给出了标准

DeepSeek相关

栏目分类

华为相关

华为昇腾相关

用户须知

黄仁勋的预言成真：当“每Token成本”成为AI终极指标，DeepSeek V4给出了标准

 DeepSeek相关

 栏目分类

 华为相关

 华为昇腾相关

用户须知

DeepSeek相关

栏目分类

华为相关

华为昇腾相关

用户须知