
DeepSeek-V4-Pro-Max(最高推理强度模式)在多个维度的核心评测表现如下:
Agent能力大幅提高:相比前代模型,DeepSeek-V4-Pro的Agent能力显著增强。在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent相关评测中同样表现优异。目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型,据评测反馈使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。
丰富的世界知识:DeepSeek-V4-Pro在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1。
世界顶级推理性能:在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。
成本方面,DeepSeek-V4-Pro定价输入百万token输入成本为1元(缓存命中)/12(缓存未命中),百万token输出成本为24元。deepseek 官方表示:受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。
2、架构革新赋能效率跃升——从算法到基建的全链路创新
2.1、混合注意力机制:CSA + HCA
为提升长上下文运算效率,团队设计融合压缩稀疏注意力(CSA)与高强度压缩注意力(HCA)的混合注意力机制:CSA沿序列维度压缩KV缓存,再执行DeepSeek稀疏注意力(DSA);HCA则采用更高压缩率处理KV缓存,同时保留稠密注意力计算。
为强化模型建模能力,引入流形约束超连接(mHC),对传统残差连接完成全面升级。此外,训练环节引入Muon优化器,有效加快收敛速度、提升训练稳定性。

2.2、多项底层基建优化:
为MoE模块设计一体化融合内核,实现计算、通信与内存访问的完全重叠;
采用领域专用语言TileLang,平衡开发效率与运行时性能;
提供批量无关、可确定性内核库,保障训练与推理全程位级可复现;
针对MoE专家权重与索引器QK计算路径,落地FP4量化感知训练,降低内存占用与计算开销;
训练框架层面:拓展自动微分模块,支持张量级检查点,实现精细化重计算控制;搭配适配Muon优化器的混合ZeRO策略、基于重计算与融合内核的低成本mHC 部署方案、面向压缩注意力的双阶段上下文并行策略,全方位提升训练效率;
推理框架层面:设计异构KV缓存架构,结合磁盘存储策略,实现共享前缀的高效复用。

我们认为,作为开源模型,DeepSeek V4的各项技术创新可以被其他国产模型学习,有利于国内整体大模型水平的提高。
3、国产算力协同适配——Day0双首发,助力产业自主可控
3.1、寒武纪:
DeepSeek-V4发布当日,寒武纪已基于vLLM推理框架完成Day0适配,代码开源到GitHub社区。这一成果得益于寒武纪长期积累的自研NeuWare软件生态与芯片设计技术,也是寒武纪对芯片与算法联合创新持续投入的延续。此前,寒武纪已对DeepSeek系列模型开展深入的软硬件协同性能优化,达成业界领先的算力利用率水平。
极致性能优化,释放DeepSeek-V4推理潜能:
针对DeepSeek-V4的新结构,寒武纪通过自研高性能融合算子库Torch-MLU-Ops,对Compressor、mHC等模块进行专项加速;利用BangC高性能编程语言,编写稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel,充分释放硬件底层性能。
在推理框架优化层面,寒武纪在vLLM中全面支持TP/PP/SP/DP/EP 5D混合并行、通信计算并行、低精度量化以及PD分离部署等优化技术,通过策略优化,在满足延时约束下达到最佳的词元吞吐能力,显著提升端到端推理效率。
硬件特性同样被深度挖掘:利用MLU访存与排序加速能力,有效加速稀疏Attention、Indexer等结构;高互联带宽与低通信延时,将Prefill和Decode两种不同工作负载场景下的通信占比降至最低,最大化分布式推理的利用率。
3.2、华为昇腾:
同日,昇腾官方宣布通过与deepseek双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek V4模型推理部署。昇腾A3超节点系列产品也全面适配,同时为便于用户快速微调,提供了基于昇腾A3集群的训练参考实现。
华为公布了适配DeepSeek-V4的具体性能指标,具备重要参考价值:
基于DeepSeek V4-Pro模型,在8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode吞吐4700TPS。DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode吞吐1600TPS。
极低时延的实现源于昇腾950代际底层架构的三大升级:
原生精度加速:全面支持FP8 、MXFP8、MXFP4等数据格式,在保证模型精度的同时,可实现内存占用降低50%+,计算能力翻倍。
稀疏访存优化: 针对MoE模型的离散访存特征,通过大幅提升硬件级稀疏访存能力,有效解决了专家路由过程中的带宽瓶颈。
增强Vector与Cube间的数据通路: 创新的存储架构设计,实现了向量单元(Vector)与矩阵单元(Cube)的Memory通路,极大地降低了端到端推理时延。
我们认为,Day0适配说明DeepSeek与国产芯片厂商在技术预研、软硬协同和测试流程上已形成深入合作机制,有利于国内大模型软硬件产业的协同发展。4、投资建议: 国内算力:寒武纪、东阳光、海光信息、利通电子、协创数据、浪潮信息、华勤技术、网宿科技、芯原股份、华丰科技、亿田智能、豫能控股、星环科技、首都在线、神州数码、百度集团、中芯国际、华虹半导体、中科曙光、润泽科技、大位科技、润建股份、奥飞数据、云赛智联、瑞晟智能、科华数据、潍柴重机、金山云、欧陆通、杰创智能。 海外算力/存储:胜宏科技、中际旭创、东山精密、欧科亿、天孚通信、天岳先进、新易盛、工业富联、兆易创新、大普微、源杰科技、景旺电子、英维克、唯科科技、领益智造等;Lumentum、闪迪、博通、marvell、铠侠、美光、SK海力士、中微公司、北方华创、拓荆科技、长川科技。 CPU:海光信息、中科曙光、澜起科技、禾盛新材、中国长城、龙芯中科、兴森科技、深南电路、宏和科技、广合科技。 AI应用:1)大模型&自定义Agent:智谱、Minimax、腾讯控股、阿里巴巴、科大讯飞。2)星环科技、德才股份、美年健康、真爱美家、中控技术、金蝶国际、迪普科技、云知声、多点数智、聚水潭、迈富时、阜博集团、范式智能、汇量科技等AI INFRA&高景气&高壁垒。其他:空天时代、具身智能等。5、风险提示:
行业竞争加剧的风险;技术研发进度不及预期的风险;特定行业下游资本开支周期性波动的风险。(国金证券:李可夫、刘高畅)注:内容来自网络,未经核实,不构成任何投资建议,请谨慎参考!如有侵权,请私信联系删除!欢迎各位老师点赞、评论、转发,谢谢!㊗️各位老师发大财、股市长虹!
作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。