DeepSeek V4发布,国产算力加速

2026-04-27 08:18:562
1、DeepSeek-V4重磅发布——百万上下文普惠时代正式启幕  2026年4月24日,DeepSeek正式上线并开源DeepSeek-V4预览版,同步发布完整技术报告。此次发布分为两个版本:DeepSeek-V4-Pro(1.6万亿总参数,49B激活参数)和DeepSeek-V4-Flash(2840亿总参数,13B激活参数)DeepSeek通过架构创新大幅降低了计算和内存成本,V4-Pro与V4-Flash最大上下文长度为1M,技术报告数据显示,在100万Token场景下,相比V3.2,V4-Pro单Token推理FLOPs相比V3.2降低3.7倍,KV Cache降低9.5 倍;V4-Flash进一步降低至FLOPs的1/9.8、KV Cache的1/13.7。这意味着处理同等长度上下文的硬件成本大幅下降,使百万Token推理在商业环境中具备实际可行性。





DeepSeek-V4-Pro-Max(最高推理强度模式)在多个维度的核心评测表现如下:



Agent能力大幅提高:相比前代模型,DeepSeek-V4-Pro的Agent能力显著增强。在Agentic Coding评测中,V4-Pro已达到当前开源模型最佳水平,并在其他Agent相关评测中同样表现优异。目前DeepSeek-V4已成为公司内部员工使用的Agentic Coding模型,据评测反馈使用体验优于Sonnet 4.5,交付质量接近Opus 4.6非思考模式,但仍与Opus 4.6思考模式存在一定差距。



丰富的世界知识:DeepSeek-V4-Pro在世界知识测评中,大幅领先其他开源模型,仅稍逊于顶尖闭源模型Gemini-Pro-3.1。



世界顶级推理性能:在数学、STEM、竞赛型代码的测评中,DeepSeek-V4-Pro超越当前所有已公开评测的开源模型,取得了比肩世界顶级闭源模型的优异成绩。



成本方面,DeepSeek-V4-Pro定价输入百万token输入成本为1元(缓存命中)/12(缓存未命中),百万token输出成本为24元。deepseek 官方表示:受限于高端算力,目前Pro的服务吞吐十分有限,预计下半年昇腾950超节点批量上市后,Pro的价格会大幅下调。
2、架构革新赋能效率跃升——从算法到基建的全链路创新



2.1、混合注意力机制:CSA + HCA



为提升长上下文运算效率,团队设计融合压缩稀疏注意力(CSA)与高强度压缩注意力(HCA)的混合注意力机制:CSA沿序列维度压缩KV缓存,再执行DeepSeek稀疏注意力(DSA);HCA则采用更高压缩率处理KV缓存,同时保留稠密注意力计算。



为强化模型建模能力,引入流形约束超连接(mHC),对传统残差连接完成全面升级。此外,训练环节引入Muon优化器,有效加快收敛速度、提升训练稳定性。





2.2、多项底层基建优化:



为MoE模块设计一体化融合内核,实现计算、通信与内存访问的完全重叠;



采用领域专用语言TileLang,平衡开发效率与运行时性能;



提供批量无关、可确定性内核库,保障训练与推理全程位级可复现;



针对MoE专家权重与索引器QK计算路径,落地FP4量化感知训练,降低内存占用与计算开销;



训练框架层面:拓展自动微分模块,支持张量级检查点,实现精细化重计算控制;搭配适配Muon优化器的混合ZeRO策略、基于重计算与融合内核的低成本mHC 部署方案、面向压缩注意力的双阶段上下文并行策略,全方位提升训练效率;



推理框架层面:设计异构KV缓存架构,结合磁盘存储策略,实现共享前缀的高效复用。





我们认为,作为开源模型,DeepSeek V4的各项技术创新可以被其他国产模型学习,有利于国内整体大模型水平的提高。
3、国产算力协同适配——Day0双首发,助力产业自主可控



3.1、寒武纪



DeepSeek-V4发布当日,寒武纪已基于vLLM推理框架完成Day0适配,代码开源到GitHub社区。这一成果得益于寒武纪长期积累的自研NeuWare软件生态与芯片设计技术,也是寒武纪对芯片与算法联合创新持续投入的延续。此前,寒武纪已对DeepSeek系列模型开展深入的软硬件协同性能优化,达成业界领先的算力利用率水平。



极致性能优化,释放DeepSeek-V4推理潜能:



针对DeepSeek-V4的新结构,寒武纪通过自研高性能融合算子库Torch-MLU-Ops,对Compressor、mHC等模块进行专项加速;利用BangC高性能编程语言,编写稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel,充分释放硬件底层性能。



在推理框架优化层面,寒武纪在vLLM中全面支持TP/PP/SP/DP/EP 5D混合并行、通信计算并行、低精度量化以及PD分离部署等优化技术,通过策略优化,在满足延时约束下达到最佳的词元吞吐能力,显著提升端到端推理效率。



硬件特性同样被深度挖掘:利用MLU访存与排序加速能力,有效加速稀疏Attention、Indexer等结构;高互联带宽与低通信延时,将Prefill和Decode两种不同工作负载场景下的通信占比降至最低,最大化分布式推理的利用率。



3.2、华为昇腾:



同日,昇腾官方宣布通过与deepseek双方芯模技术紧密协同,实现昇腾超节点全系列产品支持DeepSeek V4系列模型。昇腾950通过融合kernel和多流并行技术降低Attention计算和访存开销,大幅提升推理性能,结合多种量化算法,实现了高吞吐、低时延的DeepSeek V4模型推理部署。昇腾A3超节点系列产品也全面适配,同时为便于用户快速微调,提供了基于昇腾A3集群的训练参考实现。



华为公布了适配DeepSeek-V4的具体性能指标,具备重要参考价值:



基于DeepSeek V4-Pro模型,在8K输入场景,昇腾950超节点可实现TPOT约20ms时单卡Decode吞吐4700TPS。DeepSeek V4-Flash模型,8K长序列输入场景下可实现TPOT约10ms时单卡Decode吞吐1600TPS。



极低时延的实现源于昇腾950代际底层架构的三大升级:



原生精度加速:全面支持FP8 、MXFP8、MXFP4等数据格式,在保证模型精度的同时,可实现内存占用降低50%+,计算能力翻倍。



稀疏访存优化: 针对MoE模型的离散访存特征,通过大幅提升硬件级稀疏访存能力,有效解决了专家路由过程中的带宽瓶颈。



增强Vector与Cube间的数据通路: 创新的存储架构设计,实现了向量单元(Vector)与矩阵单元(Cube)的Memory通路,极大地降低了端到端推理时延。



我们认为,Day0适配说明DeepSeek与国产芯片厂商在技术预研、软硬协同和测试流程上已形成深入合作机制,有利于国内大模型软硬件产业的协同发展。4、投资建议:  国内算力:寒武纪东阳光海光信息利通电子协创数据浪潮信息华勤技术网宿科技芯原股份华丰科技亿田智能豫能控股星环科技首都在线神州数码、百度集团、中芯国际、华虹半导体、中科曙光润泽科技大位科技润建股份奥飞数据云赛智联瑞晟智能科华数据潍柴重机、金山云、欧陆通杰创智能。  海外算力/存储:胜宏科技中际旭创东山精密欧科亿天孚通信天岳先进新易盛工业富联兆易创新、大普微、源杰科技景旺电子英维克唯科科技领益智造等;Lumentum、闪迪、博通、marvell、铠侠、美光、SK海力士、中微公司北方华创拓荆科技长川科技。  CPU:海光信息中科曙光澜起科技禾盛新材中国长城龙芯中科兴森科技深南电路、宏和科技广合科技。  AI应用:1)大模型&自定义Agent:智谱、Minimax、腾讯控股、阿里巴巴、科大讯飞。2)星环科技德才股份美年健康真爱美家中控技术、金蝶国际、迪普科技、云知声、多点数智、聚水潭、迈富时、阜博集团、范式智能、汇量科技等AI INFRA&高景气&高壁垒。其他:空天时代、具身智能等。5、风险提示:



行业竞争加剧的风险;技术研发进度不及预期的风险;特定行业下游资本开支周期性波动的风险。(国金证券:李可夫、刘高畅)注:内容来自网络,未经核实,不构成任何投资建议,请谨慎参考!如有侵权,请私信联系删除!欢迎各位老师点赞、评论、转发,谢谢!㊗️各位老师发大财、股市长虹!

作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。

合规声明:本站发布的所有文章及观点均系个人研究共享,投资心得交流,不代表本站立场,且不构成任何形式的投资建议。投资者据此操作,风险自担,请务必保持独立审慎的决策态度。