0426图表:华为昇腾、超聚变、DeepSeek V4-国产算力、国产算力芯片等

2026-04-26 21:59:422

绝大数图表引用韭研公社【产业库】,更多图表可前往公社网站首页或APP工具栏【产业库】查看,欢迎点赞转发~

【华为昇腾】图表

2026年4月25日媒体报道,华为宣布昇腾超节点全系列产品全面支持DeepSeekV4系列模型,模型发布、算力适配同步推进。


【超聚变】图表

2026年4月25日,证监会网站显示,超聚变数字技术股份有限公司(以下简称“超聚变”)首次公开发行股票并上市辅导工作完成,辅导机构为中信证券


【国产算力芯片】图表

2026年4月25日讯,商务部回应美通过《硬件技术控制多边协同法案》等法案;通信领域专家、复旦大学中国研究院特邀研究员汪涛分析,新法案确实会带来一定冲击,但美国长期对华芯片围堵早已常态化,国内早已积累成熟的应对经验;4月23日盘后讯,CPU“严重供不应求” 供应链称国际大厂酝酿Q3再涨价。


【异构计算架构-CANN】图表更新


其他信息

【DeepSeek V4】周末围绕DeepSeekV4的会议很多。大部分的观点是利好国产算力。转一篇会议纪要:

DeepSeek V4会议纪要(据悉内容为AI提炼,不保证准确性,审慎参考)

1、DeepSeek V4模型基本信息

模型架构与参数:V4系列包含2个MOE架构语言模型,V4 Pro总参数1.6T、激活参数量490亿;V4 Flash总参数2840亿、激活参数量130亿,均支持100万token长上下文,训练数据涵盖32T token(含数据、代码、网页、长文档等)。

推理效率优化:100万token上下文设置下,V4 Pro单token推理flops仅为上一代V3.2的27%,KV cache仅为10%。

2、混合注意力架构(核心突破)

机制组成:结合压缩稀疏注意力(CSA)和重度压缩注意力(HCA),解决长上下文场景下O(N²)的计算复杂度和O(N)的KV cache存储复杂度问题,将计算复杂度降至O(NK)(K远小于N)。

CSA(轻度压缩+稀疏注意力):每4个token的KV cache压缩为1个条目,再应用稀疏注意力(仅关注Top K相关压缩KV条目),100万token压缩为25万个条目,适合精准捕捉局部信息。

HCA(重度压缩):压缩率设为128,100万token压缩为约7800个条目,采用稠密注意力,适合全局语义融合。

层级应用:V4 Pro共61层,前2层用HCA,后续59层交错使用CSA和HCA,平衡计算效率与信息捕捉能力。

3、流形约束超连接(MHC)

核心作用:增强transformer块间残差连接的稳定性,通过将残差映射并约束到特定流形,避免模型层数过多(如V4 Pro的61层)导致的残差累积数值爆炸问题,提升信号跨层传播稳定性和模型表达能力。

4、Muon优化器

创新点:将所有参数视为矩阵进行正交更新(传统优化器为单个参数调整步长),实现更快的收敛速度和更高的训练稳定性。

5、KV cache存储与硬件优化

异构KV cache管理:将KV cache分为压缩KV cache(CSA/HCA)和滑动窗口注意力(SWA)相关KV cache,分别定制存储策略。

SSD参与推理:将CSA和HCA压缩后的KV cache存储到SSD,消除共享前缀请求的重复prefill,缓解HBM压力;SWA的KV cache体积为压缩后KV cache的1/8,设计全存储、零存储、checkpoints存储三种方式。

6、通信层优化(细粒度专家并行EP)

方案设计:将MOE层分解为dispatch、combine(通信密集型)和linear one、linear two(计算密集型)四个阶段,将专家拆分调度到波次中,波次内专家完成通信后立即计算,实现计算与通信连续,已在英伟达和华为昇腾NPU验证。

7、模型性能与定价

性能表现:长上下文为核心优势,benchmark跑分与国内头部模型齐平,可比肩海外上一代模型;特定任务(如白领任务)完成质量、复杂度优于Google Gemini 1.5 Pro,但与海外最新闭源模型仍有差距。

定价策略:延续低价普惠路线,V4 Pro输出价格3.5美元/百万tokens(为海外顶尖模型的1/7,略低于智谱GLM-4、Kimi K2.6的4美元区间);Flash版本输入价格极低(如0.1美元/百万tokens),缓存命中价格优势显著。

8、算力基础设施影响

瓶颈优化方向:V4优化聚焦显存(KV cache压缩)和通信瓶颈,百万token任务显存占用可从40G压至4G,相同实例可支持10倍并发(长上下文场景下)。

需求逻辑主导:算法优化带来的供给效率提升(20%-50%)会被需求增长(token量环比每月增长百分之几十)迅速消化,全球AI算力仍供不应求,无需担忧算力需求减少。

9、Agent场景确定性

模型能力内化:DeepSeek报告已将agent作为核心能力(coding与agent融合为原生能力);阿里Qwen 2.5等模型也针对agent场景优化,agent是2026年最确定的AI趋势,将带动tokens、计算、存储、互联需求井喷。

10、国产算力适配

适配积极:V4压缩降低了对显存和带宽的要求,适配国产算力(如昇腾)效果良好;智谱等国产模型厂商对国产算力适配积极,需求端供不应求,核心看供给能力。

11、国产模型竞争格局

短期卖方市场:供给无法满足需求,模型公司普遍满负荷或限售,竞争非主要矛盾。

长期分层趋势:Pro模型攻关高质量任务(非主打性价比,完成任务token消耗较高),Flash模型主打性价比;未来模型将分层,顶尖模型价格上行(完成任务价值量高),二线模型拼性价比(国产模型擅长)。

商业化预期:DeepSeek若推进融资和to B商业化(目前无cloud plan),中期可能增加国产模型商业化竞争,但需求足够大(国内token消耗量2026年或翻5-10倍),各家均有增长空间。

12、应用端机会

核心逻辑:应用公司需在模型之外创造溢价和增量,期待能做出差异化价值的应用公司出现。

Q&A

Q:DeepSeek-V4在算力基础设施层面的优化方向及对算力需求的影响如何?

A:DeepSeek-V4主要通过算法优化解决算力基建的瓶颈,包括通信时延、显存不足等问题,重点优化KV cache以降低显存占用。例如,原本需40G显存的任务可压缩至4G,在长上下文场景下能支持十倍并发。尽管算法优化可提升30%-50%的供给效率,但全球AI市场处于需求主导的蓝海状态,token量环比增速达百分之几十,优化后的算力很快会被需求填满,无需担心算力需求减少。

Q:今年AI领域最确定的方向是什么?

A: 今年最确定的方向是agent,其已成为模型的原生内化能力,coding与agent不再分家。DeepSeek报告中已将模型能力描述从coding转为agent,阿里Qwen 2.5模型也针对agent领域做了专项训练,在workflow或线下系统中表现较好。agent的确定性带动相关需求(tokens、计算、存储、互联)井喷,需通过算法优化瓶颈以支持更多agent并发。

Q:国产算力适配情况及趋势如何?

A: DeepSeek等国产模型厂商对国产算力适配积极乐观,且供不应求。算法压缩降低了对显存和带宽的要求,提升了国产算力适配度。国产算力的问题不在需求端,而在供给端,模型厂商会积极适配填补算力空缺,对海外及国内算力逻辑均为正向触动。

Q:DeepSeek-V4的参数规模及行业趋势是怎样的?

A:DeepSeek-V4参数量从6000亿提升至1.6T,训练参数从十几T增至33T,参数量与训练量均翻倍,延续scaling路线,与NV等最新思路一致。全球AI产业已形成思想统一,海外(如GBP5.5、cloud 467)及国内模型公司均向同一方向发力,趋势持续强化。

Q:DeepSeek-V4的定价策略及国产模型竞争趋势如何?

A:DeepSeek-V4 Pro打25折后价格较低,但未打折时价格不便宜,且完成高质量任务的token消耗量较大,并非主打性价比;flash模型成本低,在简单任务中表现良好,是性价比路线的主力。未来模型市场将分层:最好的模型价格上升(如海外从15美金升至25美金/百万tokens),二线模型主打性价比(国产模型擅长)。短期因需求远大于供给,模型厂商多处于用满或限售状态,竞争并非主要矛盾;中期若DeepSeek推进商业化(如cloud plan),可能增加国产模型商业化来源,但需求足够大(今年国内token消耗量或翻5-10倍),各家均可增长。

【机器狗/四足机器人】2026年4月24日盘后讯,国家电网2026年具身智能发展规划:采购8500台机器人,投资68亿元,四足巡检机器狗为最大单品类,采购数量达5000台

【深海经济】2026年4月24日召开的国务院常务会议指出,要提高经略海洋能力,高效开发利用海洋,推动海洋经济高质量发展,加快建设海洋强国。


作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。

合规声明:本站发布的所有文章及观点均系个人研究共享,投资心得交流,不代表本站立场,且不构成任何形式的投资建议。投资者据此操作,风险自担,请务必保持独立审慎的决策态度。