据外媒报道,据两位知情人士透露(作者注:未经产业核实,请慎重对待此消息)华为昇腾950PR在中国客户测试进展顺利,包括字节跳动和阿里巴巴在内的多家科技巨头计划下单。这一进展对华为而言具有里程碑意义,对中国AI市场也具有重要里程碑意义。据透露,本土互联网大厂此次计划更广泛地使用新款 950PR 芯片,因为该芯片与英伟达 CUDA 软件系统的兼容性更强,响应速度也更快,这让他们更加满意。据透露,华为计划今年出货约 75 万颗 950PR 芯片,采用传统DDR显存的950PR显卡售价约为每张5万元人民币(约合6900美元),而配备速度更快的HBM显存的高端版本售价约为7万元人民币。如果以昇腾950PR单卡售价7万元(HBM版)计算,此次销售营收合计525亿元!
此前,华为一直坚持使用其自主研发的CANN软件系统,而昇腾950PR将使此前普遍使用英伟达软件系统的中国科技公司开发者能够更轻松地迁移这些模型。
2025年9月18日,在华为全联接大会上,华为副董事长、轮值董事长徐直军在“以开创的超节点互联技术,引领AI基础设施新范式”主题演讲中披露了华为接下来三年的昇腾芯片规划和演进方向。徐直军披露2026年第一季度将要发布昇腾950PR,2026年年第四季度发布昇腾950DT。2027年第四季度要发布昇腾960、2028年发布昇腾970。2025年,英伟达一直推动其H200在中国的销售,这里将H200与昇腾950PR做一对比。

👉 一句话总结:单卡硬件能力:H200仍明显更强(尤其带宽)低精度推理:昇腾950PR有结构性优势二、性能本质差异(重点)1️⃣ 单卡算力:H200仍领先H200 FP8算力约接近2 PFLOPS950PR约1 PFLOPS级别👉 结论:训练、大模型计算 → H200更强2️⃣ 低精度推理:950PR“弯道超车”950PR重点押注:FP4 / 混合精度KV Cache优化官方数据:FP4达1.56 PFLOPS 👉 关键变化:LLM推理正在从 FP16 → FP8 → FP4,华为直接“跳两代精度” 结论:推理(尤其大模型在线服务)→ 950PR更有性价比潜力3️⃣ 内存与带宽:H200碾压H200:~4.8 TB/s950PR:~1.4 TB/s 👉 这点极其关键:LLM瓶颈 = memory bound。带宽直接决定token吞吐 结论:大模型训练 / 长上下文推理 → H200优势明显4️⃣ 多卡集群能力(真正分水岭)H200:NVLink成熟千卡集群效率 >90%(行业事实) 950PR:新互联(LingQu)带宽提升,但生态尚未验证👉 结论:超大模型训练 → NVIDIA仍是唯一解三、架构思路差异(非常关键)NVIDIA H200本质:“通用加速器 + CUDA生态统治”特点:强Tensor Core高带宽HBMCUDA锁死开发者华为昇腾950PR,本质:“为AI推理重构的专用芯片”特点:极致低精度(FP4)KV cache友好更像“AI推理ASIC”四、生态对比(决定胜负)NVIDIACUDA:400万开发者 框架全适配(PyTorch / TensorFlow)软件定义算力👉 结论:生态=护城河华为昇腾MindSpore + CANN正在兼容CUDA生态 👉 关键变化:过去最大短板:软件。现在在补:兼容层五、价格 &商业现实950PR:约 $6,000–$10,000 H200:通常 $20,000+(行业区间)👉 结论:价格差:2–3倍可以理解为:NVIDIA的产品是 “AI时代的Intel(通用计算)”而华为昇腾:
则是 “AI时代的ASIC(场景优化)”。H200 = 天花板性能 + 生态垄断
950PR = 成本优势 + 推理重构路径】,所以在推理规模化普及的今天加之大模型训推本土化,昇腾950PR可能更受青睐!在刚刚结束的华为中国合作伙伴大会2026上,华为重磅发布并展出了搭载全新昇腾950PR(Ascend 950PR)处理器的AI训练推理加速卡Atlas 350。据华为介绍,Atlas 350的单卡算力达到了英伟达H20的2.87倍,是目前国内唯一支持FP4低精度的推理产品;HBM(高带宽内存)容量是H20的1.16倍,达到了112GB,多模态生成速度可以提升60%;内存访问颗粒度从512字节减少到128字节,小算子访存效率提升4倍。看来,国产算力芯片已经逐步追上来了!那更进一步,如同英伟达链一样,随着国产算力芯片崛起,也一定会带动本土算力产业链各个环节如封测、线缆、电源、光器件走强!
作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。