Deepseek V4扎根昇腾,明日发布,中美AI算力脱钩的

2026-04-06 21:09:574




4 月 3 日,美国科技媒体 The Information 发了一篇报道,在 AI 圈炸开了锅。报道援引五位知情人士的说法称,DeepSeek 下一代大模型 V4 将运行在华为昇腾芯片上,并且打破了 AI 行业多年来的惯例——没有给英伟达和 AMD 提供新模型的早期访问权限。据报道,阿里、字节、腾讯已经向华为订购了数十万颗即将推出的昇腾 950PR 芯片,准备用 DeepSeek V4 撑起自己的云服务。这个信号很难被忽视:国产 AI 算力产业正在经历一次从"能不用就不用"到"争着抢着用"的态度翻转。
据报道,阿里、字节、腾讯已经向华为订购了数十万颗即将推出的昇腾 950PR 芯片,准备用 DeepSeek V4 撑起自己的云服务。这个信号很难被忽视:国产 AI 算力产业正在经历一次从"能不用就不用"到"争着抢着用"的态度翻转。
打破惯例:优先适配国产芯片在 AI 行业里,有一个不成文的规矩:模型发布之前,公司会把新模型提前交给英伟达、AMD 等芯片厂商做性能适配。这样做很合理——芯片厂商需要拿到模型,才能在自己的硬件上做针对性优化,优化完的结果往往也会写进联合论文或发布会的 PPT 里,双方共赢。DeepSeek 这次直接跳过了这个环节。V4 的早期访问权限只给了华为和寒武纪两家国产芯片公司。据 The Information 报道,DeepSeek 甚至为此专门推迟了 V4 的发布时间,花了数月时间与华为和寒武纪的工程师合作,重写了模型底层代码的部分模块,以确保在昇腾芯片上能稳定运行。
这种"主动选择"和"被迫接受"的区别很重要。之前的叙事一直是"美国限制了中国拿到先进芯片",现在变成了"中国头部 AI 公司主动选择不和英伟达合作"。后者对行业信心的冲击要大得多。
理解这次合作的意义,得先看看华为拿出了什么。2026 年 3 月,华为在合作伙伴大会上正式发布了搭载昇腾 950PR 处理器的 Atlas 350 加速卡,目标很明确:在 AI 推理场景对标并超越英伟达面向中国市场推出的 H20。

这份数据很说明问题。在算力和内存容量上,昇腾 950PR 确实跑在了 H20 前面。特别是它支持 FP4 低精度格式,可以将一个 700 亿参数模型在推理时的显存占用从 FP16 的约 140GB 压缩到 35GB 左右,这对大规模部署意味着成本量级的下降。但也要看到短板。昇腾 950PR 的内存带宽只有英伟达 H20 的大约三分之一,功耗也高出 50% 左右。内存带宽直接影响数据搬运速度,在大模型推理时可能成为瓶颈。换句话说,华为选择了"用更高的算力和更大的内存容量来弥补带宽不足"的路径——这像是一场“错位突围”,但不是全面超越。
DeepSeek 转向华为不是一拍脑袋的决定,而是在"理想"和"现实"之间反复拉锯后的第二次尝试。第一次合作失败的经验,恰恰让第二次合作更有针对性——这次 DeepSeek 不再追求全流程(训练+推理)一步到位,而是采取了更务实的分层策略。据 The Information 和多家国内媒体报道,V4 的训练仍然在英伟达高端 GPU 上完成,但推理阶段将运行在昇腾 950PR 上。推理和训练的分开处理,其实是一种很聪明的妥协——训练对算力和软件生态的要求极高,国产芯片暂时还难以完全胜任;但推理场景相对单一、容错空间更大,是目前国产芯片最有可能做出成绩的切入点。
如果只是 DeepSeek 一家在用华为芯片,这最多算一次技术合作。但真正让这件事变成行业级别信号的,是阿里、字节、腾讯三家巨头的集体行动。据 The Information 报道,这三家公司合计向华为订购了数十万颗昇腾 950PR 芯片,计划通过各自的云服务提供基于 DeepSeek V4 的 AI 能力。这些公司并不是在赌气做政治表态——它们是算力的大批量采购方和实际使用者,每一颗芯片都要算账。它们选择华为,说明一个基本判断已经形成:在推理场景下,昇腾 950PR 的性价比已经达到了商业可用门槛。考虑到英伟达高端芯片受到出口管制、H20 本身就是"阉割版"、而国内 AI 推理需求又在爆发式增长,转向国产芯片既是对冲供应链风险,也是从成本角度做的理性选择。对华为来说,DeepSeek 主动适配是一次极其重要的"背书"。国产 AI 芯片长期面临一个鸡生蛋问题:没有模型愿意跑,芯片就没有优化动力;没有芯片优化,模型就更不愿意跑。DeepSeek V4 的适配,相当于有人在鸡蛋上戳了第一个洞——接下来的生态迭代速度可能会比预想快得多。
把 DeepSeek V4 的芯片选择放到更大的图景里看,这件事代表了几个层面的变化。第一,出口管制的反效果开始显现。美国限制中国获得先进芯片,初衷是保持技术代差。但现实是,这种限制反而加速了中国国内芯片产业的迭代。一年前,国产 AI 芯片在训练场景还几乎不可用;一年后,推理场景已经出现了有竞争力的替代方案。限制越紧,替代的动力就越强。第二,CUDA 生态的护城河正在被绕过。英伟达真正的壁垒从来不只是芯片硬件,而是花了近 20 年构建的 CUDA 软件生态——300 多个加速库、数百万开发者、几乎所有 AI 框架的第一优先适配平台。华为 CANN Next 的策略很聪明:不是从头建一个独立生态,而是在接口层兼容 CUDA,让开发者可以低代价迁移。这条路能不能走通还不好说,但方向是清晰的。第三,中国 AI 周调用量已连续数周超过美国。据最新数据,中国 AI 周调用量达到 7.359 万亿 Token。需求端的规模优势正在转化为产业优势——当推理需求足够大时,即使国产芯片单卡性能略逊,集群规模和成本优势也能补上差距。

作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。

合规声明:本站发布的所有文章及观点均系个人研究共享,投资心得交流,不代表本站立场,且不构成任何形式的投资建议。投资者据此操作,风险自担,请务必保持独立审慎的决策态度。