1. 端侧最强 NPU:雪豹(Snow Leopard)车规级芯片
NPU 架构:自研 DeepNet 3.0(即将升级到 4.0)
算力:128 TOPS(INT8)
工艺:12nm
功耗:典型 1.2W,车规工作温度 -40℃ ~ +125℃
核心能力(多模态 + 大模型推理):
支持 1B–3B 参数大模型端侧离线推理
语音 + 图像多模态融合
端到端语音大模型(知音 2.0)延迟 <90ms
可跑 轻量级 LLM + 语音 ASR/TTS + 图像识别 并发任务
定位:车载、医疗、工业机器人,是目前云知声已量产最强 NPU。
2. 在研最强:第四代 DeepNet 4.0(端侧,2026Q4 流片)
算力:256 TOPS(INT8)
工艺:7nm
功耗:0.8–1W
重点优化:
原生支持 多模态大模型(文本 + 图像 + 语音)
支持 5B–7B 参数模型端侧推理
LPU 式流式解码优化,延迟 <50ms
状态:已完成设计,2026Q4 流片,2027 年量产。
3. 云端 NPU(还没出,规划明确)
立项时间:2026 年初正式启动
定位:训练 + 推理一体,对标昇腾 / 寒武纪
架构:存算一体 + 3D 堆叠 + 自研指令集
算力目标:单卡 2048 TOPS(INT8)
发布预期:2028 年推出(官方路线图口径)
总结:当前最强 = 雪豹(12nm/128TOPS);端侧下一代最强 = DeepNet 4.0(7nm/256TOPS,2027 量产);云端 NPU = 2028 年发布。
二、云端 NPU 大模型预期发布时间
云端 NPU 芯片:2028 年(官方 “2026 启动、2028 落地”)
基于云端 NPU 训练的通用大模型:
山海通用多模态 2.0(文本 + 图像 + 语音 + 视频):2026 年 6 月发布(不需要自家云端 NPU,现在用 Atlas 集群 + 外购算力)
完全基于自研云端 NPU 训练的下一代山海(3.0):2029 年(芯片出来后再训练新一代)
一句话:
多模态大模型(2.0):2026.6(马上就到)
自研云端 NPU:2028
完全 “云知声芯 + 云知声模” 的下一代大模型:2029
三、多模态通用大模型:自研还是基于开源?
结论:100% 全栈自研,不是基于开源模型改的。
官方与技术证据(非常明确)
基座:山海大模型(2023.5 发布,600B 参数)
从 2016 年自建 Atlas 千卡集群 开始训练,从零训练,不是基于 Llama、GLM、LLaMA 2 等开源权重。
官方多次强调:“全栈自研,不依赖开源基座”。
多模态能力(图像 / 语音 / 视频)
图像:自研 ViT + LLM 融合架构(NaViT),非 BLIP/Flux 等开源魔改。
语音:端到端知音 2.0 完全自研,ASR+TTS + 语义一体化,非 Wav2Vec/Whisper 改的。
文档:U1-OCR(3B)自研,OmniDocBench 评测 SOTA。
为什么可以确定不是开源套皮?
医疗评测 MedBench 4.0 全球第一(超过 GPT-4),开源基座做不到这个垂直深度。
端侧芯片(雪豹 / 雨燕)与模型 深度绑定优化,只有自研才能做到 “芯模一体”。
研发投入:312 人研发团队、2025 上半年 1.68 亿研发费,不是小团队 “开源 + 微调” 模式。
补充:开源的部分(只有工具,没有基座)
训练框架:用 PyTorch/TensorFlow(行业通用)
部分小模块:参考开源论文实现(如注意力机制、RWKV 等)
核心基座权重、多模态融合架构、端侧推理优化:全部自研
四、总结
最强 NPU:现在雪豹(128TOPS),明年 DeepNet 4.0(256TOPS);
云端 NPU:2028 年出,配套大模型 2029 年;
多模态大模型:全栈自研,2026.6 发山海 2.0(文 / 图 / 音 / 视频)。
作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。