云知声 NPU和大模型解析

2026-04-24 10:26:3619℃

一、云知声 NPU 最强版性能（当前已发布最强：雪豹 + 第四代 DeepNet）
1. 端侧最强 NPU：雪豹（Snow Leopard）车规级芯片
NPU 架构：自研 DeepNet 3.0（即将升级到 4.0）
算力：128 TOPS（INT8）
工艺：12nm
功耗：典型 1.2W，车规工作温度 -40℃ ~ +125℃
核心能力（多模态 + 大模型推理）：
支持 1B–3B 参数大模型端侧离线推理
语音 + 图像多模态融合
端到端语音大模型（知音 2.0）延迟 <90ms
可跑轻量级 LLM + 语音 ASR/TTS + 图像识别并发任务
定位：车载、医疗、工业机器人，是目前云知声已量产最强 NPU。
2. 在研最强：第四代 DeepNet 4.0（端侧，2026Q4 流片）
算力：256 TOPS（INT8）
工艺：7nm
功耗：0.8–1W
重点优化：
原生支持多模态大模型（文本 + 图像 + 语音）
支持 5B–7B 参数模型端侧推理
LPU 式流式解码优化，延迟 <50ms
状态：已完成设计，2026Q4 流片，2027 年量产。
3. 云端 NPU（还没出，规划明确）
立项时间：2026 年初正式启动
定位：训练 + 推理一体，对标昇腾 / 寒武纪
架构：存算一体 + 3D 堆叠 + 自研指令集
算力目标：单卡 2048 TOPS（INT8）
发布预期：2028 年推出（官方路线图口径）
总结：当前最强 = 雪豹（12nm/128TOPS）；端侧下一代最强 = DeepNet 4.0（7nm/256TOPS，2027 量产）；云端 NPU = 2028 年发布。
二、云端 NPU 大模型预期发布时间
云端 NPU 芯片：2028 年（官方 “2026 启动、2028 落地”）
基于云端 NPU 训练的通用大模型：
山海通用多模态 2.0（文本 + 图像 + 语音 + 视频）：2026 年 6 月发布（不需要自家云端 NPU，现在用 Atlas 集群 + 外购算力）
完全基于自研云端 NPU 训练的下一代山海（3.0）：2029 年（芯片出来后再训练新一代）
一句话：
多模态大模型（2.0）：2026.6（马上就到）
自研云端 NPU：2028
完全 “云知声芯 + 云知声模” 的下一代大模型：2029
三、多模态通用大模型：自研还是基于开源？
结论：100% 全栈自研，不是基于开源模型改的。
官方与技术证据（非常明确）
基座：山海大模型（2023.5 发布，600B 参数）
从 2016 年自建 Atlas 千卡集群开始训练，从零训练，不是基于 Llama、GLM、LLaMA 2 等开源权重。
官方多次强调：“全栈自研，不依赖开源基座”。
多模态能力（图像 / 语音 / 视频）
图像：自研 ViT + LLM 融合架构（NaViT），非 BLIP/Flux 等开源魔改。
语音：端到端知音 2.0 完全自研，ASR+TTS + 语义一体化，非 Wav2Vec/Whisper 改的。
文档：U1-OCR（3B）自研，OmniDocBench 评测 SOTA。
为什么可以确定不是开源套皮？
医疗评测 MedBench 4.0 全球第一（超过 GPT-4），开源基座做不到这个垂直深度。
端侧芯片（雪豹 / 雨燕）与模型深度绑定优化，只有自研才能做到 “芯模一体”。
研发投入：312 人研发团队、2025 上半年 1.68 亿研发费，不是小团队 “开源 + 微调” 模式。
补充：开源的部分（只有工具，没有基座）
训练框架：用 PyTorch/TensorFlow（行业通用）
部分小模块：参考开源论文实现（如注意力机制、RWKV 等）
核心基座权重、多模态融合架构、端侧推理优化：全部自研
四、总结
最强 NPU：现在雪豹（128TOPS），明年 DeepNet 4.0（256TOPS）；
云端 NPU：2028 年出，配套大模型 2029 年；
多模态大模型：全栈自研，2026.6 发山海 2.0（文 / 图 / 音 / 视频）。

作者声明：本文转载自第三方，旨在提供资讯参考，并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日，作者与文中提及的标的不存在持仓关系。