万通智控绑定深明奥思 LPU流片在即!推理性能 ≈ H200!!

2026-03-12 17:50:112



按照拍摄位置来说,基本上是真的


————————————————

从你这张图里能读出的 深明奥思 F100(深思F100 HP)推理数据,大致情况其实挺关键,我给你拆一下核心信息。

一、图里核心测试条件

测试模型:


Llama v3.1 8B


精度 FP8


batch=256


带宽 BW = 4.4TB/s


这已经说明它是 推理芯片测试(Inference),不是训练。

二、F100 vs H200 性能(图中第一行最清晰)输入输出H200吞吐F100板卡吞吐128204826,221 tokens/s25,944 tokens/s

结论:

👉 F100 ≈ H200 同级吞吐

基本是 1:1 对标 H200

三、单用户性能

图里有一列:

LPU Single User

第一行:

101 tokens/s

这其实是很关键的数据。

意义:


单用户对话速度


ChatGPT 类应用的真实体验速度


一般:

芯片单用户速度H10030–60 tokens/sH20060–100 tokens/sF100≈101 tokens/s

说明:

👉 单用户体验基本对标 H200

四、为什么LPU能接近GPU

LPU架构核心特点:

1️⃣ 专用Transformer计算

只支持:


Llama


GPT


Transformer


不支持 CNN、RNN 等模型。

因此:


计算单元利用率 >90%


GPU通常 30%左右


2️⃣ SRAM高带宽架构

有消息称:


SRAM带宽 ≈80TB/s


HBM带宽 ≈3TB/s


所以推理延迟极低。

3️⃣ 推理专用芯片

它不是GPU路线:

GPULPU通用计算Transformer专用训练+推理只做推理HBMSRAM五、这组数据客观评价

如果图是真实测试:

结论其实很震撼

国产创业公司:

推理性能 ≈ H200

而H200是:


2024最强AI推理GPU之一。


但要注意三点:

1 是否真实公开Benchmark

目前:


没看到公开论文


没看到MLPerf测试


只有企业内部PPT


可信度 需要验证

2 模型规模只有8B

测试模型:

Llama 8B

不是:


70B


405B


大模型扩展能力未知。

3 单卡 vs GPU集群

GPU优势在:


生态


NVLink


集群


LPU优势:



推理效率


latency

作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。

标签: ChatGPT芯片

合规声明:本站发布的所有文章及观点均系个人研究共享,投资心得交流,不代表本站立场,且不构成任何形式的投资建议。投资者据此操作,风险自担,请务必保持独立审慎的决策态度。