谷歌 TPU v8 解读

2026-04-22 22:38:454

谷歌 TPU v8 解读


谷歌把 AI 芯片一刀切成两半,一块专门用于训练大模型,一块专门用于运行推理,因为这两项任务所需的硬件架构和核心需求已经完全不同。


训练芯片(8t):追求极致规模


一口气可串联 13.4 万颗芯片进行大模型训练,最大规模还可进一步扩展至 100 万颗。


首次支持 4-bit 计算(FP4),在同等算力规模下,运算速度实现翻倍提升。


存储读取速度相比上一代产品快 10 倍,彻底解决芯片等待数据传输的核心痛点,实现数据与计算的高效匹配。


推理芯片(8i):追求极致低延迟


芯片内部集成了 3 倍大的缓存,在 AI 对话等实时交互场景中,无需反复远距离调取数据,显著提升响应速度。


新增同步加速器(CAE),让多颗芯片协同工作时,彼此间的等待时间缩短 80%,大幅提升集群协作效率。


最关键的创新:互联拓扑重构


将传统的"邻居串门"式互联拓扑,升级为全员直连模式。


针对 MoE 模型,每个 token 可能需要调用任意专家模块,不再需要逐跳跳转,最多 7 跳即可到达任意芯片,传输效率比之前提升一倍。


核心突破并非单纯算力提升,而是架构分叉 —— 训练芯片(8t)采用 Torus 架构追求极致规模,推理芯片(8i)则通过 Boardfly 架构 + 同步加速器 + 大容量 SRAM,专攻低延迟需求。


MoE 模型改变了传统通信模式,推理集群全面采用 OCS 全互联技术。


隐藏关键细节:推理芯片的光路交换机(OCS)


推理芯片的"全员直连"互联,核心依赖光路交换机(OCS)。


光路交换机直接通过光信号进行连接切换,无需电信号转换,实现极低延迟传输。


此前光路交换机仅在训练集群使用,如今推理集群也全面部署,直接推动相关产业链市场空间翻倍。


谷歌第八代 TPU 对比上一代 Ironwood 核心提升


训练性价比提升 2.7 倍,推理性价比提升 1.8 倍,整体能效实现翻倍。


存储访问速度快 10 倍,片上缓存容量大 3 倍,多芯片协作等待时间缩短 5 倍。


芯片间互联带宽翻倍,数据中心骨干网带宽最高翻 4 倍。


全互联通信跳数从 16 跳降至 7 跳,减少 56% 的通信损耗。


推理芯片 HBM 容量从 216GB 提升至 288GB,带宽从 6528GB/s 提升至 8601GB/s。


集群规模从数万颗芯片扩展至 13.4 万颗,最大可连接 100 万颗芯片。


对英伟达的核心影响


若谷歌对外售卖 TPU,将对英伟达形成显著冲击,但真正威胁并非来自 TPU 产品本身。


核心威胁是 TPU 验证的"训练 / 推理分叉"路线,将被行业广泛采用。


行业共识显示,推理算力需求是训练的 3-5 倍,若推理市场被自研 ASIC 芯片逐步蚕食,英伟达的可触达市场规模将大幅缩水。


行业连锁反应


CSP 厂商纷纷开启自研芯片布局,达子(高端芯片)的稀缺性逐渐稀释,不再是唯一核心选择。


推理 ASIC 芯片迎来发展机遇,芯原和翱捷(刚成立子公司)将迎来业务发展的黄金时期。


工艺层面核心受益:天孚通信


推理芯片的 OCS 全互联技术,直接利好 OCS 产业链,其中天孚通信是核心受益标的。


OCS 核心部件为 MEMS 微镜阵列,天孚通信负责微镜的封装与光纤耦合工艺。


FAU 光纤阵列为天孚通信自产核心产品,OCS 的每个端口均需配备该部件。


天孚通信最新公告


公司配合客户开发 CPO 配套 FAU、ELS 产品,并持续增加产能,其核心客户即为谷歌、英伟达等全球顶尖科技企业。


公司 1.6T 光引擎已处于量产状态,目前因个别物料缺料暂未达到预期产量,正积极协调供应商,争取增加产品交付量。


其他 OCS 产业链受益标的


腾景、赛微、光库等企业,同样具备 OCS 产业链受益逻辑,将同步分享行业发展红利。


作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。

合规声明:本站发布的所有文章及观点均系个人研究共享,投资心得交流,不代表本站立场,且不构成任何形式的投资建议。投资者据此操作,风险自担,请务必保持独立审慎的决策态度。