Alphabet Inc.旗下谷歌云部门发布了最新一代张量处理单元(TPU),这款自主研发的芯片旨在提升人工智能计算服务的速度与效率。该公司周三在谷歌云Next大会上宣布,新一代TPU将推出两种版本。TPU8t专为开发人工智能软件而设计,而TPU8i则用于运行已开发完成的人工智能服务一-这一阶段被称为推理。在英伟达主导的行业中,谷歌已成为最成功的内部AI芯片制造商之一。近几个月来,TPU在硅谷已成为热门商品,该公司正试图凭借最新版本延续这一努力是更广泛推动降低AI软件部署成本和能耗的一部分。该公司还在努力提升服务的响应速度。新款TPU在芯片上存储更多信息,有助于提供用户渴望的快速响应。但对日益复杂软件层级的需求仍在持续增长。
谷歌计算与人工智能基础设施副总裁马克·洛迈尔表示:"关键在于如何以最低的每笔交易成本实现最低的响应延迟。交易数量正在大幅增加,而每笔交易成本需要大幅降低才能实现规模化发展。创建人工智能服务与软件需要依赖能够快速筛选海量数据的系统,从而建立关联并形成可数学化的模式。在运行软件服务时,具备大容量集成内存的处理器能显著提升推理效率。这种设计能实现更即时的人工智能响应,因为组件无需从外部存储调取信息。当计算机通过多步骤推理解决问题,并能从自身操作中学习时,这种架构尤其具有优势。
训练芯片8t可以组合成9600个半导体为一组的集群。谷歌表示,在部署如此庞大的系统时,电力正日益成为数据中心的主要制约因素。因此,数据中心所有者需要更高效的系统,以便在有限的电力供应下获得最佳性能。TPU8t的每瓦性能比上一代提升了124%,而TPU8i则提升了117%。这一性能提升得益于内部网络技术的改进,增强了芯片间高效通信的能力。谷歌在一份声明中表示,基于这些芯片的人工智能系统将于“今年晚些时候全面上市"。公司表示,将继续为希望使用当前主导人工智能计算的系统的客户提供基于英伟达芯片的服务。洛迈尔称,谷歌计划成为首批部署基于英伟达下半年新设计硬件的公司之一。
第八代TPU内部:架构深度解析
在谷歌,我们的TPU设计理念始终围绕三大支柱展开:可扩展性、可靠性与效率。随着AI模型从密集型大语言模型(LLMs)演进至庞大的专家混合模型(MoEs)以及推理密集型架构,硬件不仅需要提升每秒浮点运算次数(FLOPS),更必须针对最新工作负载的特定运算强度进行深度优化。
智能体人工智能的兴起需要能够处理长上下文窗口和复杂顺序逻辑的基础设施。与此同时,世界模型已成为当前数据序列预测架构的必要演进方向,这意味着新一代智能体正在模拟未来场景、预测后果,并通过"想象"进行学习,而非依赖高风险的试错过程。第八代TPU(TPU8t与TPU8i)正是我们应对这些挑战的解决方案,确保从训练的首个标记到多轮推理链的最终步骤,每个工作负载都能运行在最优化路径上。它们专为高效训练和服务诸如Google DeepMind:的Genie3等世界模型而构建,使数百万智能体能够在多样化模拟环境中持续锤炼推理能力。
TPU8:为专业而生
认识到预训练、后训练和实时服务的勺基础设施需求已出现分化,我们的第八代TPU推出了两个独立系统:TPU8t与TPU8i.这些新系统是谷歌云AI超算机(AIHypercomputer)的核心组件--这是一个集硬件、软件与网络于一体的超级计算架构,旨在为完整AI生命周期提供动力.虽然两个系统共享谷歌AI技术栈的核心基因并支持全周期AI工作流,但各自针对开发关键阶段的不同瓶颈进行了专项优化.此外,通过在第八代TPU系统中集成基于Arm架构的Axion CPU处理单元,我们消除了数据准备延迟导致的主机瓶劲顶.Axion提供了处理复杂数据预处理与编排任务的计算余量,确保TPU持续获得数据供给而无需停滞。
TPU8t:预训练性能引擎
专为大规模预训练和嵌入密集型工作负载优化,TPU8t在我们成熟的3D环面网络拓扑基础上,将单个超级荚的芯片规模提升至9,600枚。TPU8t的设计旨在实现数百个超级荚间的最大吞吐量,确保训练任务按计划推进。
以下是TPU8t相较于前代TPU的关键突破:
稀疏核心优势:TPU8t的核心是稀疏核心,这是一种专为处理嵌入查找不规则内存访问模式而设计的专用加速器。矩阵乘法单元负责矩阵运算,而稀疏核心则卸载数据依赖的全收集操作及其他集合通信,避免了通用芯片常见的零操作瓶颈。
VPU/MXU重叠与均衡扩展:TPU8t旨在最大化配置浮点运算利用率。通过实现更均衡的向量处理单元(VPU)扩展架构,该设计最大限度减少了向量运算的暴露时间。这使得量化、Softmax和层归一化操作能更好地与MXU中的矩阵乘法重叠执行,确保芯片持续处于工作状态,而非等待顺序执行的向量任务。
原生FP4支持:TPU8t引入原生4位浮点(FP4)运算以突破内存带宽瓶颈,在保持大模型低精度量化准确性的同时,使MXU吞吐量翻倍。通过减少每个参数的比特数,该平台显著降低了高能耗的数据传输需求,并使更大规模的模型层能够驻留于本地硬件缓冲区,从而实现峰值计算利用率。
TPU8i:专精采样与推理服务的专家
为优化训练后处理及高并发推理场景,我们设计的TPU8i搭载了历代最高的片上SRAM容量,全新集体运算加速引擎(CAE),以及专为服务优化的新型网络拓扑架构Boardfy。
·超大容量片上SRAM:凭借较前代提升3倍的片上SRAM,TPU8i能够将完整的KV缓存完全承载于芯片内部,大幅减少长文本解码过程中核心的空闲等待时间。
·集合加速引擎(CAE):为解决采样瓶颈,TPU8i采用CAE技术,以近乎零延迟跨核心聚合运算结果,专门加速自回归解码与"思维,链"处理所需的规约与同步步骤。每颗TPU8i芯片包含两个位于核心裸片的张量核心(TC),以及一个位于小芯片裸片的CAE单元,取代了前代IronwoodTPU核心裸片上的四个稀疏核心(SC)。通过集成专用CAE,TPU8i将片上集合操作延迟进一步降低5倍。每次集合操作延迟的降低意味着等待时间缩短,直接助力实现数百万智能体并发运行所需的高吞吐量。
BoardflyICI拓扑结构:虽然三维环面架构能够将数千枚芯片协同连接,但大型网状结构确实存在芯片间跳数较多、全对全通信延迟较高的问题。针对TPU8i,我们改变了芯片在完全互联板卡上的连接方式,再将多块板卡聚合为集群。通过采用高基数设计,我们实现了多达1,152枚芯片的互联,有效缩减了网络直径和数据包穿越系统所需的跳数。凭借对全对全通信(MoE与推理模型的核心环节)所需跳数的大幅削减,Boardfly在通信密集型工作负载中实现了高达50%的延迟优化。
深度解析:Boardfly与环面数学对比
为何TPU8i要放弃环形拓扑?关键在于网络直径。
在三维环面结构中,节点以网格形式排列,每个维度都像圆环一样首尾相连。在8x8x16(1024芯片)的配置中,数据包要抵达最远的芯片,必须穿越每个环形维度一半的距离:
三维环面=8/2(X)+8/2(Y)+16/2(Z)=16跳
虽然环面拓扑在密集训练常见的相邻节点通信中表现出色,但对于全连接通信模式却会带来延迟代价。在推理模型与混合专家模型时代,任何芯片都可能需要与其他任意芯片进行令牌路由通信,此时跳数指标就显得至关重要。
Boardfly的高基数拓扑结构灵感来源于蜻蜓拓扑原理。通过增加板组间直接光长距离链路的数量,我们实现了网络的扁平化。对于同样包含1024个芯片的集群,Boardfly将网络直径从16跳大幅缩减至仅7跳。
网络直径减少56%直接转化为更低的尾部延迟,这意味着TPU8i CAE
无需等待数据从整个集群的另一端传输过来。
软件赋能:性能优先的人工智能堆栈
硬件的力量取决于驱动它的软件。第八代TPU基于我们第七代lronwoodTPU首创的性能优先架构打造,旨在让定制内核开发变得触手可及,同时不牺牲高级框架的抽象优势。该架构包含:
东
·Pallas与Mosaic:我们为Pallas提供一流支持,这是我们的自定义内核语言,允许您用Python编写硬件感知内核。这使您能够充分挖掘 TPU8i CAE和TPU8t SparseCore 的每一分性能潜力。
原生 PyTorch体验:我们欣喜地宣布,IPU原生支持PyTorch现已进入预览阶段。如果您正在使用PyTorch构建和部署模型,现在开始使用TPU变得前所未有的简单。您可以直接将现有模型迁移至我们的TPU平台,并完整保留所依赖的原生功能支持,例如即时执行模式。
可移植性:在Ironwood上运行的JAX、PyTorch或Keras代码可无缝扩展至本代平台。加速线性代数(XLA)会在后台处理复杂的Broadly拓扑转换与CAE同步机制,让您专注于模型本身,无需为互联架构分心。
代代相传:性能飞跃
我们坚持软硬件协同设计的承诺持续带来回报。与第七代IronwoodTPU相比,第八代TPU实现了巨大性能飞跃:
训练性价比:在大规模训练场景中,TPU8t相较Ironwood TPU每
美元性能提升高达2.7倍。
推理性价比:TPU8i相比Ironwood TPU每美元性能提升最高达80%,尤其在大规模混合专家模型的低延迟场景中表现突出。
能效表现:两款芯片均可实现高达两倍的每瓦性能提升,这对可持
续扩展下一代人工智能至关重要。

谷歌TPU芯片相关概念股

作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。