原文链接GPU要凉?前英伟达AMD大神将AI刻在芯片上!17000 tokens/秒屠榜
这家公司开发的HC1芯片,运行Llama 3.1 8B的速度达到了极度恐怖的17,000tokens/秒。
作为对比,目前业界最快Cerebras跑同等模型,速度也不过两千。
Taalas HC1硬生生将速度拔高了将近10倍!
而和英伟达最先进B200,提高了近50倍!



这还不算完,除了「光速」输出Token以外。
Taalas如何解决散热和传输速度问题?
他们交出的答卷是:抛弃液冷!抛弃HBM显存!
因为没有复杂的存储层级,HC1的成本只有传统方案的1/20,功耗更是直接缩减到1/10,十张卡加起来仅仅需要2.5千瓦的空气冷却。
作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。