首先介绍今天数据的来源,主要来自于海外的OpenRouter,可能还有一些其他小来源。OpenRouter是一个聚合类的API平台。如果领导有在做web coding的话,应该知道它比较方便的一点是,我们可以接入不同的模型,比如Claude、GPT等,然后进行调用,能省去一部分麻烦。海外对于OpenRouter的API使用率还是挺高的。
它的API主要分为两类。第一类是商用模型,直接接入了像ChatGPT这类模型,价格保持一致。另一部分可能是免费开源模型。所以OpenRouter虽然不是海外所有的数据,但也能一定程度反映出海外目前对于各大模型的需求趋势。
本周的数据,我先做个总结,主要是上面这三个数据。第一个数据是本周的总消耗,前六天大概消耗了12.4T。为什么是前六天?因为OpenRouter平台在美国,可能使用太平洋时间。现在是3月1号周日,星期天的数据可能没有公布,所以本周只统计了前六天。仅前六天就已经环比提升了10.5%,整体趋势是向上的。前十调用量的模型中增速最快的是Claude Sonnet 3.5,环比增速158%。
数据周期,我刚刚也说了,就是最近六天加上上周的数据,总体的数据周期是过去的52周,也就是一年的数据。这边主要分为四个模块来讲,自上而下。上面是总体大模型Tokens总消耗的曲线,再逐步往下看,看到国内Tokens出海的具体情况。
模块一:上周(16号到22号)的数据比较完整,调用量大概是14T Tokens,环比提升约7.7%。本周前六天的调用量已超过12.4T,环比提升10.5%。单看这个数据,可能各位领导会觉得有些难以理解,不知道数据背后有什么逻辑,为什么增长。
这里请各位领导关注一个时间点:1月26号。我这边也单独标注出来,这是Claude Artifacts发布的日期。Artifacts发布之后,这些端侧模型对于Token的需求量非常夸张,所以整体调用量是向上走的。可以看到从1月26号开始,整体的Tokens逐步上升,而且增速越来越快。虽然2月16号可能有一些回落,但仍然有超过十个点的提升。
模块二:分模型的情况。就是我刚刚提到的增速最快的Claude Sonnet 3.5。它是2月17号发布的,也就是上周发布的模型。这周就有了环比数据。所以从数据来讲,不管是调用量还是增速,都是非常夸张的数字。
我觉得背后的原因主要有两点。第一,作为Anthropic的旗舰模型,对比Claude 3.5 Opus,同样支持100万的上下文,而且Coding的分数也非常接近。第二,也是最重要的一点,就是价格只需要Opus 3.5的1/5,性价比非常高。我最近逛论坛看下来,很多海外用户的反馈是,他们用Opus进行规划,具体的执行交给Sonnet。这样成本会下降很多。也是受益于此,Claude Sonnet 3.5在本周前六天的Token消耗量增速最快,调用量大概在12.4T左右,环比提升约158%。
模块三:主要是国内大模型总体调用量的变化。不过这边我只是选了几个比较有代表性的模型:第一个是GLM智谱,第二个是Kimi,然后是MiniMax,Qwen(阿里的模型),以及DeepSeek。从具体的最新数据来讲,我这边讲的是上周,因为这周的数据暂时还没有出来。上周国内大模型总体的调用量大概是6.1T,增速是23.7%。
所以整体上,国内这边不管是调用量还是份额占比,增速都很高。我这边大概做了一个份额数据:在OpenRouter整体的调用量里面,上周国内份额占比已经达到43.5%。而且相比于前周,还是环比提升的状态,大概增长了两个点。可以看出一些逻辑,增长主要有三个点:第一,新模型发布,比如Kimi 1.5,还有Claude 3.5,GLM-4,还有MiniMax m2.5,每一次发布都会迎来一个比较高的增速。第二,价格比较便宜。国内相比海外的Anthropic Claude系列模型和OpenAI的GPT-4o,价格优势比较明显,成本可能只需要1/5甚至1/10,所以整体诱惑力非常大。第三,也是比较重要的一点,就是Artifacts发布。这些端侧模型发布之后,对于Token的消耗量有比较夸张的量级提升。我为了举证贴了一张图出来,OpenRouter官方也会统计Artifacts的调用量,以及所有API中每个应用的调用量。目前来看,Artifacts已经占OpenRouter API调用量的第一名。
具体拆分的话,可以看到基本上前十八里面,国内比较有代表性的模型都在里面。像Kimi 1.5排名第一,然后是MiniMax、DeepSeek、GLM这些模型。我这边也标注一个点:这是国产大模型的一个重要转折点。
可以看一下这个日期,基本上是1月12号到1月19号之间。这个日期恰恰验证了我刚刚提到的那三点:新模型发布(Kimi 1.5)、Artifacts发布、国内价格足够便宜。综合来讲,促成了国内大模型份额的提升。可以看到最低点国内份额差不多在15%多一点,最新的数据已经提升到接近44%。
这是一个比较夸张的量级提升,只用了一个月就提升了这样的份额变化。我觉得未来如果随着国内大模型的迭代,未来追上像海外Opus 3.5这种级别的模型,那国内的份额还会继续进一步提升。
模块四:我这边单独拆分出了这五家各自调用量的变化。可以看到基本上像DeepSeek、Qwen、GLM、MiniMax这些厂商,调用量都是往上走的,就是上周这样的变化。具体而言,我大概拆了五张图出来,每一个模型对应一张图。
DeepSeek的话就不必多说,年初发布之后就一直在增长。25年中间发布了V3.1,后来又迭代了V3.2。所以它的调用量从大概去年十月份开始逐步往上走。
Qwen比较有意思。它的数据主要有一个分水岭,也就是7月14号。我往前回溯了一下为什么会有这样一个数据变化:7月14号当天,它发布了一个比较重要的模型,叫做Qwen-Coder模型。当时阿里就已经研判出,未来Coding在25年可能有一个比较大的增长,所以发布了Coder模型。这个模型不管是从编程能力还是上下文来讲,都已经做到了和海外当时比如Sonnet 3.5水平相当。所以可以看到一经发布,第二周就明显有一个量级的提升。第二周到第三周,还有一个更明显的提升。这个发布,可能各位领导也知道,也有一些印象。7月14号到7月28号之间,阿里连续做了很多动作,一周连续发布了非常多的模型。
其中就有一个比较大的变化,就是Qwen-72B。不管是从底层的混合专家架构(MoE)改变成分离的架构,还是从FP16改成FP8,它的整体不管从成本还是性能角度,都迎来了一个比较大的提升。所以也导致了第三周调用量暴增的状态,随后逐步回落。但它整体增速还是相对来说比较平稳,基本上是在零上下去波动,所以相对比较平稳。
再往下走,就是大家可能关注度比较高的,一个是Kimi,第二个是GLM,第三个是MiniMax。Kimi的话,在Kimi 1.5发布之前,调用量一直都非常低。Kimi 1.5发布之后,它的Coding能力让大家知道国内模型也能做到这样的能力,所以随后调用量激增。包括Artifacts出来之后,它也做了一部分时间的免费促销。所以可以看到增速还是相当夸张的。在春节期间,2月23号因为还没走完,可能增速掉得比较高。可以看到2月16号这周,包括2月9号这周,调用量都非常高,基本上这几周就达到了过去几年的量级。GLM(智谱)有一个分水岭。第一个是4.7发布的时候,有一个小的增长。GLM-5发布的时候,又恰好赶上了国内春节。所以它的调用量跟Kimi 2.5其实是一个比较相同的趋势。MiniMax比较特殊。可以看到它在abab 6.5发布推出的时候,就有调用量的提升。因为Artifacts发布之后,它是唯一一个官方推荐的模型。再加上它的调用量,Token消耗量也非常高,而且MiniMax足够便宜,所以调用量开始高增。第二点就是abab 6.5的发布,迎来了一周快速增长,增长相对来说比较多。而且也是因为这个abab的发布,它成为了所有模型中第一个单周调用量超过2.5T的模型。不过最近一周,还是有一些回落。
我这边推断下来,它的增长有三点:第一,价格足够便宜,Lite版本其实就可以覆盖它的abab 6.5。第二,Artifacts的推出,而且它也是官方模型。第三,Artifacts这种形态,因为接入MiniMax的人比较多,而且Artifacts对于推理消耗Token又比较多,所以数据增长相对来说比较快。整体的数据大概就这些,我这边也大概贴了一个整体的份额变化。
可以总结下来,还是有一些感触的。因为在不说一年以前,在半年以前,榜上的国产大模型就很少,基本上只有DeepSeek或者是Qwen这样的模型。像国内的MiniMax、GLM这类模型,还是处于一个蛰伏的状态。因为在当时那个时间点,大家的Coding能力确实不如海外的一些模型那么夸张。不过站在现在的时间点,国内模型不管是从价格还是性能,其实已经不输海外的一些模型。所以站在这个时间点,遇到这种数据,恰恰证明了国内出海的逻辑是能够兑现的,未来也会逐步增高。
我觉得端侧不光是这些,最后总结一下,端侧可能也是有一个比较大的切入契机。因为此前API大多用于编程。现在来看,可能还会接入像Artifacts或者是像Cursor这种在本地端侧执行Agent任务的场景。
Token消耗量其实是非常夸张的。海外的贵价模型很多人顶不住这种成本,价格非常贵。国内这边反而胜出,而且在性能上面并没有落后海外模型那么多。所以我觉得这就是比较重要的一个原因。整体数据这一块大概就介绍这么多,然后看一下普裕那边给大家做一个总结或者补充。
普裕 天风计算机分析师:好的,辛苦齐升。刚才从定量情况已经感觉给我们比较清晰地阐释了整个国产模型出海的变化,包括各家模型之间近期的情况更新。我简单总结两个点。第一个,其实从OpenAI、Claude开始,端侧个人助理,包括Coding的需求也持续在爆发出来。在这样的Token在推理侧开始爆发式增长的情况下,市场对性价比模型的追求会逐渐凸显出来。就两个事情,刚才提到的两个数据可以证明:第一个是在Opus之后发布的Sonnet,1/5的Token价格带来了环比100%多的Sonnet调用量增长,我觉得这就是对coding或各类场景应用兼容性的体现。第二个是国产模型在今年开始的全球范围爆发放量,也是性价比核心胜出的体现。我是这么理解的,因为再去比一下价格,不管是GLM还是MiniMax、Kimi、Step对比Sonnet,可能又是1/10的价格了。近期可能还有国内模型厂之间的百亿补贴,所以整体的竞争优势在性价比上越来越明显。这是我们对这次Token调用量在OpenRouter上面数据的整体理解。
第二个,从价格趋势上面去看,也可以稍微做一些展望。因为从国内的推理算力供应上面来看,本次确实放量很快的主要是智谱、MiniMax、Kimi等公司,所以短期他们的影响力可能略超过国内的大厂。当然这有一个训练节奏上的区别,后面模型变化怎么看,我们可以深度交流。但整体去看,智谱作为小厂,它的暴涨对应的算力肯定还是紧缺的。所以从现在这个阶段看,如果用智谱比较多的领导可能会注意到Kimi,它的API采购价格……王祺生 天风计算机分析师:现在有的,没有包含在规则里面。普裕 天风计算机分析师:它的采购价格,采购价格可能四千多一年,但每天都买不到了。其实这是什么?是推理成本上,推理供给上是有限制的。所以现在这也是为什么Token我们觉得后面会限制住一部分产能。但这其实是一个商业上的决策:你是否能够决定采购更多的推理算力?但你可能要承担推理成本不一定能走过盈亏平衡线,你是否要做决定?这是小厂现在要考虑的因素。
而大厂的话,我觉得从这几周的动作看,是用脚投票。像阿里上周出了一个很便宜的API package,最低可能十块钱一个月。后续又宣布了百亿补贴,所以我觉得这也是他们现在和小厂的竞争策略。我们判断,基本上大厂的算力相对充裕,然后他们研发投入又能承担亏损的情况下,可能还会持续打价格战。但是小厂的商业选择,我们觉得再过一两个月可能会更加明晰。但目前来看,在模型能力端的领先上,他们还是有一定的议价权的。这是后面价格的演绎。
从模型能力上面的话,其实往后去看,下一代的B卡,就是下一代卡侧的模型,会有更多可以惊喜、可以期待的。以上是我们对国产Token出海的总结和汇报。接下来有请我们天风计算机团队的首席缪钦星老师和联席首席刘健老师给我们做一个更新,就这个策略会的重点更新情况。
缪钦星 天风计算机首席分析师:好的,谢谢蒲宇还有齐升的分享。从上周产业调研包括策略会的感受来看,我觉得产业目前存在三个核心矛盾,其中两个跟我们计算机有比较大的关系:一个是缺电,这个就不用多说;第二个是缺芯,尤其是缺好的合规的国产芯;第三个我觉得是缺一站式部署。这个展开怎么说呢?缺电我觉得就不用多说了,尤其是在美国缺电的环境还在持续加大,所以我们看到二级市场的演绎也比较突出。
第二个,为什么说缺芯呢?核心点在于,目前国内的大模型厂商,我们跟踪调研下来,他们看到虽然说国产的推理卡性价比比较高,在价格层面,比方说对比H200,可能现在价格只有一半不到,甚至打了一个三四折。但是从推理的占比来说,还是会差H200比较多。所以我觉得如果说过去两年产业的重点在国产算力,去年年底我们看到随着像寒武纪全面放量,实现了一定程度的突破,市场把关注点转移到国产大模型。我觉得后一阶段,推理卡能力的提升又到了一个关键的时间点。另外一个关键时间点就是大家很理所当然会去想,国产大模型刚刚提到的这些,背后很多都用的是国产卡。
但其实考虑价格的因素,性价比还是不如NV的卡。所以在推理卡这个层面,我觉得对于国产卡厂商来说还是有很大的机会。所以这个时间点,我们团队就如我们上周所说,还是建议重点去关注国产算力。
无论是我们讲双王也好,还是说存算一体这种方式也好,我们上周也是比较前瞻地提示了存算一体这个机会。我们上周正好在上海做产业调研,我看到今年应该说Q3晚一点Q4,国产的存算一体的推理卡普遍都会流片出来。我觉得这也是一个比较大的机会,有点类似于CPU之于光模块新的技术迭代。所以我觉得这块可以重点关注一下。落实到标的的话,还是像刚刚提到的双王寒武纪、海光。然后存算一体这块的话,我们觉得可以关注像昆仑万维,以及在端侧这边用SRAM方式做得比较不错的炬芯科技。当然这块的延伸,还有IDC,一会儿我们团队刘健会做一个补充。应该说整个Token爆发的大背景下,IDC相对来说可能宽裕一点,但也存在偏紧张的趋势。
第三点我们讲缺一站式部署。怎么说呢?上周我们产业调研包括策略会跟相关的大模型公司聊下来,目前整个Claude在白领层面的渗透率还是不高的,比方说100个程序员或者说白领真正用上OpenAI、Claude,可能也就小几个点的水平。我觉得这很大程度上跟门槛有一定关系,我看到身边很多朋友可能得捣鼓两天时间,一个周末才能把它装好。甚至这个周末我们看到小红书上已经有人写出上门安装Claude,报价大概在500到600。所以我们非常期待三月份有大模型厂商或者A股相关的软件公司,推出这种一站式安装部署的产品出来,一键部署,无论是在To C端还是在企业侧,我觉得这块对于相关的核心公司都有比较大的收益。
这块第一块毫无疑问,还是大模型公司。第二块的话,我觉得可以重点去关注我们一直强调的私有化部署这块的领军公司,包括像深信服、金蝶。因为大家可以理解,在企业层面如果要去给员工配Claude的话,考虑数据安全合规性,像深信服这块还是有比较大的新机会。
这是我们讲的第三点,缺一站式部署。这是我们上周总体的一个感受,在产业和策略会调研层面:缺电、缺国产推理芯,到缺一站式部署。最后再补充一点,就是多模态。大家知道我们在今年年初旗帜鲜明地call多模态。后续我们看到春节前Sora全面引爆了整个产业。其实上周市场演绎算力紧缺跟Sora排队是有很大关系的。根据我们的产业了解,现在还是非常火爆的程度,所以To B端迟迟没有开放。但我们产业调研了解,三月份大概率API会全面开放。
那对于跟字节有非常深度合作的公司,我们相信这块也有很大的收益。这块的商业模式,根据我们产业调研了解,主要还是跟Token分润有关系。比方说大模型厂商的多模态模型给到下游的A公司大概100块钱,最后可能要返点20块钱给到这家工具厂商。很多领导会问,为什么需要有这个返点或者说分润?因为很重要的一点是,这些工具厂商、分发厂商是创作者To B端、C端的流量入口,平时他们不接触大模型。所以他们在中间扮演一个非常重要的角色,决定创作者在操作过程中具体使用哪个大模型。在大模型厂商今年全面考核Token爆发数据的背景下,分润或者说返点就变得非常必要。所以这块我们觉得对于多模态相关领域的产业链玩家,除了像Sora这样的头部多模态大模型公司之外,包括产业链的一些算力IDC公司之外,还可以重点关注跟昆仑万维,我们还是重申看好不变。以上就是我这边跟各位领导的汇报和更新,下面把时间交给刘健。
刘健 天风计算机分析师:好的,各位投资者晚上好。我再具体简单展开一下对于芯片和IDC这两个板块的一些近期的行业变化。
首先,因为现在整个国内大模型的Tokens用量占比确实有一个比较明显的上涨趋势。包括业内人士看,趋势都比较明显。以国内模型来看,我们确实是到了一个可用的水平。客观讲,离海外的Opus那些肯定还是有一些差距。但在一些不是特别复杂、特别长程的coding场景,我们处于一个性价比区间。但伴随着整个Tokens的爆发,整个算力侧,包括IDC侧、租赁,都还是有很高的紧缺。简单说,按照我们之前跟智谱的交流,他也提到今年年初开始由于需求上得太快,甚至他们的算力成本也在往上走。主要是因为租赁价格确实会有零星波动,但这主要体现为需求起得太快,供给侧短时间内跟不上。芯片和IDC,尤其是芯片,有点像数字员工的发动机,是动力来源。而IDC很像数字员工或者说Copilots所居住的房子,所以他们确实是比较重要的基础设施板块。
从芯片层面上来说,今年我们看到国内可能会发生两重变化。一个是,现在国内大量企业使用的还是NV的H等级的卡,包括训练可能今年会陆陆续续往下走,推理可能大多数还是使用H等级的卡继续跑。但今年我们看到国产算力肯定会有一个明确的趋势,他们会逐步转到下一代B等级的卡。这里面可能有几款产品:寒武纪的下一代产品、华为的910B(我们说910B这代产品不属于H100水平,属于A100等级,算力是400P,但整体架构有革新)、海光的深算4号、包括壁仞的BR200。这几个是今年我们有望能够看到的,或者是正常回片,或者客户能够简单测一测,或者说量产上线的产品。这里面,我们还是重申寒武纪的下一代产品在我们看来肯定是最快能够问世,并且让客户量产上线的。具体细节,各位投资者如果有想要可以私下再聊。但我们看到这个产品在H100等级这一代里面是最快能够上量的。具体时间可能不会特别晚,甚至在年中左右就会有些变化。第二个变化是,寒武纪近期也有一些新的大客户突破,包括从去年的导入或灰度到现在正式的批量下订单、到年框的签订。所以这属于头部双王里面的一个大变化。对于海光的变化,除了新产品逐步推出深算1号的改进版系列,包括国产版回片,其实它的CPU今年应该也会有一些新的Beta型机会。包括我们跟公司调研聊到,甚至腾讯也会开始逐步部署一些计算服务器,主要是应对AI场景里CPU密集型计算占比的提高。所以说双王今年都还是会有比较好的机会,尤其是在国内整个演绎算力紧缺的背景之下。
对于新的技术路线,其实无非就是,或者说更确切来说到现在还是以近存为主,包括3D DRAM跟SRAM的近存。他们要么把逻辑Die做上下堆叠,要么像Groq那样的方案,把SRAM的面积变大。这里面,最早做这件事的依然还是寒武纪。但像Groq这样比较纯粹的做法,我们相信后面肯定会成为推理上比较重要的趋势。因为在Decode环节,对于需要快速选择带宽的沟通环节,他们这种方案肯定是比较有效率的。后面我们也会时刻关注新技术路线的冲击和影响,所以我们觉得后续等到这些产品真的有一些流片回来,或者有0到1变化的时候,是比较重要的。
除了芯片,就是IDC。IDC的话,字节之前那一轮招标陆陆续续也已经有一些阶段性结果出来了。今年我们自己大概加总起来,三家在今年的需求应该是在3.5吉瓦上下的水平,相对于去年肯定是翻倍及以上的需求。所以IDC的景气度确实很高,且不说他们今年还要去批量锁定更长时间的单子。他们锁更长时间的单子也是为了应对未来IDC需求可能进一步暴涨,所以大厂在现在做出了一个理智性决策。IDC的景气度确实很高,而且IDC我们看有点像海外那种REITs型资产,比较重,同时不会有特别大的技术迭代,更属于这样一类的资产。所以整个行业跟国产大模型是相辅相成的,就是芯片和IDC这两个板块。
IDC板块,我们重申最好的、最关键的标的其实还是润泽科技。因为它确实是整个IDC里面自建比例最低,然后需求最激进的客户——字节跳动的第一大供应商。历史上包括近期它整个中标策略的一些变化非常显著。其次的话,我们觉得也可以去关注像润泽、大为,包括之前有说过的合盈数据(刚刚提到的运能控股)。这些公司可能都有很好的机会和景气度。接下来整个阶段性,我们看下来,海外大厂模型的节奏,尤其是基模的大版本更新节奏,可能更多在3、4月份及以后,可能是三月份及以后。所以短期内大家看到国内模型进一步接近海外目前的能力,包括开源占比进一步提升,这个趋势我们接下来看是确定性的。因为它底层来说还是由模型的能力所带来的。如果说海外模型进一步拉开跟国内模型的差距,我们觉得第一时间上来说短期看不到。第二,由于没有新的范式迭代,所以在相当长一段时间内,我们觉得国内跟海外模型的差距大概率还是会维持在一个不断缩短的路径上。
所以大家其实全球现在都是在围绕模型本身再去交易,包括海外Anthropic很强的时候,大家都会交易Anthropic这条线的东西,包括看空OpenAI跟谷歌相关资产。国内也是,只要国内模型继续保持强势,国内整个板块包括模型,以及它下游的这些Tokens居住的房子——IDC和芯片本身,肯定都有比较好的景气度。再重申的话,其实就是双王跟IDC。双王的话我们觉得寒武纪和海光都有变化,尤其是寒武纪。IDC的话,它今年的景气度是非常高的。以上是我的补充。
缪钦星 天风计算机首席分析师:好的,谢谢刘健。以上就是我们团队这周AI周周谈的汇报。我们团队其实今年年前有段话,我觉得还是值得各位领导持续关注。这段话我们最近也反复跟大家分享:如果说24年当时我们团队重点推荐寒武纪海光双王,那从去年年底开始,包括今年,一定要重点关注国产大模型和应用。因为两者都在经历从0到1或者1到N的比较大变化,就是国产大模型及应用。
当然算力的话,在这个位置也是急需重视的,尤其是关注一些变化。无论是新技术的变化,比方说我们刚刚提到的存算一体(无论是3D DRAM还是SRAM形式),还是说双王在大客户这边的进展。因为我们知道之前的话各家客户相对来说比较单一。但如果能看到在巨型客户这边有持续接二连三的突破,真正单子能到上万级别的其实不多,能进一步验证行业地位和产品能力。我相信算力侧也会在今年有持续比较好的价值演绎。还是我刚刚强调的这三点:从缺电到缺国产好的推理芯,再到缺一站式部署。
我觉得这三个产业的核心矛盾,是我们最近感受到的大的变化。多模态这边毫无疑问也是今年在中国特色国情下明确爆发的AI应用。我觉得这块Token分润的逻辑点,如果在三月份字节2.0的API全面开放的背景下,也有望被市场重新认知。这应该说是A股很多想去投大模型的投资者会比较兴奋的一点,因为很多资金机构没法直接投港股那两个大模型公司。但我们很明确地验证到,这些头部的多模态应用厂商是有Token分润的。以上就是我们周周谈的汇报,谢谢各位领导的持续关注。
全文总结
本文是一份天风计算机团队关于AI大模型Tokens消耗趋势及国产模型出海情况的会议纪要,核心内容如下:
1. 数据来源与整体趋势:
数据主要来源于海外聚合API平台OpenRouter,该平台聚合了Claude、GPT等主流模型,能反映海外需求趋势。整体趋势向上:本周(截至3月1日周日,因时差仅统计前六天)总Tokens消耗约12.4T,环比提升10.5%。上周(2月16-22日)完整周消耗约14T,环比提升7.7%。2. 增长驱动因素分析:
关键事件:1月26日Claude Artifacts(端侧AI应用框架)发布是重要转折点。Artifacts极大地刺激了端侧模型对Tokens的需求,导致整体消耗量自1月底开始持续快速增长。明星模型:Claude Sonnet 3.5(2月17日发布)成为增长最快的模型,本周前六天调用量环比增速达158%。其高增长归因于:1)性能接近旗舰模型Claude 3.5 Opus(支持100万上下文,编码能力相近);2)价格仅为Opus的1/5,性价比极高。用户常用Opus规划,Sonnet执行以降低成本。3. 国产大模型出海表现亮眼:
份额大幅提升:在OpenRouter平台上,国产模型(以GLM智谱、Kimi、MiniMax、Qwen、DeepSeek为代表)的总份额从一个月前的约15%快速提升至最新的43.5%。增长原因:能力提升:新模型发布(如Kimi 1.5)带来能力跃升,尤其在编码等场景达到可用水平。极致性价比:价格仅为海外同类模型(如Claude Sonnet)的1/5甚至1/10,成本优势巨大。抓住技术浪潮:成功接入并受益于Artifacts等端侧应用生态,该类应用消耗Tokens量极大。具体厂商动态:Kimi:1.5版本发布后调用量激增,结合春节促销,增长显著。MiniMax:其abab 6.5模型是Artifacts官方推荐模型,价格便宜,调用量高增,曾创下单周超2.5T的记录。Qwen(阿里):去年7月发布Qwen-Coder等模型,精准预判编程需求,调用量阶梯式上升。近期通过架构优化(如Qwen-72B转向分离架构、FP8)进一步优化成本性能。GLM智谱:新版本发布及春节效应带动增长。DeepSeek:持续迭代,调用量稳步上升。4. 分析师观点与产业链展望:
核心结论:在推理侧Tokens爆发式增长的背景下,市场对性价比模型的追求凸显。国产模型凭借“可用性能+极致成本”实现出海放量,逻辑得到验证。当前产业矛盾:缺电:美国等地电力紧缺持续。缺国产推理芯:国产推理卡虽价格有优势(为NV H200的30-50%),但绝对性能(算力占比)仍有差距,亟待突破。寒武纪、海光(“双王”)的下一代产品(B卡)是关注重点。存算一体(如3D DRAM、SRAM方案)作为新技术路线,有望在Q3/Q4流片,带来变革性机会。缺一站式部署:Claude等工具对普通白领/程序员仍有安装使用门槛,期待一键部署解决方案,利好私有化部署厂商(如深信服、金蝶)。多模态应用:Sora引爆产业,预计3月API开放。与字节等深度合作的多模态应用厂商可通过Token分润模式获益,是A股投资者参与大模型投资的重要路径。IDC(数据中心):需求旺盛,今年大厂需求预计翻倍(达约3.5吉瓦),景气度高。润泽科技作为字节核心供应商被重点看好。5. 投资建议:团队建议关注三条主线:
国产大模型及应用(从0到1或1到N的放量)。国产算力,尤其是“双王”(寒武纪、海光)的客户突破与新品进展,以及存算一体新技术。多模态应用及其分润逻辑。整体认为,在国内模型能力持续追赶、性价比优势显著的背景下,与之配套的芯片、IDC等基础设施板块将维持高景气度。
作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。