当AI不再只是工具,而是能自主探索、迭代、超越人类设计的“进化引擎”,软件产业的底层范式正在被悄然改写。
3月25日,一篇署名22位作者的论文悄然登上arXiv,却在AI圈引发了海啸级的讨论。论文标题很学术——《AVO: Agentic Variation Operators for Autonomous Evolutionary Search》,但背后的含义足以让任何关注AI前沿的人屏住呼吸。

英伟达高级科学家许冰在X上的一句点评,将这把火彻底点燃:“这或许是超人类智能在软件领域的真正首次展露。”

AVO究竟是什么?它为何能让英伟达的科学家发出如此惊人的论断?它将对AI产业、乃至整个软件世界带来怎样的冲击?今天锐少带你深度拆解这篇论文背后的产业密码。
一、AVO是什么?让AI自己“进化”出超人类代码要理解AVO的震撼,先要明白它在解决什么问题。
在AI的底层,有一类极其重要、极其复杂的代码,叫做“算子内核”。以Transformer架构中无处不在的“多头注意力”为例,它的运行效率直接决定了整个大模型的速度。多年来,像cuDNN(英伟达的深度神经网络库)、FlashAttention这样的算子,都是由顶尖的工程师团队花费数月甚至数年手工调优的。
传统进化算法试图用计算机自动搜索来优化这些算子,但固定的变异、交叉算子本质上仍是人类预先设计的启发式规则,搜索空间有限,上限被锁死。
AVO的革命性在于:它用自主编码智能体,取代了所有固定规则。

论文的核心设计极其巧妙:AVO将每一个“变异算子”本身实现为一个能够自主行动的大语言模型智能体。这个智能体可以:
查阅当前代码的演化历史(知道之前失败过什么)
访问领域知识库(调用已有的优化经验)
获取执行反馈(运行后看到性能数据,自己分析瓶颈)
自主决策下一步(自己决定修bug、换策略、大胆尝试新架构)

然后,它在一个持续7天的自主进化循环中,不断提出、执行、验证、修正代码修改。最终,AVO在黑伟达B200 GPU上发现的多头注意力内核,比英伟达官方极致优化的cuDNN快3.5%,比学术前沿的FlashAttention-4快10.5%。

更惊人的是,这套发现的知识可以迁移——当应用于另一类注意力机制(分组查询注意力)时,它只用了30分钟自主适应,就再次击败了cuDNN和FlashAttention-4。

许冰这句评价的分量,需要放在AI发展史中理解。
AI诞生至今,一直处于“人类设计算法 → AI执行任务”的范式下。即使是最先进的大模型,其架构(Transformer)、训练方法(自回归)、优化技术(RLHF)也都是人类智慧的结晶。
AVO开启了一个新范式:AI不仅执行任务,还自主设计出超越人类工程师水平的算法实现。
这是一条通往“递归自我提升”的路径——让AI优化AI的底层代码,从而让AI本身变得更强大,再用更强的AI去优化更深层的代码。这种正反馈循环一旦启动,其边界远非人力可及。
论文中有一处细节值得玩味:AVO在7天自主进化中发现的某些优化,并非人类工程师此前完全不知道的个别技巧,而是组合了多种微架构技巧,在极细微的指令排布与寄存器使用上找到了一种人类难以直觉发现的高效平衡。换句话说,AI找到的“最优解”,是人类难以设计、甚至难以理解的一种超复杂方案。
这正是“超人类智能”的含义:不是指某个单一的突破性发现,而是AI拥有了持续自主探索未知优化空间的能力,且其产出已经超越人类最顶尖专家在同等时间内能达到的水平。
过去几年,AI编程助手已能写出相当不错的应用代码。但系统级代码——尤其是与硬件紧耦合的算子内核、驱动程序、编译器后端——仍被视为人类专家的“护城河”。
AVO证明,这条护城河可以被攻破。未来,从数据库内核到操作系统调度,任何对性能极度敏感的代码,都可能交由自主进化智能体持续优化。软件工程的岗位结构将发生变化:人类更多负责定义目标、设计搜索空间、审核最终方案,而繁复的微优化工作将大规模自动化。

乍看之下,AVO让AI能自动生成超越cuDNN的算子,似乎对英伟达的软件壁垒构成挑战。但细想会发现:AVO是在英伟达GPU上运行、为英伟达GPU优化、且由英伟达科学家主导完成的研究。
这意味着,英伟达正在将“让AI自动优化自家硬件”的能力掌握在自己手中。未来,每一代新GPU发布,英伟达都可以用AVO这样的智能体,在数天内自动生成远超人力极限的算子库。硬件与软件的协同优化将从“人类设计”跃迁到“AI自主协同”,英伟达的生态护城河不仅不会削弱,反而会进一步加深。

当前AI竞赛的主线是“堆算力”——谁拥有更多H100、更多Blackwell,谁就能训练更大的模型。AVO揭示了一条新路径:在不改变硬件的前提下,通过软件层的自主进化,将同一块GPU的有效算力提升10%以上。
在大规模集群中,10%的效率提升意味着数亿美元的成本节省,或者同等成本下更强的模型能力。未来,AI公司的竞争将不仅是“谁买了更多卡”,更是“谁能让每一张卡发挥出更大潜能”。软件优化能力,将重新定义算力成本曲线。
AVO的最直接影响,是让英伟达GPU在相同硬件上实现更高性能。论文显示,AVO优化的注意力内核在B200上比cuDNN快3.5%,比FlashAttention-4快10.5%。这意味着,同样一块GPU,能跑出更强的算力。
在AI算力供不应求的背景下,效率提升直接转化为成本优势和产品竞争力。这将进一步巩固英伟达的统治地位,并可能刺激下游客户加大采购力度。对于英伟达供应链上的A股公司而言,这意味着:
出货量预期上修:更高效的GPU = 更高的性价比 = 更旺盛的需求
产品价值量提升:新GPU平台(如Rubin)对PCB、散热、电源的要求更高,单机价值量持续攀升
核心受益方向:
光模块:中际旭创、天孚通信、新易盛(800G/1.6T需求持续放量)
散热:英维克、申菱环境(液冷渗透率提升)、淳中科技(液冷测试)、黄河旋风(钻石散热)
2. 算力基础设施:软件定义效率的“卖铲人”价值重估AVO的出现,进一步强化了英伟达在“硬件+软件”双轮驱动下的统治力。但更重要的是,它打开了算力效率提升的新空间。拥有强大软件栈、能持续优化硬件潜力的公司,其“卖铲人”价值将被重估。
A股相关标的中,中科曙光、浪潮信息等具备深度系统优化能力的服务器厂商,若能建立类似的自主优化能力,将显著提升其在智算中心建设中的议价能力。海光信息等国产CPU/GPU厂商,若能在软件生态中引入自主进化智能,有望缩小与英伟达的软件差距。
3. 系统软件与自动化优化工具链AVO本质上是一个自动化的代码优化工具。这一方向将催生新的软件品类——AI驱动的系统优化平台。
创意信息、东方国信等具备数据库、大数据平台能力的厂商,可关注其是否布局AI驱动的自动化调优工具。华大九天等EDA厂商,将芯片设计中的某些优化环节(布局布线)引入自主进化智能,有望提升芯片设计效率。
4. 场景化AI优化服务AVO的迁移能力表明,在一个领域学会的优化能力,可以快速迁移到相关领域。这为垂直行业的AI优化服务打开了空间。
例如,用友网络、金蝶国际等企业服务厂商,若能将AI自主优化能力引入企业软件的底层数据库、中间件,可大幅提升产品性能壁垒。恒生电子等金融IT厂商,可针对高频交易、风控模型等对延迟极度敏感的场景,引入自主进化智能持续优化。
5. 风险与提示需要清醒看到:AVO目前仍处于研究阶段,其算力成本、稳定性、可解释性等问题尚未完全解决。从实验室到产业落地,还有距离。同时,自主进化智能可能带来不可预测的代码行为,在关键系统中部署需谨慎。
结语AVO这篇论文,像是AI发展史上一块不起眼的里程碑,但多年后回望,或许会被视为“AI开始自我超越”的早期坐标。
它没有改变AI的底层数学,也没有突破Transformer的架构天花板。但它展示了一种可能性:让AI自主探索人类难以触及的优化空间,找到一种更优的软件形态。
这让我们想起一个古老的哲学命题:“谁来给理发师刮胡子?”
在AI时代,这个问题变成了:谁来优化AI的代码?AVO给出的答案是:AI自己。
当这个循环启动,算力效率的提升将不再依赖人类工程师的心血,而是依赖AI自主进化的速度。对于投资者而言,这既是新的机会,也是一次对“软件价值”判断框架的重新审视——未来,最强的软件壁垒,可能是“让AI自己进化出最强软件”的能力。
(《锐少产业分析》专栏将持续跟踪AI算力、前沿技术等最前沿的投资机会,欢迎关注。)
以上内容仅代表个人观点,不作为股票推荐。
温馨提示:本文内容仅为知识科普,不构成任何投资建议。市场有风险,投资需谨慎。
如果文章对您有启发,请点赞+收藏+转发给我鼓励,这是我持续分享的动力!
如果你有任何想沟通交流的内容,欢迎留言!让我们的投资越来越稳健!
👇关注我,把握更多市场机会!投资快人一步!
作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。