World Model 与 Physical AI 产业趋势深度解读

2026-04-21 08:09:012

世界模型是AI新焦点,通过虚拟预演指导现实任务。技术路径多样,应用集中于自动驾驶、机器人及3D内容生成。数据与算力是主要瓶颈,中外模型能力差距正快速缩小。

【会议概要】

本次华创证券举办的“世界模型与物理AI”产业趋势电话会议,由无界AI联合创始人马天先生主讲,核心观点是:世界模型是继大语言模型之后AI发展的新焦点,其定义宽泛、技术路径多样,旨在让AI在虚拟世界中“预演”行动后果,以更好地指导现实世界的机器人、自动驾驶等任务。当前产业正从数据、技术、应用等多维度快速演进。

具体要点如下:

1.兴起背景:世界模型近期备受关注,主要因为大语言模型发展遇到瓶颈:一是性能跃迁速度放缓,二是高质量人类文本数据已基本耗尽。而视频等多媒体数据尚存巨大开发空间,为世界模型提供了新的“燃料”。
2.核心定义:业界普遍认同的定义源自黄仁勋的阐释:智能体应在内部世界(脑海)中模拟动作的后果,预想多种可能后再在现实中执行,以提高效率和成功率。
3.技术路径多样化:
表达内容:可分为高维空间模型(注重生成逼真、细节丰富的世界,如阿里“蚂蚁零式”)和隐空间模型(注重抽象物理规律与逻辑推理,摒弃无关细节,如杨立昆的研究)。
数据来源:训练数据维度多样,包括2D图片、2.5D视频、3D点云/高斯、4D(3D+时间)数据等。数据预处理程度也不同,从原始数据到经过严格标注、结构化处理(如添加特定天气效果)的数据均有使用。
代表玩家:海外有英伟达(Cosmos平台,结合Omniverse物理仿真形成闭环)、Google DeepMind、李飞飞团队等;国内有阿里、极佳世界(清华系,融资活跃,估值已破百亿人民币)等。
4.核心应用场景:
具身智能与机器人:世界模型可为VLA(视觉-语言-行动)模型提供高质量、多样化的训练数据源,是机器人实现通用能力的关键。
自动驾驶:用于生成闭环仿真环境,模拟各种罕见、危险的驾驶场景,大幅提升训练效率和安全性。
3D内容生成:服务于游戏、影视、VR/AR等内容产业,实现动态、可交互的虚拟世界生成。
5.与大语言模型的关系:大语言模型通过接入Agent(智能体)调用专业工具(如物理仿真软件、科学计算工具),也能在一定程度上逼近世界模型的效果,实现可编码、可修改的严谨内容生成(如科研模拟),这是一种不同的实践路径。
6.产业现状与挑战:
数据瓶颈:高质量、经过专业处理(标注或融入物理规律)的多模态数据仍然稀缺,是训练更强大世界模型的主要障碍。
算力需求:世界模型的训练和推理算力需求远高于纯文本模型,将持续推动算力需求增长。
中外对比:在模型能力上,中外差距正在快速缩小,尤其在接入Agent后,体验差距进一步收窄。硬件(算力卡)层面,国产算力在实际使用中占比仍低(约5%),但可用性和服务正在快速改善。

【会议实录】

主持人开场:

大家好。近期“世界模型”与“物理AI”成为市场关注的热点,相关投资标的也日益增多。今天我们非常荣幸地邀请到无界AI的联合创始人马天先生,为大家带来行业深度分享。马总也是浙江大学的兼职教授,在该领域有深厚的积累。下面有请马总。

马天先生分享:

大家好。今天我分享两部分:一是我们对世界模型和物理AI的行业观察,二是我们自身的一些探索。


一、世界模型的定义与兴起背景

“世界模型”目前尚无统一权威的定义,概念较为宽泛。一个被广泛引用的清晰定义来自黄仁勋:智能体在真实世界中试错成本高昂,因此应在内部世界(脑海)中模拟动作的后果,预想多种结果后再去执行。这类似于人类在行动前的“预演”。

世界模型近期火热,主要源于大语言模型发展遇到瓶颈:一是从GPT-3到GPT-4等,性能跃迁的速度在放缓;二是更关键的是,截至2025年,互联网上高质量的人类文本数据(如维基百科、权威论文)已基本被训练殆尽。然而,视频等多模态数据仍非常丰富,预计到2046年才会耗尽,这为世界模型提供了新的数据“燃料”。


二、主要技术路径与代表玩家

世界模型的技术路径非常多样。

1.从表达内容看:
高维空间模型:如阿里的“蚂蚁零式”,注重生成细节丰富、写实逼真的动态世界(如鸭子走动时水波的物理效果)。
隐空间模型:如杨立昆教授的研究,不关注表面细节(如颜色),而专注抽象的空间结构、物理规律(如刚体碰撞)和逻辑推理,类似于“地图”之于“现实世界”,或“乐谱”之于“音乐”。
2.从数据来源看:训练数据可以是2D图片、2.5D视频(2D+时间)、3D数据(如点云、高斯)、4D数据(3D+时间)。数据预处理程度也不同,自动驾驶等领域常用经过严格标注和结构化处理(如人工添加雨雾、噪声)的数据。
3.代表玩家与融资:海外有英伟达(其Cosmos平台致力于构建闭环反馈的世界模型)、Google DeepMind、李飞飞团队等。国内头部玩家包括阿里和极佳世界。极佳世界(清华系)发展迅速,一个多月融资25亿人民币,估值已破百亿,在World Arena榜单上排名全球第二。


三、核心应用场景

1.通往AGI/ASI的路径:许多学者认为,从物理世界中学习是实现通用人工智能(AGI)甚至超越人类智能(ASI)的重要途径。
2.内容产业:用于生成游戏、电影、VR/AR中的实时、动态虚拟世界。
3.自动驾驶与机器人:这是目前最核心的应用方向。
自动驾驶:世界模型可以生成闭环的仿真环境,模拟各种极端、罕见路况,为自动驾驶系统提供海量、安全的训练数据,弥补真实路采数据(主要是前向视角)的不足。
机器人/具身智能:世界模型作为上游,可以为VLA(视觉-语言-行动)模型提供优质的训练数据源,教会机器人理解和操控物理世界。


四、与大语言模型结合的另类路径

我们自身在探索一条不同的路径:利用大语言模型作为核心调度器(Agent),调用专业的物理仿真工具和科学数据集,来逼近世界模型的效果。例如,让大模型编写代码驱动机械臂,或调用Mathematica等工具进行科学计算与绘图。这种方法生成的科研模拟内容可编码、可精确控制与修改,不同于一次性生成式的世界模型,在需要严谨性的科研、教育领域有独特优势。

问答环节摘要:

Q1:世界模型最广泛的应用场景是什么?

A:目前看,自动驾驶和具身智能机器人是两大最明确、空间最大的应用方向。像群核科技(酷家乐)做家装领域的世界模型,是基于其原有业务数据的自然延伸。

Q2:中外模型能力差距在扩大还是缩小?

A:软件(模型能力)差距在急剧缩小。尤其在接入Agent后,体验差距可缩小至5%以内。硬件(算力)方面,国产卡在实际使用中占比仍不高(约5%),但可用性和服务生态正在快速改善。

Q3:如何看待Mistral的“邀请制”及其领先性?

A:Mistral的邀请制确实能一定程度防止数据蒸馏。从其技术报告看,它是在现有框架内做到了更大规模、更精细的训练(如代码能力极强),但并非代际颠覆。

Q4:世界模型训练需要什么样的数据?当前瓶颈是什么?

A:需要大量高质量的多模态数据,且很多需要经过专业处理(标注或融入物理规律)。当前瓶颈不在于普通数据,而在于稀缺、高质量的“优质数据”,例如自动驾驶中的极端案例、家装设计中的材质纹理细节等。这需要对数据进行的专业“处理”,而不仅仅是“标注”。

Q5:世界模型与物理模型是什么关系?

A:世界模型是一个更宽泛的概念,目标是能在广泛场景中模拟世界;物理模型则是在受限环境(如实验室)中严格遵守物理规律的理想化模型。世界模型的理想形态是无限逼近甚至成为物理模型。

Q6:世界模型对算力、存储的需求如何?

A:其训练和推理所需的算力远超纯文本大模型。虽然当前世界模型参数量可能小于语言模型,但随着数据问题解决,算力需求将指数级增长。推理时生成视频也比生成文字消耗更多算力。存储需求同样会大幅增加。

Q7:产业时间表?

A:自动驾驶和3D内容生成落地最快,具身智能是代表未来的方向。世界模型作为基础设施,其发展将赋能并重塑众多下游行业。

主持人总结:

感谢马总的精彩分享。今天的会议涵盖了世界模型的核心概念、技术路径、产业现状和应用展望。后续我们将持续跟踪,欢迎大家会后交流。会议到此结束,谢谢大家。

每日精选最新的重点行业研究纪要,欢迎各位老师动动发财的小手转发、点赞和收藏!

作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。

合规声明:本站发布的所有文章及观点均系个人研究共享,投资心得交流,不代表本站立场,且不构成任何形式的投资建议。投资者据此操作,风险自担,请务必保持独立审慎的决策态度。