World Model 与 Physical AI 产业趋势深度解读

2026-04-21 08:09:019℃

世界模型是AI新焦点，通过虚拟预演指导现实任务。技术路径多样，应用集中于自动驾驶、机器人及3D内容生成。数据与算力是主要瓶颈，中外模型能力差距正快速缩小。

【会议概要】

本次华创证券举办的“世界模型与物理AI”产业趋势电话会议，由无界AI联合创始人马天先生主讲，核心观点是：世界模型是继大语言模型之后AI发展的新焦点，其定义宽泛、技术路径多样，旨在让AI在虚拟世界中“预演”行动后果，以更好地指导现实世界的机器人、自动驾驶等任务。当前产业正从数据、技术、应用等多维度快速演进。

具体要点如下：

1.兴起背景：世界模型近期备受关注，主要因为大语言模型发展遇到瓶颈：一是性能跃迁速度放缓，二是高质量人类文本数据已基本耗尽。而视频等多媒体数据尚存巨大开发空间，为世界模型提供了新的“燃料”。

2.核心定义：业界普遍认同的定义源自黄仁勋的阐释：智能体应在内部世界（脑海）中模拟动作的后果，预想多种可能后再在现实中执行，以提高效率和成功率。

3.技术路径多样化：

表达内容：可分为高维空间模型（注重生成逼真、细节丰富的世界，如阿里“蚂蚁零式”）和隐空间模型（注重抽象物理规律与逻辑推理，摒弃无关细节，如杨立昆的研究）。

数据来源：训练数据维度多样，包括2D图片、2.5D视频、3D点云/高斯、4D（3D+时间）数据等。数据预处理程度也不同，从原始数据到经过严格标注、结构化处理（如添加特定天气效果）的数据均有使用。

代表玩家：海外有英伟达（Cosmos平台，结合Omniverse物理仿真形成闭环）、Google DeepMind、李飞飞团队等；国内有阿里、极佳世界（清华系，融资活跃，估值已破百亿人民币）等。

4.核心应用场景：

具身智能与机器人：世界模型可为VLA（视觉-语言-行动）模型提供高质量、多样化的训练数据源，是机器人实现通用能力的关键。

自动驾驶：用于生成闭环仿真环境，模拟各种罕见、危险的驾驶场景，大幅提升训练效率和安全性。

3D内容生成：服务于游戏、影视、VR/AR等内容产业，实现动态、可交互的虚拟世界生成。

5.与大语言模型的关系：大语言模型通过接入Agent（智能体）调用专业工具（如物理仿真软件、科学计算工具），也能在一定程度上逼近世界模型的效果，实现可编码、可修改的严谨内容生成（如科研模拟），这是一种不同的实践路径。

6.产业现状与挑战：

数据瓶颈：高质量、经过专业处理（标注或融入物理规律）的多模态数据仍然稀缺，是训练更强大世界模型的主要障碍。

算力需求：世界模型的训练和推理算力需求远高于纯文本模型，将持续推动算力需求增长。

中外对比：在模型能力上，中外差距正在快速缩小，尤其在接入Agent后，体验差距进一步收窄。硬件（算力卡）层面，国产算力在实际使用中占比仍低（约5%），但可用性和服务正在快速改善。

【会议实录】

主持人开场：

大家好。近期“世界模型”与“物理AI”成为市场关注的热点，相关投资标的也日益增多。今天我们非常荣幸地邀请到无界AI的联合创始人马天先生，为大家带来行业深度分享。马总也是浙江大学的兼职教授，在该领域有深厚的积累。下面有请马总。

马天先生分享：

大家好。今天我分享两部分：一是我们对世界模型和物理AI的行业观察，二是我们自身的一些探索。

一、世界模型的定义与兴起背景

“世界模型”目前尚无统一权威的定义，概念较为宽泛。一个被广泛引用的清晰定义来自黄仁勋：智能体在真实世界中试错成本高昂，因此应在内部世界（脑海）中模拟动作的后果，预想多种结果后再去执行。这类似于人类在行动前的“预演”。

世界模型近期火热，主要源于大语言模型发展遇到瓶颈：一是从GPT-3到GPT-4等，性能跃迁的速度在放缓；二是更关键的是，截至2025年，互联网上高质量的人类文本数据（如维基百科、权威论文）已基本被训练殆尽。然而，视频等多模态数据仍非常丰富，预计到2046年才会耗尽，这为世界模型提供了新的数据“燃料”。

二、主要技术路径与代表玩家

世界模型的技术路径非常多样。

1.从表达内容看：

高维空间模型：如阿里的“蚂蚁零式”，注重生成细节丰富、写实逼真的动态世界（如鸭子走动时水波的物理效果）。

隐空间模型：如杨立昆教授的研究，不关注表面细节（如颜色），而专注抽象的空间结构、物理规律（如刚体碰撞）和逻辑推理，类似于“地图”之于“现实世界”，或“乐谱”之于“音乐”。

2.从数据来源看：训练数据可以是2D图片、2.5D视频（2D+时间）、3D数据（如点云、高斯）、4D数据（3D+时间）。数据预处理程度也不同，自动驾驶等领域常用经过严格标注和结构化处理（如人工添加雨雾、噪声）的数据。

3.代表玩家与融资：海外有英伟达（其Cosmos平台致力于构建闭环反馈的世界模型）、Google DeepMind、李飞飞团队等。国内头部玩家包括阿里和极佳世界。极佳世界（清华系）发展迅速，一个多月融资25亿人民币，估值已破百亿，在World Arena榜单上排名全球第二。

三、核心应用场景

1.通往AGI/ASI的路径：许多学者认为，从物理世界中学习是实现通用人工智能（AGI）甚至超越人类智能（ASI）的重要途径。

2.内容产业：用于生成游戏、电影、VR/AR中的实时、动态虚拟世界。

3.自动驾驶与机器人：这是目前最核心的应用方向。

自动驾驶：世界模型可以生成闭环的仿真环境，模拟各种极端、罕见路况，为自动驾驶系统提供海量、安全的训练数据，弥补真实路采数据（主要是前向视角）的不足。

机器人/具身智能：世界模型作为上游，可以为VLA（视觉-语言-行动）模型提供优质的训练数据源，教会机器人理解和操控物理世界。

四、与大语言模型结合的另类路径

我们自身在探索一条不同的路径：利用大语言模型作为核心调度器（Agent），调用专业的物理仿真工具和科学数据集，来逼近世界模型的效果。例如，让大模型编写代码驱动机械臂，或调用Mathematica等工具进行科学计算与绘图。这种方法生成的科研模拟内容可编码、可精确控制与修改，不同于一次性生成式的世界模型，在需要严谨性的科研、教育领域有独特优势。

问答环节摘要：

Q1：世界模型最广泛的应用场景是什么？

A：目前看，自动驾驶和具身智能机器人是两大最明确、空间最大的应用方向。像群核科技（酷家乐）做家装领域的世界模型，是基于其原有业务数据的自然延伸。

Q2：中外模型能力差距在扩大还是缩小？

A：软件（模型能力）差距在急剧缩小。尤其在接入Agent后，体验差距可缩小至5%以内。硬件（算力）方面，国产卡在实际使用中占比仍不高（约5%），但可用性和服务生态正在快速改善。

Q3：如何看待Mistral的“邀请制”及其领先性？

A：Mistral的邀请制确实能一定程度防止数据蒸馏。从其技术报告看，它是在现有框架内做到了更大规模、更精细的训练（如代码能力极强），但并非代际颠覆。

Q4：世界模型训练需要什么样的数据？当前瓶颈是什么？

A：需要大量高质量的多模态数据，且很多需要经过专业处理（标注或融入物理规律）。当前瓶颈不在于普通数据，而在于稀缺、高质量的“优质数据”，例如自动驾驶中的极端案例、家装设计中的材质纹理细节等。这需要对数据进行的专业“处理”，而不仅仅是“标注”。

Q5：世界模型与物理模型是什么关系？

A：世界模型是一个更宽泛的概念，目标是能在广泛场景中模拟世界；物理模型则是在受限环境（如实验室）中严格遵守物理规律的理想化模型。世界模型的理想形态是无限逼近甚至成为物理模型。

Q6：世界模型对算力、存储的需求如何？

A：其训练和推理所需的算力远超纯文本大模型。虽然当前世界模型参数量可能小于语言模型，但随着数据问题解决，算力需求将指数级增长。推理时生成视频也比生成文字消耗更多算力。存储需求同样会大幅增加。

Q7：产业时间表？

A：自动驾驶和3D内容生成落地最快，具身智能是代表未来的方向。世界模型作为基础设施，其发展将赋能并重塑众多下游行业。

主持人总结：

感谢马总的精彩分享。今天的会议涵盖了世界模型的核心概念、技术路径、产业现状和应用展望。后续我们将持续跟踪，欢迎大家会后交流。会议到此结束，谢谢大家。

每日精选最新的重点行业研究纪要，欢迎各位老师动动发财的小手转发、点赞和收藏！

作者声明：本文转载自第三方，旨在提供资讯参考，并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日，作者与文中提及的标的不存在持仓关系。

标签: 互联网人工智能教育机器人浙江游戏英伟达证券阿里

合规声明：本站发布的所有文章及观点均系个人研究共享，投资心得交流，不代表本站立场，且不构成任何形式的投资建议。投资者据此操作，风险自担，请务必保持独立审慎的决策态度。

本文链接：https://www.sanhuba.cn/post/fd-a3-13413.html

上一篇脱水研报：PCB设备、纺服化纤、钠电储能、AI算力CPU

下一篇Token定价重塑产业链：应用修复信号已现，算力租赁进入长景气

World Model 与 Physical AI 产业趋势深度解读

互联网相关

栏目分类

人工智能相关

教育相关

用户须知

World Model 与 Physical AI 产业趋势深度解读

 互联网相关

 栏目分类

 人工智能相关

 教育相关

用户须知

互联网相关

栏目分类

人工智能相关

教育相关

用户须知