世界模型是AI新焦点,通过虚拟预演指导现实任务。技术路径多样,应用集中于自动驾驶、机器人及3D内容生成。数据与算力是主要瓶颈,中外模型能力差距正快速缩小。
【会议概要】
本次华创证券举办的“世界模型与物理AI”产业趋势电话会议,由无界AI联合创始人马天先生主讲,核心观点是:世界模型是继大语言模型之后AI发展的新焦点,其定义宽泛、技术路径多样,旨在让AI在虚拟世界中“预演”行动后果,以更好地指导现实世界的机器人、自动驾驶等任务。当前产业正从数据、技术、应用等多维度快速演进。
具体要点如下:
【会议实录】
主持人开场:
大家好。近期“世界模型”与“物理AI”成为市场关注的热点,相关投资标的也日益增多。今天我们非常荣幸地邀请到无界AI的联合创始人马天先生,为大家带来行业深度分享。马总也是浙江大学的兼职教授,在该领域有深厚的积累。下面有请马总。
马天先生分享:
大家好。今天我分享两部分:一是我们对世界模型和物理AI的行业观察,二是我们自身的一些探索。
一、世界模型的定义与兴起背景
“世界模型”目前尚无统一权威的定义,概念较为宽泛。一个被广泛引用的清晰定义来自黄仁勋:智能体在真实世界中试错成本高昂,因此应在内部世界(脑海)中模拟动作的后果,预想多种结果后再去执行。这类似于人类在行动前的“预演”。
世界模型近期火热,主要源于大语言模型发展遇到瓶颈:一是从GPT-3到GPT-4等,性能跃迁的速度在放缓;二是更关键的是,截至2025年,互联网上高质量的人类文本数据(如维基百科、权威论文)已基本被训练殆尽。然而,视频等多模态数据仍非常丰富,预计到2046年才会耗尽,这为世界模型提供了新的数据“燃料”。
二、主要技术路径与代表玩家
世界模型的技术路径非常多样。
三、核心应用场景
四、与大语言模型结合的另类路径
我们自身在探索一条不同的路径:利用大语言模型作为核心调度器(Agent),调用专业的物理仿真工具和科学数据集,来逼近世界模型的效果。例如,让大模型编写代码驱动机械臂,或调用Mathematica等工具进行科学计算与绘图。这种方法生成的科研模拟内容可编码、可精确控制与修改,不同于一次性生成式的世界模型,在需要严谨性的科研、教育领域有独特优势。
问答环节摘要:
Q1:世界模型最广泛的应用场景是什么?
A:目前看,自动驾驶和具身智能机器人是两大最明确、空间最大的应用方向。像群核科技(酷家乐)做家装领域的世界模型,是基于其原有业务数据的自然延伸。
Q2:中外模型能力差距在扩大还是缩小?
A:软件(模型能力)差距在急剧缩小。尤其在接入Agent后,体验差距可缩小至5%以内。硬件(算力)方面,国产卡在实际使用中占比仍不高(约5%),但可用性和服务生态正在快速改善。
Q3:如何看待Mistral的“邀请制”及其领先性?
A:Mistral的邀请制确实能一定程度防止数据蒸馏。从其技术报告看,它是在现有框架内做到了更大规模、更精细的训练(如代码能力极强),但并非代际颠覆。
Q4:世界模型训练需要什么样的数据?当前瓶颈是什么?
A:需要大量高质量的多模态数据,且很多需要经过专业处理(标注或融入物理规律)。当前瓶颈不在于普通数据,而在于稀缺、高质量的“优质数据”,例如自动驾驶中的极端案例、家装设计中的材质纹理细节等。这需要对数据进行的专业“处理”,而不仅仅是“标注”。
Q5:世界模型与物理模型是什么关系?
A:世界模型是一个更宽泛的概念,目标是能在广泛场景中模拟世界;物理模型则是在受限环境(如实验室)中严格遵守物理规律的理想化模型。世界模型的理想形态是无限逼近甚至成为物理模型。
Q6:世界模型对算力、存储的需求如何?
A:其训练和推理所需的算力远超纯文本大模型。虽然当前世界模型参数量可能小于语言模型,但随着数据问题解决,算力需求将指数级增长。推理时生成视频也比生成文字消耗更多算力。存储需求同样会大幅增加。
Q7:产业时间表?
A:自动驾驶和3D内容生成落地最快,具身智能是代表未来的方向。世界模型作为基础设施,其发展将赋能并重塑众多下游行业。
主持人总结:
感谢马总的精彩分享。今天的会议涵盖了世界模型的核心概念、技术路径、产业现状和应用展望。后续我们将持续跟踪,欢迎大家会后交流。会议到此结束,谢谢大家。
每日精选最新的重点行业研究纪要,欢迎各位老师动动发财的小手转发、点赞和收藏!
作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。