低位物理AI时代的数据“卖铲人”——海天瑞声

2026-05-19 20:06:552

 策略——物理AI时代的数据“卖铲人”,具身数据采集开启下一代数据基建浪潮

  (一)世界模型重塑智能基石,具身数据范式迈向全面变革

  1.从“理解语言”进化到“理解世界和预测未来”

  当前,人工智能正在从“理解语言”进入到“理解世界和预测未来”的全新阶段,世界模型(World
Model)正是这场变革的核心。=

  世界模型为智能体解锁了多项重要能力,被视为通用人工智能发展的关键里程碑。

  世界模型与前代模型的本质区别,在于其能力根基从“数据相关性”驱动转向了“物理因果性”驱动。

  2.理论与实践发展并行,自2025年迎来应用落地元年

  世界模型概念在2018年论文《World
Models》中首次提出,并自2025年起迎来了集中性突破。

  世界模型技术发展的步伐虽有加快,世界模型技术目前尚处探索初期。

  3.赋能三大应用场景,其中具身智能备受瞩目

  (1)游戏与虚拟现实场景:世界模型提供了构建虚拟环境的逻辑与物理规则的底层架构,是实现玩家与动态场景交互的技术基础。

  (2)自动驾驶场景:作为L4规模化部署的加速器,世界模型通过生成高复杂度、高风险度的真实驾驶环境,将传统算法难以处理的“高动态、高不确定性”场景转化为可控问题,以应对自动驾驶中的长尾挑战。

  (3)具身智能场景:

  根据中国计算机学会(CCF)的定义,具身智能是指一种基于物理身体进行感知和行动的智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。

  技术架构层面,世界模型赋予具身智能理解世界、预测未来并进行自主决策的能力,而数据是实现智能的第一性原理,打造高质量模型离不开海量高质的数据。

  具身智能领域目前主要从真实数据、仿真/合成数据与互联网数据三类来源进行数据训练。

  (二)“数据采集”驱动行业数据飞轮构建,三大主流采集方案并行

  1.数据采集是实现突破性发展的重要一环

  “数据采集”是推动具身智能数据飞轮高速运转、实现突破性发展的重要前提。

  高质量的具身智能数据有着全链路闭环、多场景+高泛化、高质量+高精度、高兼容+灵活适配以及规模化与效率平衡五大需求。

  当前,具身数据面临采集成本高、模态不足/维度匮乏、格式不统一导致的通用性差和异型数据融合困难以及数据孤岛等现实挑战,“数据缺口”成为制约具身智能发展的瓶颈。

  2.三大主流数据采集方案利弊共存,视频数据成为业内关注新焦点

  根据数据金字塔理论,目前主流的数据采集方案主要有以下三类:真实数据、合成/仿真数据以及视频数据这一新兴方向。

  (1)真实数据:高保真而采集成本高昂

  真实数据:直接利用机器人在实际物理环境中运行、交互产生的传感器数据(如图像、激光雷达点云、力觉、声音、位姿等)以及对应的环境反馈和行为结果进行模型训练。

  其中,以光学动作捕捉为核心的多模态数采是近年来快速崛起、有望较大程度克服真实数据采集缺点的潜力路线。

  (2)合成/仿真数据:高性价比但存在Sim2RealGap

  合成/仿真数据:在虚拟环境中,利用高保真物理引擎、渲染引擎和场景建模技术,模拟机器人、环境对象及其交互过程,生成大量带标注的合成/仿真数据用于训练模型。

  Sim2RealGap的解决方案:为弥合仿真与现实之间的差距,业界主要有Sim2Real与Real2Sim2Real两类技术路径。

  (3)视频数据:来源广泛但直接应用困难

  视频数据:通过升维技术等对海量的视频进行采集训练。

  代表性方案:非结构化2D视频转化。

  (三)数据采集的核心难点与发展趋势

  1.真实数据匮乏、仿真迁移鸿沟与长尾泛化挑战是具身数据采集的核心难点

  真实数据稀缺、仿真到现实的差距与长尾泛化困难,共同构成了制约具身数据采集的重要瓶颈,严重限制了具身智能在复杂、非结构化环境中的可靠性与普适性。

  2.仿真/视频数据用于预训练与真实数据用于微调/强化学习的虚实结合方案或将成为主流,采集训练场、开放生态与评估体系的加速建设夯实行业数据基座

  仿真/视频数据与真实数据相结合的路径,可能仍是未来数据采集与训练的主流方向。具体而言,仿真/视频数据主要用于预训练,而真实数据则更多用于VLA微调和强化学习。

  更多标准化、场景化的数据采集训练场正加速涌现,成为构建行业数据基座的核心基础设施。

  开源生态的成熟度已成为具身智能快速发展的关键,具身数据开放生态正在加速构建。

  为提升具身模型训练效率,行业正加速打造数据质量评估体系,从源头上控制数据冗余与噪声。

  (四)具身智能本体厂商数据解决方案

  从技术路径方案来看,侧重真实数据的国内外厂商有智元机器人、自变量机器人、特斯拉Optimus(早期)、1XTechnologies等,侧重合成/仿真数据的厂商以银河通用为典型代表,正在积极布局视频数据(纯视觉AI训练)这一新兴方向的有逐际动力、千寻智能、星动纪元、特斯拉Optimus、SkildAI、FigureAI等厂商。

  1.国内主流本体厂商解决方案

  (1)真实数据派代表性厂商

  智元机器人:1)多元真实世界数据采集方式:通过动作捕捉示教和VR遥操作等手段在真实环境中采集训练数据,且搭建覆盖家庭、工业、零售、餐饮、办公等五大真实场景的数据工厂;2)利用数字仿真环境扩充数据源:与NVIDIA合作使用IsaacSim仿真平台和GR00T-Teleop工具,通过VR设备在数字孪生环境中采集模拟数据;3)侧重真实数据:合成与仿真数据用于工程迭代与模型调试,但大模型训练阶段100%使用真机真实数据。仿真用于早期测试,真正发布与部署阶段依赖真实场景的数据支持。

  自变量机器人:以真实世界数据为主要来源,所有涉及到复杂物理交互(如接触丰富的手部操作)完全不使用仿真数据,构建以模型驱动的数据闭环体系。

  (2)合成/仿真数据派代表性厂商

  银河通用:99%的合成数据和1%的真实数据进行训练,仿真合成动作数据集做预训练、真实数据做后训练。

  (3)布局视频数据新方向的代表性厂商

  逐际动力:坚持多元数据路线,同时积极发挥视频数据优势。继聚焦视频数据的LimXVGM后,发布新方案LimXDream
Actor,通过视频、仿真、真实等多源数据的组合,打破对单一数据来源的依赖,彻底打通“现实环境数据采集—仿真数据预训练—真机数据后训练”的链路。

  千寻智能:1)数据金字塔训练策略,视频数据为基础:Spiritv1训练数据来源占比中,70%预训练来自互联网海量视频数据,20%来自遥操作,10%源于机器人AI推演。以海量互联网视频预训练学习人类操作常识为基底,叠加少量场景化数据后训练与微量真机强化学习,仅需百条真实数据即可实现新任务泛化;2)提出State-free
Policy新型视觉运动策略,完全摒弃对本体状态信息的依赖,仅通过视觉观察指导机器人完成任务,展现出卓越的空间泛化能力。

  星动纪元:全球首创“开卷考+真实练”训练法,利用无标注互联网视频数据预训练,叠加少量真机数据微调,大幅提升任务准确度。

  (4)其他主流厂商

  宇树科技:1)通过动作捕捉采集多自由度机器人的示范数据;2)结合深度强化学习和高保真模拟器训练(例如进行跳跃、翻滚等动作学习),不断迭代升级机器人能力。

  优必选:垂直应用领域进行真实部署采集,采集真实数据后在仿真环境训练,结合真机数据和仿真环境的深度学习来大规模训练人形机器人,形成规模化效应。

  傅利叶智能:1)真实数据原始积累:在康复医疗领域已经部署数千台设备,积累海量真实数据,开源超3万条高质量真机训练数据;2)仿真数据开发验证:利用仿真平台进行算法开发和验证。

  星海图:1)数采工厂配备完善的数据采集设备和基础设施,利用本体和遥操作手段在真实生产场景中进行大规模的数据采集和处理工作;2)自主构建的全球首个机器人Real2Sim2Real(RSR)仿真引擎,利用真实数据对仿真器优化,可实现真实环境和物体的低成本三维重建,让机器人能在近乎真实的仿真环境中完成数据采集、增广及模型测试。

  云深处科技:1)真实数据原始积累:商业化落地较早,已在全球范围内部署大量机器人,赋能真实数据采集;2)仿真和互联网数据预训练:利用Issac
Gym仿真平台生成虚拟场景数据,覆盖草地、雪地、砂石路等100+种地形,并结合互联网视频预训练;3)下阶段重点布局世界模型:通过模仿人类和动物通过观察与交互对世界进行学习的方式,让机器人拥有推理能力,不依赖大规模数据采集,在未经训练的情况下也能自主判断,无需采集海量数据

  穹彻智能:利用外骨骼和遥操作采集真实数据,并通过仿真数据提高规模和多样性。首先通过真实采集的方式来做训练和细节,然后通过模拟合成来做大模型预训练,相辅相成解决泛化问题。

  2.国外主流本体厂商解决方案

  (1)真实数据派代表性厂商

  1XTechnologies:以“大规模真实世界数据”为绝对核心训练1X世界模型。

  (2)布局视频数据新方向的代表性厂商

  特斯拉Optimus:1)早期依赖真实数据采集方式,如定制远程操作系统、动作捕捉、计算机视觉和VR模拟;2)近期放弃动捕与遥操作,深挖互联网视频数据。

  Skild
AI:1)多元采集数据,不盲信真实数据;2)认为具身智能的数据量是万亿级别,仅有真实数据是不够的,需要用视频数据做补充。

  Figure
AI:视频数据学习转向,通用人形机器人视觉-语言-动作(VLA)模型Helix宣布两个关键突破:1)启动Project
Go-Big以实现互联网规模的人形机器人预训练;2)实现零样本人类视频到机器人迁移,在完全基于人类自我视角视频训练后,Figure机器人能够根据自然语言指令在真实、杂乱的环境中自主导航。

  (3)其他主流厂商

  Agility
Robotics:已与NVIDIA合作,采用Isaac
Sim/IsaacLab在虚拟环境中训练Digit机器人的多种运动与感知模型。

  Sanctuary
AI:1)在高自由度液压机械手的训练上,大量依赖NVIDIAIsaac
Lab仿真;2)第8代Phoenix机器人在硬件设计上专注于数据采集质量:改进了视野宽度和遥测系统,用于输出更高保真的训练数据,以“提供最高质量的训练数据”并将AI“扎根于物理世界”。

  Physical
Intelligence:1)前期使用互联网数据进行预训练,并不断增加通用多模态任务数据、面向机器人的任务数据以及真实示例数据等提升泛化能力;2)创始人认为,虽然公司在广泛探索新方向,但核心仍是扩大真实机器人数据的规模。

  (五)具身数据产业全景

  1.具身数据一级市场产业龙头

  (1)枢途科技——互联网视频数据方案

  战略布局:1)自主研发SynaData数据管线解决方案,实现视频提取多模态具身数据并服务于第三方具身模型。SynaData将视频转化为多模态、高精度的具身训练数据,为具身智能的大规模训练提供可持续的高质量数据来源,实现综合数采成本降为行业平均水平的千分之五;2)SynaData视频具身数据领先行业实现了第三方具身模型验证,目前已成功应用于清华RDT、PIπ0、智元UniVLA、EquiBot等主流VLA模型;3)未来将从三个方面拓展视频数据采集的技术边界:a.精度升级:通过引入动态遮挡建模和多视角重建机制,将各模态重建平均精度从目前的5毫米级进一步压缩至2毫米以下,满足更多模态支持需求;b.泛化扩展:持续扩展支持的机器人本体数量至100种以上,适配包含人形机器人、多类型灵巧手、协作机械臂,AGV、AMR等各类结构;c.生态共建:计划于2025年四季度发布首个基于真实场景视频的多模态具身开源数据集,与NVIDIAIsaac等仿真环境伙伴共建具身数据基础设施。

  (2)跨维智能——视频学习方案

  数据方案:构建高效闭环的“少样本-可扩展-可验证”视频学习框架。其核心是,先从底层与中层视频数据中快速获取语义与时空先验,再通过自动增殖与少量真实回放快速生成底层的有标签训练对照。该学习框架有四重关键优势:直观性(直接来源于人类演示)、高效性(显著减少对昂贵机器人数据采集的依赖)、可扩展性(通过几何变换/合成扩增)与可解释性(关键帧/语义标签便于人工审查)。

  (3)光轮智能——全链路合成数据体系

  数据方案:1)高质量的物理真实资产与场景:工业、家居、商超、农业、医学等全领域可交互仿真资产;2)遥操作工具链:支持VR、机械臂、Space
Mouse鼠标等多种在仿真环境中遥操方式,解决数据缺乏、获取成本高昂、时间周期长等行业难题;3)强化学习云平台与工具链:为预训练、后训练阶段的具身智能模型提供大规模仿真训练环境。

  战略布局:1)与全球顶尖企业深度合作,客户涵盖NVIDIA、Figure、Deepmind、智元机器人、银河通用机器人、字节跳动、Wayve、博世等;2)构建上千人的仿真运营团队,致力于构建全球最大的具身数据工厂,做仿真技术驱动的具身智能界Scale
AI。

  (4)智元机器人——真实数据为主

  战略布局:1)构建全域真实场景与全流程质控体系:项目依托自建的2000平真实采集场景,覆盖217个复杂操作任务,3000+操作物品。相比Google的OpenXEmbodiment数据集,AgiBot
World长程数据规模高出10倍,场景范围覆盖面扩大100倍,数据质量从实验室级上升到工业级标准。同时构建“标准化采集流程+自动化质检+人工在环审核”三维质控机制,数据准确性达到99%以上;2)制定成熟的数据生产标准并搭建配套技术平台:构建成熟的多模态数据采集与结构标准体系,覆盖任务设计、数据采集、审核标注与格式规范四大技术环节,形成高度工程化的技术链路,使数据生产效率提升约40%;3)构建生态培育机制,推动数据共享与标准协同:数据集坚持开源共享原则,已上线魔塔社区、OpenDataLab、Huggingface、GitHub等国内外平台。2025年3月,英伟达在GTC大会上推出的具身基座模型GROOTN1与机器人推理模型Cosmos
Reason,其80%的训练数据均源自智元开源的AgiBotWorld数据集。

  (5)杭州编解码——真实数据(对物理世界的真实全采样)

  数据方案:1)数据手套:可同时采集手指关节运动和力反馈信息,精度最佳且自由度最高;2)光惯混合技术:全球独创光惯数据底层紧耦合,无惧磁场干扰,可在强反射、光线复杂等环境下工作;3)混合视觉采集:全球独创集成了RGB图像及红外图像,既可同时采集关节运动信息及环境物体信息等多模态数据,又保证了多模态数据的时空一致性;4)电子皮肤:柔性可拉伸多模态电子皮肤,在同时检测多种模态触觉信息的同时,兼具良好的适形性和鲁棒性。

  战略布局:1)DexCanvas数据集:系统性优势,覆盖22种人手操作模式、1000小时真人操作数据、10万小时仿真合成数据、采集精度达0.1mm、实现4种数据模态同步;物理真实性优势,100%数据进行物理一致性修复、0.1N力觉信息精度、1mm接触几何精度、4类抓取规则参数标注;泛化能力优势,用于3类灵巧手构型操作模仿学习和若干应用场景案例;2)合作客户众多:与宇树科技、智元机器人、傅利叶机器人、优必选、逐际动力、乐聚机器人等多家厂商建立合作关系。

  (6)艾欧智能——较为专注遥操作方案

  战略布局:1)正式推出第三代机器人遥操作数据采集系统IOTeleXperience
III,核心升级在于全面模块化的自由定制方案与全新研发的外骨骼手套。外骨骼手套具备更高精度的指尖定位与震动反馈能力,在多种选型组合下,能显著提升遥操作的沉浸感与数据采集精度;2)积极推进与本体和大模型公司的合作(智元机器人、睿尔曼智能等),公开多模态数据,包括视觉、触觉、声音和运动学数据。

  2.具身数据二级市场相关公司

  (1)海天瑞声——多元数据解决方案

  数据方案:1)机器人遥操:通过人工远程操控获取真实场景下的操作数据;2)动作捕捉:记录人类在特定环境中的行为模式;3)虚拟合成:利用仿真环境生成训练数据;4)互联网开源数据集:整合现有的公开机器人数据。

  战略布局:1)携手石景山人形机器人数据训练中心共建“具身智能数据训练场”,打造“数据采集-模型训练-场景验证”的全流程闭环,聚焦机器人环境感知、动作规划等数据标注,覆盖108台仿人机械臂训练场景;2)发布全国首个具身智能数据工程化服务平台,通过系统化、自动化的数据管理赋能开发者,提升研发效率。

  (2)索辰科技——合成/仿真数据平台提供商

  数据方案:基于自身全国领先水准的物理AI核心体系,结合多项计算物理引擎技术推出的索辰具身智能虚拟训练平台,能够彻底打通真实世界与虚拟世界的数据壁垒,实现“采集-训练-生成-评估”的完整链路。

  战略布局:收购力控元通。力控科技具备精准的环境感知与数据采集能力以及高效的实时时序数据库能力。通过战略整合,结合自身物理AI核心算法与技术,索辰科技有望突破性地实现从研发设计、生产制造到产品运维的全生命周期物理AI解决方案。

作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。

合规声明:本站发布的所有文章及观点均系个人研究共享,投资心得交流,不代表本站立场,且不构成任何形式的投资建议。投资者据此操作,风险自担,请务必保持独立审慎的决策态度。