本文为「机器人产业链深度拆解」系列第三篇。前两篇拆了关节(丝杠和减速器)和肌肉神经(电机、传感器和编码器)。身体零件齐了。这一篇进控制系统和具身智能:怎么让一堆精密零件变成一个能干活的人?
前两篇解决的是同一个层次的问题:把零件造出来。丝杠、减速器、电机、传感器,一微米一微米地追工艺差距。但零件再精密,也只是一堆零件。把它们变成一台能端茶倒水、能搬箱子、能自己学会新技能的机器人,靠的是另一个层次的东西:控制系统让它动起来,具身智能让它聪明起来。
而大脑这一层,出现了一个反直觉的局面。
全世界在同一条起跑线上。不是因为它容易,恰恰是因为它太难,难到谁都没有先发优势。真正的差距不在起跑位置,在另一个维度:谁先让数据飞轮转起来。
运动控制:不是瓶颈在聊AI之前,先把一个更底层的东西讲清楚。
机器人关节不是各动各的。28个关节要在几百毫秒内协同响应一条指令:行走时重心的每一次偏移、手臂伸展时每一度的角度补偿,都靠运动控制算法在后台实时求解。它不性感,但它是连接硬件身体和AI大脑的桥梁。没有它,再聪明的大脑也指挥不动身体。
运动控制三大件:伺服驱动器(把指令变电流,驱动电机旋转)、运动控制器(协调多轴联动,实时补偿误差)、轨迹规划算法(计算最优运动路径,避开奇异点和碰撞)。
三样东西,中国公司在过去五年里基本吃透了。
汇川技术从变频器起家,做到伺服驱动器市占率国内第一、全球前三。机器人关节用的伺服驱动和新能源汽车的电机驱动,共享同一套电力电子和电磁设计能力。这是中国新能源汽车产业链外溢给机器人产业的直接红利。
雷赛智能从步进电机控制器起家,一步步做到了多轴运动控制卡。鸣志电器从混合式步进电机杀进空心杯电机,再配上自主的运动控制器,实现了微型关节的闭环控制。埃斯顿从金属成型机床的数控系统起家,做到了工业机器人和人形机器人的全栈运动控制。
运动控制这条线,中国公司不是"追赶者"。它们在工业自动化的战场上已经打了几十年,从注塑机到数控机床到工业机器人,一代一代往上卷。人形机器人对运动控制提出了更高要求:关节更多、响应更快、协同更复杂。但这些要求在物理本质上没有跳出一个伺服工程师的理解范围。
一句话:运动控制,中国有产业基础,有工程师梯队,有供应链支撑。它不是瓶颈。
真正的瓶颈在上面一层。
具身智能:全世界都在等一个GPT时刻"具身智能"这个词,2025年突然火了。翻译一下:让AI不只是会说话,还要会做事。不是输出一段文本,是输出一连串身体动作,在真实的物理世界里完成一项任务。
这件事的难度和大语言模型不在一个量级上。
大语言模型处理的是文本:离散的符号序列,有明确的语法规则,有互联网上海量的训练数据。几十万亿个token,每一篇文章、每一段对话、每一行代码,都是人类在过去三十年里无意中为AI标注好的训练样本。
具身智能处理的是物理世界:连续的高维空间,没有教科书告诉你"拿起一个鸡蛋"的力度应该多大,没有现成的数据标注什么样的抓取姿势是对的。
一个ChatGPT回答错了,最多挨一句骂。一个机器人动作做错了,损坏的是自己、是零件、是旁边操作员的手。安全约束直接把具身智能的数据获取难度拉高了一个数量级。
目前的技术路线分两派。
一派叫VLA(Vision-Language-Action),把视觉、语言和动作统一到一个模型里。输入"把桌上的红色杯子递给我",模型自己看画面、理解语义、规划动作序列并执行。Google DeepMind的RT-2是这派的标杆:用互联网图文数据预训练,再用少量机器人操作数据微调,让模型"理解"物理世界里的物体关系和操作逻辑。
另一派叫仿真先行。在虚拟环境里训练一个策略模型,跑几百万次试错迭代,再迁移到真实机器人上。Nvidia是这派的最大推手。Isaac Sim是它的仿真平台,GR00T是它的具身智能基础模型。老黄在2025年GTC上花了整整20分钟讲机器人,不是因为他觉得机器人比GPU赚钱,是因为他看到了机器人是下一个需要万卡集群的AI战场。
两派各有死结。VLA的死结是数据:真实机器人操作数据极其稀缺。一个机械臂在实验室里抓取一万次杯子,每次换角度、换材质、换光照,数据量看着很大,多样性远不如互联网上十亿张图片。仿真派的死结是迁移:仿真器里的物理引擎再精确,也和真实世界的摩擦力、弹性形变、传感器噪声有差距。业内有一个术语叫"sim-to-real gap",没人说得准这gap能不能弥合。
Tesla走第三条路:用Optimus机群在真实工厂环境里自己产生数据,训练一个端到端的神经网络。和FSD自动驾驶是同一套方法论。
三条路线在融合,但终点指向了同一个问题。
数据飞轮:谁先转起来谁赢大语言模型的奇迹,本质上是互联网三十年积累的文本数据带来的。几十万亿个token,人类集体智慧为AI预备了三十年的免费午餐。
具身智能没有这顿免费午餐。
没有人在过去三十年里为"端茶倒水"这个任务录过几十亿段视频并标好动作序列。没有人为"把一个鸡蛋从冰箱拿出来放在料理台上"这个连续动作标注过关节角度和力控曲线。机器人操作数据,要么靠实验室里一台台采集,要么靠仿真器里一次次生成。前者太贵,后者有gap。
这就是为什么Tesla的策略最值得关注:不是因为它模型最先进,是因为它有一个潜在的飞轮。Optimus在工厂里每干一次活,就产生一段带标签的真实操作数据。干得越多,数据越多。数据越多,模型越强。模型越强,Optimus能在更多场景干活。飞轮一旦转起来,后发者要追的不是算法差距,是数据积累差距。这个gap比算法gap难追一个数量级。
Nvidia的解法是加速仿真侧的迭代。GR00T配合Isaac Sim,在虚拟世界里并行跑几千个机器人同时训练,一个月完成现实世界里需要十年的训练量。Nvidia的策略逻辑是先把模型训到80分,剩下20分靠真实数据微调。但这20分的gap,没有人敢说能跨过去。
Google的优势在基础模型的通用能力。RT-2证明了互联网图文数据可以作为机器人操作的先验知识:杯子是易碎的、水是会洒的、推比拉更安全。这些常识不需要机器人在物理世界里重新学一遍。但常识只能到80分,剩下20分的精细操作,还是需要真实数据。
中国这边,华为盘古大模型在工业场景里跑得最快:制造车间的标准化环境天然适合具身智能先落地。智元机器人、星尘智能在做灵巧操作的垂直突破。


一个清晰的格局浮现:全世界在具身智能这件事上,都在同一个起跑线上。差距不在技术水平上,在谁先让数据飞轮转起来。
两场竞赛,两种逻辑把三篇文章串在一起,机器人产业的能力分层很清楚。
最底层是关节:丝杠和减速器。物理极限决定的机械精度,差一微米就是不行。瑞士人和日本人守了几十年的护城河,中国正在一个一个凿口子。
中间层是肌肉和神经:电机、传感器和编码器。中国在电机层刺穿了,新能源汽车产业链给了它全套能力底座。传感器还卡着,因为它更接近半导体和精密仪器。
再往上是控制:伺服驱动、运动控制器、轨迹规划。中国有完整的人才梯队和产业基础,不是瓶颈。
最顶层是具身智能。这个层面的竞争逻辑,和下面三层截然不同。
下面三层是工业时代的竞争:精密制造、工艺积累、供应链配套。一微米一微米地追赶一个几十年的工艺差距。领先者和追赶者身份明确,差距可见,路径清晰。
具身智能是数据时代的竞争:数据飞轮、迭代速度、生态锁定。不是在追谁的工艺,是在比谁的数据飞轮先转起来、转得快、停下来更难。到现在为止,Nvidia、Google、Tesla、Figure,没有一家可以声称自己做成了通用具身智能。所有人都在等GPT时刻。
你处在什么竞争节奏里,决定了你的护城河有多深。
硬件层的护城河是工艺壁垒。做不出来就是做不出来,给图纸也没有用。AI层的护城河是数据飞轮。做得出来,但数据在你手里,迭代速度比你快,你敢停下来吗?
身体零件的竞争正在明朗化。大脑的竞争,才刚刚开始。
本文为系列第三篇。最后一篇,我们进终局问题:机器人造出来了,谁来买单?制造业工厂、物流仓库,还是家庭客厅?每一条路的经济账都不一样。
作者声明: 本文转载自第三方,旨在提供资讯参考,并非证券推荐或投资建议。作者对内容的真实性、准确性不承担保证责任。本文不构成任何投资建议或证券推荐。截至发文日,作者与文中提及的标的不存在持仓关系。