人形机器人竞速大模型，得数据者得天下

admin 最新科技 2024-09-10 10 0

■ 中国工业报王珊珊左宗鑫

近日，在上海2024世界人工智能大会上，人形机器人和大模型成为了两大人气王。

新设的机器人专区里，25个人形机器人、各种灵活的机械臂、穿梭在过道中送水的机器狗，还有能够帮你成为超能人——两只手指头就能搬起沙袋的外骨骼；大模型展区更是各种炫技，读懂你的情绪、模拟你的动作、帮你做个个性化的诊疗、甚至让你直接和你喜欢的数字名人聊天，比如罗永浩……置身其间，你似乎来到了未来世界。

据国际机器人联合会的数据显示，全球人形机器人的市场规模正以每年超过20%的速度增长。预计到2025年，将达到数百亿美元的规模。

4月，首届中国人形机器人产业大会发布《人形机器人产业研究报告》预测，2024中国人形机器人市场规模约27.6亿元（人民币，下同）；2026年达104.71亿元；到2029年达到750亿元，将占到世界总量的32.7％，位居世界第一，到2035年规模有望达到3000亿元。

过去，由于技术不成熟，人形机器人只能提供casebycase服务，缺乏对复杂场景的认知能力，应用空间局限；同时在本体控制层，人形动作僵硬，需按照预设好的算法运行，不具备更智能的灵巧操作能力。

随着2023年大模型技术席卷而来，技术进步给人形机器人具身智能带来了新转折。从事AI赋能企业数字化的常信科技CEO葛林波表示，有了大模型的加持，“新”人形机器人已经突破了上一代技术路径的局限。它的革命性变化主要体现在：实现了更高层次的抽象理解和推理能力，大幅提升了非结构化环境中的适应性，使机器人具备了更接近人类的认知决策能力，并能实现跨领域知识迁移和自主学习。

“人形机器人也许将是AI在演进中最重要的应用场景。”凌云智能原CEO祝凌云直言。

人形机器人竞速大模型

大模型带动行业变革

大模型的加入相当于为机器人安装了一个大脑，让它可以对周围环境做出更加深入的理解。

达闼在上海2024世界人工智能大会上展出的人形双足机器人XR4小紫，搭载了大模型RobotGPT。人工智能公司OpenAI与人形机器人公司FigureAI合作，推出了大模型加持的人形机器人Figure01。

“目前，国内许多人形机器人已经接入大模型。据不完全统计，截至目前，优必选、傅立叶、智源以及北京银河通用等企业均已载入大模型，科大讯飞人形机器人主要基于自研的星火大模型。”科大讯飞机器人首席科学家季超对中国工业报表示。

而在3月人形机器人大赛现场，中国工业报听到最多的一句话就是，“在大模型赋能下，人形机器人将是具身智能最佳的载体。”

具身智能，是指在机器智能领域中，通过将智能算法与物理实体的感知、行动和环境交互相结合，使机器能够以更自然、更智能的方式与环境进行交互和解决问题的能力。人形机器人作为通用人工智能具象化载体，与人工智能大模型相结合，就可以感知物理世界，利用多模态感知控制自己的身体，完成复杂的任务。

从2010年开始至2023年具身智能热爆发，国内人形机器人技术路径划分为两个阶段。

第一阶段为具体任务、单个场景的技术路径阶段。如针对特定园区设置运输线路，搬运机器人就可在固定路径上完成配送，稳定性强；多条路线下，用算法提前规划即可。但机器人一旦脱离该设定，便无法运转。因此，面对新场景、新任务，人形机器人都需要重新收集数据训练、设定方案和测试。

“过去，机器人工作可能停留在‘小脑’层面，即如何让机器人更稳定行走，机械臂控制更灵活，这本质上与业务流程存在较大鸿沟。”季超对中国工业报解释道，例如，过去，机器人从A点走到B点，或者在流水线上抓取某些物品，但它并不了解为何要走到B点，以及为什么要抓取物品。“如果机器人只完成这些基础功能，就无法满足业务场景的需求。”

“如果一家电力公司发生燃气泄漏或有毒气体泄漏，而变压器存在放电等危险，我们希望人形机器人可以代替人进入有潜在风险的工作场景，识别并关闭阀门，再打开窗户。我们需要将任务与实际业务流程结合，基于大模型进行微调，形成基于任务场景下的多模态矩阵大模型。让机器人能够按照我们对场景的理解，进行一系列基于时间序列的稳步操作。”季超表示，“大模型的加入相当于为机器人安装了一个大脑，让它可以对周围环境做出更加深入的理解。大模型的核心能力主要体现在对环境的理解和认知推理能力显著增强。”

第二阶段则是以具身智能为代表的技术路径更强调泛化性，追求多场景适配。大模型能解决多种任务，机器人可以完成单任务式交付到规模化应用的可能。

“过去，大家对机器人的要求是提前把事项预编好，执行就可以了。但人们希望人形机器人既能是个熟练的螺丝工，同时又具备质检等其他工作能力，可灵活配置，最终替代工厂里的员工完成繁重、枯燥性工作，而不是替掉现有的重型机械臂、传送带等。”乐聚机器人副总裁柯真东对媒体表示。

应对场景差异化就需要泛化的大脑。对人形机器人而言，这需要实现两大能力提升：一是语言理解能力。季超介绍，载入大模型后，机器人对于人类下发的复杂指令或者工作过程中的复杂指令，可以做到更深入的理解和拆解。这是过去对环境的感知和行为决策方面的大幅度提升。

二是学习能力。非结构化的环境下，大模型加上多维传感器，能够学习、识辨并构建环节，在mobile（移动）、pick（抓取）、place（搬运）三大基础能力之上，让人形机器人具备多场景作业的能力。

葛林波表示，大模型在人形机器人领域解决了语言理解、场景认知和动作规划等关键挑战，显著提升了机器人在复杂环境中的适应性和交互能力。在场景突破方面，大模型的赋能主要体现在提高人形机器人对新场景认知的泛化能力、通过少样本学习快速适应新环境、增强对复杂动态场景的理解能力，以及实现更高级的任务分解和规划。

“泛化性本质在于，任意场景、任意物体、任意情形下，机器人mobile、pick、place都能成功。”北大-银河通用具身智能联合实验室主任王鹤表示。

数据是关键

数据是人形机器人未来的灵魂。而当下，人形机器人缺少规模化数据则是整个行业最大的痛点。

作为集AI技术、软件算法、运动控制、硬件结构等为一体的移动终端，人形机器人是目前公认的难度系数最高的产品。而训练数据采集的难度，是横亘在人形机器人规模化落地面前的一座大山。

在上海2024世界人工智能大会“人形机器人与具身智能发展论坛”上，不少专家都提道：数据是人形机器人未来的灵魂。而当下，人形机器人缺少规模化数据则是整个行业最大的痛点。

季超表示，由于大模型和具身智能机器人遵循ScalingLaw（尺度定律的路线，模型能力可以理解为模型的损失函数，模型尺度指模型参数量、训练数据量、训练步数等。机器的训练学习，随着量的增加，效果提升就变得越来越缓慢，因此选择合适的量就好），因此对数据要求较高。当前机器人数据规模不如大模型，这类数据获取难度和规模积累仍然不足。但要真正实现具身智能落地应用，就得要让机器人能像人类一样，学习积累不同场景下的应对方式，拥有“经验和知识”。

清华大学研究员苏航认为，业内对人形机器人的关注从“专用场景解决具体问题”（灵巧性）到强调泛化性，主要还是出于降低成本考量，“原来一个场景应用一款机器人，（如果）泛化性可以做到足够好，一个机器人就可以在十个场景、百个场景应用，就可以实现规模化场景和规模化效应，一旦实现规模化，机器人的成本就可以拉到BOM（构建制造产品所需的原材料、组件、子组件等材料的详细清单）成本之下。所以，数据驱动的泛化性是人形机器人应用的核心。”

苏航说，目前，实验室收集到全网能够获取的所有人形机器人的数据，包括各种AI操作的数据，距离泛化性要求仍差2-3个数量级。哪怕达到GPT3.5的水平也差2-3个数量级。因此，构建数据集和训练场非常有价值，而如何结合真实数据和仿真数据一起做这件事则非常重要。

特斯拉擎天柱能在有限简单场景下进行自主作业，其核心依靠数据驱动：采集海量的优质数据，覆盖各类场景和物体，并通过具身智能提炼泛化能力。

目前，人形机器人公司对数据的需求可以分为三类：

一是通过数据理解世界规律。通过大量数据学习，让机器人理解任务意图。二是借助模拟数据学习逻辑推理和决策能力。借助模拟环境，可以让机器人掌握各种抓取方法。三是真实场景的应用数据。三类数据不同侧重点会影响人形机器人的精度和成功率。

“人形机器人最终落地是多种形态的，要提前做产业化布局，就意味着它需要提前进入场景，获取数据、再不断迭代，去适配场景的真实需求。”星动纪元联合创始人席悦对媒体表示。

真实数据的增加有利于机器人提高智能水平。但要跨越鸿沟，真实数据需要提高多样性和质量，并非单纯数量堆砌。

“这一点，人形机器人有天然的优势，它的数据可以更直接从人类的行为数据里获取或者迁移过来。”中国人形机器人百人会副秘书长、星动纪元创始人、清华大学交叉信息研究院助理教授陈建宇表示。

祝凌云也认为，人形机器人的大模型更需要运动和感官的数据支持，实质上就是机器学习，谁的用户多谁就能领跑。

在优必选使用的训练数据中，由Tele-operation（远程控制）所收集的真实数据占20%，此外，还有80%的数据通过仿真环境合成获得。

“由于真实数据稀缺，采集难度大、成本高，仿真合成数据被许多人形机器人企业视为解决数据问题的最优解。”祝凌云建议。

达闼机器人用数字孪生方案搭建了一套实时同步、虚实转换的数据收集系统，通过传感器，将人所在环境扫描并传输到云端，以30Hz/秒进行重建，将机器人放置在孪生环境中进行训练。将机器人看作一个NPC（是non-playercharacter的缩写，指在游戏中不受玩家操控的一种角色类型），各项任务是一个个游戏，用AI驱动人形机器人在“游戏”中运行。

“这时候，我们要多少合成数据就有多少，需要什么场景也可以通过数字孪生的方式随时搭建。当数据在时间轴上被拉长、以切片形式存在，突发问题也变成了静止问题。”达闼机器人创始人黄晓庆说。

当然，合成数据的劣势在于，它与真实数据之间存在数据分布的差异，实时性不强，在落地时，会面临更高要求的精度问题。

但“目前市场上，能够在同一个阶段把几类数据都同步做好的公司几乎没有，普遍做法是根据自身的技术优势，优先从擅长方向切入。”光源资本董事总经理娄洋表示，“当前以具身智能为核心的新一代人形机器人公司，在场景侧的选取和市场端的切入上尚未达成共识。有些探索进度快，有些相对较慢，但进度更快的公司所选取的路径，并不一定代表着该场景的最优解。目前，场景落地的可行性和优劣与否还没有明确答案。”

如工厂对机器人的要求通常以精准成本为导向，期待机器人能够每天完成固定的任务，确保生产的稳定性。然而，人形机器人的智能水平提升需要更强的泛化性和应变能力。与生活场景相比，工业环境能提供给机器人的反馈和学习机会相对受限。存在落地成本不确定，以及数据训练和实际应用转化之间的错配问题。

葛林波表示，获取高质量、多样化的机器人操作数据仍然是一个重要挑战，未来可能需要更先进的数据采集系统、虚拟仿真环境和数据增强技术来解决这个问题。

今年5月，国地中心在上海成立，这是国内首个人形机器人领域公共平台。目前，国地中心正在浦东建设一个能够容纳100个人形机器人进行智能训练的训练场，11月将完成一期建设；预期到2027年该训练场可以扩大到能够容纳1000个人形机器人训练。

中国人形机器人百人会副秘书长，北京市人形机器人创新中心有限公司CEO熊友军也在3月机器人大赛上公布了大模型计划：未来将与人形机器人创新中心产业联盟的一些合作单位，共同构建数据收集平台以及大模型训练平台，主要面向工业场景下语言动作的操作数据收集和训练。同时也会训练面向工业场景的大模型，跟大家一起构建虚拟平台。

王鹤说，要让机器人认识世界，需要一个“对时间、空间、物理定律有比较细粒度的表达”的世界模型，但是，“这件事情不是现在任何一个软件平台，或任何一个智能模型能做到的。”要让人形机器人能真正成为千家万户的家务型、陪伴型使用机器人，还需要很长一段时间的努力。

审核：余早早

责编：左宗鑫

实习生：牛润茁