文 |腾讯科技
作者|周小燕 郝博阳
编辑|郑可君
排版|Miziko
本文预计阅读时长11分钟
(星尘智能Astribot S1跳海草舞)
(逐际动力CL-1上坡)
但一位长期关注人形机器人赛道的投资人逛完展会后,却对腾讯科技表示:“我一个也不想投了”。
他们目前既不够有用,又拉不开差距。
比如,工业场景人形机器人,主要任务是做拣选和小范围的搬运、挪动,但现有的传统自动化机器人已经有很成熟的方案,再做人形机器人意义不大。而聚焦家用场景的人形机器人主要任务就是烹饪、叠衣服、炒菜,虽然各家机器人在这类场景的完成度有差异,但投资人表示,“你能做到的对手也能做到,并不存在不可逾越的差距,只是时间问题而已”。
经腾讯科技不完全统计,此次大会一共有28家人形机器人公司参展,各家公司产品的服务场景除了科研之外,多数都集中在工业或家用场景。
从腾讯科技的统计可以看到,这些机器人的机械性能差异不小,比如自由度、峰值扭矩等指标,最多能有5倍差距;单拿移动速度来看,最快的一级能达到7km/h以上,慢的却只能做到2.5km/h。但在软件基础——大模型层面上,各家却很难拉开大的差距。
而这本应是今年人形机器人的最大亮点。
因为比起特定应用的工业机器人,“人形”这类型的机器人设计其实并不高效。它最大的优势就在于更能实现在人类社会中的“通用”,即人类不需要为了方便机器人的运转而特意改造环境,人类的双手能够着、双腿能抵达的地方,人形机器人也可以。
而实现“通用”的关键就在于有足够强的通用模型。
对这位投资人来说,展会内软件突破有限的人形机器人已让他感到审美疲劳。“现在能让我眼前一亮的,大概是真正拥有泛化能力的机器人”,比如一个会拖地的家庭服务机器人,可以不用主人发号指令,就能自己想到主动去房间铺个床,干个活。腾讯科技沟通了多位关注机器人赛道的投资人,他们普遍认为,做人形机器人,硬件本体并不存在真正意义上的壁垒,软件才是难题,因为它决定着人形机器人的泛化能力,只有拥有强大的泛化能力,人形机器人才能在多种任务场景中工作,才能更接近“通用性”。
但通往AGI是一个美好的理想,除了要奔向远方,也要结合当下的技术条件循序渐进。
虽然今年的人形机器人赛道让VC们略感失望,但和往年相比,我们发现这个赛道其实也有一些值得关注的新变化。
01
人形机器人的“表情包”执念?
如果未来人形机器人想要实现真正意义上的情感陪伴,它的“脸”和“表情”会变得极为重要。
日本机器人学者、ATR石黑浩特别研究室室长石黑浩认为,“随着我们接触到越来越多的机器人,我们可能会逐渐接受栩栩如生的机器人,并在未来依靠它们来满足我们的护理和其他需求。”
海银资本创始人王煜全也有类似观点,他曾对腾讯科技表示,机器人没有必要像人一样拥有双足,但它们可以像人一样拥有一张能做表情的“脸”,具备这项能力,机器人可以更好地胜任迎宾接待、陪伴这类需要与人类交流的工作。
关于人形机器人做不做“表情”,有两个派别:“抽象派”和“仿生派”,前者主张用抽象的符号传递表情,以表达情感交流,后者主张将脸做得无限逼近真人,希望能和人类一样,可以通过调动“肌肉”的力量驱动面部表情。
在WRC 2024上,我们观察到,除了主流的“抽象派”,更多的“仿生派”开始入场,并且这类机器人可以做各种“表情包”。
典型的代表是国内仿生机器人公司EX集团,EX集团去年将“李白”、“杜甫”带到世界机器人大会,今年又做出来“苏轼”。
(图:数字华夏机器人“夏澜”)
(图:Figure02)
(图:波士顿动力液压Atlas)
而更早的时候,有学者为了更好地练习机器人模仿人类表情,开发出开源机器人Eva,并发表论文解释了机器人表情驱动的原理。
(论文地址:)
Eva的头部由面罩驱动机构、下颌、眼睛和颈部四个部分组成,论文中描述,“其中面罩驱动机构采用了12个MG90S伺服电机、两个用于容纳伺服电机的3D打印伺服组、一个定制的硅胶面罩、一个用于支撑面罩的3D打印头骨以及穿过特氟龙鲍登管的钢丝。”
02
量产、进厂的机器人,
不为打工为数据
(汽车产线上的优必选人形机器人)
(UniX-AI的Wanda机器人在展厅演示执行洗衣任务)
但这种泛化很有限。
(星尘智能的S1机器人正在写字)
他们在固定的展位上做着各种大差不差、非常有限的工作,甚至流程看起来都很程式化。这一时间让人恍惚,好像回到了大模型到来之前的编程机器人时代。
在机器人大会期间的采访中,作为RT-X项目的参与者的Wolfram Burgard教授就认为当下的基础模型训练方式有着能效上的巨大问题——它需要太多的算力和数据才能达到泛化的门槛。
他举了个例子——在RT-X数据集项目中,虽然他们收集了超过100万个片段,覆盖了机器人的500多项技能和在16万项具体任务上的表现,但当桌子高度稍有不同,RT-2就可能完全无法正确进行任务了。
这就意味着,我们离真正泛化的具身智能ChatGPT时刻,可能还差着至少半个互联网那么大的数据量。
因此,在这场达成“泛化”的比赛里,能够先批量获得数据的企业才能占据先机。因此获得有效数据,是很多机器人公司在台下最火热的战场。
智元机器人发布会上,稚辉君就宣布了智元的数据采集计划。他们预计9月底建成有100台左右机器人的采样厂,对应150个工人,接下来进入数据量产阶段,目标是一个工人1000条数据/天,当前是600条/天。这就已经占据了他们预期“量产”机器人数量的1/3。当然,投入自有回报,按他们给出的数据,这个数据工厂10天就可以收集到和RT-X数据集一样大的量级。
而UniX-AI和星尘智能这些剑指具身智能实现的后起之秀,也强调自己在数据采集方面的投入。UniX-AI创始人杨丰瑜提到,他们在对机器人的训练中已经用到了在虚拟环境的模拟训练,以及视频采集分析这些“新采集方法”得到的数据。
但据智元透露,目前这些真机采集数据非常贵。即使采用大规模的生产,成本也需要0.4元/条。即使在模拟环境下获取的仿真数据,也需要真人数据60%-70%的成本。
那怎么才能更好地、更便宜地收集数据呢?进厂打工也许就是个对双方都有利的选择。机器人能获得一个收集实践工作相关数据的真实场景,而相关的人力成本可能都能节省下来;相关企业则能获得智造探索的行业经验,又可以多一个宣发口径。
消化了“量产”人形机器人中相当一部分的现实企业,不过是现阶段人形机器人的另一个数据工厂罢了。
03
“量产”一直是人形机器人的产业难题,主要原因在于各家关键零部件规格不统一、参数要求参差不齐,很难形成标准化。宇树创始人王兴兴在WRC 2024前也对腾讯科技说道,“每一家做具身智能的思路都不一样,比如机器人的传感数据应该怎么采集,要不要触觉传感器,末端执行器应该有几根手指,都不统一”。
尽管行业的路线还在探索,但其实很多公司都在用“模块化”思维做人形机器人,即,人形机器人就像一个“大玩具”,胳膊、机械手、底盘都可以被拆卸和安装,而在今年的WRC 2024上,模块化设计机器人的路径被直接呈现了出来,“人形机器人赛道软硬件标准化程度低,将零部件模块化,其实也是一些公司在初步尝试做标准化”,一位参加WRC 2024的业内人士对腾讯科技说道。
机器人公司尝试模块化的主要零部件,聚焦在上臂、灵巧手、双足,比如星动纪元Star1机器人可拆卸替换底盘,Star1的底部既可以换成双足也可以做成轮式,“如果有需要,也可以不用底盘,只保留上半身”,星动纪元工作人员说道。
而智元机器人的“灵犀X1”机器人主打开源,电机、夹爪等核心零部件可以实现拆装。
但末端执行器的替换,涉及到本体对不同类型夹爪的控制能力,比如,能轻松运作两指夹爪、三指夹具的本体,未必能够驾驭好五指灵巧手,“它们所牵涉到的控制能力不是一个级别的”。
04
虽然WRC 2024过后,不少人对人形机器人的应用表示怀疑和失望,在实际场景中连传统机械臂都比不上,甚至觉得“人不如狗”,但技术的进步是循序渐进的,机器人的泛化和智能也并非一蹴而就,在这中间可能会涌现很多“中间态”的产品类型。
这些“中间态”产品在发展过程中,可能会出现一些脱离正常生长轨迹的状况,比如让还不成熟的人形机器人进厂“打工”,就像要求一个刚刚蹒跚学步的孩童去百米冲刺一样,显得有点“揠苗助长”,甚至可能丑态百出。
但人形机器人需要被“拉出去溜溜”,它只有走进人类、感知世界,才有可能真正服务于人类。
- - - - - - - - END - - - - - - - -