文 | DoNews 李信马
十年前上映的《超能查派》,是少见的用“机器人”当主角的电影,还找来“金刚狼”休·杰克曼饰演大反派。
电影中的查派,是世界上第一个自我觉醒的机器人,也是笔者心目中最“痞帅”的机器人,飞天遁地的同时不耽误耍帅搞笑。值得一提的是,在觉醒前,它的工作是机器人警察,不幸在战斗中报销才被意外改造。
也就是说,在电影的背景设定中,机器人已经走出实验室,融入了人类社会,在工作岗位上发光发热。
2025年,机器人堪称年度热词,各种形制和型号的机器人层出不穷,机器人马拉松、足球赛和拳击比赛,也吸引了不少人的关注。但热闹归热闹,这些机器人基本还是被限制在有限的空间范围内,做着特定的任务。
距离机器人无限制地融入真实的人类世界,似乎只差“临门一脚”,但这“临门一脚”,可能远比我们想的更艰难。
01、什么是“真实世界”?
电影《楚门的世界》中,主角楚门就生活在一个“虚假”的世界里,他的前半生所处的环境,都是为他量身定制的。
在笔者看来,需要特意圈定一个范围,或者设计布置一个环境,对机器人来说,就不能算真实的人类世界。机器人要走入真实的人类世界,就应该像电影中的楚门那样,打开实验室的门走出去,去迎接并适应充满未知和不确定性的环境。
不久前,在中国香港举办了一场别开生面的机器人竞赛,就直面了这个问题。由香港中文大学主办,ATEC前沿科技探索社区承办的第五届ATEC科技精英赛(线下赛)·真实世界极限挑战赛,把比赛的赛场放到了大学的户外环境里,要求机器人完成吊桥穿越、定向越野、自主浇花、垃圾分拣等任务。
“我们这次比赛跟以前的机器人比赛都不一样,以前机器人基本上在室内比较多,而且我们强调操作和移动结合起来。”赛事联席主席、香港工程院院士刘云辉教授认为,机器人要想在真实世界中立足,要具备行走、操作、改造环境三项核心能力,这也是这次竞赛设计的初衷。
笔者受邀在现场观看了比赛的进程,直观的感受,用最近一首抖音热歌来唱就是:
“本来应该从从容容游刃有余,
现在是匆匆忙忙连滚带爬……”
现场参加比赛的机器人基本分为三类形制:机器狗、人形机器人和双足机器人。在自主浇花、垃圾分拣的比赛中,机器人一个个像得了帕金森病,机械臂颤颤巍巍的,屡屡抓空,十几二十次才抓到都算好成绩。
吊桥穿越要经过三种不同间距的桥面段,看似不长的一段距离,“哐当”成了机器人选手们的主旋律。重心低的机器狗还好,人形机器人摔一下看着就肉疼,还有的双足机器人另辟蹊径,在脚底捆上了加长的木板,让人直夸“小机灵鬼”。
至于定向越野,这么说吧,“十步摔一跤”是一个相对客观的描述。
这些比赛项目的选定,其实好理解,毕竟人最擅长的动作就是行走和抓取,但是为什么机器人选手们表现得这么笨拙,和我们平时短视频里看到的不一样?
因为朋友啊,这才是“真实”。我们日常看到的很多机器人视频,前有工程师的反复训练和稳定的环境,后有专门的拍摄和剪辑,看到的效果自然很智能。
实际上,即使近两年多模态大模型发展迅速,但由于触觉等物理属性的缺失,机器人的感知能力仍停留在初级阶段,远未达到“透彻理解”的程度,举个例子,在3D场景理解任务中,当下最先进模型的准确率仅为55%-60%,远低于人类的90.06%。
而真实世界的环境不仅复杂还是动态的,机器人不仅要响应指令,还要具备在不确定条件下进行实时推理与决策的能力——目前算法的泛化能力还远达不到这一水平。
刘云辉教授在现场中还提到了让他有些失望的一点,参加定向越野比赛的机器人都采用的传统的建图方案,而没有他想看到的完全通过视觉引导的方案。如果真的是在野外穿越,要走十几公里,是不可能建图的,某种意义上也算有点违背比赛的初衷而“画地为牢”了,也反映了当下的机器人距离真实世界,还有不小的距离。
02、关于未来的比赛,“狗”赢了……
比赛的最后,来自浙江大学的Wongtsai团队成功摘得15万美元大奖。下图中的机器狗,就是他们派出参赛的机器人,值得一提的是,Wongtsai其实是“旺财”的音译,可以说,是货真价实的“机器狗”了。

人形机器人比不过机器狗,这可真是个让人有些失望的事实。但长久以来,在“出圈”这件事情上,机器狗一直走在人形机器人的前面。比如,波士顿动力的BigDog,可以说是机器人领域的“上古真神”,以一系列灵活到离谱的视频刷新了业界的三观;当下中国顶级的机器人公司宇树科技,早期的知名产品莱卡狗,也在不少科技竞赛中大放异彩。
原因可能很简单——做“人”太复杂了,要考虑的事情太多,而做“狗”就简单多了。想一下,体型更大,有灵活的双手的你,上得厅堂下得厨房,还是从办公室到工地都能干的牛马,而你的宠物狗,能听从指令跑跑跳跳,最多干点巡逻和叼东西的任务,就已经是优秀的“狗才”了。
不过,这次Wongtsai团队能获得冠军,最重要的原因是评分规则明确鼓励“无遥操”(无人工遥控操作),机器人需要独立完成从感知、分析到决策、执行的全链路闭环,这对机器人的感知鲁棒性、决策智能性和系统稳定性提出了极高要求,而Wongtsai团队在机器人全自主智能方面表现卓越。
Wongtsai队长朱承睿表示,具身智能是大系统下有小系统,每个小系统都没有问题,大系统才能没有问题。但如果每个小系统的完成度只有90%,那么由一堆小系统组成的大系统可能就无法运作,当任务完全交给机器人自主完成时,就会变得非常复杂。
“打开水壶,给花浇水,这对于人类而言是轻而易举的事情。但对于机器人,它需要首先识别:我在哪里,我需要做什么,什么是壶把手、什么是壶嘴,什么是花,我要如何靠近水壶,在这个过程中如何避免碰撞,机械臂需要到达怎样的位置才能抓起水壶,需要用多大的力度……”
当下对机器人技术路线的探索,主流上大致包括:
· 以大模型为核心的“大脑优先”路径
· 以运动控制为核心的“小脑优先”路径
· “软硬一体”协同路径
但发展水平嘛,以人类的标准来看是都不太行。
“你让大模型去理解一幅图像、一段文字,它可以做到。但要它理解如何抓起一个物品,它是完全做不到的,它不具备这种能力。”朱承睿说。
在机器人有限的体积与功耗约束下,部署大模型所需的高性能专用芯片仍不成熟,也制约了“大脑”的实时处理能力。“小脑”通过小模型去控制硬件,但目前机器人硬件在灵巧度、力控精度与成本之间难以平衡,技术和成本门槛极高,机器人的“小脑”与“四肢”,也不能完美承载“大脑”的智能构想。
开个玩笑,以“狗”的标准来看,“机器狗”和真实世界的距离的确要近多了。
此前,在《机器人非得“像人”吗?人类最需要看清自己》中,我们曾给出疑问:为什么要执着于让机器模仿人类?有从业者的看法是:“因为这个社会是按照人类的需求建造的,长得像人自然可以适配人类通用数据,代替人类干活。把机器人做成人形,那么它天生就可以调用现有的设施。”
当然,这个问题至今也没有答案,非人形的机器人也可能有很多的用途,只是人形机器人,的确是更容易满足人类对“智能体”的幻想。
什么时候,机器人真的能走入真实的人类社会呢?刘云辉教授认为,快的话也要5年,还有很长的路要走。而朱承睿估计,要20年后,机器人才真的可以走进人类的生活,为人类提供服务。
在迈向真实世界的路上,也许“机器狗”走得更快,但“机器人”会走得更远。


评论