马斯克看中的具身智能，最多走到了0.1？|界面新闻

文｜数智前线周享玥

编辑｜赵艳秋

2024年刚开始一个月，机器人领域已经十分热闹。

前脚，斯坦福大学华人团队开源的既会做家务、又会煎蛋煮饭的MobileALOHA机器人，刚在全网刷屏，让不少人直呼“用机器人养老有望”。后脚，马斯克就发了一段特斯拉“擎天柱”（Optimus）人形机器人叠衬衫的炫技视频，并紧接着透露Optimus最早将在2025年实现交付，狠狠刷了一波存在感。

这种热闹景象从2023年就开始了。业界观察，过去一年间，在大模型以及具身智能热潮的带动下，整个机器人行业的各种动作都快了起来。不管是政策端、学术端，还是产业端，都发生了不少变化。

“2023年，具身智能赛道十分火热，一下子就有十几家公司出来。”长期追踪并投资机器人行业的云启资本合伙人陈昱告诉数智前线。这些公司中，既有原来做机器人研究的，也有从自动驾驶公司出来的创业者，试图将在自动驾驶行业积累的经验，复用到具身智能赛道。

而这波具身智能热潮，像涟漪一样一圈圈外延。一位在国内某知名航运公司从事物联网应用的人士就向数智前线透露，自己在去年下半年关注到具身智能，并专门去了不少相关展会，进行学习研讨。

具身智能到底是什么？为什么突然在机器人领域爆火？又将给机器人行业带来怎样的变革？

01、旧概念，新热潮

2023年5月，英伟达创始人黄仁勋突然抛出一个大胆预测：人工智能的下一个浪潮将是具身智能（Embodied AI）。简单来说，就是能理解、推理并与物理世界互动的智能系统，比如机器人、自动驾驶汽车。

具身智能并非新概念，1950年，“计算机科学之父”图灵就曾在论文中提到过它，只不过过去几十年间都未见太大进展。

最近一两年，随着AI技术的突破，以及关键零部件性价比的逐渐提升，情况有所改变。学术界以李飞飞、姚期智、卢策吾等为代表，都发布了“具身智能”相关的学术论文或不断推动具身智能的发展。

“大模型的出现，让行业内的人觉得既然机器可以理解语言了，它就能够通过语言的逻辑理解整个世界。“ 猎豹移动CEO傅盛说。

中关村智友研究院院长王田苗进一步解释，大模型出现后，具身智能相当于一个成长速度极快的孩子，能够通过人机交互，将宏观的任务分解为一系列思维链路和子任务，并利用自动编程，逐步自主地完成任务。期间，具身智能将逐渐学习和成长，同时在复杂环境下可以利用感知、视觉和触觉等功能来校准行为动作或控制模型的误差，以适应环境变化。

与具身智能不同，传统机器人每一项智能都是人来定义和编程实现的。

大模型虽然并非走向具身智能的唯一路径，但业界普遍认为，机器人拥抱AI大模型的过程就是具身智能机器人的实现过程。

“其中，具身智能对人形机器人影响最大。”一位机器人领域人士告诉数智前线，四足或人形机器人将是具身智能的最佳载体。马斯克的观点还要更激进一点，他预测，未来人形机器人的需求将远超电动汽车，达到100亿-200亿台，且最终单价有望低于2万美元，低于一部车的价格。多重因素下，人形机器人在市场上的热度明显高涨。

面对具身智能这一确定的未来趋势，产业端和政策端都已快速反应。

在政策端，主要国家及地区都把机器人产业发展上升到了国家战略。2023年10月，工信部等部委一连抛出多份重磅文件，并给出了官方发展目标：到2025年，人形机器人实现批量生产，2027年综合实力达到世界先进水平。

而在产业端，不管是谷歌、特斯拉、英伟达、阿里、小米，还是机器人创业公司，高校里的技术团队，甚至产业链企业，都在积极跟进相关产品和技术布局。

比如英伟达发布了多模态具身智能系统NvidiaVIMA，微软在探索如何将ChatGPT扩展到机器人领域，OpenAI投资了挪威人形机器人公司1X Technologies，阿里千问大模型在实验接入工业机器人……

谷歌是更为显眼的存在。依托旗下两大AI研究机构——谷歌大脑和DeepMind，谷歌在具身智能上拥有众多技术路线，且各路线间有着技术延续性。

2023年3月，谷歌发布参数量高达5620亿的多模态具身视觉语言模型PaLM-E，6月，推出全球第一个可以解决和适应多种任务的机器人AI智能体“RoboCat”，7月，又基于RT-1和PaLM-E，升级得到了融合视觉、语言、动作能力的多模态大模型RT-2。据悉，基于RT-2的机器人，不仅能直接听懂自然语言指令，还会主动思考，当听到“捡起灭绝的动物”指令，能准确理解其中含义，并完成从恐龙、鲸鱼、狮子三种塑料玩具中抓取恐龙的连续性动作。

资本层面也动作频频，尤其在人形机器人领域，融资消息不断。2023年年初，华为天才少年“稚晖君”离职创业，成立智元机器人，一度被资本追着“喂饭”，成功创下一年6轮融资的“奇迹”。银河通用、宇树科技、加速进化等大批人形机器人公司也都在这一年获得融资。

02、八仙过海，各显神通

业界在进行各种“机器人+大模型”的探索和尝试。

虽然工业机器人如工业机械臂、AGV、巡检机器人等应用广泛，但有数据显示，2022年，我国工业机器人总体渗透率仅在2%左右。面向劳动力成本上升、人力资源趋紧的大趋势，机器人的提升空间巨大。

更重要的是，当前的机器人大多是靠着预先编程，来重复执行固定的动作，泛化能力低，一旦进入新场景，就需要程序员重新编程和调整，费时且费力。

基于这些痛点和需求，一些机器人企业正在加速与大模型的结合。比如工业机器人企业，此前在喷涂、焊接、打磨等场景中积累了不少数据集，正在探索将这些经验形成专家知识，结合大模型的能力，快速形成新产品的加工路径，以减少机器人调试布置的时间。“这将更适应小批量、多品种、柔性化的产品生产。”北京航空航天大学副教授陶永告诉数智前线。

一位行业人士也透露，他们投资的一家机器人企业正在尝试将打磨机器人和大模型结合，解决过去“很多件打不了、换件时间长”等问题。该方案目前已完成验证，将在今年放量。

广州高新兴机器人正在将大模型和巡逻机器人结合。“机器人看似智能，但它的智能是人定义出来的。”公司董事长柏林告诉数智前线，比如在落地部署时，就要对机器人进行精心调教，做大量配置，部署周期以半月计。如果通过大模型，把任务下发到机器人，它能自动生成配置，就能降低落地成本。

工业机器人之外，另一个比较成熟的细分领域——扫地机器人，也正在尝试引入大模型的能力。比如追觅，在去年9月官宣将与华为云机器人平台合作，为扫地机器人等产品注入大模型“云智力”。科大讯飞去年10月推出的首款AI扫拖机器人，也搭载了星火认知大模型的能力，试图让扫地机器人能听懂用户通过APP语音输入的长语句或口语化的清扫需求。

在更广泛的服务机器人领域，更多探索也在继续。比如猎户星空，据称已将自研大模型技术应用到机器人业务——“大模型机器人全家桶”中。其中，餐厅场景下的“招财豹”系列机器人服务员在升级后，相当于拥有了一个生成式AI大脑，与消费者的交互自然度以及回复的专业度、准确率都大幅提升。

人形机器人领域也不例外，包括宇树科技、达闼科技、追觅、智元机器人等公司在2023年，推出过集成了AI大模型能力的人形机器人或四足机器人。达闼科技还在2023年7月，专门推出了机器人多模态人工智能大模型RobotGPT。

机器人企业大部分都很欢迎大模型的到来。”陶永总结称，尽管现阶段而言，大家更多还是在探索和尝试中，在机器人领域真正大规模的推广和应用尚未实现。

而据他观察，一些大模型厂商也在主动找到机器人企业进行合作。比如科大讯飞，就和宇树科技合作，在去年10月推出了首个“大模型+具身智能”人形机器人。据悉，该人形机器人在复杂任务拆解准确率上，提升了 95%，强化学习泛化抓取成功率提升了30%。

03、具身智能刚走到0.1？

1月初，在看到MobileALOHA机器人项目联合负责人亲自放出MobileALOHA执行任务失败的视频，并解释“机器人还没有准备好接管世界”后，一位机器人行业人士在朋友圈表达了自己对这一项目的肯定，以及对具身智能iPhone时刻的期待。

“iPhone时刻之后，以人机器人为代表的通用机器人将走入千家万户。”该人士表示，但他同时强调，具身智能的iPhone时刻仍需较长时间才会到来，这就好比智能手机的iPhone时刻并非iPhone1发布的时间，而是以iPhone4的发布作为标志。

"具身智能还是一个相对遥远和长线的东西，还远远没有达到像大家当初见到ChatGPT时那种惊艳程度和变革性的阶段。”云启资本合伙人陈昱告诉数智前线，大家目前还只是看到了潜在的技术发展方向，而且是一个需要长期投入和持续钻研的方向，“有点像15年前的自动驾驶”。

陈昱举例称，就市场上的融资量级来看，具身智能也还远远比不上大模型企业，“大家现在全凭预期和想象投资。”在他看来，具身智能要真正大规模商业化应用，至少还要8至10年，“按0-100算的话，现在最多走到了0.1。”

而在此之前，具身智能机器人作为一个硬件、软件均涉及的复杂系统，要想真正实现，还有算法、工程技术、数据、场景和复杂软硬件等诸多层面的挑战要解。

在2023世界机器人大会上，图灵奖获得者、中国科学院院士姚期智曾在谈到机器人时称，未来AGI需有具身实体，具身机器人还面临四大主要挑战：

第一，机器人不能够像大语言模型一样有一个基础大模型直接一步到位，做到最底层的控制。

第二，计算能力的挑战，即使是谷歌研发的Robotics Transformer模型，要做到机器人控制，距离实际需要的控制水平仍有许多事情要做。

第三，如何把机器人多模态的感官感知全部融合起来，仍面临诸多难题需要解决。

第四，机器人的发展需要收集很多数据，也面临很多安全隐私问题。

解决技术上的种种挑战外，业界人士认为，类比自动驾驶的发展，在具身智能机器人领域，找到可商业化闭环和可数据闭环的“L2”级驾驶，也尤为重要。

上述机器人领域人士告诉数智前线，机器人领域商业化的进程，就好比一个天平。天平的一边，是机器人能够实现什么样的功能，能创造多少价值，另一边，则是为了实现这样的价值，用户需要付出的成本。“当天平的收益大于成本时，机器人就会在这个领域里实现大规模应用。”

此前工业场景的工业机器人、酒店或餐饮门店场景的服务机器人、家用的扫地机器人，都已经完成或初步完成这样的阶段。这些场景的机器人与大模型去结合，是目前能较快看到一些效果和价值的方向。而人形和四足机器人领域，虽仍处于成本高于价值的阶段，但在大模型和具身智能热潮的催动下，正在迎来商业化应用的前夕。

实际上，不少人士认为，2024年将有望成为人形机器人商业化元年。“大家都在疯狂找场景。”

部分头部企业已经锁定一些场景，并展开验证。比如中国电科21所，预计今年一季度将人形机器人投入智慧物流生产场景中做应用验证。智元机器人则透露，今年下半年首先在工业制造领域实现商业化落地，此前已和一些头部汽车公司、3C制造商接触。

不过，这只是第一步，距离真正的具身智能机器人成为现实，走进千家万户，仍然还有很长一段路要走。

文｜数智前线周享玥

编辑｜赵艳秋

2024年刚开始一个月，机器人领域已经十分热闹。

具身智能到底是什么？为什么突然在机器人领域爆火？又将给机器人行业带来怎样的变革？

01、旧概念，新热潮

具身智能并非新概念，1950年，“计算机科学之父”图灵就曾在论文中提到过它，只不过过去几十年间都未见太大进展。

“大模型的出现，让行业内的人觉得既然机器可以理解语言了，它就能够通过语言的逻辑理解整个世界。“ 猎豹移动CEO傅盛说。

与具身智能不同，传统机器人每一项智能都是人来定义和编程实现的。

大模型虽然并非走向具身智能的唯一路径，但业界普遍认为，机器人拥抱AI大模型的过程就是具身智能机器人的实现过程。

面对具身智能这一确定的未来趋势，产业端和政策端都已快速反应。

谷歌是更为显眼的存在。依托旗下两大AI研究机构——谷歌大脑和DeepMind，谷歌在具身智能上拥有众多技术路线，且各路线间有着技术延续性。

02、八仙过海，各显神通

业界在进行各种“机器人+大模型”的探索和尝试。

03、具身智能刚走到0.1？

在2023世界机器人大会上，图灵奖获得者、中国科学院院士姚期智曾在谈到机器人时称，未来AGI需有具身实体，具身机器人还面临四大主要挑战：

第一，机器人不能够像大语言模型一样有一个基础大模型直接一步到位，做到最底层的控制。

第二，计算能力的挑战，即使是谷歌研发的Robotics Transformer模型，要做到机器人控制，距离实际需要的控制水平仍有许多事情要做。

第三，如何把机器人多模态的感官感知全部融合起来，仍面临诸多难题需要解决。

第四，机器人的发展需要收集很多数据，也面临很多安全隐私问题。

实际上，不少人士认为，2024年将有望成为人形机器人商业化元年。“大家都在疯狂找场景。”

不过，这只是第一步，距离真正的具身智能机器人成为现实，走进千家万户，仍然还有很长一段路要走。

历史搜索全部删除

热门搜索

马斯克看中的具身智能，最多走到了0.1？

01、旧概念，新热潮

02、八仙过海，各显神通

03、具身智能刚走到0.1？

评论

马斯克看中的具身智能，最多走到了0.1？

01、旧概念，新热潮

02、八仙过海，各显神通

03、具身智能刚走到0.1？