正在阅读:

具身智能狂热之下,智源研究院如何入局生态搭建?

扫一扫下载界面新闻APP

具身智能狂热之下,智源研究院如何入局生态搭建?

王仲远强调真正的竞争力来自“把一个真实场景打磨到可长期使用”,而不是追求做一个“万能具身”。

智源研究院院长王仲远(图源:智源研究院)

界面新闻记者 | 伍洋宇

界面新闻编辑 | 文姝琪

在人工智能领域焦点从大语言模型转向具身智能的背景下,智源研究院在11月20日举行的开放日上释放出其最新的技术与生态布局。

智源研究院指出,当前具身智能仍停留在“可演示但难规模化”的阶段。尽管机器人硬件快速成熟,但模型不好用、不通用、不易用的瓶颈依然存在,不同本体之间缺少统一接口,动作规划与控制难迁移,部署成本高企。 

为解决这些结构性问题,智源展示了一套自底向上构建的通用技术体系,以具身大脑为核心,将数据采集、标准化工具链、模型基座、仿真与评测整合为一个统一架构,并以开源开放方式维持其演化。智源表示在具身领域的合作伙伴已超过30家,规模仍在扩大。

在模型层面,智源发布了新一代的RoboBrain 2.0 Pro,通过引入价值判断与三维空间追踪两大能力,使机器人能在复杂场景中进行更稳健的动作推理。

基于此构建的RoboBrain-X0 Pro支持零样本跨本体迁移和长程多步骤操作,而面向灵巧手的RoboBrain-Dex则通过大规模人类示范的预训练,显著降低灵巧操作的数据门槛。在基础控制方面,智源推出贯通仿真到真机的Emu-RobotVerse以及专为人形机器人打造的全身控制框架BAAI Thor,为人形机器人在强交互任务中的稳定性提供底层支撑。 

此外,智源还推出了围绕人机交互、响应延迟约80毫秒的全双工语音大模型RoboBrain-Audio,以及聚焦长期记忆与社会认知的RoboBrain-Memory。 

图源:智源研究院

在技术路线讨论中,现场的圆桌对话围绕端到端VLA、分层式模型以及世界模型三种路径展开辩论。共识是短期内分层架构仍更适合工程落地,而通用基座模型将在更长周期内成为行业目标,其前提在于统一的场景表示、高质量的数据闭环和一致的评测体系。

关于“硬件是否拖累模型”的争议也有了更多答案,行业认为模型规划与硬件执行已进入互相重塑的阶段,尤其在力控、人形结构和安全边界等方面,双方必须共同定义标准。

在具身智能的讨论中,数据从哪里来、够不够用、能否逼近通用能力,成为行业最受关注的话题之一。智源研究院院长王仲远在接受界面新闻等媒体采访时,也同样被问及大量相关问题。

例如,在训练具身模型时,视频、真机数据与仿真数据究竟如何分工;视频能否承担最主要的学习负荷;真实机器人数据是否存在“规模上限”;以及在缺乏触觉和力控信息的情况下,行业如何避免模型能力被视觉单模态限制等等。

这些问题共同指向一个焦点——具身智能的训练到底依赖怎样的数据结构,行业今天到底处于什么阶段?

王仲远对此一一给出解答,他指出,机器人世界与语言模型完全不同,短期内不可能出现像互联网文本那样爆炸式增长的海量真机数据。即便未来部署一千甚至一万台机器人,也远不足以撑起通用模型所需的规模。 

规模化数据肯定是有价值有意义的,但我自己认为即使是几十万小时的数据依然不能叫海量数据,还远没到ChatGPT时刻。”王仲远说。

在这种结构性限制下,智源选择遵循“第一性原理”:以视频作为训练的主输入。王仲远认为视频不仅具备可规模化采集的优势,还同时包含时空因果、语义、图像、动作、声音以及部分三维线索,是当下最完备、最现实、也最接近人类学习路径的数据来源。 

在智源看来,人类通过视觉建立对世界的认知再自然不过,一个两岁小女孩通过刷短视频学会拆糖果与拧瓶盖,就是对这种学习机理的直观印证。

在这个框架中,机器人通过少量真实操作记录,获得任务成功与失败的因果反馈,再通过强化学习修正行为策略。这种方式无法替代海量视频,但可以在关键动作上提供必要的纠偏,使模型具备实际落地的可执行性。

至于视频模态数据在触觉与力控上的天然局限,王仲远坦言目前行业整体都缺乏足够规模的力反馈数据,但他表示智源非常认可这类数据在未来发展中的重要性。

此外,在具身智能的集体狂热中,外界最关心的问题也指向另一个核心,即资金为何突然加速涌入、行业到底在争什么?

王仲远对界面新闻等媒体解释称,融资潮并非偶然,而是共识驱动的结果。当前,资本、政策和产业圈普遍相信具身智能将成为下一条长周期技术曲线,类似当年大模型真正进入产业化的时刻。

一旦共识形成,资源便会迅速集中,而具身研发本身又是典型的“重资本、长周期”项目,算力、硬件和大规模场景验证都需要持续投入,这使得高额融资几乎成为入场门槛。“在我看来这肯定是一件好事,因为它能够加速整个产业的聚集。

但在热度背后,王仲远坦言资本同样有自己的焦虑。当前商业化路径仍未跑通,不同技术路线尚未收敛,投资人也可能被情绪驱动进入赛道。他认为,行业未来仍会经历周期波动,但技术演进会继续沿着螺旋上升的轨迹前行。

至于创业生态,他的判断更为现实。具身创业公司快速出现,也快速倒下,多半因为商业模式不清晰或资源分散。王仲远强调真正的竞争力来自“把一个真实场景打磨到可长期使用”,而不是追求做一个“万能具身”。

我跟创始人经常聊的一句话是,先活下来,熬过可能出现的寒冬才能迎来真正具身智能的未来。”王仲远说。

未经正式授权严禁转载本文,侵权必究。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

具身智能狂热之下,智源研究院如何入局生态搭建?

王仲远强调真正的竞争力来自“把一个真实场景打磨到可长期使用”,而不是追求做一个“万能具身”。

智源研究院院长王仲远(图源:智源研究院)

界面新闻记者 | 伍洋宇

界面新闻编辑 | 文姝琪

在人工智能领域焦点从大语言模型转向具身智能的背景下,智源研究院在11月20日举行的开放日上释放出其最新的技术与生态布局。

智源研究院指出,当前具身智能仍停留在“可演示但难规模化”的阶段。尽管机器人硬件快速成熟,但模型不好用、不通用、不易用的瓶颈依然存在,不同本体之间缺少统一接口,动作规划与控制难迁移,部署成本高企。 

为解决这些结构性问题,智源展示了一套自底向上构建的通用技术体系,以具身大脑为核心,将数据采集、标准化工具链、模型基座、仿真与评测整合为一个统一架构,并以开源开放方式维持其演化。智源表示在具身领域的合作伙伴已超过30家,规模仍在扩大。

在模型层面,智源发布了新一代的RoboBrain 2.0 Pro,通过引入价值判断与三维空间追踪两大能力,使机器人能在复杂场景中进行更稳健的动作推理。

基于此构建的RoboBrain-X0 Pro支持零样本跨本体迁移和长程多步骤操作,而面向灵巧手的RoboBrain-Dex则通过大规模人类示范的预训练,显著降低灵巧操作的数据门槛。在基础控制方面,智源推出贯通仿真到真机的Emu-RobotVerse以及专为人形机器人打造的全身控制框架BAAI Thor,为人形机器人在强交互任务中的稳定性提供底层支撑。 

此外,智源还推出了围绕人机交互、响应延迟约80毫秒的全双工语音大模型RoboBrain-Audio,以及聚焦长期记忆与社会认知的RoboBrain-Memory。 

图源:智源研究院

在技术路线讨论中,现场的圆桌对话围绕端到端VLA、分层式模型以及世界模型三种路径展开辩论。共识是短期内分层架构仍更适合工程落地,而通用基座模型将在更长周期内成为行业目标,其前提在于统一的场景表示、高质量的数据闭环和一致的评测体系。

关于“硬件是否拖累模型”的争议也有了更多答案,行业认为模型规划与硬件执行已进入互相重塑的阶段,尤其在力控、人形结构和安全边界等方面,双方必须共同定义标准。

在具身智能的讨论中,数据从哪里来、够不够用、能否逼近通用能力,成为行业最受关注的话题之一。智源研究院院长王仲远在接受界面新闻等媒体采访时,也同样被问及大量相关问题。

例如,在训练具身模型时,视频、真机数据与仿真数据究竟如何分工;视频能否承担最主要的学习负荷;真实机器人数据是否存在“规模上限”;以及在缺乏触觉和力控信息的情况下,行业如何避免模型能力被视觉单模态限制等等。

这些问题共同指向一个焦点——具身智能的训练到底依赖怎样的数据结构,行业今天到底处于什么阶段?

王仲远对此一一给出解答,他指出,机器人世界与语言模型完全不同,短期内不可能出现像互联网文本那样爆炸式增长的海量真机数据。即便未来部署一千甚至一万台机器人,也远不足以撑起通用模型所需的规模。 

规模化数据肯定是有价值有意义的,但我自己认为即使是几十万小时的数据依然不能叫海量数据,还远没到ChatGPT时刻。”王仲远说。

在这种结构性限制下,智源选择遵循“第一性原理”:以视频作为训练的主输入。王仲远认为视频不仅具备可规模化采集的优势,还同时包含时空因果、语义、图像、动作、声音以及部分三维线索,是当下最完备、最现实、也最接近人类学习路径的数据来源。 

在智源看来,人类通过视觉建立对世界的认知再自然不过,一个两岁小女孩通过刷短视频学会拆糖果与拧瓶盖,就是对这种学习机理的直观印证。

在这个框架中,机器人通过少量真实操作记录,获得任务成功与失败的因果反馈,再通过强化学习修正行为策略。这种方式无法替代海量视频,但可以在关键动作上提供必要的纠偏,使模型具备实际落地的可执行性。

至于视频模态数据在触觉与力控上的天然局限,王仲远坦言目前行业整体都缺乏足够规模的力反馈数据,但他表示智源非常认可这类数据在未来发展中的重要性。

此外,在具身智能的集体狂热中,外界最关心的问题也指向另一个核心,即资金为何突然加速涌入、行业到底在争什么?

王仲远对界面新闻等媒体解释称,融资潮并非偶然,而是共识驱动的结果。当前,资本、政策和产业圈普遍相信具身智能将成为下一条长周期技术曲线,类似当年大模型真正进入产业化的时刻。

一旦共识形成,资源便会迅速集中,而具身研发本身又是典型的“重资本、长周期”项目,算力、硬件和大规模场景验证都需要持续投入,这使得高额融资几乎成为入场门槛。“在我看来这肯定是一件好事,因为它能够加速整个产业的聚集。

但在热度背后,王仲远坦言资本同样有自己的焦虑。当前商业化路径仍未跑通,不同技术路线尚未收敛,投资人也可能被情绪驱动进入赛道。他认为,行业未来仍会经历周期波动,但技术演进会继续沿着螺旋上升的轨迹前行。

至于创业生态,他的判断更为现实。具身创业公司快速出现,也快速倒下,多半因为商业模式不清晰或资源分散。王仲远强调真正的竞争力来自“把一个真实场景打磨到可长期使用”,而不是追求做一个“万能具身”。

我跟创始人经常聊的一句话是,先活下来,熬过可能出现的寒冬才能迎来真正具身智能的未来。”王仲远说。

未经正式授权严禁转载本文,侵权必究。