正在阅读:

电厂 | 京东的“具身智能超级供应链”,从数据开始

扫一扫下载界面新闻APP

电厂 | 京东的“具身智能超级供应链”,从数据开始

4月16日,京东举办具身智能生态发布会,发布具身智能数据基础设施全景图,覆盖“采、存、标、训、评、仿、测”,自研超高清采集终端JoyEgoCam、具身大模型JoyAI-RA、具身智能数据交易平台等先后亮相。

继宣布将建成全球最大具身数据采集中心之后,京东在具身智能领域又有新动作。4月16日,京东举办具身智能生态发布会,发布具身智能数据基础设施全景图,覆盖“采、存、标、训、评、仿、测”,自研超高清采集终端JoyEgoCam、具身大模型JoyAI-RA、具身智能数据交易平台等先后亮相。

当前,具身智能正在加速进入应用场景。但一个问题在于,缺乏高质量、可用性强、真实场景下交互的数据。由于硬件标准不一、数据采集流程分散,采集到的数据难以直接用于模型训练。数据、硬件、算力和模型共同限制了具身智能所能发挥的作用,以至于人们往往调侃“只能看机器人翻跟头、转手绢”。

一直以来,京东都在强调供应链方面的优势。某种程度上来说,随着前述基础设施的搭建和使用,京东希望打通从数据采集到模型测试的全流程闭环,将原始杂乱数据精炼为驱动模型进化的高价值“数据燃料”,并推动具身智能在零售、物流、物流、工业、健康等场景的规模化商业落地,打造自己的“具身智能超级供应链”。

京东称,将发动最多60万人进行数据采集行动,在两年内积累1000万小时人类真实场景视频数据,由超过10万京东员工和50万外部协作人员共同参与,包括京东线下零售业态的店员、京东物流的快递员、京东家政的保洁人员等。电厂了解到,除了采集设备,现阶段京东也会为这些参与采集的人员提供一定的报酬。

谈及当前数据采集的难点,京东集团副总裁、京东云基础云业务总经理龚义成告诉电厂,首先是如何找到对具身模型有用、可定义、可规模化的数据,“采集的数据维度很重要”。其次是大规模数据的处理,涉及很强的技术性和成本的控制。除此之外,还需要考虑模型数据的飞轮,“数据对模型要有效”。

会上,京东云自研的可穿戴式超高清采集终端JoyEgoCam亮相。京东方面介绍,JoyEgoCam配备4K高清摄像头,支持60帧帧率与130度超广角拍摄,可实现毫秒级动作细节捕捉,重投影误差小于0.2像素,整机重220克,内置车规级6轴IMU与多传感器融合单元,可以“即戴即采”,让普通人也能完成专业级数据采集。而除了通过头部设备对数据进行采集,未来京东还将进行手部、肢体乃至整个动态轨迹的采集。

接下来的流程也相对清晰:经过采集的数据进入上传和加工阶段,汇入AI数据湖平台后,经PB级吞吐能力自动完成清洗、对齐、转换与预标注,转为标准训练集。JoyBuilder仿真平台批量生成高逼真仿真数据,一站式实现人类操作数据→仿真操作数据→真机操作数据的高效数据增值转换与泛化扩增。治理后的数据再汇聚至JoyBuilder模型开发平台,自研AI算子矩阵贯穿始终,涵盖去畸变、语义描述、深度重建等环节。目前,京东日处理数据量已达数十万条,数据有效率达95%,整体处理成本降低60%。

模型反哺数据标注与采集,数据质量越高,模型迭代效率与精度越高。京东方面透露,以自采数据为核心训练的京东具身大模型JoyAI-RA,在真机实验上成功率达到73.5%。

同步上线的还有京东具身智能数据交易平台,汇聚京东业务场景下的多模态数据资源,支持数据方、开发者、应用方多方协同。平台首批定向开放2000小时高精标注数据集,技术社区也即将上线。

“京东认为整个具身领域发展到今天还是一个非常早期的阶段,我们希望通过这样千万小时的数据采集项目,通过京东的微薄之力为整个行业做一点事,推动整个行业快速发展,也希望各位伙伴能够加入我们的项目,一起推动具身行业继续向前发展。”京东集团技术委员会主席、京东云总裁曹鹏说道。

本文为转载内容,授权事宜请联系原著作权人。

京东

6.7k
  • 当数据成为关键变量,具身智能进入基建时代
  • 阿里速卖通押注品牌化,与Temu京东走上分岔路

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

电厂 | 京东的“具身智能超级供应链”,从数据开始

4月16日,京东举办具身智能生态发布会,发布具身智能数据基础设施全景图,覆盖“采、存、标、训、评、仿、测”,自研超高清采集终端JoyEgoCam、具身大模型JoyAI-RA、具身智能数据交易平台等先后亮相。

继宣布将建成全球最大具身数据采集中心之后,京东在具身智能领域又有新动作。4月16日,京东举办具身智能生态发布会,发布具身智能数据基础设施全景图,覆盖“采、存、标、训、评、仿、测”,自研超高清采集终端JoyEgoCam、具身大模型JoyAI-RA、具身智能数据交易平台等先后亮相。

当前,具身智能正在加速进入应用场景。但一个问题在于,缺乏高质量、可用性强、真实场景下交互的数据。由于硬件标准不一、数据采集流程分散,采集到的数据难以直接用于模型训练。数据、硬件、算力和模型共同限制了具身智能所能发挥的作用,以至于人们往往调侃“只能看机器人翻跟头、转手绢”。

一直以来,京东都在强调供应链方面的优势。某种程度上来说,随着前述基础设施的搭建和使用,京东希望打通从数据采集到模型测试的全流程闭环,将原始杂乱数据精炼为驱动模型进化的高价值“数据燃料”,并推动具身智能在零售、物流、物流、工业、健康等场景的规模化商业落地,打造自己的“具身智能超级供应链”。

京东称,将发动最多60万人进行数据采集行动,在两年内积累1000万小时人类真实场景视频数据,由超过10万京东员工和50万外部协作人员共同参与,包括京东线下零售业态的店员、京东物流的快递员、京东家政的保洁人员等。电厂了解到,除了采集设备,现阶段京东也会为这些参与采集的人员提供一定的报酬。

谈及当前数据采集的难点,京东集团副总裁、京东云基础云业务总经理龚义成告诉电厂,首先是如何找到对具身模型有用、可定义、可规模化的数据,“采集的数据维度很重要”。其次是大规模数据的处理,涉及很强的技术性和成本的控制。除此之外,还需要考虑模型数据的飞轮,“数据对模型要有效”。

会上,京东云自研的可穿戴式超高清采集终端JoyEgoCam亮相。京东方面介绍,JoyEgoCam配备4K高清摄像头,支持60帧帧率与130度超广角拍摄,可实现毫秒级动作细节捕捉,重投影误差小于0.2像素,整机重220克,内置车规级6轴IMU与多传感器融合单元,可以“即戴即采”,让普通人也能完成专业级数据采集。而除了通过头部设备对数据进行采集,未来京东还将进行手部、肢体乃至整个动态轨迹的采集。

接下来的流程也相对清晰:经过采集的数据进入上传和加工阶段,汇入AI数据湖平台后,经PB级吞吐能力自动完成清洗、对齐、转换与预标注,转为标准训练集。JoyBuilder仿真平台批量生成高逼真仿真数据,一站式实现人类操作数据→仿真操作数据→真机操作数据的高效数据增值转换与泛化扩增。治理后的数据再汇聚至JoyBuilder模型开发平台,自研AI算子矩阵贯穿始终,涵盖去畸变、语义描述、深度重建等环节。目前,京东日处理数据量已达数十万条,数据有效率达95%,整体处理成本降低60%。

模型反哺数据标注与采集,数据质量越高,模型迭代效率与精度越高。京东方面透露,以自采数据为核心训练的京东具身大模型JoyAI-RA,在真机实验上成功率达到73.5%。

同步上线的还有京东具身智能数据交易平台,汇聚京东业务场景下的多模态数据资源,支持数据方、开发者、应用方多方协同。平台首批定向开放2000小时高精标注数据集,技术社区也即将上线。

“京东认为整个具身领域发展到今天还是一个非常早期的阶段,我们希望通过这样千万小时的数据采集项目,通过京东的微薄之力为整个行业做一点事,推动整个行业快速发展,也希望各位伙伴能够加入我们的项目,一起推动具身行业继续向前发展。”京东集团技术委员会主席、京东云总裁曹鹏说道。

本文为转载内容,授权事宜请联系原著作权人。