文 | 艾瑞咨询
核心摘要:
具身智能彻底火了。国外市场,FIGURE营收为零,最新估值已达390亿美金。国内市场,十五五规划明确将具身智能纳入重点产业布局。国内头部厂家陆续拿到工商业场景订单,宇树科技宣称2025年营收突破10亿元。具身智能市场,既不是中国自弹自唱,也不是空中楼阁了。万亿级市场脉络已打开,且看中美具身智能的精彩角逐。

定义阐释:具身智能的全球理解
汇聚学术与产业观点,确立统一评估基准
具身智能是人工智能的重要发展方向,被普遍认为是实现人工通用智能的重要路径。其核心特征在于智能体依托物理身体,通过感知—理解—决策—行动的闭环,与环境进行强交互并持续学习,进而展现出自主性、泛化性和适应性。全球专家普遍强调,具身智能不仅是机器学习、计算机视觉与机器人技术的综合体现,更是AI走向落地化和实用化的重要标志。

商用场景的分类和区别
技术支撑多样形态,跨界满足多元需求
不同形态的具身智能机器人正并行演进,满足零售、餐饮、工厂、物流、教育、医疗等场景需求。商用具身智能服务于零售、餐饮、医疗、安防等复杂动态环境,更依赖多模态感知、人机交互和泛化能力,旨在提升服务体验与灵活运营。工业具身智能主要面向制造、能源、矿山等高度结构化场景,强调高精度、高负载和长周期稳定性,目标是提升效率与保障安全。两者在能力要求与技能瓶颈上差异较大,但正共同推动具身智能于不同维度的落地发展。

战略意义:中美科技竞争的关键战役
通过全链路创新与应用落地发展具身智能,加速缩小中美科技差距
具身智能是推动科技产业链升级和培育新兴产业的重要力量,不仅有助于先进制程芯片、精密传感器、AI大模型、先进能源等产业链环节的协同创新,还将带动制造、交通、零售、医疗等场景转型升级。中美正展开先进科技的关键战略竞争,中国具身智能的突破既关乎长期经济效益,更关乎科技自立自强与国家竞争力的提升,是未来十年“弯道超车”的关键赛点。

政策激励:中国具身智能占据天时地利
国家与地方协同推动标准化、试点示范与产业落地
近两年来,中国将具身智能纳入国家战略,中央层面密集出台行动方案、发展指导意见与资金支持,强调技术攻关、产业链协同和场景开放。与此同时,地方政府也陆续发布专项规划和试点示范举措,出台多种政策支持产业发展,设立基金为人形机器人/具身智能企业提供资金,并建立机构/联盟以促进产业合作,推动行业加速发展。


发展阶段:全球演进与中美竞逐
回顾历史三阶段,中美在基础模型、算力与落地应用上展开竞争
具身智能的发展历程可分为三个阶段:从1950年起的哲学思辨与概念萌芽,到2000–2020年的技术积累期,再到2020年以来的大模型驱动与应用拓展期。全球进入快速演进的新拐点,美国凭借算力基础、顶尖模型与资本生态实现先发优势;中国则依托政策支持、场景驱动与产业链协同加速追赶,形成本土特色里程碑。未来五年,中美将在基础模型、算力和应用落地上比拼,各自路径和优势也将进一步显现。

瓶颈待破:训练效率与商业落地考验
四大瓶颈制约具身智能的大规模商用
具身智能正加速从实验室走向产业化,但仍面临多重挑战。首当其冲是数据收集,和大语言模型不用,物理世界的多模态数据匮乏,高质量实操数据稀缺,仿真数据仍存在缺陷,且缺乏数据评价机制。此外,灵巧手、泛化能力与Sim2Real迁移等技术尚未成熟;成本方面,核心部件与算力投入居高不下;商业与社会层面,ROI周期长、伦理安全问题仍待解决。只有协同突破,才能推动具身智能真正实现大规模应用。

核心数据挑战
四类数据采集方式并存,但高质量数据不足、成本高企是最大障碍
当前具身智能领域的数据获取主要依赖四种方式:遥操作、仿真合成、动作捕捉以及互联网视频图像。尽管路径多样,但真正推动模型泛化落地的高质量数据依然高度稀缺,导致数据成为行业发展的关键瓶颈。

核心数据突破
从世界模型到采集训练场,数据困境正逐步缓解
面对高质量数据稀缺与高成本困境,业界正通过“世界模型”“采集基地”“工具创新”等方式探索解决方案。2025年起,北京、上海等地加快建设具身智能数据采集训练场,企业端也在尝试通过便携化工具和仿真优化来降低成本。数据获取的多元路径正在形成,为大规模商业落地提供可能。

模型演进:VLA模型成为发展共识
VLA的持续迭代或催生具身智能领域的“GPT时刻”
在大语言模型成熟之后,具身智能模型正经历在端到端的范式演进,核心主线是:通过多模态统一框架,将大型语言模型的推理能力与真实世界的感知、行动能力深度融合,催生出能够跨场景、自主学习的“机器人大脑”。这一进程早期由谷歌等巨头引领,并随着英伟达以及新进入者的入局和开源模式的兴起而加速,逼近类似GPT-3智能爆发的临界点。

模型趋势:架构融合多种模型能力
单一模型无法满足复杂现实场景,分层融合是架构演进的必然趋势
传统成熟算法如SLAM等安全可靠,但缺乏泛化能力,而VLA和世界模型通用性更高但存在幻觉等问题,因此混合模型架构,取长补短是必然趋势。行业共识是通过高层大模型进行认知、理解与规划,同时结合底层成熟算法实现可靠、精准的执行。这种“大脑”与“小脑”协同的模式,兼顾了智能的泛化性与任务的可靠性,是推动具身智能从实验室走向规模化商业应用的关键。

灵巧手是核心部件的关键一环
兼顾结构紧凑性、敏捷性与可靠性,难度高、成本占比大
灵巧手也是亟需突破的关键环节,特别是应用落地难度最大的家庭场景。它既是实现人机交互与精细操作的核心部件,又因小型化设计、敏捷控制和成本可靠性“三难困境”而备受关注,是核心部件中技术、工艺难度最大的环节。


商用具身智能自主化程度
类比自动驾驶,具身智能的自主程度处于L2-L3的过渡阶段
类比自动驾驶,具身智能已初步掌握L2级别的自主移动能力,并迈入L3级别低技能操作的初期探索。类比LLM的时间线,则已达到GPT-2的水平,验证了scaling law的可行性。未来2-3年或达到关键的临界点,实现模型能力的质变性飞跃。自主性智能涌现后,具身智能的驱动因素将不仅仅是优化成本,而更能真正深入复杂场景、创造全新商业价值

具身智能商业化的突破点
迎来大规模商业化的转折点,需在以下五个关键维度实现突破
具身智能的商业化并非如LLM大语言模型的单点突破,而是复杂的系统工程。其大规模应用的拐点将在续航、延迟、执行、可靠性与经济效益等五大维度均跨过可用门槛,并形成正向增强的价值飞轮之时。当前,行业正处于从技术验证到价值闭环的关键攻坚期。

商业化趋势:不同场景的渗透速度
复杂程度相对较低、ROI高的场景率先开始应用
具身智能的商业化正沿着价值阶梯演进。当前,产业应用以高ROI、低复杂度的“确定性”场景为核心突破口,如工业制造、仓储自动化和餐饮零售的基础场景正迎来订单加速释放期。未来,随着技术成熟度提升,应用将向高复杂度、高价值的“战略性”场景渗透,最终实现通用化服务,开启更广阔的市场空间。

商业化趋势:付费模式演进
交易模式或将从纯硬件销售逐步过渡到服务订阅+落地效果
一次性整机销售是目前具身智能主要的商业模式,同时辅以部分的软件服务销售。展望未来,具身智能的商业模式可能将从传统的纯硬件整机销售,逐步演进为降低客户前期投入的“机器人即服务(RaaS)”模式,最终发展至与客户业务价值深度绑定的“按任务完成效果付费”新阶段。

全球科技发展曲线的启示
历经六次技术革新浪潮,具身智能即将进入第七次的主升浪中
1960年以来,全球历经了六次主要的科技浪潮,可简单概括成大型主机、电脑、网络设备、桌面互联网、移动互联网和云&SaaS。每次浪潮都经历了经典的S型增长曲线,历史重复上演,每一次浪潮都由关键创新引爆,在若干年内商业化,创造出巨大商业价值。具身智能当前处于S曲线早期阶段,随着关键技术成熟和成本下降,预计5年左右进入爆发临界点。

中国硬科技三大件的发展启示
回顾三大万亿市场历史,具身智能既有万亿空间,亦需久久为功
今天中国的光伏、锂电、电车三大万亿市场,放眼全球用遥遥领先不为过,但回顾发展历史,也经历多次产业周期和过剩淘汰的惨痛教训。中国已拥有机器人领域最完备、成本最有优势的工业体系和供应链,以及最大的应用市场。国内具身智能或许也会面临短暂瓶颈期,但循序渐进、久久为功,终将不断突破。


全球具身智能产业链图谱
以大脑、硬件和本体为划分的代表企业示例
具身智能的产业链复杂度不亚于汽车等制造业,涵盖从执行器硬件、传感与感知、计算和存储、机身与外壳、电池与散热、自动化、基础模型等漫长链条。产业图谱可通过硬件、大脑和集成商三个维度来区分。目前个别产业链的优势仍集中在欧美日韩企业手中,但中国企业在产业环节覆盖度上已占据显著优势,并在下游的整机集成和应用场景上展现出巨大潜力。

资本鏖战:中美具身智能融资火热
融资金额与频率齐升,A轮融资额1-3亿美金已是常态
作为第七次科技浪潮的主升浪,全球资本市场绝不会缺席具身智能。仅过去不到一年,中美具身智能企业的单轮融资额不断创新高,9月Figure C轮融资超10亿美金,估值近400亿美金,随即1X也启动新一轮10亿美金融资。中国具身智能企业上半年近亿美元融资达4笔以上。

全球市场规模预测
当前仍处于未来10年指数级增长的前夜
当前,具身智能仍处于大规模商业化的前夜,根据摩根士丹利、高盛等全球顶尖研究所预测,2025年全球具身智能规模达到192亿元人民币,且未来五年的复合增长率达73%,并预计在十年左右时间达到年万亿级市场需求。这一判断的关键变量即具身智能价格随着规模量产而下降,单台机器人的售价将从目前的百万级人民币在十年左右将至20多万,且在发展中国家的售价会更低。

中国市场规模预测
率先进入降本通道,十年实现百余倍增长
中国本土市场对具身智能的需求已初步显现,除政府鼓励带动的科研教育、公共场所和科技园区外,零售、餐饮以及头部汽车厂已尝试将人形机器人纳入较为简单的上下料、搬运环节。凭借全球最完善、最具竞争力的工业体系和供应链,中国预计会在五年左右进入快速降本通道,并在5-10年区间率先触及经济性拐点。保守估计,市场规模将从2025年21亿到2035年超过2,800亿,实现十年百余倍增长。

中国具身智能出海加速
从核心能力出海到场景落地,中国企业在海外实现技术验证与商业闭环
2024-2025 年,中国具身智能产业进入出海加速期,商业服务与工业机器人出口同比增长显著,形成全球第二大出口市场。代表企业正从“单点出货”迈向“体系化落地”阶段:上游以自研核心部件与算法驱动技术出海,下游通过本地化运营和服务体系实现长期渗透。宇树科技与擎朗智能的出海案例分别体现了技术自主创新与本地化适配两条典型路径,验证了中国具身智能在全球高标准市场的商业化可行性。


三路玩家同台竞技
通用技术挑战者、场景资源先行者和自带需求的跨界巨头
全球和中国的具身智能的竞争格局显现出类似的三股核心力量。以Figure为代表的AI原生挑战者,凭借顶尖技术、创业精神和资本加持,旨在抢占技术制高点。以ABB、擎朗为首的传统工业、商业机器人头部玩家,依托深厚的硬件工程能力与扎实的2B客户根基,正从专用场景向更泛化的智能应用升级。以特斯拉、亚马逊为代表的跨界巨头,则从自身海量的真实需求出发,成为未来推动产业商业化加速的重要引擎。

中期整合趋势不可避免
产品同质化已初现,第一轮洗牌不会太远
从光伏、锂电到电车,国内万亿级市场总会面临滞后的市场准入和监管。近两年的具身智能融资,已经出现产品同质化现象,但仍有初创企业加入该赛道。回顾电车产业的发展历程,从百家争鸣到如今几乎个位数的主流市场品牌,具身智能在未来三年的整合趋势不可避免,第一轮洗牌也不会太远。高昂的研发投入、复杂的供应链管理、规模化生产挑战以及构建“AI+硬件+生态”闭环的巨大难度,最终竞争格局仍是少数玩家的市场。

初创企业如何脱颖而出?
面对巨头的夹击攻势,初创企业应找到生存之道
科创企业的灵活高效、快速创新、定制服务等是核心竞争力,但也面临资源紧张、生产成本、持续融资的挑战。面对传统制造业巨头和互联网巨头陆续进场,科创企业要比巨头看的更准、行动更快、人效更高,同时找到能带来长期赋能价值的战略伙伴和投资人,以避免未来被这两大类巨头夹击。


Optimus
从概念发布到 Gen 2:迈向产业化的人形机器人
特斯拉自 2021 年 AI Day 首次提出 Optimus 概念以来,持续推进人形机器人的研发迭代。2022 年 Bumble C 原型登场,标志着从概念到工程样机的跨越;2023 年底发布的 Gen 2 展示了更轻、更快、更灵巧的动作能力,并采用全套自研执行器与传感器;2024 年的多次演示进一步验证其在工业与日常场景中的潜力。当前 Optimus 已进入快速迭代期,马斯克预测最早 2025 年底将对外销售,并在 2026 年实现批量生产,长期目标是在未来十年内实现百万级年产量。

Figure AI
打造通用自主人形机器人
Figure AI 成立于 2022 年,总部位于美国,是全球专注于通用人形机器人的代表性企业。公司估值已达 390 亿美元,致力于通过具身智能打造能够在工业、商业与家庭场景中广泛应用的自主机器人。其产品 Figure 系列机器人经历了快速迭代,从早期展示基本运动能力的 Figure 01,到具备更强硬件和灵巧操作的 Figure 02,再到引入 Helix 自研通用 VLA 模型,逐步迈向能执行复杂任务、具备跨场景泛化能力的“类人劳动力”。

擎朗智能
多维能力协同驱动,构建机器人产业生态闭环
依托全栈自研的技术体系与“研发—智造—供应链”全链条能力,擎朗智能实现了人形机器人与轮式机形机器人双线协同布局:人形机器人代表未来的通用智能方向,机形机器人支撑当前的高频商业化落地,形成“前瞻技术 × 稳定收益”的双引擎格局。同时,擎朗围绕配送、酒店、清洁、医疗、人形五大产品家族,构建出行业最完整的具身机器人生态矩阵,覆盖餐饮、酒店、医疗、工厂、商超等多场景。凭借强大的算力平台、感知算法与整机设计能力,擎朗已成为全球服务机器人产业化与智能化并进的标杆企业。

商业落地经验为人形机器人奠定基础
起步于餐饮、酒店等场景的轮式服务机器人,擎朗在高频真实任务中积累了丰富的导航、避障、调度与人机交互经验,为其向具身智能演进提供坚实基础。通过算法迁移与多模态融合,擎朗正从结构化服务向通用智能具身化迈进,成为中国机器人产业由“场景智能”走向“通用智能”的代表样本。

服务场景的综合技术力第一
在具身智能的产业化竞争中,擎朗智能率先形成了以“场景理解 + 通用智能 + 岗位专精”为核心的系统化技术壁垒。公司在全球长期服务实践中沉淀出丰富的真实任务与环境数据,构建了业内最完整的场景知识体系与算法反馈闭环。在场景方案积累、数据库规模、岗位定制能力、人机对话能力、全球覆盖度及系统稳定性六大维度上,擎朗均显著高于行业平均水平,展现出从“可落地”到“可规模化复制”的技术成熟度。这一领先的综合技术力,为其后续多场景协同与通用人形机器人商业化应用奠定了坚实基础。

打造全球首个通用+专用机器人智慧酒店
2024 年 10 月,香格里拉集团旗下的上海虹桥机场盛贸酒店正式启用 8 台擎朗具身机器人,覆盖迎宾、配送、清洁等核心服务岗位,成为全球首个“通用 + 专用”机器人协同运营的智慧酒店。本项目由擎朗智能自主研发的 VLA 大模型 KOM2.0 与垂直优化模型 KEENON ProS 提供智能驱动,通过“岗位化”设计实现多类型机器人协同与任务分配标准化。该合作不仅展示了中国具身智能技术的商业成熟度,也为高端酒店行业的智能化运营提供了可复制的验证样本。

全球化布局与本地化创新实践
依托全栈自研与产业化能力,擎朗智能正以“通用智能 × 本地化创新”双轮驱动,在全球范围内构建覆盖60余个国家、80+运营中心的服务机器人网络。公司在日韩、欧洲、中东、北美等市场建立子公司及技术中心,形成研发、生产、销售与服务一体化的全球运营体系。通过“岗位化”理念与多模态算法优势,擎朗实现了产品与场景的本地化适配与智能化迭代,推动服务机器人从单一场景落地向全球规模化复制迈进,成为中国具身智能出海的技术与商业化标杆。

节卡机器人
多元具身智能产品生态
节卡有丰富的具身智能产品矩阵,从灵巧协作的机器人整机(如JAKA Kargo, Lumi)到面向数据采集与训练的系统(如K1),覆盖了具身智能从感知、决策到执行的关键环节。同时还研发了EVO具身智能平台为产品的智能底座,赋能节卡机器人实现自我感知、自主学习与适应性进化,从而打造了软硬件一体、高效协同的具身智能生态。

机器人已在多样化工业制造等场景规模化落地
节卡凭借多年的产品研发和客户沉淀,打造了具备深厚垂直行业know-how的解决方案,已在汽车、电子等复杂工业场景开展大规模部署,从而有机会获取海量、高质量的运行数据。这些数据反哺其具身智能技术平台,为终端客户提供进一步深度价值,同时又将成熟的工艺模型和应用能力开放给集成商,极大地降低了机器人应用的门槛和成本。

数据优势和架构创新形成具身智能时代不可复制的壁垒
面对机器人行业在数据采集和模型可靠性上的双重瓶颈,节卡依托其庞大的存量设备网络构建了独特的数据采集渠道,同时创新仿真数据生成方式形成了难以复制的数据壁垒。同时,节卡创新性设计了一套分层混合架构,有效平衡了前沿AI模型与工业场景所需的稳定性和高频性的不匹配,推动技术快速在真实场景落地。

因时机器人
前瞻性自研微型伺服电缸,灵巧手的钢“筋”铁“骨”
具身智能的可靠性和准确性催生了灵巧手,而灵巧手的发展高度依赖于执行器技术的突破。传统的伺服系统体积大、集成度低,难以满足新一代具身智能,特别是人形机器人灵巧手对空间、精度和响应速度的极致要求,微型伺服电缸是驱动灵巧操作的关键技术节点。因时机器人是微型伺服电缸的领导者,实现除芯片外全栈部件的自研和规模化量产,也推动了在多个领域的商业化落地。

垂直整合自研核心部件,突破灵巧手不可能三角
灵巧手是机器人与物理世界交互的关键,传统工业夹爪只能完成重复性的“抓取”,而灵巧手则可实现复杂的“操作”,即像人手一样使用工具、适应未知物体。这一迭代并非简单的结构堆砌,而是感知、控制与驱动技术的高度融合。因时基于其自研的一体化线性执行器,推出了系列化的灵巧手产品矩阵,展现了卓越的单点技术性能。

精密驱动核心,赋能具身智能核心场景
因时机器人以核心的微型精密伺服技术为基石,灵巧手为产品形态,占据了具身智能的关键生态位。因时在产能、品控和成本上独具行业竞争力,已在几个关键垂直领域率先实现规模化价值落地。

附录1:全球人形机器人发布全景
自2022年以来主要人形机器人发布情况

附录2:全球人形机器人发布全景
自2022年以来主要人形机器人发布情况



评论