腾讯混元开源首个面向世界模型的强化学习后训练框架

3月10日,腾讯混元3D团队开源首个面向世界模型的强化学习后训练框架WorldCompass。据介绍,这是一个专为长时序、交互式世界模型设计的强化学习(RL)后训练框架。如果说世界模型是引擎,那么WorldCompass就是精准的“指南针”,通过引入强化学习机制,直接“引导”模型如何更准确地遵循用户指令探索世界,并保持长时序的视觉一致性。

未经正式授权严禁转载本文,侵权必究。

腾讯

7.5k
  • 腾讯控股今日以10亿港元回购近200万股股份
  • AI早报 | 优必选招募具身智能首席科学家,年薪最高1.24亿;科技播客TBPN被OpenAI收购,曾访谈扎克伯格、奥特曼等巨头高管

评论

暂无评论哦,快来评价一下吧!