阿里通义实验室智能计算团队推出新算法FIPO

界面快报 · 来源：界面新闻

4月7日，阿里通义实验室智能计算团队宣布推出新算法FIPO（Future-KL Influenced Policy Optimization），引入Future-KL机制，奖励关键Token，解决纯强化学习（Pure RL）训练中“推理长度停滞”难题。据该团队介绍，在32B规模的纯RL设定下，率先实现对o1-mini与同规模DeepSeek-Zero-MATH的性能反超。

未经正式授权严禁转载本文，侵权必究。

阿里巴巴

5.9k

阿里千问重磅预热引发关注，低费率恒生科技ETF南方(520570)近1月份额增长显著2天前
阿里发布Qoder 1.05天前

暂无评论哦，快来评价一下吧！

段永平最新持仓：清仓阿里、新进特斯拉，加仓英伟达、拼多多等
东方甄选前CEO孙东旭直播卖书，两小时冲上书籍杂志榜第一
焦化厂“蝶变”成绿色工厂，“新征程上的奋斗者”讲述企业环保转型背后的30年
伊朗革命卫队称过去24小时内有26艘船通过霍尔木兹海峡
聚焦AI、生命科学等行业，英国拟推门槛为500万英镑的投资签证
直通部委｜去年来“猎狐行动”抓获境外逃犯880余名 LPR连续12个月保持不变
短期内政策层面出台大规模增量措施的可能性不大｜宏观晚6点
前4个月财政收入同比延续上升势头，支出节奏有待进一步提速
【观察】统一白名单能根治定点零售药店“串换”乱象吗？
俄总统新闻秘书佩斯科夫：俄将延长对华免签

历史搜索全部删除

热门搜索

阿里通义实验室智能计算团队推出新算法FIPO

阿里巴巴

评论