小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式

界面快报 · 来源：界面新闻

6月19日，小红书技术团队发文称，深度思考模型通过Test-Time Scaling（测试时扩展）大幅提升了模型推理能力，但同时也出现了大量冗余和无效思考。小红书Hi Lab团队提出了Think When You Need的强化学习训练方式；在不影响最终效果的前提下，实现动态CoT能力，大幅降低平均思考长度。实验证明，这种思想在推理和非推理等各种任务上广泛适用。团队还发现了一种现象：即在相同任务下，越聪明（参数量大）的模型，需要的思考长度越短；这与当前深度思考模型表现相违背，却十分符合人类的认知。

未经正式授权严禁转载本文，侵权必究。

小红书

4.5k

沃尔玛与小红书达成深度合作2天前
李湘多个平台账号被禁止关注2天前

暂无评论哦，快来评价一下吧！

历史搜索全部删除

热门搜索

小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式

小红书

评论