MiniMax宣布开源面向Coding Agent的新评测集

界面快报 · 来源：界面新闻

1月14日，MiniMax宣布开源面向Coding Agent的新评测集OctoCodingBench。MiniMax表示，基于该评测集，其针对现有的开源闭源模型进行了广泛的评估，并发现一些很有启发性的实验结果：所有模型的Check-level 准确率（CSR）可以达到80%+，但Instance-level成功率（ISR）只有10%-30%；绝大模型模型的指令遵循能力会随着轮次的变多逐渐下降；现阶段模型表现普遍未能达到生产级要求，过程合规仍是盲区；开源模型正在快速追赶闭源模型。

未经正式授权严禁转载本文，侵权必究。

暂无评论哦，快来评价一下吧！

极氪8X信息遭提前泄露，公司称既定发布节奏被打乱
汽车早报｜一汽-大众召回超20万辆国产奥迪Q2L汽车特斯拉中国AI训练中心已投入使用
伊朗外长：本轮美伊磋商是“良好开端”，双方同意继续谈判
美伊核谈判最新进展：双方就“保持对话”达成共识，具体条款仍有博弈
伊美阿曼谈判“暂时”结束
AI之争又打成了奶茶大战
支持重大项目建设、推动民间投资，国常会重磅部署扩投资
直通部委｜预制菜国家标准今日征求意见全国实现生育津贴直接发放个人
土地财政退潮或仍将拖累政府基金性收入｜宏观晚6点
提升游艇消费供给能力，交通运输部将制定扩大游艇消费若干措施

历史搜索全部删除

热门搜索

MiniMax宣布开源面向Coding Agent的新评测集

评论