OpenAI宣布推出AI Agent评测基准PaperBench

界面快报 · 来源：界面新闻

当地时间4月2日，美国开放人工智能研究中心（OpenAI）宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文，包括理解论文贡献、开发代码库并成功执行实验。据介绍，在PaperBench上测试多个前沿模型后发现，表现最佳的智能体Claude 3.5 Sonnet（新版）结合开源框架，平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集，发现上述模型表现尚未超越人类基线。

未经正式授权严禁转载本文，侵权必究。

OpenAI

OpenAI发布首款AI芯片，可适配各类大语言模型11天前
Getty Images与OpenAI达成合作，将授权图库内容引入ChatGPT15天前

暂无评论哦，快来评价一下吧！

美国球员红牌禁赛却被特赦，特朗普介入引不满
WPS滥收费、背刺用户？金山办公发声明回应
美加墨世界杯16强已全部确定
西安市委原书记方红卫被“双开”：干扰巡视工作，对家人失管失教
重大工程项目强力助推，6月国内挖掘机销量增超三成
红牌争议球员上场，美国队被比利时击溃
汽车早报｜零跑汽车正式进入北美市场本田中国6月终端汽车销量同比下降44.5%
“两重”建设项目清单下达完毕，基建投资有望加速
欧足联称国际足联“特赦”巴洛贡的决定越过了红线
直通部委｜珠江流域77条河流发生超警洪水猪肉价格止跌回升

历史搜索全部删除

热门搜索

OpenAI宣布推出AI Agent评测基准PaperBench

OpenAI

评论