红杉中国正式开源AI基准测试xbench评测集

界面快报 · 来源：界面新闻

6月18日，红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示，未来将基于大模型和AI Agent的发展情况不断动态更新评测集，并且采用“黑白盒”机制，既保证xbench的发展可以服务更多的大模型和Agent开发者，同时尽力避免静态评测集经常出现的过拟合问题，确保xbench的长期有效。

未经正式授权严禁转载本文，侵权必究。

暂无评论哦，快来评价一下吧！

日本著名推理小说家东野圭吾去世，享年68岁
触犯高压线，腾讯317万年终奖员工因泄密被辞退
特朗普称若谈判破裂将强力打击伊朗
直通部委｜上半年规模以上工业企业利润增长18.7% 农业植物实质性派生品种制度落地
三季度专项债供给高峰将为基建提供动能｜宏观晚6点
蔚来战投长鑫科技浮盈超7亿，李斌现身答谢晚宴
闯中国使馆的日本自卫队员被起诉
韩最大在野党受冲击，尹锡悦涉选举期间公布虚假事实案一审被判有罪
尹锡悦涉嫌选举期间公布虚假事实案一审被判1年6个月
智慧导盲还有多远？中国残联：不久的将来能够让残疾人真正受益

历史搜索全部删除

热门搜索

红杉中国正式开源AI基准测试xbench评测集

评论