5月24日、25日,智能创作工具团队Flowith在上海、北京连开两场线下活动,发布了其最新的Agent功能Neo。
Neo得名于《黑客帝国》系列电影的男主角、也是发现世界真相的“救世主”角色;而Flowith的Agent Neo则号称是“第一个可以启动无限步骤、无限上下文、无限任务的Agent”。因此,有人称其为“无限流”Agent,Flowith团队随之引起了大量关注。
「电厂」曾在几个月前采访过Flowith的创始人倪正民Derek,本次也在第一时间拿到了Neo模式更新后的试用资格。
“无限流”Agent,意味着用户理论上可以在一个窗口没有限制地补充、调改提示词,直至Agent Neo的答案足够令人满意。但在理想化描述背后,还有许多问题需要验证,比如:Neo的表现是否名副其实?它是否有所擅长、有所不及?在复杂、多轮任务执行中,Neo又能否保证稳定性?
这也是如今所有Agent类工具面临的质疑。但在评测工具方面,由于底座大模型已经普遍刷遍了现有评测榜单的“题库”,导致难以直接测试出大模型及其衍生工具的真实水平。
5月26日,红杉中国推出了一款全新的AI基准测试集xbench。根据其论文描述,xbench是一个“长青”测试集,能够随着模型与技术发展而不断演进。
首版xbench除了针对科学类、深度搜索类场景设计评测集,还专门为招聘和市场营销垂类任务设计了评测框架。
根据红杉中国最新研究论文中给出的样题和测试方法,「电厂」对Flowith最新推出的Agen Neo进行了简单的评测。
结果显示,面对招聘相关任务时,Flowith Agent Neo展现出了制定候选人名单、或者反向搜索特定候选人信息的能力;在执行10道社科类深度搜索任务时,Agent Neo答对了4道题目;在执行数学/化学/计算机等10个科学类任务时,Agent Neo同样给出了4个正确答案。
当AI成为“猎头”,能否解决人才mapping难题
在招聘场景下,「电厂」选取了xbench论文中给出的两个prompt,分别测试Agent Neo在人才mapping、特定候选人信息搜集任务上的表现。
首先是人才mapping任务,prompt为:
你是一名招聘专家。你需要根据职位要求准确识别目标“科技记者”。
职位要求:界面新闻「电厂」招聘科技记者。候选人负责AI、消费电子等领域报道,能够完成对全球科技产业最新动态相关热点报道和深度长线报道、能够对创业者、技术专家等各类目标行业从业者进行采访;从业三年以上,有代表作优先。
你需要注意:1. 除非另有说明,只考虑中国大陆的候选人。2. 不要过度搜索。在你的分析结束时,你需要以下列格式返回搜索结果:搜索对象1:xx,搜索对象 2:xx……。电厂额外加上了“提供5名候选人”的指令。
开始运行此任务后,Flowith Neo逐一调研了大陆科技和消费电子记者所活跃的媒体平台,结合「电厂」岗位需求形成了《科技记者候选人分析报告》,列出诸多潜在候选人,继而针对每位潜在候选人进行信息搜集与核查。
经过多轮重新搜索与汇编后,Neo最终给出了5名“存在待核实的信息点但符合部分核心要求”的候选人名单。
值得一提的是,最后Neo还完成了《科技记者职位候选人筛选评估报告》,其中详细列出了诸位候选人的匹配之处与不足之处,并以图表形式呈现。
Flowith Agent Neo推荐的「电厂」候选人
注:由于Neo从互联网上搜集了真实存在的记者信息,此处将相关人名隐去,仅以序号指代。
此外,「电厂」还以作者为例,让Neo调研了某位特定候选人的情况。Prompt为:
你是一名人才信息搜索专家。根据以下背景和参考信息,请搜索此人全面而简洁的背景和经历。
背景:科技记者董温淑,有多家媒体就职经历,关注AI、芯片半导体、智能硬件、XR等硬科技市场;在参考信息部分,「电厂」粘贴了3篇作者过往作品链接。
你需要注意:1. 除非另有说明,只考虑中国人的背景信息。2. 目标个人是唯一的;参考信息是为了帮助你准确定位目标个人。3. 我们将针对目标个人准备验证问题,LLM 将利用你提供的信息尝试回答这些问题。
结果显示,Neo逐一检索了「电厂」给出的参考信息链接,但并未局限于此,而是再行选取了候选人“姓名”“姓名+经历”“姓名+媒体名称”等关键词搜索。
在经过多轮搜索更新后,Neo最后给出了一份涵盖职业发展轨迹、核心专业领域、代表性工作与成就的报告。其梳理的职业履历基本符合现实情况。
Flowith Agent Neo梳理出的作者职业履历
10道社科常识/生活百科题,Agent Neo命中4则正确答案
针对深度搜索DeepSearch场景,xbench列出了10道样题,问题涵盖上市公司调研、地理知识、考试规则梳理、影史等诸多方面。
无论是“当红综艺中有多少个女性选手”“中央音乐学院音乐水平考级细则”“欧冠决赛历史上最后一位进球的获胜球员”还是“北京蜂巢剧场楼下的餐厅名称”,都被划进了大模型能力的考查范围。
除了问题正确答案,xbench-DeepSearch还给出了参考执行步骤。最终10道题里,Neo答对了4道题目。
「电厂」在正确与失误的题目中,各选取一道呈现:
针对“黑龙江、吉林、辽宁,共有多少个地市级行政单位与外国接壤?”的测试样题,xbench给出的参考运行步骤为:
搜索辽宁行政区划,确定只有丹东与朝鲜接壤;搜索吉林行政区划,确定只有延边州、通化市、白城市与朝鲜、俄罗斯接壤;搜索黑龙江行政区划,牡丹江市、鸡西市、佳木斯市、鹤岗市、黑河市、双鸭山市、伊春市、大兴安岭地区,8个地区与俄罗斯接壤。最后算出8+3+1=12。
Agent Neo的运行过程与这一参考步骤基本一致。
Flowith Agent Neo推理出的黑吉辽与外国接壤地级市情况
这一测试环节,Neo答错的样题包括:《乐队的夏天》各季 top5 乐队中一共有多少名女性成员?
正确答案为6名,xbench给出的参考运行步骤分为3步:确定乐夏有三季;确定每季 top5 乐队名字;搜索每支乐队成员,找出其中女性成员。
根据Agent Neo呈现的运行过程,其成功确定了乐夏有三季的信息,继而搜索了各季所有参赛乐队的信息,并正确确定了各季节目的Top5乐队。
但在Neo最终给出的8名“女性成员”名单中,包含了6名正确答案,还多出了张梦(五条人乐队)、多多(柏林护士乐队)两名成员。但张梦、多多均为男性乐手。
Flowith Agent Neo推理出的乐夏TOP5乐队女性乐手名单
特别指出,在这个测试环节,「电厂」在同一个画布中同时输入10个任务让它们并行,在总计约20分钟后,10个问题全部运行结束,期间「电厂」并未进行任何操作。
答对4道理工类本科/研究生试题
针对科学领域,xbench推出的SceieceQA评测集共包含77道问答题、14道多选题及9道单选题。红杉中国使用该评测集测试o3等大模型的结果显示,各大模型完成这一题库的平均正确率为32%、低于20%正确率的题目占34%,并且在不同难度层次上有区分度。
本次xbench公开了10道例题,题型包含客观题及选择题,领域涵盖了数学、化学、生物、金融、计算机、材料工程和机械工程。
「电厂」逐一采用Flowith Neo进行作答,结果显示Neo答对了4道题,失误6道题。
「电厂」在正确与失误的题目中,各选取一道呈现。
在根据前提条件计算“某养老基金投资组合五年后资金不足的概率”时,Agent Neo成功得出了24.2%的答案。Claude 4评估称,这道题是研究生金融学或精算学水平的高难度测试题,属于金融风险管理或养老金精算的专业课程内容。
这一金融题题干内容为:
某养老基金目前的投资组合包括200 万美元投资于标普指数投资组合,假设该投资组合的连续复利收益率服从正态分布,年均收益率为10%,标准差为 20%。目前养老负债的现值也为 200 万美元,且其连续复利增长率也被假设为服从正态分布,年均增长率为4%,标准差为 8%。
假设标普收益率与养老负债增长率之间的相关系数为0.3。如果在未来五年内投资组合没有新增资金或取出资金,该计划在五年后资金不足的概率是多少?(百分数,精确到小数点后一位)
Flowith Agent Neo解答金融题运算过程
在运行如下生物题时,正确答案应该是维生素B5(泛酸),而Agent Neo给出的答案是“B族维生素家族”。
某种维生素作为辅酶参与了多种代谢反应,缺乏这种维生素时,体内一些重要的代谢途径会受到影响,导致能量供应不足,甚至引起一些特定的疾病。研究发现,这种维生素的活性形式在参与糖代谢和脂肪酸代谢时尤其重要。补充这种维生素后,缺乏症状得到了改善,体内代谢恢复正常。这种维生素可能是什么?
据Claude 4评价,这是一道大学生物化学或营养学水平的测试题,属于中等难度的应用分析题。
而Agent Neo经过推理认为,这道题目难以精确指向单一维生素,因为“B族维生素作为一个群体,在细胞能量代谢过程中表现出高度的协同作用……缺乏其中任何一种,都可能影响整个代谢网络的顺畅运行”。
图源/Flowith Agent Neo
要强调的是,本文并未采用xbench完整评测集,仅采用了其中部分样题和测试框架,所有试题运行一次。
Flowith目前为Neo模式测试用户提供了少数邀请码,我们会粘贴在评论区以飨读者。
评论