AI Agent迈向中央舞台：深度解析2025年进化新格局|界面新闻

文｜硅谷101

进入2025年以来， AI Agent的发展明显提速。5月6日，OpenAI宣布以30亿美元收购 Windsurf；编程工具Cursor的母公司Anysphere也获得了9亿美元的融资，估值高达90亿美元；号称中国第一个通用AI Agent的Manus在五月也获得了硅谷老牌风险投资公司Benchmark领投的7500万美元的融资；OpenAI在一月推出了具备自主使用浏览器能力的Operator，并在二月发布了专注于复杂任务处理的Deep Research，这两个产品上线后迅速获得关注，如今已有不少用户成为其深度使用者。

这期文章我们就来聊聊：究竟是哪些关键能力，支撑了Agent的技术跃迁？哪一类Agent最有可能成为未来的通用Agent？而普通创业者目前在Agent赛道还有哪些机会？

我们邀请了MindVerse心识宇宙的创始人陶芳波以及AI产品经理Kolento Hou，一起聊一聊AI Agent的核心技术、热门产品使用体验、创业机会与挑战，以及AI Agent的未来将走向何方？

以下是这次对话内容的精选:

01 RTF推动的Agent热潮

泓君：首先请两位嘉宾来分享下自己最近使用Agent的频率是怎样的？自己造了多少个Agent？

Kolento：我几乎每天都在用不同的Agent。因为我自己会开发一些产品，所以会用到Replit这类IDE（集成开发环境） Agent，以及Cursor这类编程Agent。平时我也研究很多“Agent builder”平台，比如微软的Copilot Studio，字节的Coze等，它们可以帮助用户搭建属于自己的Agent。我现在大概做了200多个AI Agent，基本上遇到了一个场景就会去试一试。我感觉时代变了，现在开发一个产品的成本变得越来越低，甚至有点恐怖了。

陶芳波：我也是每天都在用各种Agent，尤其是编程Agent。虽然我没有像Kolento那样做过那么多Agent，但我在做“造Agent的平台”。最早我们做过一个平台叫MindOS，用来构建具备通用能力的专业型AI Agent。现在我们在做一个新的开源平台叫Second Me（第二自我），也是前段时间刚刚发布。用户可以下载到本地，创造出代表自己的Agent。我觉得Agent时代真的来了，底层基础设施也都在慢慢成熟，组合起来之后，我们马上就会见到一个新的世界了。

泓君：你觉得什么是Agent？

陶芳波：从机器学习的视角来看，我所理解的Agent，与如今大众语境中的Agent存在一定差别。在我过往的学习和研究中，最早接触到的Agent概念来自强化学习。在强化学习框架下，Agent能够基于环境反馈，不断自主学习并优化其行动策略，从而实现特定目标。以AlphaGo为例，它就是强化学习语境中一个经典的Agent。

然而，随着大语言模型的兴起，Agent这个词的含义也在大众语境中发生了泛化。如今我们对于Agent的定义，通常具备几个特征：首先，它能够像人一样独立完成某些任务；其次，它通常由大语言模型，或具备一定思考能力的推理模型所驱动；第三，它有自己的记忆体系；第四，它具备与用户交互的界面。

例如Windsurf和Devin，都可以被视为典型的编程类Agent，也都有各自的交互界面。它们之间的主要区别在于目标用户和交互方式：有的是嵌入在编程环境中的，面向开发者；有的则面向管理者或非技术用户，能够自动完成网络搜索、测试等任务。

过去这三个月，我观察到一个非常有趣的融合趋势。传统的强化学习Agent有两个核心特征：其一是以强化学习为主的技术路径；其二是具备在环境中学习的能力。而大语言模型背景下的Agent则大多不具备学习能力，它们对于行业与任务的认知，依赖人类工程师的配置，例如设定知识库或工作流。

但现在，随着reasoning model（推理模型）的兴起，以及RFT（Reinforcement Fine-Tuning，强化学习微调）技术的应用，越来越多基于大语言模型的Agent也可以在法律或电脑操作等特定领域中自主学习和探索。这是Agent发展中定义层面的升级。它结合了传统强化学习中Agent的自主学习、自主探索的能力，以及通用Agent在任务执行、用户交互和复杂问题解决中的综合能力。因此，自2025年初以来，业内对于Agent的发展非常兴奋。

早在2023、2024年，Agent概念就已经出现，我们当时也做过如MindOS这类的平台，但那时的Agent更像是脚手架。而现在，Agent真的具有智能，尤其是通过强化学习、思考能力的注入，达到了我们想要的技术范式的状态。

泓君：你认为2025年的Agent和之前相比，最本质的区别是什么？你提到的最早的强化学习中的Agent，我的理解是，比如在一个游戏场景中，让两个小人推方块，想办法把自己围起来，避免被外界攻击。你会看到它们慢慢涌现出一些智能，甚至用我们人类没想到的方法去完成任务。

我记得在2023、2024年时，大家基本还是在游戏环境中测试Agent的协作表现。而2025年的Agent，在强化学习和电脑操作结合之后，开始进入更多领域。比如我让语言模型帮我订一张机票，我告诉它我所偏好的时间、地点、航班类型等等，如果它能顺利完成一个完整流程，我就觉得是一个好的Agent。

陶芳波：你刚才打的两个比方都非常好，你提到的Agent本质上都还是带有环境的。我说的变化，或者说让大家兴奋的地方，主要是底层能力的变化。

以前的大语言模型的训练存在很大的限制，无论是预训练还是后训练，包括RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）等人类对齐技术，其训练过程本身是脱离环境互动的，目标只是优化与人对话的表现。虽然我们可以把它作为大脑，强行给它接工具、加记忆，让它在某种环境中完成任务，但由于训练过程本身没有和环境互动，所以它的行为始终显得很机械，无法真正适应环境的变化。

你提到的小人在环境中博弈的例子，正是典型的、在环境中学习的传统强化学习的Agent。而2023、2024年虽然Agent很火，但始终难以落地，问题就在于环境的缺失。

但现在，我们在技术上拥有了新的能力。比如DeepSeek R1的文章就指出，它最后的推理能力，不是靠死记硬背的知识库训练出来的，而是通过模型在问题环境中自主学习实现的。AI像人一样，在过程中自己思考、调整策略、探索解题路径，最后掌握了解决数学题或编程题的方法。这种自主寻找解决路径的过程，在以前的训练中是完全没有的，所以我们可以称之为这是大语言模型的“AlphaGo时刻”。大语言模型真的学会基于一个环境给出的奖励来自主地找到解决方法了。

泓君：我了解目前市场上做编程类Agent的公司有几十家，从最早直接使用大模型编程，到微软的Copilot，再到Cursor和Devin，行业在不断迭代。但为什么最终是Cursor和Devin跑了出来？它们比别人好在哪儿？是因为对环境的理解更深入？还是因为它们起步更早，抢占了市场？

陶芳波：我几乎每天都会用Windsurf，相比Cursor我觉得它更好用一点。你提的问题非常精准，我认为，Windsurf、Cursor甚至更进一步的Devin，本质上是对于环境的理解更到位。

举几个例子，比如Windsurf不仅是一个简单的核对代码的插件，它内部还做了context engine（上下文引擎），所以它非常清楚自己所能操作的代码空间，包括数据、测试、文件和配置的位置等。

再比如早期的Cursor，它虽然能写代码，但无法执行命令行操作，也不能联网搜索。而Windsurf在近期的版本中已经不止是能写代码，还能执行命令、操作文件，甚至检索网络技术文档作为参考。把Copilot这类的编程工具的环境边界扩大了很多。

Devin的野心更大，它从一开始就打算去掉IDE（Integrated Development Environment，集成开发环境），不需要考虑IDE中环境的问题。Devin设计了一个包含四个子界面的窗口：浏览器、IDE、用户交互区和测试环境。它所构建的环境比IDE更大且更细致。

它还有一个笔记系统的功能，我觉得很有意思。因为它想让AI能完成一个完整的软件工程闭环，这个过程可能非常长，而大模型无法理解过程的全部行为。所以就像人类在开发时会记笔记一样，Devin也加入了一个笔记环境，类似于它的策略室、作战室。当模型有新的想法时就记录下来，之后可能有一段时间它不再写代码或者做检索，而是在修改笔记中的问题或者优化笔记中的系统设计架构。我觉得还是非常吓人的，就像人为自己创造了一个思考环境，并且学会在其中迭代。我觉得这个功能也是非常有意思，也可以加入Agent的武器库中。Devin不仅是做了这个功能，而且它们对于context、enviroment的理解也更好。因此它们在4.2万亿美金的全球软件工程的大市场中能跑在前面。

泓君：你刚才提到一个观点我觉得挺有意思的：现在如果要做AI Agent，环境已经比数据更重要了。那是否意味着只要对某个方向有足够深入的理解，几乎任何人都可以构建自己的AI Agent？它已经从一种“高门槛”的大厂项目，变成了普通人也能参与的创业机会？

陶芳波：这件事情有两面性。一方面，借助RFT的方式，可以显著降低对大规模数据的依赖，从而减少资本和算力的投入。但另一方面，我对Agent创业的前景并没有那么乐观。如果每个人都能做Agent，且做的都是服务型Agent，在C端市场，真正还有多少空间留给新的Agent创业项目？

举个例子，Deep Research上线之后，一些我们以前认为需要单独工具完成的任务，比如学术研究、市场调研，它几乎都能覆盖。而像Operator这样的平台，不仅能帮你订餐、买菜、订机票、做行程规划，还可能覆盖上百个场景，这些在过去或许代表着上百个不同的创业项目，现在却可能被一个通用Agent整合完成。

大厂和大模型公司在一些足够大的领域里占据位置。剩下的空间，只会是一些很小机会。相比移动互联网时代，创业者在这个时代的机会会少很多。

泓君：所以这是一个更适合做小而美的时代，因为大机会都会被巨头吃掉。

陶芳波：对，而且现在做一款产品或者一个APP时，边界比以前更容易扩大。一旦被大厂占住的机会，往往能覆盖用户更多的需求和注意力。普通人在这个时代中还有哪些机会？我想到一个挺有意思的案例：在移动互联网时代，微信推出了公众号平台，抖音推出了短视频平台。这些平台级机会几乎都被头部公司牢牢占住了。但为什么仍有很多普通人在这个时代里赚到了钱？关键就在于，他们利用这些平台做出了新的东西，在平台中表达了自己的个体性，比如做自媒体网红。

我还是认为，如果我们只从“AI工具提升生产力”的角度来看，确实会有很多人原有的价值被剥夺。但我认为当AI形成网络之后，可能会有一波新的个体机会被释放出来。也许那时会有一波新的创业潮出现，比如，现在的网红也可能会变成创业者，他做了一个表达他自己的个性的Agent，也会有独特的市场。但如果目标是做一个服务所有人的通用Agent，我觉得机会是很小的。

02 Agent爆火背后的密码

泓君：刚才你提到了三种核心能力：模型能力、工程能力，以及数据壁垒的能力。你认为未来在真实用户的实验中，数据壁垒可能是最重要的核心竞争力。但我也听到另一种声音，比如Manus的创始人张涛就分享了他们产品引爆的关键节点，他认为是和Claude Sonnet 3.7模型的发布高度同步。我也看了Cursor的创始人在Lex Fridman播客上的采访，他也提到类似观点：像Cursor这种自动写代码的AI Agent能火，最根本的原因还是大模型能力的提升。

为什么现在大家会觉得Copilot有些过时了？很大一部分原因也是它的产品升级没能及时跟上模型的能力迭代。所以归根结底，Agent的爆火，底层模型的提升仍然是决定性因素。

陶芳波：对，我完全同意。一方面，大模型能力的提升确实带来了智力的提升，对任务的理解能力自然也就更强。但更重要的是，大家频繁提到Sonnet，是因为它不仅聪明，而且是第一个真正解决了代码生成问题的模型。代码是一种通用的行动空间，在数字世界中具有极高的操作性。Sonnet让几乎所有任务都可以通过代码这个中间层，转化成了像八爪鱼一样可以操作背后的数据与环境。这对整个Agent生态是质的飞跃。

所以你提到的Cursor和Manus自然会非常看重这种模型能力的提升。但我也想强调一点，数据依然是一个不容忽视的问题。即便是在数字环境中，很多平台的数据依旧存在壁垒，无法通过代码层来访问。比如说，如果你希望Agent去获取某个人在Facebook上的信息，仅靠代码就无法实现。

所以从今天这个时间点来看，凡是代码层能接触到的数据，Mannus这样的通用Agent都可以纳入进来做很多事情。但依然还需要面对数据层的壁垒问题。

泓君：所以你觉得像Cursor、Windsurf这些AI编程Agent，反而可能是最有可能杀出来的那一类，未来甚至可能发展成应用很广的巨型通用AI Agent？

陶芳波：现在已经能看到这样的趋势了。Cursor和Windsurf目前都开始接入一些自定义的MCP接口。虽然它们在表面上看起来是编程类Agent，但已经可以接入Notion等不同平台的MCP。它在编程在过程中也可以做类似Manus做的事，比如编辑Notion内容。

Kolento：我一直认为Manus对模型的依赖非常强。但我们希望建立的是一种更健康的机制：模型越强，Agent也越强，而不是模型越强，Agent反而被替代。之前GPT频繁更新那段时间，很多YC的AI公司倒在了路上，原因就在于它们的构建方式不对。

我觉得Manus也面临类似的问题。它的任务理解、工具调用这类智能能力几乎是完全托管给主流大模型的，比如Claude 3.7 Sonnet。这也是我猜它们为什么会采取邀请码机制：因为调用成本高、性能不稳定，比如模型升级、API波动、响应延迟、输出幻觉等，都会成为产品层面不易控制的变量。我本身是做产品经理的，所以我一直在思考如何更好地从产品侧解决这些问题。

姚顺雨写过一篇文章，他认为强化学习有三个要素：算法、环境以及先验知识。他还提到一句我非常认同的话：evaluation（评估）比training（训练）更重要。

在过去构建AI产品的过程中，我过度聚焦在prompt工程以及挑选最新的大模型上。但我逐渐意识到，真正决定产品质量的，是对系统效果的可衡量性的判断机制，也就是evaluation。打个比方，prompt是武器，但evaluation是你的准心。

因为一个AI产品不可能靠一次成功的demo活下去，它需要持续迭代。而evaluation正是量化每次产品变更效果的唯一工具。

当然，它和传统的测试又不太一样，更加灵活，也更偏向语义层面。目前市面上主要有三类方法：

1.Human Evaluation（人工评估）：优点是与用户偏好直接相关，具备人类的语义理解。但局限性也很明显，反馈稀疏、不够精准、成本高。

2.Code-based Evaluation（基于代码的评估）：优点是快速、便宜，适合代码生成类任务。但对语义复杂、交互丰富的应用则不适用。

3.LLM-based Evaluation（大模型自评）：这是目前论文里最常提到的一种方向，让模型不仅能生成，还能评估自己的输出，具备高度自动化能力。

所以我认为，未来要做出真正有竞争力的AI Agent，evaluation是必不可少的能力中心，从一开始就要建立起完整的evaluation框架。

以Manus为例，它其实已经有多个模块：意图识别、工具调用、API调度、内容生成等等。每一个模块都应该有独立的evaluation逻辑。这不应该是后期的附加测试，而是像DevOps（开发运维一体化）一样，AI Agent也应该有自己的EvaluationOps，任何一次响应、执行、生成的过程都要通过评估机制。

我觉得之后的重点是，需要形成一套通用的evaluation模板库，并能扩展到新的任务类型上，类似Phoenix这样的开源框架。比如摘要生成（summary）、RAG（Retrieval-augmented generation，检索增强生成）、代码生成（code generation）等。

陶芳波：我很同意Kolento这个说法，尤其是关于面向真实环境的evaluation。未来的AI产品，本质上可能都会是Agent产品。而Agent产品首先要关注其所处的环境；在此基础上，接下来的重点就是如何evaluate它在环境中的表现。

如果我们进一步把evaluation提升为reward的概念，那就意味着这个反馈具备可重复生成的特性。当Agent在环境中探索和优化时，可以始终参考reward进行对齐或学习。这是接下来设计Agent产品时更重要的思考路线。

泓君：evaluation是一个很重要的问题，也让我联想到另一个技术话题，就是RFT（Reinforcement Fine-Tuning，强化学习微调）和SFT（Supervised Fine-Tuning，监督学习微调）这两种方式的区别。OpenAI发布RFT之后，现在绝大部分AI Agent创业者都倾向于使用RFT，因为效果更好。

但我们也和一些更老牌的做Agent的创业者聊过，他们反而认为SFT在成本上更具优势。虽然目前RFT在效果上可能比SFT好25%左右，但训练和运行的成本可能是几倍的差距。尤其是在用户量大的情况下，这种成本差异就更为显著.

您认为我们是否真的需要为这25%的性能提升，付出成倍的成本？我听说Manus内部用的就是SFT技术。

陶芳波：关于SFT和RFT的选择，确实可以看到技术圈正在逐步向RFT迁移。但就Manus来说，它们当时没有用RFT，原因之一是当时RFT本身还没有发布多久。更重要的是，RFT需要微调背后的思维链模型，但Sonnet本身是不允许微调的。所以Manus使用SFT，其实并不是用在模型的核心思维链模型，而是外围执行模模块，比如Computer Use Model这一类组件。换句话说，它们调的是“手”，而不是“脑”。

03 垂类AI Agent推荐

泓君：在你目前使用过的这些Agent中，有没有哪些在表达或交互上特别出色的？

Kolento：我觉得Replit非常出色，它在我需要澄清问题的时候，总是能及时引导我把需求讲清楚。

我还想提另一个产品Fellou，可能算是Manus的潜在竞争对手，是谢扬最近推出的一个Agent浏览器。它的交互方式很符合我的预期，在执行任何任务之前，都会先通过更可

视化的方式和我进行对齐，对齐完之后再自主运行。

因为Fellou是PC端应用，所以它具备一定的系统级权限。每当遇到高危操作，比如需要登录或输入密码时，它会以系统弹窗的方式提醒我进行确认。而这正是Manus目前做得不太好的地方：它缺乏足够的对齐，在高危操作上又无法获取权限，经常会直接卡住。白白消耗掉credits，任务也没能完成。

所以我觉得像Fellou和Replit的设计理念更合理，在关键场景引入HITL（Human-in-the-loop，人机回圈）机制，与人类进行对接。

泓君：在你们目前使用过的AI Agent中，如果从用户体验和商业潜力两个维度出发，有没有哪些公司是你们特别看好的？

陶芳波：我个人认为，现在市场上还没有出现真正能覆盖全人群、全通用场景的Agent产品，大家还在寻找不同的切入角度。

我比较看好Cursor、Windsurf这类编程Agent，它们是从技术人员的角度切入的。而这两者中我更看好Cusor。目前来说，Cursor的市场渗透率更高，它毕竟是在Windsurf之前就做出了这种产品形态。我也更认可Cursor团队在探索上的那种进取心。当然，Windsurf被OpenAI收购，也不排除未来会被赋予更强的战略目标，朝通用Agent方向发展。但相比之下，我觉得一个独立团队所拥有的自由度会更大。

而且我觉得我们普遍低估了编程Agent作为未来通用型Agent的潜力。很多人对Cursor的印象还停留在“Web端编程工具”这个层面，觉得它就是个辅助编程工具。但随着MCP这类底层基础设施的逐步完善，Cursor正在积极地把自己从一个编程工具，变成一个可以连接多种应用、场景和数据的平台。

也许Cursor未来的界面都会分成两种模式：一种仍以IDE为核心，目标是代码产出；另一种则把代码作为手段，核心目标转向完成任务。这是很多美国公司常见的做法，先打好坚实的底层架构，再一层层往上构建功能。所以我比较看好Cursor的发展路径。

当然Manus也还是有机会的。它是从办公人群的日常场景切入，不只是做Deep Research，还具备不少文件处理等方面的能力。但我觉得从这个角度出发，也需要逐步拓展能力集。通用型Agent的建设，是一个需要长期积累的过程。

Kolento：我目前关注的AI Agent产品，大多都是非常垂直的场景类产品，虽然它们可能不为大众所熟知，但在各自领域内表现都非常突出，也很有前景。

比如Vantel，它专门为商业保险经纪人打造。保险行业里，很多从业者80%的时间都花在重复性工作上，比如保单分析、手动录入数据等。而Vantel专注于将这些流程自动化。它们自己宣称，能每周帮一个经纪人节省十个小时以上的时间。早期的demo就能在五分钟内帮用户快速比对和分析一份几百页、包含大量条款的保单的。我看了它们的demo和很多用户反馈，效果都很不错。

还有Sweet Spot，我从2023年开始就非常关注，一直都觉得这个项目非常有前途。它做的是AI for Granting，主要服务全球的SMB（中小企业）、NPO（非盈利组织）和NGO（非政府组织），帮助它们申请各类政府资助和联邦补助金。除了分析合同之外，还能辅助用户分析招投标。它的用户体验也做得很好，比如前期会自动帮你搜索相关合约信息，并提供深入解读。而且它们的UI在2023年就已经做得非常不错了。我记得每次它只给48小时免费试用，因为太好用了，为此我换了八九个邮箱，最后还联系了它们CEO，希望能开一个会员账号。

泓君：我也用过一个非常垂类的Agent产品，叫做Gamma，是一个AI辅助制作PPT的工具。我觉得它完全可以“秒杀”Canva。我只需要提供一个大致的框架或主题，它就能自动生成内容并排版。比如我小朋友学校要讲解“什么是Podcast”，我交给Gamma，五分钟就能出一整套PPT，排版也很好看。而且其中的内容如果有不满意的地方，简单地手动修改再导出就可以了。

Kolento：很巧，我是Gamma的前100位用户之一。我在它们2020年刚上线时就注册了账号，到现在我的credits都还没用完。很多人知道Gamma是因为它AI生成PPT的功能，但我最早用它的时候还没集成AI，那时我就觉得它的产品非常出色。

我现在所有的PPT都是用Gamma做的。不仅是因为它的AI功能，而且它的立体效果也非常好。它是模块化的PPT工具，可以自由拖拽不同模块到不同的页面，而且视觉效果非常有冲击力。我记2020年左右我看了它们一个demo，展示了如何在静态PPT中“炸出”一段视频，当时我就被震撼到了。从那以后我就一直用它们家的产品。

现在它们也上线了很多AI生成的功能，整个平台变得非常完善。虽然免费用户现在只能做10页，但这10页几乎能覆盖大多数人的常见需求。而且它支持对每一页做很精细的微调，提供几乎所有需要的组件，甚至可以帮你判断插入的图片是否可商用，还能自动从不同图库中搜索替代素材。我觉得它们在每个细节上都做得很到位。

04 行业快与慢

泓君：过去的两个月行业发展得非常快，大家觉得你们在心态或者做事方式上有哪些变化吗？

Kolento：我觉得变化非常明显。过去这几个月，像Manus这样的产品陆续发布，我的工作速度加快了，而且我的很多竞争对手也是。现在无论是开源还是闭源项目，有些时候甚至都会要求执行大于计划。

以前从产品经理的角度出发，做事情的第一步通常是做详细的拆解，考虑非常多的细节，可能会写很长PRD（Product Requirements Document，产品需求文档）。但现在我发现，很多团队已经不再那么强调PRD，而是更关注怎么尽快打通从需求到落地的链路。

这种变化不只是我个人的感受，在工作场景中也非常明显。整体来看，不论是行业节奏还是产品迭代的浪潮，统一都在加速推进。我最大的感受就是：一切都变快了。

陶芳波：对我来说，最大的变化是我们发布了Second Me。但如果说到对整个Agent主题的感受，我和Kolento反而是有点相反的。

年初的时候，大家普遍觉得2025年将是“Agent之年”。虽然Manus发布了，MCP协议也越来越火，但我反而觉得，如果Agent真的要在2025年破茧而出，成为一种像大众日常使用AI一样的方式，仍然存在非常多的问题，而且越做发现问题越多。

今天的大语言模型，尤其在国内，连我爸妈那样的用户都会使用豆包。基于大语言模型的聊天机器人已经成为一个通用的产品形态。但如果我们谈的是AI Agent，不论是垂类还是通用型，要达到同样的日常使用程度，我觉得还有相当大的距离。而且，很多问题不是靠某家公司搞出一个新功能就能解决的，它更像是一个行业级的挑战。

比如有两个大的问题。第一个是环境侧的问题。每一个Agent，本质上都在桥接用户与环境，是需求与行动之间的转化器：它要不断挖掘用户需求，并在环境中转化为行动，实现双向沟通。虽然环境侧有了MCP协议，但这个协议还很不完善，生态渗透率也很低。就像任何一个标准协议一样，MCP所需生态的配合和渗透，都是以年为单位来衡量的过程，而不是几个月就能铺开的。所以还需要慢慢推进建设大量的生态。

第二个问题是Agent如何真正理解用户需求。Agent要如何主动提问、捕捉需求、理解偏好。我们虽然已经发布了开源项目，现在在GitHub上也有了9.2万颗星，很多社区内的人已经在用了。但我们也发现一个很难解决的根本性问题，在未来的世界里，如果一个人真的想把Agent用好，他自己也必须具备一个高质量的输出通道。

泓君：一句话简单解释一下什么是MCP？为什么MCP的发展可能是一个“以年为单位”的过程。你觉得它目前还存在哪些待进化的地方？

陶芳波：MCP是一个关于AI Agent如何访问外部信息源或服务的协议。它不是Agent和Agent之间的，而是Agent和服务之间的协议。

我之所以说它需要以年为单位来进化，并不是因为这个协议本身有多严重的根本性缺陷，尽管它还有很多可以改进的空间。更核心的问题在于行业层面的采纳意愿。

你希望行业能主动拥抱MCP，但很多平台并不愿意开放它们的数据，因为这些接口和数据本身是它们商业模式的基础。一旦引入MCP，其他Agent可以使用我的接口和数据，就会涉及到一系列问题，比如：身份验证如何处理？数据隐私怎么保障？最关键的是如何保障我的商业化？这些问题，目前还没有行业统一的标准或解决方案。我们现在所拥有的，其实只是一个技术上的通道。

所以我认为，目前行业的落地是以年为单位来推进的。今天的MCP更多还是对于API的AI化封装，而还没有真正实现AI原生的程度，还无法让Agent真正通过MCP这扇门进入对方的环境中进行自由操作。

文｜硅谷101

以下是这次对话内容的精选:

01 RTF推动的Agent热潮

泓君：首先请两位嘉宾来分享下自己最近使用Agent的频率是怎样的？自己造了多少个Agent？

泓君：你觉得什么是Agent？

陶芳波：你刚才打的两个比方都非常好，你提到的Agent本质上都还是带有环境的。我说的变化，或者说让大家兴奋的地方，主要是底层能力的变化。

大厂和大模型公司在一些足够大的领域里占据位置。剩下的空间，只会是一些很小机会。相比移动互联网时代，创业者在这个时代的机会会少很多。

泓君：所以这是一个更适合做小而美的时代，因为大机会都会被巨头吃掉。

02 Agent爆火背后的密码

所以从今天这个时间点来看，凡是代码层能接触到的数据，Mannus这样的通用Agent都可以纳入进来做很多事情。但依然还需要面对数据层的壁垒问题。

泓君：所以你觉得像Cursor、Windsurf这些AI编程Agent，反而可能是最有可能杀出来的那一类，未来甚至可能发展成应用很广的巨型通用AI Agent？

因为一个AI产品不可能靠一次成功的demo活下去，它需要持续迭代。而evaluation正是量化每次产品变更效果的唯一工具。

当然，它和传统的测试又不太一样，更加灵活，也更偏向语义层面。目前市面上主要有三类方法：

1.Human Evaluation（人工评估）：优点是与用户偏好直接相关，具备人类的语义理解。但局限性也很明显，反馈稀疏、不够精准、成本高。

2.Code-based Evaluation（基于代码的评估）：优点是快速、便宜，适合代码生成类任务。但对语义复杂、交互丰富的应用则不适用。

3.LLM-based Evaluation（大模型自评）：这是目前论文里最常提到的一种方向，让模型不仅能生成，还能评估自己的输出，具备高度自动化能力。

所以我认为，未来要做出真正有竞争力的AI Agent，evaluation是必不可少的能力中心，从一开始就要建立起完整的evaluation框架。

您认为我们是否真的需要为这25%的性能提升，付出成倍的成本？我听说Manus内部用的就是SFT技术。

03 垂类AI Agent推荐

泓君：在你目前使用过的这些Agent中，有没有哪些在表达或交互上特别出色的？

Kolento：我觉得Replit非常出色，它在我需要澄清问题的时候，总是能及时引导我把需求讲清楚。

视化的方式和我进行对齐，对齐完之后再自主运行。

所以我觉得像Fellou和Replit的设计理念更合理，在关键场景引入HITL（Human-in-the-loop，人机回圈）机制，与人类进行对接。

泓君：在你们目前使用过的AI Agent中，如果从用户体验和商业潜力两个维度出发，有没有哪些公司是你们特别看好的？

陶芳波：我个人认为，现在市场上还没有出现真正能覆盖全人群、全通用场景的Agent产品，大家还在寻找不同的切入角度。

Kolento：我目前关注的AI Agent产品，大多都是非常垂直的场景类产品，虽然它们可能不为大众所熟知，但在各自领域内表现都非常突出，也很有前景。

04 行业快与慢

泓君：过去的两个月行业发展得非常快，大家觉得你们在心态或者做事方式上有哪些变化吗？

陶芳波：对我来说，最大的变化是我们发布了Second Me。但如果说到对整个Agent主题的感受，我和Kolento反而是有点相反的。

泓君：一句话简单解释一下什么是MCP？为什么MCP的发展可能是一个“以年为单位”的过程。你觉得它目前还存在哪些待进化的地方？

陶芳波：MCP是一个关于AI Agent如何访问外部信息源或服务的协议。它不是Agent和Agent之间的，而是Agent和服务之间的协议。

历史搜索全部删除

热门搜索

AI Agent迈向中央舞台：深度解析2025年进化新格局

01 RTF推动的Agent热潮

02 Agent爆火背后的密码

03 垂类AI Agent推荐

04 行业快与慢

评论

AI Agent迈向中央舞台：深度解析2025年进化新格局

01 RTF推动的Agent热潮

02 Agent爆火背后的密码

03 垂类AI Agent推荐

04 行业快与慢