文|新眸 鹿尧
当我们谈论Agent时,究竟在谈论什么?
是替代人类的数字劳工,还是辅助决策的智能伙伴?
今年初,一场由Manus引发的产品井喷,吸引了行业对“智能体价值”的集体审视。作为承接大模型落地的关键形态,Agent被普遍认为即将重构人与机器协作的基本范式。
这场热潮中,对“时间窗口”的把握显得尤为重要,杨通2016年创立的开为科技(KiWi),在Manus上线后的一个月内,迅速推出了对标产品Roles Space(螺丝空间),通过自然语言生成初步流程,自动拆解任务后输出结果。针对“Agent技术护城河不高”的争议,他坦言,“随着LLM开源、MCP协议标准化,基础技术确实不再是独家秘方。”
在他看来,现在的AI创业早已过了技术垄断的阶段,而是进入“产品驱动+运营驱动”的综合竞争。但也同时强调,Agent的壁垒,或许在于对场景的解耦——把多智能体协作、长周期规划、工具调用等技术模块,整合成可落地的“任务级解决方案”。
争议的焦点在于,Agent是否真正解决了“复杂问题处理”的痛点。数据显示,当前主流Agent产品在单轮对话场景(如信息查询)的完成度可达80%以上,但在涉及多工具调用、长周期规划的复杂任务中,成功率骤降。
作为一个连续创业者,从社交APP、计算机视觉,到如今的Agent,当行业陷入“Agent万能论”与“泡沫论”的争辩时,杨通对AI的看法带着技术人的理性与创业者的敏锐。
他承认Agent的空间远超机器视觉(“市场规模可能是百倍千倍”),但拒绝空谈技术颠覆,而是聚焦“如何让智能体真正进入企业workflows”;看好MCP协议的革命性,但也坦言“长周期规划、多智能体协作仍有技术卡点”;相信人机协作是未来,但强调“人类永远需要在关键环节‘踩下刹车’”。
“现阶段Agent能完成70%的执行性工作,比如数据清洗、报告生成、流程自动化,但剩下30%的策略决策、创意判断、风险鉴别,必须由人类主导。”
这个赛道的争议从未停歇。
随着百度、字节等大厂入局,Agent竞争愈发复杂。大厂的优势是流量与资本,但也受制于“大象转身”;创业公司的机会,或许是大厂不愿涉足的“深水区”,但当大厂开始复制小而美模式,他们的差异化能维持多久?
面对国内C端AI产品的盈利困境,用户付费习惯尚未养成,高昂的GPU成本让市场成为‘烧钱战场’,如果转向B端,又如何界定可量化的ROI,让企业愿意为“数字员工”买单?
一系列追问之下,这个新兴领域的未来,既不取决于技术参数,也不依赖资本故事的包装,而在于那个最朴素的问题:它是否让人类的工作与生活,变得更简单、更高效、更有尊严?
在技术泡沫与务实创新的博弈中,问题的答案,将预言Agent是否真的是改变世界的开端。
以下是《新眸》和杨通的对话精选:
01、理性看待争议,技术壁垒的相对论
新眸:从机器视觉转型AI赛道,开为转型的关键契机是什么?
杨通:对于大厂来说,转型可能意味着放弃原有优势,但对初创公司,转型是主动拥抱更大的机会。
当时主要考虑两点,首先是技术迭代的窗口期。十年前ResNet的出现让计算机视觉准确率明显提升,催生了AI四小龙。但近年来,Transformer架构和大模型带来了更颠覆性的机遇——NLP让AI从“理解图像”进阶到“理解世界”,结合虚拟世界与物理世界的交互接口,Agent具备了规划、协作、使用工具的能力,其中的商业价值和市场空间远超单一的计算机视觉。
其次是考虑到市场逻辑的本质区别。我们原先业务主要是ToG和部分ToB,本质上仍是互联网经济的延伸;现在通过MCP协议将所有SaaS工具“智能化”,使其成为Agent可调用的模块,彻底重构了软件的使用方式。这种变革不仅覆盖ToB领域,还延伸到ToC场景,市场规模可能达到计算机视觉的数十倍甚至百倍。
所以我们判断,这是一个能在全球AI竞争中“换道超车”的关键节点。
新眸:Agent概念近两年爆发式增长,尤其近期市场出现不少类Manus产品。你认为他们的核心竞争力是什么?
杨通:这个问题的核心在于AI创业逻辑的转变。
现在技术壁垒确实不像十年前那样高,大模型开源、开发框架普及,以及Cursor等工具提升工程师效率,基础技术能力已相对标准化。比如Manus的核心优势并非技术独家,而是“先手”和“运营”。
Manus作为一款通用型Agent产品,抢占了市场窗口期,早期的营销快速积累百万级用户,尽管留存率和使用时长未必理想,但凭借流量效应获得BenchmarkCapital等机构大量的融资,估值飙升。这种“融资能力→技术投入→生态构建”的循环,本身就是竞争力的一部分。
简单来说,现在AI创业进入“产品驱动+运营驱动”的全周期竞争。就像当年的Snapchat用滤镜重新定义社交,Agent时代需要重新定义人机交互的“新界面”。
C端产品依赖用户体验和裂变能力,B端则更注重市场拓展与销售落地。短期团队需要在技术和产品设计上建立复合壁垒;长期则取决于资源整合能力——当行业进入成熟期,头部效应会加剧,最终比拼的是融资规模、生态布局和全球化能力。
有争议也并非坏事。对创业公司,市场声量能快速建立品牌认知,只要产品有突出亮点,就能形成融资和迭代的抓手。
新眸:最近有款叫Fellou的产品主打“浏览器+AI+工作流”,声称要颠覆传统浏览器,你对此怎么看?
杨通:Fellou定位是“Agent原生浏览器”,主打的网页内容总结、自动化填表等功能,本质上是Agent在浏览器场景的工具化延伸,而ChatGPT、Manus等通用智能体通过插件形式已能实现类似效果(如用ChatGPT总结网页内容)。用户没有强动机为“专用浏览器”迁移——毕竟Chrome、Safari等主流浏览器的用户习惯、插件生态已非常成熟。
另外必须要考虑的是,浏览器作为入口级应用,成功依赖“自带流量+生态绑定”。回想90年代的IE、如今的Chrome,背后是Windows系统、安卓生态的支撑。Fellou作为独立产品,既没有硬件/系统级流量加持,也未展现出超越现有Agent的独特价值(比如更精准的网页交互、更深度的工作流整合),用户接受度可能会有限。
对比来看,通用Agent虽然也面临留存难题,但聚焦“复杂任务处理”,场景更垂直、痛点更明确。在现有技术框架下,Agent与浏览器更可能是“功能叠加”,而非“颠覆”。
新眸:大厂也推出了一些产品,比如前不久百度的“心响”。
杨通:我也关注了“心响”。它跟Manus这些Agent产品思路不太一样,和传统大模型应用也有本质区别。大模型擅长“快问快答”,Agent是处理“复杂任务”
举个例子:比如你问“新街口哪家咖啡店人气高”,大模型几秒钟就能列出结果;但要是想深入分析“这些咖啡店的客群特点、盈利模式,以及位置对客流的影响”,就需要Agent花更长时间来回搜索数据、交叉验证信息,还要调用不同工具(比如查地图数据、扒行业报告),最后整合出一份完整的分析报告。
相比Roles把智能体拆成了“分工明确的助手”,大家按流程协作。“心响”走的是角色化路线,比如处理法务问题时,会分配不同专业的“律师角色”,做旅游规划时搭配“向导角色”和讲解的数字人。这种模式挺有意思,实际效果得看后续市场反馈。
02、商业化迷雾:C端的泡沫与B端的觉醒
新眸:国内AIC端产品大多面临盈利困境,Agent的商业模式该如何破局?
杨通:这里有个残酷的现实:国内用户很难为通用型Agent买单。高昂的GPU成本、激烈的流量竞争,让C端创业变成“烧钱游戏”。除大厂有流量和资本支撑外,大部分创业公司都把C端业务转向海外了。
但B端市场却展现出截然不同的图景,我们给企业做的方案,核心是让Agent当“数字员工”,让Agent用ERP、CRM这些软件,帮助处理数据分析、报告生成等任务时,最终人工审核,价值变得可量化。
新眸:C端AI产品每天几十款上线,大部分昙花一现,原因是什么?
杨通:随着大模型API开放,创业团队能在几周内搭建出基础Agent框架,不过功能集中在对话、内容生成,缺乏差异化。市面上80%的C端智能体都主打“全能助理”,实际体验与ChatGPT高度重合。
就中美市场来看,用户早已被头部产品(如ChatGPT、Midjourney)占据心智,且对“虚拟助手”的付费阈值很低,每月20美元已是敏感带。创业公司为获取流量,不得不投入高额营销费用,容易获客成本高于收入。
B端的Agent主要是“替代低端操作”,客户愿意为效率提升付费,这也是我们笃定ToB的核心,更看重“可量化的ROI”。
新眸:哪些领域对Agent的需求度较高,愿意付费买单?
杨通:一类是面向办公场景,比如一些嵌入式的工具帮用户自动生成PPT大纲、整理会议纪要,替代了Trello、Notion等传统协作工具功能。再者是传统BI工具,比如Tableau、PowerBI,痛点是操作门槛高,而Agent能通过自然语言指令完成各类任务。最后是AIGC,从图文创作到视频剪辑,Agent正在重构营销内容生产链。
至于C端市场,付费场景集中在“应急”,比如学生写论文时用Agent做文献调研、职场人用其生成PPT大纲,典型产品如Jasper、NotionAI,采用订阅制,用户群体以高频文案工作者、科研人员为主。
新眸:这些产品在国内B端市场的商业模式,和传统SaaS软件有什么区别?
杨通:商业模式并无本质区别,依然以订阅制服务为主,但产品形态和价值交付方式更“智能化”。
新眸:如何突破传统SaaS的瓶颈?
杨通:我们的核心优势在于“AI驱动的降本效率”:传统SaaS开发一个复杂功能可能需要6-12个月,而我们基于大模型和MCP协议,能在1个月内完成同等能力开发。再直白点,盈利周期更短,依托AI自动化,我们2025年三季度基本盈利,而传统SaaS企业平均需要3-5年实现盈亏平衡。这种效率提升让我们能以更低价格提供更优质服务。
新眸:现在AI行业也常提到“先烧钱买流量,再思考变现”的旧模式,您认为未来AI产品的变现逻辑会如何演变?
杨通:AI时代的变现逻辑与传统互联网有本质区别,十年前互联网产品核心成本是人力与获客,而AI产品的算力成本占比超过80%。以200万用户规模为例,仅算力设备投入就可能高达3000万美元,远超人员与获客成本之和。
这种变化导致AI产品必须“上线即变现”,流量越大,算力亏损越严重。例如OpenAI虽用户基数庞大,但高昂的算力成本倒逼其必须快速推出付费版和企业级API收费。
就现在看,C端靠场景化付费。像Cursor、Perplexity等产品,解决高频刚需,以订阅制实现盈利。这类产品的核心是“单次使用价值明确”,用户为具体功能付费。B端是ROI导向的企业服务,客户付费意愿强于纯流量型产品。
新眸:广告模式会被最终选择吗?
杨通:存疑。通用型Agent的用户使用时长碎片化,难以形成稳定广告流量;另一方面,企业级AI产品更注重数据安全与效率,广告植入可能破坏用户体验。目前来看,广告可能仅适用于低算力成本的轻量工具类产品。
新眸:总结来看,AI变现的核心逻辑是什么?
杨通:核心在于“价值可量化”与“成本可覆盖”——无论是C端的“场景刚需付费”,还是B端的“效率提升收费”,本质都是让用户清晰感知“使用收益超过支出”。
与互联网时代“先圈地后变现”的模式不同,AI产品必须在上线初期就证明“商业价值≥成本”,否则将陷入“流量越大、亏损越重”的陷阱。未来成功的AI企业,一定是在垂直场景中实现“高价值密度”的玩家。
新眸:能否举例说明您看好的AI变现案例及其优势?
杨通:C端垂直场景的刚需型产品,比如Cursor,精准定位高频场景,通过“免费试用+高级功能订阅”,程序员日均使用时长超过2小时,付费转化率达15%。还有Perplexity,几乎使用3-5次复杂调研后,付费转化率超过20%,因为“节省的时间成本远高于订阅费用”。
B端企业效率的工具型产品,比如微软Copilot for Business,绑定企业现有工作流成为刚需,还有我们的Roles解决客户实际难题,按任务收费,年度订阅,有60%的客户复购率。
03、大厂的焦虑与创业公司的生存空间
新眸:之前微软把Copilot嵌入Office和Teams,定位成企业工作流的中枢。它和Agent的关系关系是什么,为什么当时会有定位上的争议?
杨通:Copilot是Agent在办公场景的垂直化应用,争议简单理解,是大公司在新旧技术衔接时的矛盾。
2023年刚推出时,Copilot以“插件”形式存在于Word、Excel中,用户通过对话框下达指令,本质是Agent调用Office功能的轻量化形态。这种模式贴合企业现有工作流,降低了使用门槛。
2024年迭代后,Copilot试图整合视觉语言模型、复杂任务和自动化任务,功能更接近通用Agent。但微软面临一个核心矛盾:作为靠Office软件盈利的巨头,既要让Copilot展现智能体的先进性,又不能动摇Office的主体地位,导致功能“既像工具又像平台”,用户难以清晰认知。
对比创业公司,Copilot绑定了亿级用户的办公生态,但传统软件的架构限制了智能体的自由度,高昂的定价策略也让中小客户望而却步。
新眸:百度、字节等大厂产品纷纷入局,创业公司的生存空间在哪里?
杨通:大厂的优势是流量与资源,但庞大的组织架构让他们难以快速转身。比如微软Copilot的转型阵痛。创业公司的机会在于“小而美”的场景深耕,我们之前服务的某跨境电商客户,需要Agent同时对接ERP、CRM、海外社交媒体,这种垂直场景的深度适配,是大厂标准化产品难以覆盖的。
更关键的是,Agent时代正在打破“赢家通吃”的互联网定律。就像OpenAI与Anthropic的竞争推动技术进步,正在构建多元共生的生态。大厂搭建基础设施,创业公司在细分领域开疆拓土,这种“热带雨林式”的生态,最适合技术创新。
新眸:创业公司与大厂竞争比,各有哪些优势?
杨通:这一轮AI革命让所有人站在了同一起跑线,我觉得创业公司的优势更明显:更灵活、更专注、更纯粹。大厂往往受限于原有业务框架,比如百度可能得需兼顾搜索生态,微软要平衡Office原有功能,而创业公司可以彻底聚焦Agent原生设计。小船掉头快,大船资源足,在技术变革期,创新力或许比规模更重要。
新眸:Agent会有终极形态吗?未来三年可能有哪些关键变化?
杨通:终极形态难以定义,但下一阶段的核心变化一定围绕“人机协作深化”,当前Agent需要用户频繁介入每一步操作,未来会进化为“隐性协作”——AI自主规划复杂任务,仅在关键节点请求人类决策。随着多模态交互普及,结合语音、视觉的交互方式会成为主流。用户通语言描述,Agent同步生成演示,过程中自动识别用户表情反馈,动态调整内容。
预计未来3个月内,市场会出现至少5-10款聚焦“低介入度协作”的Agent产品,我们也在研发类似功能,目标是让用户在8小时工作中,有4小时能通过Agent提升效率。
新眸:近两年,您对Agent的认知发生了哪些关键变化?
杨通:确实很多变化。
早期认为Agent是“替代人力的工具”,现在意识到它是“连接一切的生态节点”。以后Agent不仅能调用ERP、CRM系统,还会接入更多企业私有工具,形成“Agent+X”的协作网络。
过去关注模型精度、工具调用效率,现在更注重“场景价值密度”。比如为零售客户开发的智能定价Agent,不是比拼技术参数,而是看能否将定价周期从3天压缩到2小时,是否真正降低了人力成本。
这种变化让我们更聚焦客户真实需求,不是做“全能Agent”,而是成为特定场景的“效率刚需”。
新眸:“人机协作”是Agent的核心形态,这种协作模式会如何改变工作方式?
杨通:理想的Agent不是独立的智能体,而是人类的“数字影子”。比如律师使用Agent会自动检索法律数据库、生成诉讼提纲,但最终决策仍由人类决定,整体来看,最好是“70%机器执行+30%人类决策”。
技术层面,我们正在解决“长周期规划”与“多智能体协作”的难题。当Agent能自主规划复杂任务、动态调整执行策略,并在出错时主动请求人类介入,才算真正协作智能。这不是简单的技术叠加,而是需要将“人类反馈机制”深度融入模型训练,让Agent学会“用错误学习”,而不是一味顺从。
新眸:如何去期待Agent的普及?
现在C端用户感知较弱,解决这一问题的关键,是场景不断下沉与交互不断简化,如同2000年的浏览器、2010年的移动应用,Agent可能经历“工具化→平台化→基础设施化”三阶段:现阶段作为效率工具服务企业与高频用户,未来可能嵌入手机、汽车等终端,成为类似“操作系统”的底层设施,实现“无感化普及”。
新眸:未来五年,开为希望以怎样的定位被行业记住?
杨通:证明Agent的商业价值,留下“AI产品化”的方法论遗产,比如如何将实验室技术快速转化为可落地的企业级解决方案,为后来者提供路径参考。
评论