文|最话FunTalk 林书
编辑|刘宇翔
Anthropic终于忍不住“龙虾打洞”了。
美国时间4月4日15:00(北京时间4月5日03:00),Anthropic旗下Claude Code负责人Boris Cherny宣布Claude订阅(Pro/Max)不再覆盖OpenClaw等第三方平台,用户只能使用额外套餐或Claude API密钥使用这些工具。
这意味着企业、初创团队、开发者都无法再利用OpenClaw去近乎无限量套利Claude订阅服务,被迫转入更为昂贵的按量计费模式。
简而言之就是,基于人类使用习惯模式的Anthropic 的订阅服务,被OpenClaw 变成了7×24 小时自动运行的算力消耗,给系统带来了“disproportionate stress”(不成比例的压力),收入与成本倒挂。Anthropic的商业模式被挖得千疮百孔,不堪重负。
此外,Anthropic还有一点不能忍的是,OpenClaw 迟早会将Anthropic“供应商化”。
OpenClaw 最新版更新支持多模型自动/手动切换,从之前的Claude 单点依赖(此前 60% 会话跑在Claude 上)转向“模型池”(model pool)架构,用户可以在 Claude、GPT-5.4、Gemini以及中国国产模型(如智谱、MiniMax)之间自由切换,不再锁定单一供应商。
表面上看,这次更新是对Anthropic 和Google 的封禁的回应,通过多模型冗余确保服务连续性,避免过于依赖单一模型,受制于模型厂商的政策变动。但其实,即使没有这次Anthropic的封禁,加入Open AI后,OpenClaw 创始人Peter Steinberger 也迟早会采取“模型池”模式。
因为一旦习惯使用OpenClaw后,用户就在不知不觉中不会再在意用的是哪家的模型,更在意结果,OpenClaw 成了AI超级入口,而模型厂商则成了OpenClaw 背后的“供应商”。
显然,这对于有着长远目标的Anthropic 来说,是没法接受的,与其坐以待毙,不如主动重拳出击。
但对于智谱、MiniMax等中国国产模型来说,Anthropic“封杀”OpenClaw,以及OpenClaw的多模型切换功能,却是一个重大机会。当Claude API 成本过高时,开发者可能会切换配置到智谱、MiniMax ,甚至不排除当作为主力模型使用,以规避订阅转API 的高昂成本。
毕竟,智谱、MiniMax的Token价格相对于Anthropic的,要便宜得多。
但Token便宜,并不是它们最大的优势。
01、三强的崛起
2026年4月1日,智谱发布上市后的第一份年报,CEO张鹏在业绩会上反复强调了两个字:Token量。
这背后是一系列亮眼的表现:智谱2025年全年营收7.24亿元,同比增长132%,是国内收入最大的独立大模型公司;MaaS开放平台的年度经常性收入(ARR)达到17亿元,12个月暴涨60倍;API价格上调83%之后,调用量反而继续攀升。
张鹏把这种罕见的“涨价放量”归结为一个公式:AGI商业价值 = 智能上界× Token消耗规模。
模型的智能上限,决定你敢不敢涨价;Token消耗规模,决定涨价之后有没有人买单。智谱两个都做到了。
月之暗面的故事更具戏剧性。2026年1月27日,Kimi K2.5发布,仅仅一个月后,ARR突破1亿美元,20天的收入超过2025年全年。3月中旬,公司完成新一轮融资,估值从43亿美元飙升至180亿美元——三个月翻了四倍。
更耐人寻味的是,Kimi的海外收入已经反超国内,海外API收入增长4倍,而杨植麟站上了英伟达GTC大会的演讲台,成为该会议上唯一一位中国大模型创始人,这无疑成了Kimi的高光时刻。
同样地,MiniMax则用另一种方式证明了自己的存在感。2025年全年收入7904万美元,同比增长159%。但真正让行业侧目的,是2026年前两个月M2系列的API调用量——达到去年12月的六倍,其中来自“龙虾”OpenClaw编程场景的Token消耗增长超过10倍。M2.5模型在SWE-Bench上拿到80.2%的得分,与Anthropic的Claude Opus 4.6几乎持平,而价格仅为后者的十分之一。
如果把时钟拨回两年前,这三家公司正挤在同一间“ICU”里。2024年下半年,“AI六小龙”集体陷入困境,融资收紧、商业化遥遥无期、大厂环伺、“六小龙不如一条虫”的嘲讽不绝于耳。彼时的DeepSeek刚刚凭借V3和R1震惊世界,风头一时无两,相比之下,智谱、Kimi和MiniMax更像是被大时代抛在身后的配角。
可短短一年之后,剧本完全翻转。
这种翻转归功于“龙虾”热潮——2026年春节前后,OpenClaw作为开源AI Agent框架引爆了全球开发者社区,全球AI Token消耗从每周5.6万亿暴增到14.8万亿,三强恰好成了最大的“饲料供应商”。
与传统单次对话不同,OpenClaw执行一个任务往往需要数十轮API调用,Token消耗成倍放大,这就意味着使用费用也急剧提高。Token货币化的结果就是,用户迫切寻找更便宜的模型。而在OpenRouter平台上,MiniMax和智谱的收费仅为海外竞品如Claude Opus的1/16(输入100万Token约0.3 vs 5),这吸引了大量海外开发者。
所以自今年2月起,OpenClaw热潮推动下,全球最大API聚合平台OpenRouter 上中国模型调用量三周大涨127%,首次超越美国模型(5.16万亿 vs 2.7万亿Token),其中2026年Q1智谱的API调用量增长400%,就部分归因于OpenClaw生态的放量。而MiniMax M2.5在OpenRouter平台上曾连续两周蝉联全球调用量榜首,周调用量达1.63万亿Token。
但仅仅把智谱、MiniMax的翻盘全归因于OpenClaw也并不公允,智谱和MiniMax的增长还得益于模型能力突破,智谱GLM-5在多项基准测试中登顶开源模型榜首,Coding和Agent能力突出;MiniMax M2专为编码与智能体任务优化,也契合了Agent工作流需求。
旺盛的需求和模型能力提高,使得它们在一定程度上拥有了再定价权,今年3月智谱将API价格上调83%,但调用量依然供不应求增长400%,就说明了这点。
但同样面对龙虾的风口,六小龙中的另外几条龙,表现又怎样?
零一万物已经放弃了通用大模型,宣布不再做单一大模型,而是采用模型开放策略,转型做企业级部署服务,核心技术团队在DeepSeek冲击后分崩离析。百川智能的创始人王小川经历了他所谓的“至暗时刻”——业务线收缩、高管离职、目标摇摆,最终押注AI医疗这个垂直赛道,基本退出了通用大模型的竞争。
同一个风口,有人飞升,有人坠落。差距出在哪?
答案藏在一个更深层的逻辑里:龙虾的风口不是谁都能追,它考的是你的底模够不够强、工具链够不够深、开发者生态够不够厚。
而六小龙中的三强,恰恰是在龙虾来临之前,就已经在这三个维度上默默积累了足够的势能。
问题是:为什么偏偏是他们?
02、范式的转变
要回答这个问题,必须先理解一件在2024年底悄然发生、却深刻改变了整个行业走向的事——Ilya Sutskever在NeurIPS 2024上的那场演讲。
这位OpenAI的联合创始人、被尊为“AI宗师”的人物,在那场罕见的公开露面中说了一句话:我们所知道的预训练,将毫无疑问地终结,我们已经触及了数据的顶峰,不会再有更多了。
这句话在业界引发了一场深刻的路线分裂。
一派认为Scaling Law没有撞墙,只是需要Scaling的对象变了——从互联网原始数据转向合成数据、推理轨迹、以及推理时的计算量。另一派则认为Transformer架构本身已触及天花板,大模型需要一场从底层数学结构开始的架构革命。
对此,六小龙中的三强给出了自己的答案:都不选。或者说,两个都选。
这就是所谓的“第三条路”——不是纯粹地继续堆数据、堆算力(老路已经走到头了),也不是推倒重来搞一个全新架构(风险太大、周期太长),而是用架构层面的精准创新,去撬动新形式的Scaling。
Kimi从大模型底层三大模块——优化器、注意力机制、残差连接同时突破。
其MuonClip优化器引入二阶梯度信息,通过牛顿-舒尔茨迭代和QK-Clip机制解决“Logits爆炸”问题,实现同等算力下更高模型质量或同等质量下大幅降低算力需求,提升Scaling效率。
Attention Residuals论文获马斯克点赞,因为其用softmax注意力实现“选择性回忆”,使48B模型达到60B效果。
MiniMax路径不同但信仰一致:创始人闫俊杰坚信Scaling Law及模态等价性,这构成其技术战略的第一性原理。
MiniMax在各模态独立验证Scaling规律:语言模型侧将线性注意力推进至工业级,使百万长文本算力消耗降至传统方案几百分之一;多模态侧发现Visual Tokenizer的Scaling Law,解决视频生成投入产出问题,获得结构性效率优势。
作为这一策略的错过,M2.5的230B总参数仅激活10B推理,SWE-Bench得分80.2%,价格为Claude Opus 4.6的十分之一,这源于MoE架构与推理优化带来的成本优势。
智谱走的路子,表面上是涨价后不跌反升的“飞轮验证”,2026年一季度价格涨了83%,Token调用量却增长400%。但真正的秘密在于三个维度的同时强化,形成了一个“多角形飞轮”,很难被竞争对手同时追赶。
在模型方面,GLM-5在编程、长文本、多模态上的突破,让它成了Agent开发者的必选项。与此同时,智谱完成了与华为昇腾、摩尔线程等七大国产芯片的算子级优化,让部署成本直接降低50%。这意味着国产芯片选择智谱,从可选变成了必须,转换成本有形化了。
而在数据闭环上,智谱不像大厂的数据分散在各处,开发者用GLM完成一个Agent任务,推理轨迹、纠错过程全部被记录,这种“真实任务数据”的价值,远高于互联网爬虫或合成数据。模型越强,用户越多,飞轮就这样转起来了。
三家公司的路径各有不同,但有一个共同的底层逻辑:“第三条路”带来的不仅仅是极致的性价比,而是在Token消耗量爆炸式增长后,仍然能维持任务质量的稳定。
龙虾场景下,一个稍复杂的编程任务平均消耗350万Token——是普通对话的数百倍。在这种级别的负载下,模型的推理稳定性、长上下文下的性能衰减控制、以及端到端的延迟管理,才是开发者选择谁的真正标准。
换句话说,便宜只是入场券,稳定才是留下来的理由。
03、DeepSeek最大的挑战
如果三强的崛起,代表了“第三条路”的胜利,那么另一个更尖锐的问题是:为什么与三强同为大模型企业出身的DeepSeek,没有率先实现这样的突破?
坦白说,DeepSeek在大模型1.0时代创造的成就,至今仍令人敬佩。
V3和R1以极低的训练成本实现了SOTA级别的性能,MLA(多头潜在注意力)和混合专家架构的组合,在当时堪称惊艳。梁文锋以极致的、勇猛的工程学思维,把每一块GPU的性价比压榨到了极致——这种“力出一孔”的能力,正是大模型1.0时代最重要的竞争力。
但1.0时代的竞争逻辑,和2.0时代有根本的不同。
到了2.0时代,问题变了。当Ilya宣告“我们所知道的预训练将要终结”之后,行业面临的不再是“怎么把模型做得更大”,而是“下一步往哪走?”
是继续Scaling别的东西,还是彻底换架构?这是一个充满不确定性的岔路口。
在这个岔路口上,DeepSeek(以下简称DS)遇到了两个结构性的困难。
第一个困难来自商业化的缺失,导致其无法持续地Scaling。
DS至今没有系统性的商业化运营,其API虽然被大量使用,但因为DS是开源的,因此大量企业把DS权重下载下来,私有化部署在自己的服务器上,这部分用户的数据完全在企业内网里,DS的母体一个字也收不到,同时还有大量开发者通过阿里云、腾讯云、百度云等第三方平台调用DS,数据留在了云厂商那里。
更关键的地方在于:DS免费或超低价的API定价,难以支撑数据工程的运转成本,这意味着DS用户越多越亏,用户翻倍,亏损也翻倍,这使其无法像三强那样,在龙虾实战中不断迭代。
第二个困难更加微妙,也是制约DS架构创新的瓶颈。
DeepSeek的团队至今不到140人,平均年龄只有28岁,成员几乎清一色来自国内顶尖高校的应届毕业生和在读博士生。这个选择并非无意为之,梁文锋曾公开表达过他的人才哲学:“经验并不意味着能力,反而可能限制创新。”
但这里有一个隐患,在2.0时代的架构创新需求下,架构层面的真正突破,往往需要的不只是聪明的年轻人,还需要见过不同范式的人之间的知识碰撞。
杨植麟在Google Brain见过Transformer如何从论文变成工业级系统;智谱创始人唐杰的团队,不仅有着扎根清华的学术背景,也带领KEG实验室深耕了近二十年,发表了超过500篇顶尖论文。
这种“多层代际、多种背景”的知识密度,才使得架构革命与创新成为了可能。
从唯物主义的角度上说,技术创新的必要条件,不是只是天才的“灵光一闪”,更需要看知识、人才的密度、多样性是否达到了一定的阈值和丰度。
说到底,DS的问题不是“技术不够强”,而是它不能再用大模型1.0的思维打2.0的仗。
很多人都喜欢把训练大模型叫做“炼丹”,这不是段子,而是一种精准的隐喻。
大模型训练的本质,就是把海量数据(原料)投入神经网络(炉子),经过漫长的参数调整(火候),最终期待涌现出一种难以预测的“智能”。你事先并不完全知道产出会是什么——调一下学习率,改一下Batch Size,模型的表现就可能陡然提升,这种高度依赖经验与直觉的摸索过程,和古人在丹炉前的反复试探如出一辙。
1.0时代更讲究“炼丹师”的个人洞见,一个天才型的创始人,带着一小群精英,在丹炉前反复实验,直到炼出惊世骇俗的成果。这在很长一段时间里是有效的。
但2.0时代需要的,更可能是“制药厂”式的体系化创新。
什么叫制药厂?它不依赖任何一个药剂师的灵感,而是靠可复制的研发流程、可量化的质量标准、和持续不断的临床反馈来稳定地产出新药。
在大模型2.0时代,持续的体系化创新能力,比任何一次单点技术突破都重要得多。谁能把“创新”从个人英雄主义变成组织级的稳定产出,谁就能在这个充满不确定性的时代里掌握主动权。
以Kimi为例,3月16日,Kimi发布Attention Residuals论文,被马斯克点赞,之后Reddit上已有开发者在复现。这背后反映的,实际上是其一种系统化、团队化的知识积累体系。
绝大多数公司,从论文到产品的路径是:核心论文→模型训练→产品发布→用户反馈→下一个核心论文。但Kimi打破了这个模式,Kimi 3月16日论文发表后,从论文idea到学术发表到产品实现到开源代码,只用了不到3天的迭代周期。
这说明,Kimi把论文看作一个可视化的思想工具,用来快速获得全球反馈的中间产品,而非要等到论文或产品完美后,再等待反馈。
论文的作者组成,还暴露了一个秘密:Guangyu Chen(陈广宇)和其他作者加起来,一共35人,其中还有一位17岁的高中生,这在大模型论文里很罕见。
通常情况下,即使是OpenAI、DeepSeek发表的论文,作者也大多只有十几到20位。
这说明Kimi的论文不是“精英研究团队的产物”,而是“整个公司在这个方向上的集体知识总结”。
三强之所以能走出ICU,不是因为它们拥有比DeepSeek更聪明的工程师,而是因为其建立了一种更快的迭代速度、更密集的知识流转、更体系化的创新机制。
大模型1.0时代属于炼丹师,那是一个凭借个人洞见和技术魄力就能改变格局的英雄时代。但2.0时代,属于制药厂,属于那些把创新变成流水线、把突破变成日常、把个人能力沉淀为组织能力的企业。
六小龙中的三强,正在做同样的事。


评论