走出ICU的“AI三小龙”，究竟做对了什么？|界面新闻

文｜最话FunTalk 林书

编辑｜刘宇翔

Anthropic终于忍不住“龙虾打洞”了。

美国时间4月4日15:00（北京时间4月5日03:00），Anthropic旗下Claude Code负责人Boris Cherny宣布Claude订阅（Pro/Max）不再覆盖OpenClaw等第三方平台，用户只能使用额外套餐或Claude API密钥使用这些工具。

这意味着企业、初创团队、开发者都无法再利用OpenClaw去近乎无限量套利Claude订阅服务，被迫转入更为昂贵的按量计费模式。

简而言之就是，基于人类使用习惯模式的Anthropic 的订阅服务，被OpenClaw 变成了7×24 小时自动运行的算力消耗，给系统带来了“disproportionate stress”（不成比例的压力），收入与成本倒挂。Anthropic的商业模式被挖得千疮百孔，不堪重负。

此外，Anthropic还有一点不能忍的是，OpenClaw 迟早会将Anthropic“供应商化”。

OpenClaw 最新版更新支持多模型自动/手动切换，从之前的Claude 单点依赖（此前 60% 会话跑在Claude 上）转向“模型池”（model pool）架构，用户可以在 Claude、GPT-5.4、Gemini以及中国国产模型（如智谱、MiniMax）之间自由切换，不再锁定单一供应商。

表面上看，这次更新是对Anthropic 和Google 的封禁的回应，通过多模型冗余确保服务连续性，避免过于依赖单一模型，受制于模型厂商的政策变动。但其实，即使没有这次Anthropic的封禁，加入Open AI后，OpenClaw 创始人Peter Steinberger 也迟早会采取“模型池”模式。

因为一旦习惯使用OpenClaw后，用户就在不知不觉中不会再在意用的是哪家的模型，更在意结果，OpenClaw 成了AI超级入口，而模型厂商则成了OpenClaw 背后的“供应商”。

显然，这对于有着长远目标的Anthropic 来说，是没法接受的，与其坐以待毙，不如主动重拳出击。

但对于智谱、MiniMax等中国国产模型来说，Anthropic“封杀”OpenClaw，以及OpenClaw的多模型切换功能，却是一个重大机会。当Claude API 成本过高时，开发者可能会切换配置到智谱、MiniMax ，甚至不排除当作为主力模型使用，以规避订阅转API 的高昂成本。

毕竟，智谱、MiniMax的Token价格相对于Anthropic的，要便宜得多。

但Token便宜，并不是它们最大的优势。

01、三强的崛起

2026年4月1日，智谱发布上市后的第一份年报，CEO张鹏在业绩会上反复强调了两个字：Token量。

这背后是一系列亮眼的表现：智谱2025年全年营收7.24亿元，同比增长132%，是国内收入最大的独立大模型公司；MaaS开放平台的年度经常性收入（ARR）达到17亿元，12个月暴涨60倍；API价格上调83%之后，调用量反而继续攀升。

张鹏把这种罕见的“涨价放量”归结为一个公式：AGI商业价值 = 智能上界× Token消耗规模。

模型的智能上限，决定你敢不敢涨价；Token消耗规模，决定涨价之后有没有人买单。智谱两个都做到了。

月之暗面的故事更具戏剧性。2026年1月27日，Kimi K2.5发布，仅仅一个月后，ARR突破1亿美元，20天的收入超过2025年全年。3月中旬，公司完成新一轮融资，估值从43亿美元飙升至180亿美元——三个月翻了四倍。

更耐人寻味的是，Kimi的海外收入已经反超国内，海外API收入增长4倍，而杨植麟站上了英伟达GTC大会的演讲台，成为该会议上唯一一位中国大模型创始人，这无疑成了Kimi的高光时刻。

同样地，MiniMax则用另一种方式证明了自己的存在感。2025年全年收入7904万美元，同比增长159%。但真正让行业侧目的，是2026年前两个月M2系列的API调用量——达到去年12月的六倍，其中来自“龙虾”OpenClaw编程场景的Token消耗增长超过10倍。M2.5模型在SWE-Bench上拿到80.2%的得分，与Anthropic的Claude Opus 4.6几乎持平，而价格仅为后者的十分之一。

如果把时钟拨回两年前，这三家公司正挤在同一间“ICU”里。2024年下半年，“AI六小龙”集体陷入困境，融资收紧、商业化遥遥无期、大厂环伺、“六小龙不如一条虫”的嘲讽不绝于耳。彼时的DeepSeek刚刚凭借V3和R1震惊世界，风头一时无两，相比之下，智谱、Kimi和MiniMax更像是被大时代抛在身后的配角。

可短短一年之后，剧本完全翻转。

这种翻转归功于“龙虾”热潮——2026年春节前后，OpenClaw作为开源AI Agent框架引爆了全球开发者社区，全球AI Token消耗从每周5.6万亿暴增到14.8万亿，三强恰好成了最大的“饲料供应商”。

与传统单次对话不同，OpenClaw执行一个任务往往需要数十轮API调用，Token消耗成倍放大，这就意味着使用费用也急剧提高。Token货币化的结果就是，用户迫切寻找更便宜的模型。而在OpenRouter平台上，MiniMax和智谱的收费仅为海外竞品如Claude Opus的1/16（输入100万Token约0.3 vs 5），这吸引了大量海外开发者。

所以自今年2月起，OpenClaw热潮推动下，全球最大API聚合平台OpenRouter 上中国模型调用量三周大涨127%，首次超越美国模型（5.16万亿 vs 2.7万亿Token），其中2026年Q1智谱的API调用量增长400%，就部分归因于OpenClaw生态的放量。而MiniMax M2.5在OpenRouter平台上曾连续两周蝉联全球调用量榜首，周调用量达1.63万亿Token。

但仅仅把智谱、MiniMax的翻盘全归因于OpenClaw也并不公允，智谱和MiniMax的增长还得益于模型能力突破，智谱GLM-5在多项基准测试中登顶开源模型榜首，Coding和Agent能力突出；MiniMax M2专为编码与智能体任务优化，也契合了Agent工作流需求。

旺盛的需求和模型能力提高，使得它们在一定程度上拥有了再定价权，今年3月智谱将API价格上调83%，但调用量依然供不应求增长400%，就说明了这点。

但同样面对龙虾的风口，六小龙中的另外几条龙，表现又怎样？

零一万物已经放弃了通用大模型，宣布不再做单一大模型，而是采用模型开放策略，转型做企业级部署服务，核心技术团队在DeepSeek冲击后分崩离析。百川智能的创始人王小川经历了他所谓的“至暗时刻”——业务线收缩、高管离职、目标摇摆，最终押注AI医疗这个垂直赛道，基本退出了通用大模型的竞争。

同一个风口，有人飞升，有人坠落。差距出在哪？

答案藏在一个更深层的逻辑里：龙虾的风口不是谁都能追，它考的是你的底模够不够强、工具链够不够深、开发者生态够不够厚。

而六小龙中的三强，恰恰是在龙虾来临之前，就已经在这三个维度上默默积累了足够的势能。

问题是：为什么偏偏是他们？

02、范式的转变

要回答这个问题，必须先理解一件在2024年底悄然发生、却深刻改变了整个行业走向的事——Ilya Sutskever在NeurIPS 2024上的那场演讲。

这位OpenAI的联合创始人、被尊为“AI宗师”的人物，在那场罕见的公开露面中说了一句话：我们所知道的预训练，将毫无疑问地终结，我们已经触及了数据的顶峰，不会再有更多了。

这句话在业界引发了一场深刻的路线分裂。

一派认为Scaling Law没有撞墙，只是需要Scaling的对象变了——从互联网原始数据转向合成数据、推理轨迹、以及推理时的计算量。另一派则认为Transformer架构本身已触及天花板，大模型需要一场从底层数学结构开始的架构革命。

对此，六小龙中的三强给出了自己的答案：都不选。或者说，两个都选。

这就是所谓的“第三条路”——不是纯粹地继续堆数据、堆算力（老路已经走到头了），也不是推倒重来搞一个全新架构（风险太大、周期太长），而是用架构层面的精准创新，去撬动新形式的Scaling。

Kimi从大模型底层三大模块——优化器、注意力机制、残差连接同时突破。

其MuonClip优化器引入二阶梯度信息，通过牛顿-舒尔茨迭代和QK-Clip机制解决“Logits爆炸”问题，实现同等算力下更高模型质量或同等质量下大幅降低算力需求，提升Scaling效率。

Attention Residuals论文获马斯克点赞，因为其用softmax注意力实现“选择性回忆”，使48B模型达到60B效果。

MiniMax路径不同但信仰一致：创始人闫俊杰坚信Scaling Law及模态等价性，这构成其技术战略的第一性原理。

MiniMax在各模态独立验证Scaling规律：语言模型侧将线性注意力推进至工业级，使百万长文本算力消耗降至传统方案几百分之一；多模态侧发现Visual Tokenizer的Scaling Law，解决视频生成投入产出问题，获得结构性效率优势。

作为这一策略的错过，M2.5的230B总参数仅激活10B推理，SWE-Bench得分80.2%，价格为Claude Opus 4.6的十分之一，这源于MoE架构与推理优化带来的成本优势。

智谱走的路子，表面上是涨价后不跌反升的“飞轮验证”，2026年一季度价格涨了83%，Token调用量却增长400%。但真正的秘密在于三个维度的同时强化，形成了一个“多角形飞轮”，很难被竞争对手同时追赶。

在模型方面，GLM-5在编程、长文本、多模态上的突破，让它成了Agent开发者的必选项。与此同时，智谱完成了与华为昇腾、摩尔线程等七大国产芯片的算子级优化，让部署成本直接降低50%。这意味着国产芯片选择智谱，从可选变成了必须，转换成本有形化了。

而在数据闭环上，智谱不像大厂的数据分散在各处，开发者用GLM完成一个Agent任务，推理轨迹、纠错过程全部被记录，这种“真实任务数据”的价值，远高于互联网爬虫或合成数据。模型越强，用户越多，飞轮就这样转起来了。

三家公司的路径各有不同，但有一个共同的底层逻辑：“第三条路”带来的不仅仅是极致的性价比，而是在Token消耗量爆炸式增长后，仍然能维持任务质量的稳定。

龙虾场景下，一个稍复杂的编程任务平均消耗350万Token——是普通对话的数百倍。在这种级别的负载下，模型的推理稳定性、长上下文下的性能衰减控制、以及端到端的延迟管理，才是开发者选择谁的真正标准。

换句话说，便宜只是入场券，稳定才是留下来的理由。

03、DeepSeek最大的挑战

如果三强的崛起，代表了“第三条路”的胜利，那么另一个更尖锐的问题是：为什么与三强同为大模型企业出身的DeepSeek，没有率先实现这样的突破？

坦白说，DeepSeek在大模型1.0时代创造的成就，至今仍令人敬佩。

V3和R1以极低的训练成本实现了SOTA级别的性能，MLA（多头潜在注意力）和混合专家架构的组合，在当时堪称惊艳。梁文锋以极致的、勇猛的工程学思维，把每一块GPU的性价比压榨到了极致——这种“力出一孔”的能力，正是大模型1.0时代最重要的竞争力。

但1.0时代的竞争逻辑，和2.0时代有根本的不同。

到了2.0时代，问题变了。当Ilya宣告“我们所知道的预训练将要终结”之后，行业面临的不再是“怎么把模型做得更大”，而是“下一步往哪走？”

是继续Scaling别的东西，还是彻底换架构？这是一个充满不确定性的岔路口。

在这个岔路口上，DeepSeek（以下简称DS）遇到了两个结构性的困难。

第一个困难来自商业化的缺失，导致其无法持续地Scaling。

DS至今没有系统性的商业化运营，其API虽然被大量使用，但因为DS是开源的，因此大量企业把DS权重下载下来，私有化部署在自己的服务器上，这部分用户的数据完全在企业内网里，DS的母体一个字也收不到，同时还有大量开发者通过阿里云、腾讯云、百度云等第三方平台调用DS，数据留在了云厂商那里。

更关键的地方在于：DS免费或超低价的API定价，难以支撑数据工程的运转成本，这意味着DS用户越多越亏，用户翻倍，亏损也翻倍，这使其无法像三强那样，在龙虾实战中不断迭代。

第二个困难更加微妙，也是制约DS架构创新的瓶颈。

DeepSeek的团队至今不到140人，平均年龄只有28岁，成员几乎清一色来自国内顶尖高校的应届毕业生和在读博士生。这个选择并非无意为之，梁文锋曾公开表达过他的人才哲学：“经验并不意味着能力，反而可能限制创新。”

但这里有一个隐患，在2.0时代的架构创新需求下，架构层面的真正突破，往往需要的不只是聪明的年轻人，还需要见过不同范式的人之间的知识碰撞。

杨植麟在Google Brain见过Transformer如何从论文变成工业级系统；智谱创始人唐杰的团队，不仅有着扎根清华的学术背景，也带领KEG实验室深耕了近二十年，发表了超过500篇顶尖论文。

这种“多层代际、多种背景”的知识密度，才使得架构革命与创新成为了可能。

从唯物主义的角度上说，技术创新的必要条件，不是只是天才的“灵光一闪”，更需要看知识、人才的密度、多样性是否达到了一定的阈值和丰度。

说到底，DS的问题不是“技术不够强”，而是它不能再用大模型1.0的思维打2.0的仗。

很多人都喜欢把训练大模型叫做“炼丹”，这不是段子，而是一种精准的隐喻。

大模型训练的本质，就是把海量数据（原料）投入神经网络（炉子），经过漫长的参数调整（火候），最终期待涌现出一种难以预测的“智能”。你事先并不完全知道产出会是什么——调一下学习率，改一下Batch Size，模型的表现就可能陡然提升，这种高度依赖经验与直觉的摸索过程，和古人在丹炉前的反复试探如出一辙。

1.0时代更讲究“炼丹师”的个人洞见，一个天才型的创始人，带着一小群精英，在丹炉前反复实验，直到炼出惊世骇俗的成果。这在很长一段时间里是有效的。

但2.0时代需要的，更可能是“制药厂”式的体系化创新。

什么叫制药厂？它不依赖任何一个药剂师的灵感，而是靠可复制的研发流程、可量化的质量标准、和持续不断的临床反馈来稳定地产出新药。

在大模型2.0时代，持续的体系化创新能力，比任何一次单点技术突破都重要得多。谁能把“创新”从个人英雄主义变成组织级的稳定产出，谁就能在这个充满不确定性的时代里掌握主动权。

以Kimi为例，3月16日，Kimi发布Attention Residuals论文，被马斯克点赞，之后Reddit上已有开发者在复现。这背后反映的，实际上是其一种系统化、团队化的知识积累体系。

绝大多数公司，从论文到产品的路径是：核心论文→模型训练→产品发布→用户反馈→下一个核心论文。但Kimi打破了这个模式，Kimi 3月16日论文发表后，从论文idea到学术发表到产品实现到开源代码，只用了不到3天的迭代周期。

这说明，Kimi把论文看作一个可视化的思想工具，用来快速获得全球反馈的中间产品，而非要等到论文或产品完美后，再等待反馈。

论文的作者组成，还暴露了一个秘密：Guangyu Chen（陈广宇）和其他作者加起来，一共35人，其中还有一位17岁的高中生，这在大模型论文里很罕见。

通常情况下，即使是OpenAI、DeepSeek发表的论文，作者也大多只有十几到20位。

这说明Kimi的论文不是“精英研究团队的产物”，而是“整个公司在这个方向上的集体知识总结”。

三强之所以能走出ICU，不是因为它们拥有比DeepSeek更聪明的工程师，而是因为其建立了一种更快的迭代速度、更密集的知识流转、更体系化的创新机制。

大模型1.0时代属于炼丹师，那是一个凭借个人洞见和技术魄力就能改变格局的英雄时代。但2.0时代，属于制药厂，属于那些把创新变成流水线、把突破变成日常、把个人能力沉淀为组织能力的企业。

六小龙中的三强，正在做同样的事。

文｜最话FunTalk 林书

编辑｜刘宇翔

Anthropic终于忍不住“龙虾打洞”了。

这意味着企业、初创团队、开发者都无法再利用OpenClaw去近乎无限量套利Claude订阅服务，被迫转入更为昂贵的按量计费模式。

此外，Anthropic还有一点不能忍的是，OpenClaw 迟早会将Anthropic“供应商化”。

显然，这对于有着长远目标的Anthropic 来说，是没法接受的，与其坐以待毙，不如主动重拳出击。

毕竟，智谱、MiniMax的Token价格相对于Anthropic的，要便宜得多。

但Token便宜，并不是它们最大的优势。

01、三强的崛起

2026年4月1日，智谱发布上市后的第一份年报，CEO张鹏在业绩会上反复强调了两个字：Token量。

张鹏把这种罕见的“涨价放量”归结为一个公式：AGI商业价值 = 智能上界× Token消耗规模。

模型的智能上限，决定你敢不敢涨价；Token消耗规模，决定涨价之后有没有人买单。智谱两个都做到了。

可短短一年之后，剧本完全翻转。

旺盛的需求和模型能力提高，使得它们在一定程度上拥有了再定价权，今年3月智谱将API价格上调83%，但调用量依然供不应求增长400%，就说明了这点。

但同样面对龙虾的风口，六小龙中的另外几条龙，表现又怎样？

同一个风口，有人飞升，有人坠落。差距出在哪？

答案藏在一个更深层的逻辑里：龙虾的风口不是谁都能追，它考的是你的底模够不够强、工具链够不够深、开发者生态够不够厚。

而六小龙中的三强，恰恰是在龙虾来临之前，就已经在这三个维度上默默积累了足够的势能。

问题是：为什么偏偏是他们？

02、范式的转变

要回答这个问题，必须先理解一件在2024年底悄然发生、却深刻改变了整个行业走向的事——Ilya Sutskever在NeurIPS 2024上的那场演讲。

这句话在业界引发了一场深刻的路线分裂。

对此，六小龙中的三强给出了自己的答案：都不选。或者说，两个都选。

Kimi从大模型底层三大模块——优化器、注意力机制、残差连接同时突破。

Attention Residuals论文获马斯克点赞，因为其用softmax注意力实现“选择性回忆”，使48B模型达到60B效果。

MiniMax路径不同但信仰一致：创始人闫俊杰坚信Scaling Law及模态等价性，这构成其技术战略的第一性原理。

作为这一策略的错过，M2.5的230B总参数仅激活10B推理，SWE-Bench得分80.2%，价格为Claude Opus 4.6的十分之一，这源于MoE架构与推理优化带来的成本优势。

换句话说，便宜只是入场券，稳定才是留下来的理由。

03、DeepSeek最大的挑战

如果三强的崛起，代表了“第三条路”的胜利，那么另一个更尖锐的问题是：为什么与三强同为大模型企业出身的DeepSeek，没有率先实现这样的突破？

坦白说，DeepSeek在大模型1.0时代创造的成就，至今仍令人敬佩。

但1.0时代的竞争逻辑，和2.0时代有根本的不同。

到了2.0时代，问题变了。当Ilya宣告“我们所知道的预训练将要终结”之后，行业面临的不再是“怎么把模型做得更大”，而是“下一步往哪走？”

是继续Scaling别的东西，还是彻底换架构？这是一个充满不确定性的岔路口。

在这个岔路口上，DeepSeek（以下简称DS）遇到了两个结构性的困难。

第一个困难来自商业化的缺失，导致其无法持续地Scaling。

第二个困难更加微妙，也是制约DS架构创新的瓶颈。

但这里有一个隐患，在2.0时代的架构创新需求下，架构层面的真正突破，往往需要的不只是聪明的年轻人，还需要见过不同范式的人之间的知识碰撞。

这种“多层代际、多种背景”的知识密度，才使得架构革命与创新成为了可能。

从唯物主义的角度上说，技术创新的必要条件，不是只是天才的“灵光一闪”，更需要看知识、人才的密度、多样性是否达到了一定的阈值和丰度。

说到底，DS的问题不是“技术不够强”，而是它不能再用大模型1.0的思维打2.0的仗。

很多人都喜欢把训练大模型叫做“炼丹”，这不是段子，而是一种精准的隐喻。

但2.0时代需要的，更可能是“制药厂”式的体系化创新。

什么叫制药厂？它不依赖任何一个药剂师的灵感，而是靠可复制的研发流程、可量化的质量标准、和持续不断的临床反馈来稳定地产出新药。

这说明，Kimi把论文看作一个可视化的思想工具，用来快速获得全球反馈的中间产品，而非要等到论文或产品完美后，再等待反馈。

论文的作者组成，还暴露了一个秘密：Guangyu Chen（陈广宇）和其他作者加起来，一共35人，其中还有一位17岁的高中生，这在大模型论文里很罕见。

通常情况下，即使是OpenAI、DeepSeek发表的论文，作者也大多只有十几到20位。

这说明Kimi的论文不是“精英研究团队的产物”，而是“整个公司在这个方向上的集体知识总结”。

三强之所以能走出ICU，不是因为它们拥有比DeepSeek更聪明的工程师，而是因为其建立了一种更快的迭代速度、更密集的知识流转、更体系化的创新机制。

六小龙中的三强，正在做同样的事。

历史搜索全部删除

热门搜索

走出ICU的“AI三小龙”，究竟做对了什么？

01、三强的崛起

02、范式的转变

03、DeepSeek最大的挑战

评论

走出ICU的“AI三小龙”，究竟做对了什么？

01、三强的崛起

02、范式的转变

03、DeepSeek最大的挑战