被市场低估的，不止Google ？|界面新闻

文｜陆玖商业评论

Google I/O 大会的热度今年明显更胜以往，或许不只是因为Gemini Omni的亮相，更是业界希望Gemini需要从模型能力转化为搜索、广告、购物和云业务的收入增长。

在Google I/O大会之前，Google甩出了一个新鲜热乎的大招：Gemini Omni。

具体来说，Omni这次带来了两个“王炸”。

第一个王炸：一句话生成一段完整的教学视频，如果你把Omni当成 Veo 系列的简单延续，那就错了。

Google展示了一个例子——用户只输入了一条指令：

“一位教授在传统黑板上写出三角恒等式的数学证明，同时用语言解释他当前正在推导的步骤。”

没有多轮对话，不用分步骤指挥，一次性搞定了三件事：

空间关系：手该怎么拿粉笔、写在哪里；

文字内容：公式写对了没有；

推理逻辑：推导到了哪一步、该说什么话。

它不只是“画”一个人，而是真正“理解”了这个人正在做什么。

第二个王炸：一个对话框，搞定所有事。

写文章、生成图片、剪辑视频、记住上下文、执行复杂任务……以前你要换来换去打开四五个不同的工具，现在全部在同一个对话框里就能完成。Omni把Google之前分散的能力，如文本、图像、视频、音频统统收拢到一个系统里，变成一个“什么都能做的生产力入口”。

背后是一个很清晰的判断：未来的AI Agent要完成真实世界里的任务，就必须能看、能听、能说、能画、能剪。只会写字、写代码、分析数据的Agent，注定是残缺的。

01 Coding不是增长的全部

说到AI Agent的铺开，一位国内头部大厂的部门技术负责人，向陆玖商业评论反映了一个新苦恼。

推行AI Coding后，一位头部大厂技术负责人发现：交付快了，需求却更随意了，大量模糊、试错性质的需求涌入系统。

Uber也有类似的情况：2026年全年的AI工具预算，前四个月就耗尽，Uber的CFO对此也很苦恼。

并非AI Coding本身不好，而是AI的价值早已溢出“写代码”，渗透到需求分析、测试、运维、预算管理等全流程。正因如此，原本为编码准备的预算，才会被迅速消耗。

如果只盯着编码环节的降本增效，忽略需求质量前置和预算治理，就会陷入“快得停不下来”的窘境。所以Anthropic的AI Coding叙事虽火，但To E（企业内部生产力）的天花板已经显现，市场也已price in。

我们需要重新审视：AI的故事远不止coding。

还有OpenAI，它最近的重心则是着急上市，把三大产品线彻底打碎重组，内部的大动荡，让OpenAI无法在短期内将“全模态实时交互”与“慢思考思维链”融合到一个统一架构中，两条路线最终只能各自为战、分道扬镳。

于是我们不得不问一个更根本的问题：我们当下讨论的AI Agent，到底缺什么？缺的是一个能同时处理“看、听、说、写、画”的统一系统。

例如，你现在想做一个带字幕和背景音乐的短视频，可能得先用文本模型写脚本，切到图像模型生成封面，再打开视频工具剪辑，最后找个音乐模型配BGM。四五个工具来回倒腾，中间但凡有一个环节不对，就得从头改。

所以，不管是ToB（面向企业）、ToC（面向消费者）、ToG（面向政府），还是ToE（面向企业内部员工），大家底层需要都是一套理解与生成文本、图像、视频、音频、音乐的模型系统。因为真实物理世界从来不和你分模态，一个任务往往天然地混合了多种信息形态，只有全模态的Agent，才能真正跨越场景、适配角色、解决问题。

谷歌此前的架构是分开的：Veo做视频，Gemini做文本，Imagen做图片，各管一摊。Omni的发布标志着它正式转向统一多模态架构，在一个系统里完成所有生成和理解。这个转向本身，就是对“全模态到底重不重要”这个问题最直接的回答。

而在国内独立AI公司里，同时具备文本和多模态能力，且在各个模态都能做到领先的pure-play公司，也有一家：Minimax。

02 Pure Play 模型公司的魅力在哪里？

当然，全模态和技术路线说得再热闹，终究是纸上谈兵，最后绕不开一个问题：不赚钱的AI，都是“耍流氓”。

市场一直在等一个信号：到底什么时候能看到真金白银？

陆玖商业评论注意到，阿里财报里的一个数字很有价值：它的MaaS业务ARR已经超过80亿元人民币，预计6月到100亿，2026年底到300亿，半年间涨了3.75倍。

AI的回报时间真的到了，不是“快要到了”。

但这里藏着一个反差。阿里能做到这个增速，靠的是它现成的家底：销售网络、客户关系、云基础设施。而AI原生公司（pure-play）没有这些存量优势，每一块钱收入都得靠模型本身的吸引力硬生生赢过来。

反过来想，如果阿里靠存量客户升级都能做到半年3.75倍增长，那一个纯粹靠模型差异化获客的公司，在同样的市场环境下，增速弹性会有多大？

要回答这个问题，得先回到需求本身，Token消费在实打实地增加。以Minimax为例，旗下M2系列的Token用量，2026年2月比2025年12月增长了6倍，而且每分钟Token处理量（TPM）保持着每周10%到20%的环比增速。

摩根士丹利的研报显示，Minimax的ARR在2026年2月已经超过1.5亿美元，2026年底有望达到10亿美元，与国际竞争对手处在同一量级。

再看具体的经济账。摩根士丹利在研报里点明了一个关键差异：Minimax在单台8xH800推理服务器上，可实现每分钟约1美元营收，而相对应只有不到0.3美元的运行成本，营收规模是行业平均水平的2倍，单位经济效益大幅领先行业。

这种“做得更便宜，反而赚得更健康”的商业模式，反过来也呼应了一个更本质的逻辑，不是烧钱做增长，而是靠效率赢市场。

当前，Minimax的毛利率已经从2024年的12.2%提升到2025年的25.4%，而营销费用同比下降了40.3%。这意味着用户和收入的增长，不再依赖广告投放驱动，而是工具使用带来的真实价值在自发性地裂变。

陆玖商业评论发现，就在昨天，被称为“龙虾之父”的Peter Steinberger，晒出了自己一个月的API Token账单：高达130万美元。30天总Token消耗量6030亿，请求量760万。有人直言：“虾爹一个月烧130万美元太贵了，一般人和机构哪烧得起？”

不少人觉得“虾爹”成本太贵

所以，摩根士丹利还提到，它们对Minimax的ARR和毛利率（GPM）比同类上市公司更乐观，理由很简单：它在基础设施上的优势，最终会转化为更领先的用户体验，以及超出预期的Token消费。

摩根大通也提到，Minimax在ToB和ToC两大市场“双管齐下”，再加上它从创立初期就布局的全球化策略，为公司带来了同行里难得见到的经济灵活性。因为大多数AI创业公司要么只做C端应用（用户量涨得快但付费意愿低），要么只做B端API（收入稳定但获客慢）。Minimax同时跑通了两条路，意味着它的增长天花板比同行高出一大截。

讲完基本面，最后看催化剂。谷歌Omni的发布，让“全模态”这个方向被市场重新定价，而Minimax是国内最直接的映射公司。另外，Minimax自己马上要发的M3系列，预计会大幅提升多模态理解能力；H3也有望和Seedance一起，进入国产模型的第一梯队。

当一个市场从“谁有大流量”变成“谁有更好的模型”时，Pure Play的弹性才刚刚开始释放。这种“行业β催化 + 公司α催化”一起出现的窗口，其实不常见。

03 为什么市场要给“全模态”重新定价？

过去一年，谷歌母公司Alphabet的股价大幅飙升了140%。Plexo Capital创始管理合伙人Lo Toney曾分析，“谷歌可能是目前最具备AI大规模商业变现潜力的公司，因为它几乎扼守了技术栈的每一个核心生态位。”

Omni的发布，会让“全模态”这件事再次重新定价。

而如果投资者想找到下一个谷歌，同样押注全模态、同样做统一架构、但没有庞大云业务和广告大盘来分摊成本的pure-play公司，环顾全球，可能也只有Minimax了。

很多人不知道，Minimax从一开始做的就是文本与多模态并行发展，而不是先做文本模型，再在外面“拼接”其他模态。这个思路，和谷歌Omni如出一辙。

这意味着，它的LLM预训练、视觉模型、视频生成等环节，大部分底层能力是共用的。一份研发投入砸下去，文本能力和多模态能力一起涨。这种效率优势，在每一代模型迭代中只会越拉越大，这也是为什么很多人对即将发布的下一代视频模型抱有期待，它可能开启国内原生多模态的新空间。

瑞银还认为，市场可能忽视了一个关键点：Minimax不只是模型强，“工程层（harness）”的能力才是它真正的护城河。模型是引擎，工程层是方向盘和刹车，光有引擎跑不快，还要有人会开车。

瑞银指出，Minimax正在用“模型+工程层”两条腿走路，同时推动两个方向：创意场景（比如做视频、画画）和办公场景（比如写文档、处理任务）。

视频这边，瑞银预计Hailuo 3会在视频理解能力上甩开同行，同时通过更聪明的工程层设计，把使用门槛降下来，不只专业人士能用，普通小白也能轻松上手。文本这边，下一代M3模型会重点提升AI Agent自己规划、执行多步骤任务的能力，再配合工程层创新（如之前推出的MaxHermes），把AI的应用范围从写代码扩展到自动处理文档、安排日程、跨工具协作等办公场景。

中信建投在这个观点上加了一层buff：多模态训练产生的视觉理解能力，可以反哺文本模型，提升模型智能上限。

当然，这些都还只是过程。真正的机会在于：全模态会一步步走进日常生活场景，变成随时可以调用的基础智能资源。

想象一下，未来的AI Agent可以同时看懂你的设计草图、听懂语音指令、生成带字幕的演示视频、再配上背景音乐，全部在一个系统里完成，不用切换四五个工具。这个爆发量级，和现在单纯比代码生成能力、机器人聊天能力等，完全不是一个维度。

04 写在最后

如果说ChatGPT的出现是语言智能的启蒙时刻，Sora的出现是视觉智能的觉醒时刻，那么Gemini Omni指向的，则是全模态智能的寒武纪大爆发时刻——各种能力不再各自为战，而是交织、融合、涌现，真正开始逼近真实世界的复杂度。

Google I/O 大会的热度今年明显更胜以往，或许不只是因为Gemini Omni的亮相，更是业界希望Gemini需要从模型能力转化为搜索、广告、购物和云业务的收入增长。这或许预示着，全模态的增长故事，已经走到了兑现的前夜？

文｜陆玖商业评论

在Google I/O大会之前，Google甩出了一个新鲜热乎的大招：Gemini Omni。

具体来说，Omni这次带来了两个“王炸”。

第一个王炸：一句话生成一段完整的教学视频，如果你把Omni当成 Veo 系列的简单延续，那就错了。

Google展示了一个例子——用户只输入了一条指令：

“一位教授在传统黑板上写出三角恒等式的数学证明，同时用语言解释他当前正在推导的步骤。”

没有多轮对话，不用分步骤指挥，一次性搞定了三件事：

空间关系：手该怎么拿粉笔、写在哪里；

文字内容：公式写对了没有；

推理逻辑：推导到了哪一步、该说什么话。

它不只是“画”一个人，而是真正“理解”了这个人正在做什么。

第二个王炸：一个对话框，搞定所有事。

01 Coding不是增长的全部

说到AI Agent的铺开，一位国内头部大厂的部门技术负责人，向陆玖商业评论反映了一个新苦恼。

推行AI Coding后，一位头部大厂技术负责人发现：交付快了，需求却更随意了，大量模糊、试错性质的需求涌入系统。

Uber也有类似的情况：2026年全年的AI工具预算，前四个月就耗尽，Uber的CFO对此也很苦恼。

我们需要重新审视：AI的故事远不止coding。

于是我们不得不问一个更根本的问题：我们当下讨论的AI Agent，到底缺什么？缺的是一个能同时处理“看、听、说、写、画”的统一系统。

而在国内独立AI公司里，同时具备文本和多模态能力，且在各个模态都能做到领先的pure-play公司，也有一家：Minimax。

02 Pure Play 模型公司的魅力在哪里？

当然，全模态和技术路线说得再热闹，终究是纸上谈兵，最后绕不开一个问题：不赚钱的AI，都是“耍流氓”。

市场一直在等一个信号：到底什么时候能看到真金白银？

陆玖商业评论注意到，阿里财报里的一个数字很有价值：它的MaaS业务ARR已经超过80亿元人民币，预计6月到100亿，2026年底到300亿，半年间涨了3.75倍。

AI的回报时间真的到了，不是“快要到了”。

反过来想，如果阿里靠存量客户升级都能做到半年3.75倍增长，那一个纯粹靠模型差异化获客的公司，在同样的市场环境下，增速弹性会有多大？

摩根士丹利的研报显示，Minimax的ARR在2026年2月已经超过1.5亿美元，2026年底有望达到10亿美元，与国际竞争对手处在同一量级。

这种“做得更便宜，反而赚得更健康”的商业模式，反过来也呼应了一个更本质的逻辑，不是烧钱做增长，而是靠效率赢市场。

不少人觉得“虾爹”成本太贵

03 为什么市场要给“全模态”重新定价？

Omni的发布，会让“全模态”这件事再次重新定价。

很多人不知道，Minimax从一开始做的就是文本与多模态并行发展，而不是先做文本模型，再在外面“拼接”其他模态。这个思路，和谷歌Omni如出一辙。

瑞银指出，Minimax正在用“模型+工程层”两条腿走路，同时推动两个方向：创意场景（比如做视频、画画）和办公场景（比如写文档、处理任务）。

中信建投在这个观点上加了一层buff：多模态训练产生的视觉理解能力，可以反哺文本模型，提升模型智能上限。

当然，这些都还只是过程。真正的机会在于：全模态会一步步走进日常生活场景，变成随时可以调用的基础智能资源。

历史搜索全部删除

热门搜索

被市场低估的，不止Google ？

01 Coding不是增长的全部

02 Pure Play 模型公司的魅力在哪里？

03 为什么市场要给“全模态”重新定价？

04 写在最后

Alphabet

评论

被市场低估的，不止Google ？

01 Coding不是增长的全部

02 Pure Play 模型公司的魅力在哪里？

03 为什么市场要给“全模态”重新定价？

04 写在最后