正在阅读:

被市场低估的,不止Google ?

扫一扫下载界面新闻APP

被市场低估的,不止Google ?

全模态的增长故事,已经走到了兑现的前夜?

文|陆玖商业评论

Google I/O 大会的热度今年明显更胜以往,或许不只是因为Gemini Omni的亮相,更是业界希望Gemini需要从模型能力转化为搜索、广告、购物和云业务的收入增长。

在Google I/O大会之前,Google甩出了一个新鲜热乎的大招:Gemini Omni。 

具体来说,Omni这次带来了两个“王炸”。 

第一个王炸:一句话生成一段完整的教学视频,如果你把Omni当成 Veo 系列的简单延续,那就错了。 

Google展示了一个例子——用户只输入了一条指令: 

“一位教授在传统黑板上写出三角恒等式的数学证明,同时用语言解释他当前正在推导的步骤。” 

没有多轮对话,不用分步骤指挥,一次性搞定了三件事: 

空间关系:手该怎么拿粉笔、写在哪里; 

文字内容:公式写对了没有; 

推理逻辑:推导到了哪一步、该说什么话。 

它不只是“画”一个人,而是真正“理解”了这个人正在做什么。 

第二个王炸:一个对话框,搞定所有事。 

写文章、生成图片、剪辑视频、记住上下文、执行复杂任务……以前你要换来换去打开四五个不同的工具,现在全部在同一个对话框里就能完成。Omni把Google之前分散的能力,如文本、图像、视频、音频统统收拢到一个系统里,变成一个“什么都能做的生产力入口”。 

背后是一个很清晰的判断:未来的AI Agent要完成真实世界里的任务,就必须能看、能听、能说、能画、能剪。只会写字、写代码、分析数据的Agent,注定是残缺的。 

01 Coding不是增长的全部 

说到AI Agent的铺开,一位国内头部大厂的部门技术负责人,向陆玖商业评论反映了一个新苦恼。 

推行AI Coding后,一位头部大厂技术负责人发现:交付快了,需求却更随意了,大量模糊、试错性质的需求涌入系统。 

Uber也有类似的情况:2026年全年的AI工具预算,前四个月就耗尽,Uber的CFO对此也很苦恼。 

并非AI Coding本身不好,而是AI的价值早已溢出“写代码”,渗透到需求分析、测试、运维、预算管理等全流程。正因如此,原本为编码准备的预算,才会被迅速消耗。 

如果只盯着编码环节的降本增效,忽略需求质量前置和预算治理,就会陷入“快得停不下来”的窘境。所以Anthropic的AI Coding叙事虽火,但To E(企业内部生产力)的天花板已经显现,市场也已price in。 

我们需要重新审视:AI的故事远不止coding。 

还有OpenAI,它最近的重心则是着急上市,把三大产品线彻底打碎重组,内部的大动荡,让OpenAI无法在短期内将“全模态实时交互”与“慢思考思维链”融合到一个统一架构中,两条路线最终只能各自为战、分道扬镳。 

于是我们不得不问一个更根本的问题:我们当下讨论的AI Agent,到底缺什么?缺的是一个能同时处理“看、听、说、写、画”的统一系统。 

例如,你现在想做一个带字幕和背景音乐的短视频,可能得先用文本模型写脚本,切到图像模型生成封面,再打开视频工具剪辑,最后找个音乐模型配BGM。四五个工具来回倒腾,中间但凡有一个环节不对,就得从头改。 

所以,不管是ToB(面向企业)、ToC(面向消费者)、ToG(面向政府),还是ToE(面向企业内部员工),大家底层需要都是一套理解与生成文本、图像、视频、音频、音乐的模型系统。因为真实物理世界从来不和你分模态,一个任务往往天然地混合了多种信息形态,只有全模态的Agent,才能真正跨越场景、适配角色、解决问题。 

谷歌此前的架构是分开的:Veo做视频,Gemini做文本,Imagen做图片,各管一摊。Omni的发布标志着它正式转向统一多模态架构,在一个系统里完成所有生成和理解。这个转向本身,就是对“全模态到底重不重要”这个问题最直接的回答。 

而在国内独立AI公司里,同时具备文本和多模态能力,且在各个模态都能做到领先的pure-play公司,也有一家:Minimax。 

02 Pure Play 模型公司的魅力在哪里? 

当然,全模态和技术路线说得再热闹,终究是纸上谈兵,最后绕不开一个问题:不赚钱的AI,都是“耍流氓”。 

市场一直在等一个信号:到底什么时候能看到真金白银? 

陆玖商业评论注意到,阿里财报里的一个数字很有价值:它的MaaS业务ARR已经超过80亿元人民币,预计6月到100亿,2026年底到300亿,半年间涨了3.75倍。 

AI的回报时间真的到了,不是“快要到了”。 

但这里藏着一个反差。阿里能做到这个增速,靠的是它现成的家底:销售网络、客户关系、云基础设施。而AI原生公司(pure-play)没有这些存量优势,每一块钱收入都得靠模型本身的吸引力硬生生赢过来。 

反过来想,如果阿里靠存量客户升级都能做到半年3.75倍增长,那一个纯粹靠模型差异化获客的公司,在同样的市场环境下,增速弹性会有多大? 

要回答这个问题,得先回到需求本身,Token消费在实打实地增加。以Minimax为例,旗下M2系列的Token用量,2026年2月比2025年12月增长了6倍,而且每分钟Token处理量(TPM)保持着每周10%到20%的环比增速。 

摩根士丹利的研报显示,Minimax的ARR在2026年2月已经超过1.5亿美元,2026年底有望达到10亿美元,与国际竞争对手处在同一量级。 

再看具体的经济账。摩根士丹利在研报里点明了一个关键差异:Minimax在单台8xH800推理服务器上,可实现每分钟约1美元营收,而相对应只有不到0.3美元的运行成本,营收规模是行业平均水平的2倍,单位经济效益大幅领先行业。 

这种“做得更便宜,反而赚得更健康”的商业模式,反过来也呼应了一个更本质的逻辑,不是烧钱做增长,而是靠效率赢市场。 

当前,Minimax的毛利率已经从2024年的12.2%提升到2025年的25.4%,而营销费用同比下降了40.3%。这意味着用户和收入的增长,不再依赖广告投放驱动,而是工具使用带来的真实价值在自发性地裂变。 

陆玖商业评论发现,就在昨天,被称为“龙虾之父”的Peter Steinberger,晒出了自己一个月的API Token账单:高达130万美元。30天总Token消耗量6030亿,请求量760万。有人直言:“虾爹一个月烧130万美元太贵了,一般人和机构哪烧得起?” 

不少人觉得“虾爹”成本太贵 

所以,摩根士丹利还提到,它们对Minimax的ARR和毛利率(GPM)比同类上市公司更乐观,理由很简单:它在基础设施上的优势,最终会转化为更领先的用户体验,以及超出预期的Token消费。 

摩根大通也提到,Minimax在ToB和ToC两大市场“双管齐下”,再加上它从创立初期就布局的全球化策略,为公司带来了同行里难得见到的经济灵活性。因为大多数AI创业公司要么只做C端应用(用户量涨得快但付费意愿低),要么只做B端API(收入稳定但获客慢)。Minimax同时跑通了两条路,意味着它的增长天花板比同行高出一大截。 

讲完基本面,最后看催化剂。谷歌Omni的发布,让“全模态”这个方向被市场重新定价,而Minimax是国内最直接的映射公司。另外,Minimax自己马上要发的M3系列,预计会大幅提升多模态理解能力;H3也有望和Seedance一起,进入国产模型的第一梯队。 

当一个市场从“谁有大流量”变成“谁有更好的模型”时,Pure Play的弹性才刚刚开始释放。这种“行业β催化 + 公司α催化”一起出现的窗口,其实不常见。 

03 为什么市场要给“全模态”重新定价? 

过去一年,谷歌母公司Alphabet的股价大幅飙升了140%。Plexo Capital创始管理合伙人Lo Toney曾分析,“谷歌可能是目前最具备AI大规模商业变现潜力的公司,因为它几乎扼守了技术栈的每一个核心生态位。” 

Omni的发布,会让“全模态”这件事再次重新定价。 

而如果投资者想找到下一个谷歌,同样押注全模态、同样做统一架构、但没有庞大云业务和广告大盘来分摊成本的pure-play公司,环顾全球,可能也只有Minimax了。 

很多人不知道,Minimax从一开始做的就是文本与多模态并行发展,而不是先做文本模型,再在外面“拼接”其他模态。这个思路,和谷歌Omni如出一辙。 

这意味着,它的LLM预训练、视觉模型、视频生成等环节,大部分底层能力是共用的。一份研发投入砸下去,文本能力和多模态能力一起涨。这种效率优势,在每一代模型迭代中只会越拉越大,这也是为什么很多人对即将发布的下一代视频模型抱有期待,它可能开启国内原生多模态的新空间。 

瑞银还认为,市场可能忽视了一个关键点:Minimax不只是模型强,“工程层(harness)”的能力才是它真正的护城河。模型是引擎,工程层是方向盘和刹车,光有引擎跑不快,还要有人会开车。 

瑞银指出,Minimax正在用“模型+工程层”两条腿走路,同时推动两个方向:创意场景(比如做视频、画画)和办公场景(比如写文档、处理任务)。 

视频这边,瑞银预计Hailuo 3会在视频理解能力上甩开同行,同时通过更聪明的工程层设计,把使用门槛降下来,不只专业人士能用,普通小白也能轻松上手。文本这边,下一代M3模型会重点提升AI Agent自己规划、执行多步骤任务的能力,再配合工程层创新(如之前推出的MaxHermes),把AI的应用范围从写代码扩展到自动处理文档、安排日程、跨工具协作等办公场景。 

中信建投在这个观点上加了一层buff:多模态训练产生的视觉理解能力,可以反哺文本模型,提升模型智能上限。 

当然,这些都还只是过程。真正的机会在于:全模态会一步步走进日常生活场景,变成随时可以调用的基础智能资源。 

想象一下,未来的AI Agent可以同时看懂你的设计草图、听懂语音指令、生成带字幕的演示视频、再配上背景音乐,全部在一个系统里完成,不用切换四五个工具。这个爆发量级,和现在单纯比代码生成能力、机器人聊天能力等,完全不是一个维度。 

04 写在最后 

如果说ChatGPT的出现是语言智能的启蒙时刻,Sora的出现是视觉智能的觉醒时刻,那么Gemini Omni指向的,则是全模态智能的寒武纪大爆发时刻——各种能力不再各自为战,而是交织、融合、涌现,真正开始逼近真实世界的复杂度。 

Google I/O 大会的热度今年明显更胜以往,或许不只是因为Gemini Omni的亮相,更是业界希望Gemini需要从模型能力转化为搜索、广告、购物和云业务的收入增长。这或许预示着,全模态的增长故事,已经走到了兑现的前夜? 

本文为转载内容,授权事宜请联系原著作权人。

Alphabet

2.5k
  • Alphabet发售36亿美元日元债
  • Waymo将在美召回3791辆汽车

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

被市场低估的,不止Google ?

全模态的增长故事,已经走到了兑现的前夜?

文|陆玖商业评论

Google I/O 大会的热度今年明显更胜以往,或许不只是因为Gemini Omni的亮相,更是业界希望Gemini需要从模型能力转化为搜索、广告、购物和云业务的收入增长。

在Google I/O大会之前,Google甩出了一个新鲜热乎的大招:Gemini Omni。 

具体来说,Omni这次带来了两个“王炸”。 

第一个王炸:一句话生成一段完整的教学视频,如果你把Omni当成 Veo 系列的简单延续,那就错了。 

Google展示了一个例子——用户只输入了一条指令: 

“一位教授在传统黑板上写出三角恒等式的数学证明,同时用语言解释他当前正在推导的步骤。” 

没有多轮对话,不用分步骤指挥,一次性搞定了三件事: 

空间关系:手该怎么拿粉笔、写在哪里; 

文字内容:公式写对了没有; 

推理逻辑:推导到了哪一步、该说什么话。 

它不只是“画”一个人,而是真正“理解”了这个人正在做什么。 

第二个王炸:一个对话框,搞定所有事。 

写文章、生成图片、剪辑视频、记住上下文、执行复杂任务……以前你要换来换去打开四五个不同的工具,现在全部在同一个对话框里就能完成。Omni把Google之前分散的能力,如文本、图像、视频、音频统统收拢到一个系统里,变成一个“什么都能做的生产力入口”。 

背后是一个很清晰的判断:未来的AI Agent要完成真实世界里的任务,就必须能看、能听、能说、能画、能剪。只会写字、写代码、分析数据的Agent,注定是残缺的。 

01 Coding不是增长的全部 

说到AI Agent的铺开,一位国内头部大厂的部门技术负责人,向陆玖商业评论反映了一个新苦恼。 

推行AI Coding后,一位头部大厂技术负责人发现:交付快了,需求却更随意了,大量模糊、试错性质的需求涌入系统。 

Uber也有类似的情况:2026年全年的AI工具预算,前四个月就耗尽,Uber的CFO对此也很苦恼。 

并非AI Coding本身不好,而是AI的价值早已溢出“写代码”,渗透到需求分析、测试、运维、预算管理等全流程。正因如此,原本为编码准备的预算,才会被迅速消耗。 

如果只盯着编码环节的降本增效,忽略需求质量前置和预算治理,就会陷入“快得停不下来”的窘境。所以Anthropic的AI Coding叙事虽火,但To E(企业内部生产力)的天花板已经显现,市场也已price in。 

我们需要重新审视:AI的故事远不止coding。 

还有OpenAI,它最近的重心则是着急上市,把三大产品线彻底打碎重组,内部的大动荡,让OpenAI无法在短期内将“全模态实时交互”与“慢思考思维链”融合到一个统一架构中,两条路线最终只能各自为战、分道扬镳。 

于是我们不得不问一个更根本的问题:我们当下讨论的AI Agent,到底缺什么?缺的是一个能同时处理“看、听、说、写、画”的统一系统。 

例如,你现在想做一个带字幕和背景音乐的短视频,可能得先用文本模型写脚本,切到图像模型生成封面,再打开视频工具剪辑,最后找个音乐模型配BGM。四五个工具来回倒腾,中间但凡有一个环节不对,就得从头改。 

所以,不管是ToB(面向企业)、ToC(面向消费者)、ToG(面向政府),还是ToE(面向企业内部员工),大家底层需要都是一套理解与生成文本、图像、视频、音频、音乐的模型系统。因为真实物理世界从来不和你分模态,一个任务往往天然地混合了多种信息形态,只有全模态的Agent,才能真正跨越场景、适配角色、解决问题。 

谷歌此前的架构是分开的:Veo做视频,Gemini做文本,Imagen做图片,各管一摊。Omni的发布标志着它正式转向统一多模态架构,在一个系统里完成所有生成和理解。这个转向本身,就是对“全模态到底重不重要”这个问题最直接的回答。 

而在国内独立AI公司里,同时具备文本和多模态能力,且在各个模态都能做到领先的pure-play公司,也有一家:Minimax。 

02 Pure Play 模型公司的魅力在哪里? 

当然,全模态和技术路线说得再热闹,终究是纸上谈兵,最后绕不开一个问题:不赚钱的AI,都是“耍流氓”。 

市场一直在等一个信号:到底什么时候能看到真金白银? 

陆玖商业评论注意到,阿里财报里的一个数字很有价值:它的MaaS业务ARR已经超过80亿元人民币,预计6月到100亿,2026年底到300亿,半年间涨了3.75倍。 

AI的回报时间真的到了,不是“快要到了”。 

但这里藏着一个反差。阿里能做到这个增速,靠的是它现成的家底:销售网络、客户关系、云基础设施。而AI原生公司(pure-play)没有这些存量优势,每一块钱收入都得靠模型本身的吸引力硬生生赢过来。 

反过来想,如果阿里靠存量客户升级都能做到半年3.75倍增长,那一个纯粹靠模型差异化获客的公司,在同样的市场环境下,增速弹性会有多大? 

要回答这个问题,得先回到需求本身,Token消费在实打实地增加。以Minimax为例,旗下M2系列的Token用量,2026年2月比2025年12月增长了6倍,而且每分钟Token处理量(TPM)保持着每周10%到20%的环比增速。 

摩根士丹利的研报显示,Minimax的ARR在2026年2月已经超过1.5亿美元,2026年底有望达到10亿美元,与国际竞争对手处在同一量级。 

再看具体的经济账。摩根士丹利在研报里点明了一个关键差异:Minimax在单台8xH800推理服务器上,可实现每分钟约1美元营收,而相对应只有不到0.3美元的运行成本,营收规模是行业平均水平的2倍,单位经济效益大幅领先行业。 

这种“做得更便宜,反而赚得更健康”的商业模式,反过来也呼应了一个更本质的逻辑,不是烧钱做增长,而是靠效率赢市场。 

当前,Minimax的毛利率已经从2024年的12.2%提升到2025年的25.4%,而营销费用同比下降了40.3%。这意味着用户和收入的增长,不再依赖广告投放驱动,而是工具使用带来的真实价值在自发性地裂变。 

陆玖商业评论发现,就在昨天,被称为“龙虾之父”的Peter Steinberger,晒出了自己一个月的API Token账单:高达130万美元。30天总Token消耗量6030亿,请求量760万。有人直言:“虾爹一个月烧130万美元太贵了,一般人和机构哪烧得起?” 

不少人觉得“虾爹”成本太贵 

所以,摩根士丹利还提到,它们对Minimax的ARR和毛利率(GPM)比同类上市公司更乐观,理由很简单:它在基础设施上的优势,最终会转化为更领先的用户体验,以及超出预期的Token消费。 

摩根大通也提到,Minimax在ToB和ToC两大市场“双管齐下”,再加上它从创立初期就布局的全球化策略,为公司带来了同行里难得见到的经济灵活性。因为大多数AI创业公司要么只做C端应用(用户量涨得快但付费意愿低),要么只做B端API(收入稳定但获客慢)。Minimax同时跑通了两条路,意味着它的增长天花板比同行高出一大截。 

讲完基本面,最后看催化剂。谷歌Omni的发布,让“全模态”这个方向被市场重新定价,而Minimax是国内最直接的映射公司。另外,Minimax自己马上要发的M3系列,预计会大幅提升多模态理解能力;H3也有望和Seedance一起,进入国产模型的第一梯队。 

当一个市场从“谁有大流量”变成“谁有更好的模型”时,Pure Play的弹性才刚刚开始释放。这种“行业β催化 + 公司α催化”一起出现的窗口,其实不常见。 

03 为什么市场要给“全模态”重新定价? 

过去一年,谷歌母公司Alphabet的股价大幅飙升了140%。Plexo Capital创始管理合伙人Lo Toney曾分析,“谷歌可能是目前最具备AI大规模商业变现潜力的公司,因为它几乎扼守了技术栈的每一个核心生态位。” 

Omni的发布,会让“全模态”这件事再次重新定价。 

而如果投资者想找到下一个谷歌,同样押注全模态、同样做统一架构、但没有庞大云业务和广告大盘来分摊成本的pure-play公司,环顾全球,可能也只有Minimax了。 

很多人不知道,Minimax从一开始做的就是文本与多模态并行发展,而不是先做文本模型,再在外面“拼接”其他模态。这个思路,和谷歌Omni如出一辙。 

这意味着,它的LLM预训练、视觉模型、视频生成等环节,大部分底层能力是共用的。一份研发投入砸下去,文本能力和多模态能力一起涨。这种效率优势,在每一代模型迭代中只会越拉越大,这也是为什么很多人对即将发布的下一代视频模型抱有期待,它可能开启国内原生多模态的新空间。 

瑞银还认为,市场可能忽视了一个关键点:Minimax不只是模型强,“工程层(harness)”的能力才是它真正的护城河。模型是引擎,工程层是方向盘和刹车,光有引擎跑不快,还要有人会开车。 

瑞银指出,Minimax正在用“模型+工程层”两条腿走路,同时推动两个方向:创意场景(比如做视频、画画)和办公场景(比如写文档、处理任务)。 

视频这边,瑞银预计Hailuo 3会在视频理解能力上甩开同行,同时通过更聪明的工程层设计,把使用门槛降下来,不只专业人士能用,普通小白也能轻松上手。文本这边,下一代M3模型会重点提升AI Agent自己规划、执行多步骤任务的能力,再配合工程层创新(如之前推出的MaxHermes),把AI的应用范围从写代码扩展到自动处理文档、安排日程、跨工具协作等办公场景。 

中信建投在这个观点上加了一层buff:多模态训练产生的视觉理解能力,可以反哺文本模型,提升模型智能上限。 

当然,这些都还只是过程。真正的机会在于:全模态会一步步走进日常生活场景,变成随时可以调用的基础智能资源。 

想象一下,未来的AI Agent可以同时看懂你的设计草图、听懂语音指令、生成带字幕的演示视频、再配上背景音乐,全部在一个系统里完成,不用切换四五个工具。这个爆发量级,和现在单纯比代码生成能力、机器人聊天能力等,完全不是一个维度。 

04 写在最后 

如果说ChatGPT的出现是语言智能的启蒙时刻,Sora的出现是视觉智能的觉醒时刻,那么Gemini Omni指向的,则是全模态智能的寒武纪大爆发时刻——各种能力不再各自为战,而是交织、融合、涌现,真正开始逼近真实世界的复杂度。 

Google I/O 大会的热度今年明显更胜以往,或许不只是因为Gemini Omni的亮相,更是业界希望Gemini需要从模型能力转化为搜索、广告、购物和云业务的收入增长。这或许预示着,全模态的增长故事,已经走到了兑现的前夜? 

本文为转载内容,授权事宜请联系原著作权人。