算力供需新变局:高利用率背后的“缺卡”困局与破局之路

近期算力产业链成为资本市场关注热点,但记者调研发现,热闹之下隐藏着供需矛盾:一边是部分企业“一卡难求”,一边是部分已建成智算中心利用率低于40%;一边是各地加码算力投资,一边是大量资源因架构不匹配而被“闲置”。

这种供需失衡的背后,既有区域布局与真实需求脱节,也反映出通用算力阶段性过剩与智能算力持续短缺的深层矛盾,如何破解资源错配困局,已成为整个算力产业必须直面的核心议题。

2026年政府工作报告首次将“智能经济”写入顶层设计,“十五五”规划也明确了算力资源规模化、集约化、绿色化、普惠化的方向。在政策布局与产业突围的双重驱动下,算力供需的结构性重塑正在加速展开。

“需要大量的合作方和算力卡”

“2025年,公司算力服务实现营业收入10.2亿元,智算云占比约62%,较前一年的占比(44%)大幅提高了18个百分点,我们的算力利用率在90%到95%之间。”并行科技COO乔楠对财联社记者表示。

据他解释,公司通过跨区域智能调度系统,能将用户任务精准匹配到负载较低的工程资源上,实现了类似“算力银行”的按需取用。

但高利用率背后,是市场需求的持续攀升和“严重缺卡”的现实。

“我们下一步的规划是继续推行‘算网’和‘算海’模式,寻找更多合作伙伴加入,丰富算力资源。”乔楠坦言,尽管通过调度优化提升了现有资源的效率,但面对汹涌的需求,公司仍在积极对接资源、寻找算力。

此外,并行科技近期公告,拟向紫光软件采购交换机等网络设备不超过1.02亿元,拟向北京有为信通采购GPU算力服务器不超过4624万元。

此次采购公告中网络设备占比大幅超过GPU,背后的逻辑是:当训练规模从千卡向万卡跃升,通信开销成为决定集群效率的硬约束。

国家数据局明确,将聚焦“东数西算”工程、一体化算力网监测调度、算电协同、边缘算力建设四大方向,为人工智能高速发展筑牢底座。

“我们要实现任务内的跨集群调度,延迟必须在毫秒级别。”乔楠表示,并行科技采取分层调度策略——同一物理域内可跨集群通信,延迟极低;而跨域调度则以秒级延迟为代价,仅适用于任务间调度。

财联社记者同时了解到,为支撑超大规模训练,并行科技在内蒙古启动“算海计划”,广邀合作伙伴以共建模式打造超大规模单一集群,共同实现资源价值放大与收益共享。

订单涨30%,收入涨10%:需求火热背后的算术

如果说供给端的问题在于结构,那么需求端的问题则在于“质变”。

传神语联凭借“根原创”大模型技术,在人工智能领域稳步深耕。

数据显示,2024年该公司智能语言服务订单量增长30%,收入仅增长10%,“订单涨、收入不涨”的反差引发关注。

对此,传神语联创始人何恩培对财联社记者解释,这是语言服务行业在大模型时代的的正常现象,“市场对常规语言服务的单价预期有所降低,但AI也进一步激发了更多翻译需求,最终呈现出‘订单涨、收入不涨’的情况。”

2025年,公司业务呈现新变化,大模型相关订单暴增500%。何恩培表示,增长动力主要来自两方面:“一方面是原有语言智能用户延伸出的非翻译场景下的大模型需求,另一方面是新客户的持续加入。”

他进一步指出,之所以产生这样的“剪刀差”,恰恰印证了传神语联“根原创”大模型技术路径的正确性。其核心的“数推分离双网络架构”,将“客户数据学习网络”与“推理网络”分离,双网络既可独立训练,又能联合推理。这一架构也带来了显著的成本优势,训练算力成本仅为同等性能模型的1/5至1/10,推理算力仅需1/2至1/5。目前,该公司的大模型产品已在医疗、科研、金融等数据安全敏感型场景实现私有化部署。

同时,何恩培强调,“To B的AI服务不可能是免费的。”他解释,因为在企业客户的AI落地过程中,大量时间并非花费在模型部署本身,而是用于对客户业务流程、权限、数据的梳理和建模。因此,相关服务的客单价远超过AI产品本身,涵盖数据治理、业务建模、系统对接等全链条服务,客户付费意愿正随着数据安全需求和投入回报的明确而增强。

破局:把“沉默的算力”用起来

“我们目前联合了非常多的合作伙伴,他们自己如果有规模不大的,性能相对来说比较好的智算算力,我们可以一起合作来实现他们算力的消纳。”乔楠说,并行科技目前已接入全国47家智算中心、15家超算中心,总调度能力超200万核CPU和5万卡以上GPU。

支撑这套体系的,是公司积累多年的16万注册用户应用特征大数据——通过对大规模并行任务进行实时“CT扫描”,秒级监控多维度指标,系统能自动将用户匹配到最合适的算力资源上。

这套“算力银行”的调度逻辑,在乔楠看来是盘活存量的关键。

他对记者讲了一个具体案例:某省级智算中心此前用户数仅几百,用户总是抱怨“跑不起来”。

“我们就三步走——先分析现有算力的特征,再分析用户的应用特征,最后做智能匹配。”结果发现,这家中心内存配置严重偏低,导致做模型训练的用户性能大幅受损。团队进行内存扩建和系统优化后,用户数从几百跃升到数千,已稳定运营三年。

“以前大家觉得智算中心就是‘买卡、建机房、租出去’,这个模式早就不成立了。”乔楠说,现在拼的是对用户应用特征的深度理解,以及对异构算力的系统集成能力。

他透露,在一些推理场景中,国产芯片已展现出部分替代英伟达的性价比优势——“比如华为的910B和910C,在Deepseek、GLM等模型上表现不错。在推理方面,国产算力大有可为。”为此,公司专门成立了国产事业部,主动引导有需求的用户迁移至国产算力。

除了调度和匹配,资产本身的“新陈代谢”也在加速。“算力市场现在处于价格高点,这个时候处置旧设备基本还能赚钱。”乔楠直言,公司近期“卖旧换新”的资产调整,是基于对全生命周期的收益-成本管理。

他算了一笔账:早期采购的算力以FP32为主,现在行业已切到FP8;旧设备不仅性能跟不上,能耗也高——“一些甚至更落后工艺的产品,电费成本不容忽视。再加上生命周期后期的故障率攀升,对推理业务的稳定性构成威胁。”

传神语联则在另一个维度上探索破局。何恩培直言,“通用大模型微调成为行业模型是伪命题”。以公司“上工传承”中医AI工程为例,他进一步分析,如果仅依托通用大模型在中医数据上做微调,无法真正解决临床问题。原因在于:各个诊所的数据记录形式不统一、内容覆盖不全,且最终处方可能在线下调整过而未能回流至系统,这些行业场景的特殊问题,并非简单微调能破解的。

何恩培强调,真正的行业模型需要“针对不同场景,将全生命周期的体系化的数据记录过程与基于大模型的诊疗过程相结合”,形成数据的实时闭环。这意味着,行业模型的核心壁垒并非于对通用模型进行微调,而在于围绕具体场景,重构数据与模型协同进化的完整体系。

浪潮信息硬件端破局,从集中到分布的算力延伸  

财联社记者在调研中了解到,另一种破局思路正在从算力硬件形态的变革中浮现——让AI算力从数据中心走向企业桌面。

据统计,2025年至2030年,中国AI推理Token消耗量年复合增长率将达330%,总量预计从约10千万亿增长至约3,900千万亿,五年增长约370倍。

浪潮信息边缘服务器产品部副总经理刘景志对财联社记者表示,对于预算有限的中小企业而言,长期调用云端模型的成本将更难预测和控制。

“到了智能体规模落地阶段,大规模智算中心AI算力仍然存在,但70%的AI工作负载会用于实时推理。推理的很大载体就是边缘计算节点或工作站。”刘景志谈及。

与此同时,浪潮信息正式发布元脑智能体工作站Z3,Z3将千亿参数大模型本地推理、多智能体创建管理和数据安全管控等能力整合进一台桌面级设备,中小企业不必将核心数据上传云端,也无需自建复杂AI平台。

硬件端产品发布的背后,是算力需求的前移。

即当大模型从训练走向推理,新增算力需求正从集中式智算中心向分布式推理场景延伸。中小企业在落地智能体时,面临云端部署Token成本不可控、数据需上传,传统本地部署GPU显存不足、工程门槛高的两难。

事实上,中小企业对大模型参数规模的认知正在变化。浪潮信息一位架构师在采访中对财联社记者表示,在某些垂直场景中,1200亿参数和300多亿参数的模型的智能水平差距不大,我们基于 OpenClaw/Hermes构建的coding智能体,用350亿参数模型足够了。

尤其随着模型训练迭代速度加快,新一代低参数量模型性能可超越前代高参数量模型,中小企业不必盲目依赖参数竞赛,也能以更低成本部署AI能力。

当算力瓶颈从“有没有卡”转向“卡用在哪里更合适”,硬件形态从云到端、从集中到分布,是供需结构性矛盾的解法之一。

 

(免责声明:本文为本网站出于传播商业信息之目的进行转载发布,不代表本网站的观点及立场。本文所涉文、图、音视频等资料之一切权力和法律责任归材料提供方所有和承担。本网站对此咨询文字、图片等所有信息的真实性不作任何保证或承诺,亦不构成任何购买、投资等建议,据此操作者风险自担。)

本文为转载内容,授权事宜请联系原著作权人。

评论

暂无评论哦,快来评价一下吧!

算力供需新变局:高利用率背后的“缺卡”困局与破局之路

近期算力产业链成为资本市场关注热点,但记者调研发现,热闹之下隐藏着供需矛盾:一边是部分企业“一卡难求”,一边是部分已建成智算中心利用率低于40%;一边是各地加码算力投资,一边是大量资源因架构不匹配而被“闲置”。

这种供需失衡的背后,既有区域布局与真实需求脱节,也反映出通用算力阶段性过剩与智能算力持续短缺的深层矛盾,如何破解资源错配困局,已成为整个算力产业必须直面的核心议题。

2026年政府工作报告首次将“智能经济”写入顶层设计,“十五五”规划也明确了算力资源规模化、集约化、绿色化、普惠化的方向。在政策布局与产业突围的双重驱动下,算力供需的结构性重塑正在加速展开。

“需要大量的合作方和算力卡”

“2025年,公司算力服务实现营业收入10.2亿元,智算云占比约62%,较前一年的占比(44%)大幅提高了18个百分点,我们的算力利用率在90%到95%之间。”并行科技COO乔楠对财联社记者表示。

据他解释,公司通过跨区域智能调度系统,能将用户任务精准匹配到负载较低的工程资源上,实现了类似“算力银行”的按需取用。

但高利用率背后,是市场需求的持续攀升和“严重缺卡”的现实。

“我们下一步的规划是继续推行‘算网’和‘算海’模式,寻找更多合作伙伴加入,丰富算力资源。”乔楠坦言,尽管通过调度优化提升了现有资源的效率,但面对汹涌的需求,公司仍在积极对接资源、寻找算力。

此外,并行科技近期公告,拟向紫光软件采购交换机等网络设备不超过1.02亿元,拟向北京有为信通采购GPU算力服务器不超过4624万元。

此次采购公告中网络设备占比大幅超过GPU,背后的逻辑是:当训练规模从千卡向万卡跃升,通信开销成为决定集群效率的硬约束。

国家数据局明确,将聚焦“东数西算”工程、一体化算力网监测调度、算电协同、边缘算力建设四大方向,为人工智能高速发展筑牢底座。

“我们要实现任务内的跨集群调度,延迟必须在毫秒级别。”乔楠表示,并行科技采取分层调度策略——同一物理域内可跨集群通信,延迟极低;而跨域调度则以秒级延迟为代价,仅适用于任务间调度。

财联社记者同时了解到,为支撑超大规模训练,并行科技在内蒙古启动“算海计划”,广邀合作伙伴以共建模式打造超大规模单一集群,共同实现资源价值放大与收益共享。

订单涨30%,收入涨10%:需求火热背后的算术

如果说供给端的问题在于结构,那么需求端的问题则在于“质变”。

传神语联凭借“根原创”大模型技术,在人工智能领域稳步深耕。

数据显示,2024年该公司智能语言服务订单量增长30%,收入仅增长10%,“订单涨、收入不涨”的反差引发关注。

对此,传神语联创始人何恩培对财联社记者解释,这是语言服务行业在大模型时代的的正常现象,“市场对常规语言服务的单价预期有所降低,但AI也进一步激发了更多翻译需求,最终呈现出‘订单涨、收入不涨’的情况。”

2025年,公司业务呈现新变化,大模型相关订单暴增500%。何恩培表示,增长动力主要来自两方面:“一方面是原有语言智能用户延伸出的非翻译场景下的大模型需求,另一方面是新客户的持续加入。”

他进一步指出,之所以产生这样的“剪刀差”,恰恰印证了传神语联“根原创”大模型技术路径的正确性。其核心的“数推分离双网络架构”,将“客户数据学习网络”与“推理网络”分离,双网络既可独立训练,又能联合推理。这一架构也带来了显著的成本优势,训练算力成本仅为同等性能模型的1/5至1/10,推理算力仅需1/2至1/5。目前,该公司的大模型产品已在医疗、科研、金融等数据安全敏感型场景实现私有化部署。

同时,何恩培强调,“To B的AI服务不可能是免费的。”他解释,因为在企业客户的AI落地过程中,大量时间并非花费在模型部署本身,而是用于对客户业务流程、权限、数据的梳理和建模。因此,相关服务的客单价远超过AI产品本身,涵盖数据治理、业务建模、系统对接等全链条服务,客户付费意愿正随着数据安全需求和投入回报的明确而增强。

破局:把“沉默的算力”用起来

“我们目前联合了非常多的合作伙伴,他们自己如果有规模不大的,性能相对来说比较好的智算算力,我们可以一起合作来实现他们算力的消纳。”乔楠说,并行科技目前已接入全国47家智算中心、15家超算中心,总调度能力超200万核CPU和5万卡以上GPU。

支撑这套体系的,是公司积累多年的16万注册用户应用特征大数据——通过对大规模并行任务进行实时“CT扫描”,秒级监控多维度指标,系统能自动将用户匹配到最合适的算力资源上。

这套“算力银行”的调度逻辑,在乔楠看来是盘活存量的关键。

他对记者讲了一个具体案例:某省级智算中心此前用户数仅几百,用户总是抱怨“跑不起来”。

“我们就三步走——先分析现有算力的特征,再分析用户的应用特征,最后做智能匹配。”结果发现,这家中心内存配置严重偏低,导致做模型训练的用户性能大幅受损。团队进行内存扩建和系统优化后,用户数从几百跃升到数千,已稳定运营三年。

“以前大家觉得智算中心就是‘买卡、建机房、租出去’,这个模式早就不成立了。”乔楠说,现在拼的是对用户应用特征的深度理解,以及对异构算力的系统集成能力。

他透露,在一些推理场景中,国产芯片已展现出部分替代英伟达的性价比优势——“比如华为的910B和910C,在Deepseek、GLM等模型上表现不错。在推理方面,国产算力大有可为。”为此,公司专门成立了国产事业部,主动引导有需求的用户迁移至国产算力。

除了调度和匹配,资产本身的“新陈代谢”也在加速。“算力市场现在处于价格高点,这个时候处置旧设备基本还能赚钱。”乔楠直言,公司近期“卖旧换新”的资产调整,是基于对全生命周期的收益-成本管理。

他算了一笔账:早期采购的算力以FP32为主,现在行业已切到FP8;旧设备不仅性能跟不上,能耗也高——“一些甚至更落后工艺的产品,电费成本不容忽视。再加上生命周期后期的故障率攀升,对推理业务的稳定性构成威胁。”

传神语联则在另一个维度上探索破局。何恩培直言,“通用大模型微调成为行业模型是伪命题”。以公司“上工传承”中医AI工程为例,他进一步分析,如果仅依托通用大模型在中医数据上做微调,无法真正解决临床问题。原因在于:各个诊所的数据记录形式不统一、内容覆盖不全,且最终处方可能在线下调整过而未能回流至系统,这些行业场景的特殊问题,并非简单微调能破解的。

何恩培强调,真正的行业模型需要“针对不同场景,将全生命周期的体系化的数据记录过程与基于大模型的诊疗过程相结合”,形成数据的实时闭环。这意味着,行业模型的核心壁垒并非于对通用模型进行微调,而在于围绕具体场景,重构数据与模型协同进化的完整体系。

浪潮信息硬件端破局,从集中到分布的算力延伸  

财联社记者在调研中了解到,另一种破局思路正在从算力硬件形态的变革中浮现——让AI算力从数据中心走向企业桌面。

据统计,2025年至2030年,中国AI推理Token消耗量年复合增长率将达330%,总量预计从约10千万亿增长至约3,900千万亿,五年增长约370倍。

浪潮信息边缘服务器产品部副总经理刘景志对财联社记者表示,对于预算有限的中小企业而言,长期调用云端模型的成本将更难预测和控制。

“到了智能体规模落地阶段,大规模智算中心AI算力仍然存在,但70%的AI工作负载会用于实时推理。推理的很大载体就是边缘计算节点或工作站。”刘景志谈及。

与此同时,浪潮信息正式发布元脑智能体工作站Z3,Z3将千亿参数大模型本地推理、多智能体创建管理和数据安全管控等能力整合进一台桌面级设备,中小企业不必将核心数据上传云端,也无需自建复杂AI平台。

硬件端产品发布的背后,是算力需求的前移。

即当大模型从训练走向推理,新增算力需求正从集中式智算中心向分布式推理场景延伸。中小企业在落地智能体时,面临云端部署Token成本不可控、数据需上传,传统本地部署GPU显存不足、工程门槛高的两难。

事实上,中小企业对大模型参数规模的认知正在变化。浪潮信息一位架构师在采访中对财联社记者表示,在某些垂直场景中,1200亿参数和300多亿参数的模型的智能水平差距不大,我们基于 OpenClaw/Hermes构建的coding智能体,用350亿参数模型足够了。

尤其随着模型训练迭代速度加快,新一代低参数量模型性能可超越前代高参数量模型,中小企业不必盲目依赖参数竞赛,也能以更低成本部署AI能力。

当算力瓶颈从“有没有卡”转向“卡用在哪里更合适”,硬件形态从云到端、从集中到分布,是供需结构性矛盾的解法之一。

 

(免责声明:本文为本网站出于传播商业信息之目的进行转载发布,不代表本网站的观点及立场。本文所涉文、图、音视频等资料之一切权力和法律责任归材料提供方所有和承担。本网站对此咨询文字、图片等所有信息的真实性不作任何保证或承诺,亦不构成任何购买、投资等建议,据此操作者风险自担。)

本文为转载内容,授权事宜请联系原著作权人。