万千气象看上海｜上海天数智芯补位“算力基建”| 寻找中国经济新动能|界面新闻

界面新闻记者 | 李彪
界面新闻编辑 | 文姝琪

自从ChatGPT、Sora相继问世以来，全球对于AI大模型的用途争论不休，至今仍没有统一清晰的落地应用场景，但“算力是AI时代的能源，未来将像水、电一样即取即用”却早早就变成了一项共识。

特别在去年国内“百模大战”时，几乎每家大模型厂商在接受媒体采访时都要回答“灵魂三问”：公司囤了多少张英伟达显卡？大模型缺不缺算力？如何解决算力紧缺？

天数智芯董事长兼CEO盖鲁江去年也听到了外界各种“缺算力”的声音。

无论是从无到有地“训练”出一个大模型，还是有大模型加持后，聊天机器人靠“推理”每秒回答上百万用户的各种花式提问，背后都离不开大量的算力支持。去年行业内最先进的英伟达A100\H100、A800\H800 又相继遭美国禁售，更是将算力供需的天平重重压在了供给一端，市场上掀起了抢购囤卡的热潮。

“即使到了今天，算力供应仍存在一定缺口，尤其在高性能计算、云计算等领域。”盖鲁江接受界面新闻专访告诉记者。

天数智芯是在2018年前后国内的“GPU创业潮”中进入了算力领域。与这一领域传统的GPU（图形处理器）路线不同，天数智芯选择的是通过GPGPU（通用图形处理器）开启创业。

一块GPU显卡通常需要完成图形处理和通用计算两部分任务，传统GPU早年专为完成图形处理任务设计，例如3D图形渲染和2D图片处理，早期主要应用在游戏领域。后期则被大量用于处理海量数据的加速计算。

GPGPU更侧重于通用计算，包括大规模数据处理、科学计算、机器学习算法等。它通过并行处理大量数据和任务，提供了更快速和高效的计算能力。因此，也成为了发展人工智能不可或缺的关键设备。

AI大模型的爆发使得计算规模急剧膨胀。数据显示，OpenAI此前为ChatGPT研发的GPT3模型有1750亿参数，就已经要用到1万张英伟达显卡来支持模型训练。而GPT4模型的参数量据爆料更是GPT3的10倍，达1.8万亿。参数规模越大，训练所需的计算量就越大，对应GPU需求的也相应翻倍增加。

国内一家排名前三的服务器厂商负责人近期走访客户发现，算力需求的规模眼下仍在成倍增加。去年行业搭建算力集群都以1万张显卡为目标，而到今天5万张都开始变成常态。

而面对不断上涨的需求，英伟达尖端产品的猝然禁售留出了巨大缺口，国内GPU厂商正在努力进入其中补位。

去年6月，天数智芯研发的通用GPU天垓100，已经被用于支持某机构70亿参数大模型的训练。去年11月，天数智芯再次与合作方完成了700亿参数大模型的“异构训练”，这也是国内GPU厂商首次完成与国际主流GPU厂商的异构混合训练。

前述服务器厂商负责人表示，由于种种原因，将国内及国际不同厂商的GPU产品及其他计算资源混合组成一个集群的“异构路线”是当下的主流选择。虽然异构在软硬件上的兼容性仍是困扰行业的一大难题，但天数智芯、昆仑芯都已经积极沿此路线布局。

在盖鲁江看来，未来要实现算力像水、电一样成为基础能源，当下要像过去建自来水厂、发电站一样先完成一场“算力基建”。

上海亦在出台政策，积极推动投建智算中心。

今年3月，上海市通信管理局等11部门联合制定并发布《上海市智能算力基础设施高质量发展“算力浦江”智算行动实施方案（2024-2025年）》，鼓励全市加快建设智算中心。按照规划，到2025年，上海市智能算力规模超过30Eflops（EFLOPS指每秒百亿亿次浮点运算次数，是衡量算力的基本单位），届时将占全市总算力的50%以上，同时新建智算中心国产算力芯片占比要超过50%。

而当更多的智算中心被建成后，届时也将按照不同的参与者形成新的产业生态：上游参与者包括制冷设备供应商、网络设备供应商等，主要为智算中心提供硬件基础设施；中游则包括智算服务供应商、IDC服务供应商和云服务供应商等，主要提供算力服务、数据服务和算法服务，是智算中心运营的关键力量；下游应用开发者主要利用智算中心的算力资源，开发各种智能化应用。

天数智芯旗下的GPU产品已在多个算力项目中落地应用。盖鲁江告诉记者，近两年来，大模型的发展给公司带来很大推动作用。天数智芯从2018年就开始设计GPGPU芯片，前几年重点放在技术攻关和产品性能上，应用场景十分广泛，包括游戏、零售、教育、金融、能源等多个领域。在这轮大模型掀起的AI浪潮中，支持AI大模型训练、推理以及应用已经成为公司战略布局的重点。