大模型正在改变深度机器学习，训练大模型的工程技术挑战在哪里？|界面新闻

界面新闻记者 | 崔鹏

早在2020年，腾讯开始研发支持大模型训练和推理的工程技术底座时，初衷只是为了满足腾讯广告的需求，想通过提升参数量的方式，来提高广告模型推理预测的能力。

在OpenAI将生成式大模型带入主流视野之后，几乎所有头部厂商都在研究和推出自己的大模型业务。今年9月腾讯对外推出自研的通用大模型“混元大模型”，成为国内头部科技企业中最后一个对外发布大模型业务的公司。

推动大模型应用落地是一项颇为复杂的工程，不仅要考虑如何降低训练和精调的成本，还要关注投产时的推理成本。因为当所有的应用场景都用千亿级模型去做训练和推理时，会形成长期的成本消耗，企业需要支撑每次服务调用带来的算力成本。

有些厂商也推出了小尺寸模型，试图在性能、成本和效果之间做均衡：在一些需要高度复杂推理的场景下用大模型能力，在一些不太复杂的场景使用小尺寸模型。

任何一家厂商，如果想推出领先于竞品的大模型服务，不仅要有最好的硬件集群，还要针对新型算力集群提供训练推理框架、软件框架，做软硬适配一体化。

对于这些话题，近日，腾讯的两位混元大模型技术专家与界面新闻等媒体进行了深度沟通，聊到了大模型对传统深度机器学习平台的改变，以及大模型底层技术支撑对头部厂商的挑战。

机器学习平台不再是从0到1

虽然都在人工智能范畴之下，但在各大公司纷纷介入大模型研发后，即便是不久之前的深度机器学习平台，也与大模型优化出来的新型训练推理范式有着本质区别。

从模型的精调、评测再到部署，这些环节就是现在专属模型定制的主要训练过程，与传统机器学习平台的区别也主要集中在这个过程中。

比如说，传统的机器学习平台只提供各种库和算法，训练都是从0到1的过程，不会提供一个带参数的模型。

今天由大厂提供的千亿规模基础模型，则包含了各种尺寸的模型矩阵，以及庞大的数据量。此时研发人员要做的就是精调专属模型，并进行应用构建。

其中，庞大的数据量决定着应用落地的天花板。十几年前的机器学习平台，数据科学家60%-80%的时间在做数据清理，只有20%左右时间在建模。

大模型时代训练用的原始素材动辄以PB（1000TB）级别起步，“你不可能在任何一个环节上用手工做”，腾讯机器学习平台部的专家工程师姚军表示，如果没有智能数据处理，科学家哪怕花费100%的时间都处理不完这些数据。

这种参数规模呈现的是指数量级的增长，“智能不够，数据来凑”。2020年OpenAI的一篇论文中表示，他们从研究上发现整个人工智能从神经网络的深度和宽度上看，数据越多、模型越大，它对知识的归纳总结以及推理泛化能力就越强。

基础模型的参数决定了智能能力的天花板，但否能摸到天花板，很多时候取决于它与业务场景的适配，也就是精调模型的效果。

精调指的是企业基于大厂提供的基础模型，进行专属模型的训练（二次训练、精调训练），针对企业自己的应用场景和特有数据进行优化，让大模型能理解企业的应用指令，并且用特定方式输出它存储的数据。

比如OpenAI不久之前的发布会上，首席执行官Sam Altman演示的创业训练营案例文档，就包含大量的传统OCR和表格转换工作，想要让大模型看懂文档，就需要对针对这个垂直场景进行大量训练。

对于那些参数量成百上千亿的大模型来说，有多少参数在精调过程中可以改动，改动的越多，跟场景的适配越好，但也意味着更高的训练成本。

大模型提供的不同尺寸、不同程度的调参能力，以及降低幻觉的需求，也是与传统机器学习平台完全不同的地方。

数据各家都有，为何训练大模型这么难？

虽然很多公司都有不少数据积累，但不是每家公司都能承担起训练大模型的工作，挑战主要来自四个方面：

1、算力挑战。大模型算力呈现指数级增长，超过了很多硬件加速器的算力。

从早期的Bert模型，到LLamMA，再到GPT3和GPT4，深度模型网络要通过反向和前向计算去得到最好的权重值，每个位置上都要进行计算，因此模型的节点数量、网络层次的规模就决定了模型需要的计算量。

相比之下，今天的主流硬件加速器算力较为有限。以Bert模型为例，如果用一张英伟达V100卡来算，大概需要50天左右，如果用这张卡去计算GPT系列模型，可能要几十上百年时间。

2、显存挑战。目前大模型的规模已经增大到TB级别，远远超过一张卡的显存大小（GB级别），不再能像过去那样用一张卡来跑模型，分布式训练框架等新技术成为必经之路。

3、通信挑战。用多张卡做分布式训练时，由于卡与卡之间存在大量通信损耗，所以简单增加显卡不能得到线性加速结果。也就是说增加一倍的卡量，训练时间并不会减半。

所以，如何解决分布式训练中的通信问题，让实际的加速比尽可能贴近理论的加速比，这也是一个很大的工程问题。

4、故障挑战。所有硬件有一定的故障率，显卡跑的时间太久也会坏，尤其是温度问题，GPU算力使用较高后，会产生散热问题，高温会让机器进入自我保护状态，直接关机。

这些都是当下研究大模型的技术人员所要面临的工程技术难题，腾讯机器学习平台部总监陶阳宇也介绍了腾讯一些此前并未公开的解决方案。

比如通过3D多维并行提高训练的并行度，采用“数据并行+张量并行+流水并行”的方式，配合算子优化技术，提高并行路，降低在分布式训练过程中的网络通信开销，提升整体训练性能。

比如在存储层面，将GPU显存与系统内存统一编址、统一视角管理，扩大可存储模型的容量。显存和主存打通后，技术人员在训练时可以将大量参数先放在系统存储中，当需要的时候再放到显存里。

目前显存大小80G已经算非常大，但系统存储的主流容量已经来到了2T，所以通过显存和系统内存的统一编址，单机存储容量能提升90%，突破显存限制。这样也可以盘活大量低端显卡存货，用低端卡来训练大模型。

在显卡供给受阻的背景下，这一点更加重要。从实践结果来看，腾讯目前已经能基于40G显存低配卡训练出混元千亿大模型、24G低配卡实现模型精调。