2月25日上午,DeepSeek放出了其开源周中的第二个技术成果“DeepEP”。
掀起全球大模型浪潮的OpenAI曾在2024年举办过的开源周(OpenSourceWeek)活动做法,而DeepSeek自蛇年春节爆火后,也采取了类似做法。
2月21日,DeepSeek在其官方X账号宣布,计划在接下来一周中举办开源周活动,陆续开源5个代码库。
2月24日,针对NVIDIA Hopper GPU开发的MLA(Multi-head Latent Attention,多头潜在注意力)高效解码内核 “FlashMLA”在开源周中打了头阵。
简而言之,FlashMLA是DeepSeek专门针对NVIDIA Hopper系列高端加速卡(H800)所做的深度优化;而25日最新亮相的DeepEP,是一款专为混合专家模型(MoE)训练推理过程中采用专家并行策略(Expert Parallel ,EP)所设计的通信库。
MoE架构的核心思想是将一个复杂的问题分解、分类成多个更小、更易于管理的子问题,并由不同的专家网络分别处理,不同的专家网络所擅长处理的问题不同,以此节省计算成本,最终再将所有专家的输出结果汇总。这也是GPT-4等模型采用的设计方法。然而,MoE架构中核心的专家并行、不同专家网络之间同步参数等步骤,则会引来更高的通信成本。
EP策略本质上即是把MoE架构下的各个“专家”子模型部署到不同的GPU或计算节点上,让它们可以独立地运算、进行前向和反向传播。
根据公开信息,本次开源的DeepEP可以实现高效且优化的全对全通信,支持包括FP8在内的低精度运算,适配现代高性能计算需求。
同时,DeepEP针对NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM(Streaming Multiprocessors)数量控制,兼顾训练和推理任务的高吞吐量表现。
相较其他竞品,DeepSeek-V3和R1模型的一大特点是在保证性能的前提下训练成本极低。
按每 GPU 小时 2 美元的价格计算,DeepSeek-V3 的整体训练成本约为 557.6 万美元。而Claude 3.5 Sonnet训练成本在数千万美元,GPT-4 的训练成本则大约为7800 万美元。
本次DeepSeek开源的两大代码库,都体现了其节省训练成本的独特思路。接下来,还有三项技术成果等待公布。
评论