大模型迈入应用元年昆仑万维推出中国首个音乐SOTA模型|界面新闻

尽管走上行业风口不过一年多时间，但AI大模型的基础研发和应用场景的讨论热度始终高企。到2024年，AI大模型迈入应用元年的声音更是一时甚嚣尘上，行业果真走出这一步了吗？

事实上，鉴于“研发和应用两手抓”需要的能力与资本都巨大，行业之中配得上这一拷问的公司并不多：百度“文心一言”、阿里“通义千问”、昆仑万维“天工”、商汤“日日新”、科大讯飞“星火”等等企业及其大模型，都是牌桌上的有力角逐者。

真正要在其中脱颖而出，不仅需要性能超前的基础大模型，同时也要与之相配、并有“爆品”潜质的产品应用场景。对此，昆仑万维以“天工3.0”和“天工SkyMusic”尝试回答。

4月17日，昆仑万维自研四千亿级大语言模型“天工3.0”正式开启公测并同步开源。这一采用4000亿级参数的MoE混合专家模型，是目前全球模型参数最大、性能最强的MoE模型之一，相较上一代在模型语义理解、逻辑推理等多个性能维度均有明显提升。

技术层之外，这可能也是AI应用领域的潜在引领者之一。与“天工3.0”一同开启公测的还有昆仑万维的AI音乐生成大模型“天工SkyMusic”，该大模型在小范围邀测时已经激起不小的音乐创作浪潮。

而不仅是音乐，“天工3.0”当前已将AI能力集成进搜索、写作、长文本阅读、对话、代码等多个高频应用场景，为大模型领域即将开启的落地应用之战筹备砝码。

至此，一个完整的AI大模型技术与应用生态正在成型。这是AI大模型叙事最重要的章节之一，它可能就此建立一条行业分水岭。

天工SkyMusic，引领AIGC音乐浪潮

自OpenAI将大模型推上行业风口以来，属于中国市场的“百模大战”已经拉开序幕一年有余，进入2024年，行业关注点开始从技术研发向应用落地逐渐倾斜——无可置否，大模型的落地应用才是决定其技术与价值的长尾指标。

就所有内容模态而言，音频内容是相比文本和图片更好理解人类情感的方式，同时，音乐也是人类情感表达最充沛且不受地域和文化限制的内容载体。因此，众多落地场景之中，音乐创作成为普罗大众最易上手和感受到趣味性的AIGC场景。对于AI公司而言，这是一个将自己推向C端市场、获得大众认知的有利机会。

天工SkyMusic正是昆仑万维面向音乐行业发布的大模型，此前于4月2日面向社会开启邀测，今天随天工3.0正式发布。该大模型自邀测阶段就受到行业专家及音乐从业者的广泛关注，它不仅是国内唯一公开可用的AI音乐生成大模型，同时也是中国首款AI音乐大模型SOTA模型，更是中国的自研大模型技术第一次在AIGC领域领跑全球。

在大模型领域中，SOTA模型指的是被认为是“State of the Art”（SOTA）的模型。正如OpenAI被视为文本大模型和视频生成大模型的SOTA，"State of the Art"这个术语通常用于描述某个特定领域或技术中当前最先进、性能最好的技术或方法。

在与海外顶尖的AI音乐大模型Suno V3的横向测评中，天工SkyMusic在人声&BGM音质、人声自然度、发音可懂度等领域显著领先对手，并以6.65分的综合得分超越Suno V3，成为全球AI音乐SOTA模型。

目前，AI音乐生成有两大技术路径，分别是符号音乐生成路线和大模型音乐音频生成路线。前者是指先标注大量乐谱，再训练模型，最后生成的结果也是乐谱，需要额外的算法或工具将乐谱转换成音乐；后者则是直接学习并生成音频波形，乐器、人声、旋律、音量、音符等等都一体化端到端生成，但这种方式不仅艰难、成功经验稀缺，还需要高昂的算力和资金。

天工SkyMusic选择的是技术意义上更难的音频生成路线。不仅如此，由于这一路线所覆盖的Song、BGM（Background Music）、Speach三个领域中，Song领域因为包含人声、生成技术难度更高，始终没有出现极佳方案。对此，天工SkyMusic投入大量资源实现了一定技术突破，使得该领域的生成质量终于得到提升。

值得注意是，天工SkyMusic是音乐AIGC领域罕见公开自身技术路径的产品。其由“Encoder-DiT-Decoder”三大核心模块组成的技术路线图，成为了“音频路线+人声Song路线”的重要技术参考。

相较于行业中的同类产品，天工大模型带动天工SkyMusic拥有了更突出的产品优势。

例如，其拥有独创的参考音乐生成与方言歌曲生成的能力。参考音乐生成是指，用户可上传自有参考音乐，或选择“天工SkyMusic”资料库中现有的参考音乐，从而生成风格、唱腔类似的歌曲，这种能力能够结合创意、技术和音乐制作技巧，让用户利用现有的音频资源来创作出更加丰富多彩的音乐作品；

方言歌曲生成能力包含粤语、成都话、北京话、上海话等，这不仅能扩大其受众范围，还能加强音乐创作生成的多样性。同时，基于强大的数据库及训练模型，天工SkyMusic还可打造出更具辨识度的自然人声，这也将使其区别于普通音乐AIGC产品较浓的“AI人声质感”。

此外，天工SkyMusic可通过歌词控制情绪变化，实现如颤音、歌剧、吟唱等多种歌唱技巧，还支持创作说唱、民谣、放克、古风、电子等多种音乐风格。

这种音乐创作上的灵活性和普适性，为天工SkyMusic的创作成果带来了更多趣味。在其公布的大量demo中，《龙行龘龘》演绎了戏曲唱腔与电子音乐如何完美融合；《悟空》从歌词上贴合了人物本身的传奇色彩与不羁性格，其独特理解与领悟最终与旋律合二为一；《Pack my bags》则诠释了欧美流行音乐的精妙之处，其女声唱腔兼具欧美女歌手的音色与技巧。

借此，天工SkyMusic得以大幅降低音乐创作的门槛，让每个用户都能够更加容易创作属于自己的旋律和歌曲，这使其有望成为行业中最重要的全民音乐创作工具之一。而随着该音乐大模型的不断进化，它还有可能加入专业音乐人改善创作质量、提高创作效率的辅助进程中，逐步推动建立属于自己的AI音乐创作者生态。

开源MoE大模型的时代来临

事实上，天工SkyMusic只是昆仑万维迈向AIGC大千世界的第一站。自天工3.0发布后，这一大模型将覆盖听、说、读、写、画、唱等更多高频AIGC应用场景，正式开启一个多模态大模型时代。

从单一模态逐渐过渡到多模态，进而构建世界模型，是业界共识度最高的，迈向AGI的演进路径。而在OpenAI展现GPT-4和GPT-4V的能力之后，行业便一直在等候一个更具场景覆盖力的多模态大模型，将大模型技术的应用现实进展再往前推一把。

昆仑万维“天工3.0”正是登场于这样的背景之下。“天工3.0”采用了4000亿级参数MoE混合专家模型，是全球模型参数最大、性能最强的MoE模型之一，并已同步选择开源。相较上一代，其在模型语义理解、逻辑推理、通用性、泛化性等领域均有明显提升。

具体而言，“天工3.0”的模型能力提升集中于逻辑推理能力、语义理解能力、专项Agent训练和内容创作能力四大方面。逻辑推理方面，“天工3.0”数学与推理能力均提升超过30%；语义理解则能够更好理解和处理用户自然语言Query中的复杂语义信息，包括隐喻、多义词等。

专项Agent训练是此次模型能力提升的核心。当前，AI Agent（智能体）已经成为大模型技术的主流落地方向，而“天工3.0”针对模型独立规划、调用、组合外部工具及信息的模型Agent能力进行了专项训练，使其能够独立生成并调用代码，完成包括图表绘制、工具调用、语义判断等多项复杂用户需求。

自此，“天工3.0”成为具备多个领域专业知识和能力的全能专家。它能够对复杂任务进行拆解优化，更深入理解用户需求，也具备实时判断并调用专用模式扩展基座模型的能力，最大程度提升模型性能。诸如产业研究、产品横评、信息分析、图片生成、图表绘制等需求场景，已经可以由“天工3.0”较为高效覆盖。

对AI用户而言，“天工3.0”性能升级最直观的价值就体现在AI搜索场景上。在信息呈现方式上，天工AI的研究模式可提高问答的专业性质，围绕用户的某个简单指令进行相关问题的延伸，自动生成研究大纲、图谱、实践总结、思维导图，而增强模式可对模糊问题做进一步引导，帮助用户获取更有效的信息，提高回复质量。

同时，天工3.0展现出行业同类AI搜索引擎所不具备的差异化优势。——它不仅有文本回复能力，还有图文并茂能力，在文本回答的同时附带图片或视频，帮助用户加强信息理解。

在内容创作层面，基于专项Agent训练等带来的性能提升，“天工3.0”的内容创作能力已有跨阶段性发展。

在基础推理与理解方面，天工3.在数学推理能力的提升，也让它能够更准确地理解用户需求。

在上一代AI搜索、AI语音、AI对话、AI二次元漫画生成等强大内容创作能力基础上，“天工3.0”又发展出了更强的多模态性能，例如在对话中，结合文本需求实时生成图片、或实时分析内容及图表的能力，成为了集合听、说、读、写、搜、画、看、唱等能力的千亿级开源MoE大模型。

至此，天工3.0得以实现多模态的深度融合与应用。对行业而言，这将带来更高效智能的解决方案，同时降低AI技术的研发门槛和使用成本，最大化共享技术能力和经验。

降低AIGC使用门槛，推动产业升级

从ChatGPT惊艳亮相那一天起，就持续关注AI大模型发展的用户们，大概可以体会到“天工3.0”给行业带来的显著冲击力——它不仅在技术层面提高了自身竞争力，也在实际应用层面逐步覆盖当下高频应用场景，同时向搭建大模型应用生态的目标大步前进。

在这一视角下，天工3.0的发布意义不只是大模型应用场景的升级，它还加速了AI应用的普及，促使更多企业和开发者参与到AI引领的科技变革中。

从天工SkyMusic到天工3.0释放的多模态能力，行业已经可以预测到昆仑万维意图掀起的AIGC浪潮。

因为不仅是中国首个音乐AIGC SOTA，作为全球最大规模开源MoE大模型，天工3.0有能力带领更多领域的创作者群体自由出入AIGC的理解与生成的通道，利用多模态的深度融合与应用，大幅降低内容生产的门槛与成本，重新定义创作效率和质量标准。这种影响力将逐步促进整个内容生产行业进化，释放更多的创作力和内容价值。

这不仅是一家公司的使命愿景，也是一个行业实现突破的硬性阶段目标。为此，昆仑万维已付诸多年实践。

自发布天工系列大模型以来，昆仑万维已在AGI和AIGC两大方向上完成自己的业务矩阵布局：从千亿级大语言模型到多模态AI内容生成能力，从AI搜索、AI音乐、AI 社交等再到国内领先的AI Agent开发平台，无论是模型技术还是工程能力，都竭力站稳国内AI企业头部阵营，做好为产业提供支撑的准备。

在这背后，走向AGI和促进AIGC应用发展，始终是这家企业的目标与使命。如今，随着“天工3.0”的发布与展示，昆仑万维在“All in AGI与AIGC”这一战略征程上再下一城，即将把大模型战事推向新的高潮。

至此，一个完整的AI大模型技术与应用生态正在成型。这是AI大模型叙事最重要的章节之一，它可能就此建立一条行业分水岭。

天工SkyMusic，引领AIGC音乐浪潮

相较于行业中的同类产品，天工大模型带动天工SkyMusic拥有了更突出的产品优势。

此外，天工SkyMusic可通过歌词控制情绪变化，实现如颤音、歌剧、吟唱等多种歌唱技巧，还支持创作说唱、民谣、放克、古风、电子等多种音乐风格。

开源MoE大模型的时代来临

在内容创作层面，基于专项Agent训练等带来的性能提升，“天工3.0”的内容创作能力已有跨阶段性发展。

在基础推理与理解方面，天工3.在数学推理能力的提升，也让它能够更准确地理解用户需求。

降低AIGC使用门槛，推动产业升级

在这一视角下，天工3.0的发布意义不只是大模型应用场景的升级，它还加速了AI应用的普及，促使更多企业和开发者参与到AI引领的科技变革中。

从天工SkyMusic到天工3.0释放的多模态能力，行业已经可以预测到昆仑万维意图掀起的AIGC浪潮。

这不仅是一家公司的使命愿景，也是一个行业实现突破的硬性阶段目标。为此，昆仑万维已付诸多年实践。

历史搜索全部删除

热门搜索

大模型迈入应用元年昆仑万维推出中国首个音乐SOTA模型

天工SkyMusic，引领AIGC音乐浪潮

开源MoE大模型的时代来临

降低AIGC使用门槛，推动产业升级

昆仑万维

评论

大模型迈入应用元年昆仑万维推出中国首个音乐SOTA模型

天工SkyMusic，引领AIGC音乐浪潮

开源MoE大模型的时代来临

降低AIGC使用门槛，推动产业升级

大模型迈入应用元年 昆仑万维推出中国首个音乐SOTA模型

天工SkyMusic，引领AIGC音乐浪潮

开源MoE大模型的时代来临

降低AIGC使用门槛，推动产业升级

昆仑万维

评论

大模型迈入应用元年 昆仑万维推出中国首个音乐SOTA模型

天工SkyMusic，引领AIGC音乐浪潮

开源MoE大模型的时代来临

降低AIGC使用门槛，推动产业升级

大模型迈入应用元年昆仑万维推出中国首个音乐SOTA模型

大模型迈入应用元年昆仑万维推出中国首个音乐SOTA模型