爆火的兵马俑跳“科目三”是如何做出来的？|界面新闻

界面新闻记者 | 李京亚徐诗琪

人类已经不满足于让AI把照片中的人物变得更美，还要让他们跟着音乐舞动起来。

近段时间以来，兵马俑和马斯克跳“科目三”的视频刷爆了朋友圈，也在微博上成为了热门词条。

这些由一张图片制成的舞蹈视频，来自阿里大模型应用通义千问APP最新上线的功能“全民舞王”。用户只需上传一张全身照（包括真人与动漫角色等），十分钟左右即可让照片中的主角跳上一小段热门舞蹈，包括科目三、蒙古舞、鬼步舞等等。这项功能目前免费，所生成的舞蹈视频大约在10秒左右，高于同类产品Runway Gen-2和Pika的4秒时限。

“全民舞王”应用目前提供12种热门舞蹈模板，包括科目三、蒙古舞、鬼步舞、DJ慢摇、划桨步、兔子舞等。

阿里巴巴通义实验室XR负责人薄列峰告诉界面新闻，全民舞王源自阿里通义千问团队去年9月发布的自研视频生成模型Animate Anyone，目标是做可控的人物视频生成。由于没有提供demo和源代码，外界一直无法感知其实际效果。

到了12月，该实验室在arxiv上公开了Animate Anyone的论文和主页，此后又把它集成到通义千问APP中。全民舞王由此成为Animate Anyone落地的首款产品。

AI图片生成的应用已日臻成熟，但AI视频生成仍是大模型领域的难题之一。当前文生视频技术处在早期阶段，更不用说以图片来生成视频，这造成了图片-视频-3D模态落地难度依次增加的现状。

过往，视频生成方案在生成效果上饱受诟病，色彩、音频和字幕难以整体做到最优，视频的细粒度控制也一直做得不好。此外，之前一些驱动方案在以人为主题的视频生成中，无法同时保证泛化性和一致性的能力。所谓泛化性，是指模型不仅在训练数据上表现好，还能对未见过的新数据做出准确有效的预测。而一致性是指模型在处理同类问题的不同实例时，保持输出结果一致和稳定。

Animate Anyone延续了主流视频生成模型采取的扩散模型路线。这类模型被广泛运用到图像、视频生成领域，像OpenAI的DALLE-2、Stable Diffusion都是以扩散模型为基础。

为保证视频生成的一致性、稳定性和可控性，阿里团队采取了几项措施解决了可控视频存在的一些技术问题，包括ReferenceNet参考网络的引入，Pose Guider姿态引导器的使用，同时融合了一种时间建模方法。薄列峰称，这些技术可更好地实现对角色运动的控制，人物和表情细节的还原，以及视频帧间的流畅性。

此外，Animate Anyone还采用了分阶段训练策略，希望在不同阶段关注不同目标。这一思路在OpenAI训练ChatGPT时也有展现。

从全民舞王的呈现效果来看，相比同类的DisCo和谷歌推出的模特换装模型DreamPose，Animate Anyone在生成视频内容的连贯性上表现较好，例如能捕捉到原人物的衣服、头发、鞋子等细节，并适配到人物的体型上，但在处理一些背景复杂的图片时，难免出现幻影等问题。

纵观海内外整个AI视频生成领域，曾在去年底迎来突变，Runway Gen-2、Pika1.0、字节联合新加坡国立大学推出的Magic Animate、阿里Animate Anyone等黑马均有不错的表现。阿里内部也出现了几款与Animate Anyone撞形的可控视频生成模型，12月开源的可控视频生成框架DreaMoving是其中之一。

需要指出的是，这些视频产品的快速涌现，源于去年一整年基础大模型的持续演进，而非一时的技术突破。

虚拟人公司慧夜科技CEO渠思源曾提到，优质基座大模型对动作生成等实际应用的指导价值超乎想象，在涉及动作衔接、融合时，大模型可以驱动神经网络帮助上层小模型做出非常合适的数据配比，以指导小模型更丝滑地完成动作状态切换，而这只需要接入大模型就可完成，甚至不需要了解小模型的具体细节。

数据资源则是保障视频生成效果的另一护城河。“当前动作生成视频的一大痛点在于3D高质量数据集的稀缺。”渠思源指出。

根据阿里团队公开的论文，Animate Anyone是在5000个角色视频剪辑的内部数据集上训练而成。这样的数据量级显然有赖于互联网大厂多年积累的资源。

全民舞王是阿里云继妙鸭相机之后，在AIGC应用赛道的又一试探性动作，也符合全行业“卷应用”的趋势。薄列峰告诉界面新闻，全民舞王目前没有收费计划，未来会继续迭代算法，包括增加舞蹈类型、减少等待时长、表情更自然以及美颜美体。

但和妙鸭一样，该应用很快会面临用户拉新留存难题。2023年7月上线的妙鸭相机原为9.9元收费版，当时吸引了大量用户花数个小时排队尝鲜。此后尽管妙鸭增加了免费版，也提供了更多人物模版，却始终没有找到真正可持续的应用场景。七麦数据显示，在iOS端，妙鸭相机已从去年高峰时的下载量第一，下滑至200名开外，已不计入统计。

而在妙鸭之前，有很多红极一时的现象级应用，如小咖秀、脸萌、魔漫相机、足记等等，都在瞬息万变的互联网市场中从爆火走向了没落。即使初期能迅速吸引大量用户使用，但因无法持续提供独特价值，难以适应市场需求变化和激烈的竞争，最终被新的应用潮流所取代。全民舞王想要解决“短命”魔咒并不容易。

值得注意的是，全民舞王之外，通义千问团队基于Animate Anyone还上线了一款名为Outfit Anyone的一键试衣模型。用户给出一张模特图和衣服图片，就能实现上下装试穿。虽然偶尔出现视觉瑕疵，且模特选择有限，但这款模型或许会是马云所看重的“AI电商”的隐藏拼图之一。