正在阅读:

爆火的兵马俑跳“科目三”是如何做出来的?

扫一扫下载界面新闻APP

爆火的兵马俑跳“科目三”是如何做出来的?

AI生成视频产品的快速涌现,源于去年一整年基础大模型的持续演进,而非一时的技术突破。

图片来源:图虫创意

界面新闻记者 | 李京亚 徐诗琪

人类已经不满足于让AI把照片中的人物变得更美,还要让他们跟着音乐舞动起来。

近段时间以来,兵马俑和马斯克跳“科目三”的视频刷爆了朋友圈,也在微博上成为了热门词条。

这些由一张图片制成的舞蹈视频,来自阿里大模型应用通义千问APP最新上线的功能“全民舞王”。用户只需上传一张全身照(包括真人与动漫角色等),十分钟左右即可让照片中的主角跳上一小段热门舞蹈,包括科目三、蒙古舞、鬼步舞等等。这项功能目前免费,所生成的舞蹈视频大约在10秒左右,高于同类产品Runway Gen-2和Pika的4秒时限。

“全民舞王”应用目前提供12种热门舞蹈模板,包括科目三、蒙古舞、鬼步舞、DJ慢摇、划桨步、兔子舞等。

阿里巴巴通义实验室XR负责人薄列峰告诉界面新闻,全民舞王源自阿里通义千问团队去年9月发布的自研视频生成模型Animate Anyone,目标是做可控的人物视频生成。由于没有提供demo和源代码,外界一直无法感知其实际效果。

到了12月,该实验室在arxiv上公开了Animate Anyone的论文和主页,此后又把它集成到通义千问APP中。全民舞王由此成为Animate Anyone落地的首款产品

Animate与海外同类模型的性能对比结果。
Animate Anyone与其他视频生成模型的对比。

AI图片生成的应用已日臻成熟,但AI视频生成仍是大模型领域的难题之一。当前文生视频技术处在早期阶段,更不用说以图片来生成视频,这造成了图片-视频-3D模态落地难度依次增加的现状。

过往,视频生成方案在生成效果上饱受诟病,色彩、音频和字幕难以整体做到最优,视频的细粒度控制也一直做得不好。此外,之前一些驱动方案在以人为主题的视频生成中,无法同时保证泛化性和一致性的能力。所谓泛化性,是指模型不仅在训练数据上表现好,还能对未见过的新数据做出准确有效的预测。而一致性是指模型在处理同类问题的不同实例时,保持输出结果一致和稳定。

Animate Anyone延续了主流视频生成模型采取的扩散模型路线。这类模型被广泛运用到图像、视频生成领域,像OpenAI的DALLE-2、Stable Diffusion都是以扩散模型为基础。

为保证视频生成的一致性、稳定性和可控性,阿里团队采取了几项措施解决了可控视频存在的一些技术问题,包括ReferenceNet参考网络的引入,Pose Guider姿态引导器的使用,同时融合了一种时间建模方法。薄列峰称,这些技术可更好地实现对角色运动的控制,人物和表情细节的还原,以及视频帧间的流畅性。

此外,Animate Anyone还采用了分阶段训练策略,希望在不同阶段关注不同目标。这一思路在OpenAI训练ChatGPT时也有展现。

从全民舞王的呈现效果来看,相比同类的DisCo和谷歌推出的模特换装模型DreamPose,Animate Anyone在生成视频内容的连贯性上表现较好,例如能捕捉到原人物的衣服、头发、鞋子等细节,并适配到人物的体型上,但在处理一些背景复杂的图片时,难免出现幻影等问题。

纵观海内外整个AI视频生成领域,曾在去年底迎来突变,Runway Gen-2、Pika1.0、字节联合新加坡国立大学推出的Magic Animate、阿里Animate Anyone等黑马均有不错的表现。阿里内部也出现了几款与Animate Anyone撞形的可控视频生成模型,12月开源的可控视频生成框架DreaMoving是其中之一。 

需要指出的是,这些视频产品的快速涌现,源于去年一整年基础大模型的持续演进,而非一时的技术突破。

虚拟人公司慧夜科技CEO渠思源曾提到,优质基座大模型对动作生成等实际应用的指导价值超乎想象,在涉及动作衔接、融合时,大模型可以驱动神经网络帮助上层小模型做出非常合适的数据配比,以指导小模型更丝滑地完成动作状态切换,而这只需要接入大模型就可完成,甚至不需要了解小模型的具体细节。

数据资源则是保障视频生成效果的另一护城河。“当前动作生成视频的一大痛点在于3D高质量数据集的稀缺。”渠思源指出。

根据阿里团队公开的论文Animate Anyone是在5000个角色视频剪辑的内部数据集上训练而成。这样的数据量级显然有赖于互联网大厂多年积累的资源。

全民舞王是阿里云继妙鸭相机之后,在AIGC应用赛道的又一试探性动作,也符合全行业“卷应用”的趋势。薄列峰告诉界面新闻,全民舞王目前没有收费计划,未来会继续迭代算法,包括增加舞蹈类型、减少等待时长、表情更自然以及美颜美体

但和妙鸭一样,该应用很快会面临用户拉新留存难题。2023年7月上线的妙鸭相机原为9.9元收费版,当时吸引了大量用户花数个小时排队尝鲜。此后尽管妙鸭增加了免费版,也提供了更多人物模版,却始终没有找到真正可持续的应用场景。七麦数据显示,在iOS端,妙鸭相机已从去年高峰时的下载量第一,下滑至200名开外,已不计入统计。

而在妙鸭之前,有很多红极一时的现象级应用,如小咖秀、脸萌、魔漫相机、足记等等,都在瞬息万变的互联网市场中从爆火走向了没落。即使初期能迅速吸引大量用户使用,但因无法持续提供独特价值,难以适应市场需求变化和激烈的竞争,最终被新的应用潮流所取代。全民舞王想要解决“短命”魔咒并不容易。

通义千问团队上线的一键试衣模型Outfit Anyone

值得注意的是,全民舞王之外,通义千问团队基于Animate Anyone还上线了一款名为Outfit Anyone的一键试衣模型。用户给出一张模特图和衣服图片,就能实现上下装试穿。虽然偶尔出现视觉瑕疵,模特选择有限,这款模型或许会是马云所看重的“AI电商”的隐藏拼图之一。

未经正式授权严禁转载本文,侵权必究。

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

爆火的兵马俑跳“科目三”是如何做出来的?

AI生成视频产品的快速涌现,源于去年一整年基础大模型的持续演进,而非一时的技术突破。

图片来源:图虫创意

界面新闻记者 | 李京亚 徐诗琪

人类已经不满足于让AI把照片中的人物变得更美,还要让他们跟着音乐舞动起来。

近段时间以来,兵马俑和马斯克跳“科目三”的视频刷爆了朋友圈,也在微博上成为了热门词条。

这些由一张图片制成的舞蹈视频,来自阿里大模型应用通义千问APP最新上线的功能“全民舞王”。用户只需上传一张全身照(包括真人与动漫角色等),十分钟左右即可让照片中的主角跳上一小段热门舞蹈,包括科目三、蒙古舞、鬼步舞等等。这项功能目前免费,所生成的舞蹈视频大约在10秒左右,高于同类产品Runway Gen-2和Pika的4秒时限。

“全民舞王”应用目前提供12种热门舞蹈模板,包括科目三、蒙古舞、鬼步舞、DJ慢摇、划桨步、兔子舞等。

阿里巴巴通义实验室XR负责人薄列峰告诉界面新闻,全民舞王源自阿里通义千问团队去年9月发布的自研视频生成模型Animate Anyone,目标是做可控的人物视频生成。由于没有提供demo和源代码,外界一直无法感知其实际效果。

到了12月,该实验室在arxiv上公开了Animate Anyone的论文和主页,此后又把它集成到通义千问APP中。全民舞王由此成为Animate Anyone落地的首款产品

Animate与海外同类模型的性能对比结果。
Animate Anyone与其他视频生成模型的对比。

AI图片生成的应用已日臻成熟,但AI视频生成仍是大模型领域的难题之一。当前文生视频技术处在早期阶段,更不用说以图片来生成视频,这造成了图片-视频-3D模态落地难度依次增加的现状。

过往,视频生成方案在生成效果上饱受诟病,色彩、音频和字幕难以整体做到最优,视频的细粒度控制也一直做得不好。此外,之前一些驱动方案在以人为主题的视频生成中,无法同时保证泛化性和一致性的能力。所谓泛化性,是指模型不仅在训练数据上表现好,还能对未见过的新数据做出准确有效的预测。而一致性是指模型在处理同类问题的不同实例时,保持输出结果一致和稳定。

Animate Anyone延续了主流视频生成模型采取的扩散模型路线。这类模型被广泛运用到图像、视频生成领域,像OpenAI的DALLE-2、Stable Diffusion都是以扩散模型为基础。

为保证视频生成的一致性、稳定性和可控性,阿里团队采取了几项措施解决了可控视频存在的一些技术问题,包括ReferenceNet参考网络的引入,Pose Guider姿态引导器的使用,同时融合了一种时间建模方法。薄列峰称,这些技术可更好地实现对角色运动的控制,人物和表情细节的还原,以及视频帧间的流畅性。

此外,Animate Anyone还采用了分阶段训练策略,希望在不同阶段关注不同目标。这一思路在OpenAI训练ChatGPT时也有展现。

从全民舞王的呈现效果来看,相比同类的DisCo和谷歌推出的模特换装模型DreamPose,Animate Anyone在生成视频内容的连贯性上表现较好,例如能捕捉到原人物的衣服、头发、鞋子等细节,并适配到人物的体型上,但在处理一些背景复杂的图片时,难免出现幻影等问题。

纵观海内外整个AI视频生成领域,曾在去年底迎来突变,Runway Gen-2、Pika1.0、字节联合新加坡国立大学推出的Magic Animate、阿里Animate Anyone等黑马均有不错的表现。阿里内部也出现了几款与Animate Anyone撞形的可控视频生成模型,12月开源的可控视频生成框架DreaMoving是其中之一。 

需要指出的是,这些视频产品的快速涌现,源于去年一整年基础大模型的持续演进,而非一时的技术突破。

虚拟人公司慧夜科技CEO渠思源曾提到,优质基座大模型对动作生成等实际应用的指导价值超乎想象,在涉及动作衔接、融合时,大模型可以驱动神经网络帮助上层小模型做出非常合适的数据配比,以指导小模型更丝滑地完成动作状态切换,而这只需要接入大模型就可完成,甚至不需要了解小模型的具体细节。

数据资源则是保障视频生成效果的另一护城河。“当前动作生成视频的一大痛点在于3D高质量数据集的稀缺。”渠思源指出。

根据阿里团队公开的论文Animate Anyone是在5000个角色视频剪辑的内部数据集上训练而成。这样的数据量级显然有赖于互联网大厂多年积累的资源。

全民舞王是阿里云继妙鸭相机之后,在AIGC应用赛道的又一试探性动作,也符合全行业“卷应用”的趋势。薄列峰告诉界面新闻,全民舞王目前没有收费计划,未来会继续迭代算法,包括增加舞蹈类型、减少等待时长、表情更自然以及美颜美体

但和妙鸭一样,该应用很快会面临用户拉新留存难题。2023年7月上线的妙鸭相机原为9.9元收费版,当时吸引了大量用户花数个小时排队尝鲜。此后尽管妙鸭增加了免费版,也提供了更多人物模版,却始终没有找到真正可持续的应用场景。七麦数据显示,在iOS端,妙鸭相机已从去年高峰时的下载量第一,下滑至200名开外,已不计入统计。

而在妙鸭之前,有很多红极一时的现象级应用,如小咖秀、脸萌、魔漫相机、足记等等,都在瞬息万变的互联网市场中从爆火走向了没落。即使初期能迅速吸引大量用户使用,但因无法持续提供独特价值,难以适应市场需求变化和激烈的竞争,最终被新的应用潮流所取代。全民舞王想要解决“短命”魔咒并不容易。

通义千问团队上线的一键试衣模型Outfit Anyone

值得注意的是,全民舞王之外,通义千问团队基于Animate Anyone还上线了一款名为Outfit Anyone的一键试衣模型。用户给出一张模特图和衣服图片,就能实现上下装试穿。虽然偶尔出现视觉瑕疵,模特选择有限,这款模型或许会是马云所看重的“AI电商”的隐藏拼图之一。

未经正式授权严禁转载本文,侵权必究。