全球首个 3D 版 AI 合成主播亮相，“新小微”揭开智慧主持序幕|界面新闻

文|AI报道

“大家好，我叫新小微，是由新华社联合搜狗公司推出的全球首位3D版AI合成主播，我将为大家带来全新的新闻资讯体验。”

近日，3D AI合成主播“新小微”正式亮相。一身蓝白色正装的“她”款款走进虚拟演播室，做手势、做表情、换装，无一不能。这是新华社AI合成主播家族的又一成员，也是全球第一个实现上述功能的3D AI合成主播。

3D AI合成主播上岗

AI合成主播已经不是“新物种”了，此前，仅新华社AI合成主播家族就早有多名成员，如“新小浩”、“新小萌”等。他们一次次刷新着记录：全球首位AI合成主播、站立式AI合成主播、AI合成女主播、俄语AI合成主播……

本次亮相的“新小微”与前辈们最大的不同在于3D特性。“新小微”以新华社记者赵琬微为原型，基于超写实3D数字人建模，立体、灵活。项目负责人称：“前一代AI合成主播只能在坐姿或站姿下做一些简单的手势。‘新小微’不仅能走动和转身，还能摆出各种复杂动作和姿态，灵活性大大提升了。”另外，“新小微”还能同时支持多机位多景深，360°任意角度呈现内容。

此外，“新小微”的外形也比前辈们更加逼真，特写镜头推近皮肤时，甚至可以看到头发丝和毛孔都栩栩如生。另外，“新小微”还能根据场景和新闻报道的要求变换发型和妆容。

表情上，“新小微”不再只是“职业假笑”，而是增加了许多微表情，这使她更加富有“人情味儿”。

作为人工智能驱动的合成主播，“新小微”实现了功能持续自我更迭。

很快，“新小微”就会正式上岗，只要输入文本内容就能进行新闻播报，并生成配套的表情、肢体动作等，最终形成量化生成视频。未来，“她”还有望走出演播厅，在更多场景下进行新闻播报。

“黑科技”生成新一代主播

在“新小微”的背后，是不断发展的人工智能技术。

第一步是海量数据的扫描采集。赵琬微佩戴着数据采集头盔，由几百个摄像头以及数据采集头盔从不同方位对合成主播的原型赵琬微的各身体部位进行全方位“打点”扫描，以采集每一处细节，并对其多种形态的表情和动作进行细致入微地捕捉、记录。

随后，搜狗根据顶尖扫描还原算法及面部肌肉驱动、表情肢体捕捉等技术，生产出高度还原真人皮肤、形象极度逼真的3D数字人模型。

第三步是通过多模态生成算法实时驱动、渲染构建出3D数字人物模型，实现表情唇动、肢体动作和语言表达的高度契合。

项目负责人介绍称：“就像拼乐高一样，我们对‘新小微’的各个部位和表情进行了模块化处理，然后重新组装。”

与大多数3D合成形象不同的是，“新小微”不依靠真人驱动，而是以AI算法实时驱动，仅需要输入文本，就能生成相应的语音、表情、唇动、肢体动作等，这给了它更高的自由度。

AI虚拟主持人发展史

作为把前辈们拍在沙滩上的“后浪”，“新小微”能够做到今天的逼真程度，离不开一代代“前浪”的技术积累。

若要追溯至世界首个虚拟主持人，2001年英国就推出了阿娜诺娃，用于播报新闻、体育、天气等。此后，日本推出了寺井有纪(Yuki），中国推出了歌手虚拟主持人阿拉娜（Alana），美国推出了薇薇安（Vivian），韩国推出了露西雅（Lusia），中国更是专门推出了虚拟主持人小龙，主持了央视CCTV-6频道的《光影周刊》栏目，标志着CG技术走向消费级。

虚拟主持人融入AI技术则是在2016年。一位自称“超级AI”的虚拟主播绊爱（kizunaai）在YouTube上亮相，在形象、语音、动作等方面都明显胜过早期虚拟主持人。绊爱是由真人扮演而成的AI主播，真人穿上动捕设备后，就能在背后控制绊爱的面部动态表情及动作，再由声优去配音及对口型，最终形成视频。

2016年也是人工智能的爆发年。除了举世瞩目的AlphaGo击败世界冠军李世石事件外，其他人工智能技术也在同年爆发，如科大讯飞、搜狗、百度先后召开发布会，对外公布语音识别准确率均达到97%，这正是虚拟主持人的技术基础。

2018年5月，科大讯飞与相芯科技共同打造了以主持人康辉为原型的虚拟主持人“康晓辉”，为这个行业引入了虚拟形象生成技术（PTA）。这让人们不再需要特别定制3D虚拟形象，只需普通摄像头和一张自拍，就可实时生成与自己相似的3D虚拟形象。

2018年11月，搜狗和新华社联合推出全球首个AI合成主播“小浩”，这也是新华社AI合成主播主持人天团的首位“选手”。“新小浩”至今已在新华社客户端上持续为观众服务 500 多天，先后产出 13000 多条新闻报道，累计时长超过 35000 分钟。

随后，AI合成主播团队进入了快速扩容期：2019央视网络春晚推出AI虚拟主持人团队；同年两会期间，新华社推出AI虚拟主播“新小萌”，人民日报推出AI虚拟主播“小晴”；同年五一期间，北京电视台推出AI虚拟主播“小萌花”“小萌芽”，央视五四晚会推出AI虚拟主播“小灵”……

在此期间，AI虚拟主持人从坐着播新闻到有了肢体动作，从单语种到多语种，定制周期也不断缩短，需要录取的数据已减少到几个小时的视频资料。如今，他们又从2D进化到了3D。

在给观众带来全新的视听体验的同时，AI虚拟主持人也给真实的主持人带来了新的挑战。第一代AI合成主播原型邱浩就曾经感慨：“一个真实的主播，要向世人去宣告，这样一个合成主播有多么的强大，简直虐心啊！我觉得这需要非常强大的勇气！”

AI虚拟主持人会取代真实的主持人吗？他们还将给主持界带来哪些新花样？让时间来告诉我们答案。