AI换脸、合成语音爆发式增长，清华发布《深度合成十大趋势报告》|界面新闻

文|智东西 ZeR0

编辑|漠影

智东西2月24日报道，近年来，视频换脸、合成语音、修复影像、虚拟数字人等越来越频繁的出现在社交娱乐、影视制作、教育、广告营销等领域，发展出多元化的商业应用。

这些应用的背后，是深度合成技术在发挥作用。

深度合成技术，是指用以深度学习、虚拟现实为代表的生成合成类算法，制作文本、图像、音频、视频、虚拟场景等信息的技术。

而在使用需求不断涌现的同时，部分恶意利用该技术生成的音视频，如篡改人脸的色情视频、伪造人脸视频破解身份核验等应用，不仅给个人、企业造成了声誉损害和财产损失，也对社会、国家安全造成威胁。

为了对人工智能和深度合成技术的健康发展提供参考和指引，清华大学人工智能研究院、北京瑞莱智慧科技有限公司、清华大学智媒研究中心、国家工业信息安全发展研究中心、北京市大数据中心近日联合发布《深度合成十大趋势报告（2022）》（以下简称《报告》）。

《报告》从技术研究、领域应用、发展趋势等多个方面，全面深入地介绍和研判深度合成技术及应用带来的机遇与挑战，并就其发展与治理给出切实可行的建议和措施。

01.落地多领域，深度合成内容迎爆发式增长

深度合成的图像、视频、音频、文本等内容，例如热门影视剧片段、话题明星的换脸视频等等，具有极强的娱乐性与传播性。

随着技术日臻成熟，越来越多创作者在互联网上发布和分享深度合成内容，数量逐年高速增长。

《报告》显示，在国内外主流音视频网站、社交媒体平台上，2021年新发布的深度合成视频数量较2017年已增长10倍以上。

其中，深度合成视频数量最多的类型是影视音乐，涉及电影、电视剧、音乐等内容；第二是科技教育，此类视频关注对深度合成技术的讲解和讨论，分享最新的研究成果等。排名第三到第五的视频类型分别是生活、娱乐和资讯类。

用流畅手语解说北京冬奥会谷爱凌夺冠的手语AI合成主播“小聪”、登上2021年央视春晚的虚拟偶像洛天依等虚拟数字人均应用了深度合成技术。

在影视制作领域，深度合成技术已经成为受劣迹艺人行为拖累的作品的救场工具，《长安十二时辰》、《光荣时代》等影视作品均采用这一技术。

与此同时，深度合成内容的关注度也呈指数级增长，通过对互动数据进行统计，2021年新发布的深度合成视频的点赞数已超过3亿。

此前“英国女王发表圣诞贺词”、“阿汤哥表演硬件魔术”等一系列深度合成视频曾火爆“出圈”，引发平台用户大量热讨。

瑞莱智慧CEO田天表示，研究论文的持续增加、开源技术工具和大量代表性方法的涌现，令深度合成内容的效果更加逼真、制作也更加高效，尤其是生成对抗网络（GAN）等算法的出现，让合成内容达到了“真假难辨”的程度。

相关数据显示，2017年以来深度合成领域的论文数量正持续增长。其中针对图像类生成视频的研究占比最高，达到64%，音频和文本占比分别为12%和24%。

一些面向公众开发的合成类产品也陆续推出，视频、语音和文本形式的服务最为普遍。

例如支持风格定制的特效视频制作软件等风靡网络；语音方向衍生出了语音导航、有声读物、自动新闻播报等应用；文本合成则在新闻报道、诗文创作、聊天问答等方面发挥着重要作用。

深度合成技术还极大地丰富了虚拟数字空间的信息内容，为“元宇宙”等新商业思维提供支撑。

阿里巴巴安全感知与认知智能部负责人薛辉说，比如虚拟人、数字人即是深度合成的主要应用，也是“元宇宙”的重要组成部分。

清华大学新闻与传播学院常务副院长陈昌凤认为，深度合成将重新定义虚拟数字化空间，从传播社会学意义上看，一个新的人类生存场景将以深度合成技术为基石展开。

02.风险加剧，技术检测成重要应对举措

深度合成激发了新内容创造力的同时，也带来了新的威胁。

2017年。名为“Deepfakes”的用户利用深度合成技术制作的成人视频在Reddit社区中疯狂传播，迫于公众舆论压力，Reddit网站将该用户封号。

该用户随即在全球最大代码开源平台GitHub上公开了实现该技术的源代码，瞬时引发了技术爱好者的广泛关注与讨论，并引爆了创造和丰富深度合成相关技术项目及代码的风潮。

统计数据显示，2017年以来，深度合成领域的开源项目发布数量持续增长。

以图像、音频、文本方向中具有代表性的5个开源项目（分别可实现面部替换、动作或表情操纵、图像生成、声音复刻、文本生成）为例，其Star数量在2021年均已突破1万。

随着技术普及，不法分子可轻易伪造音频、视频，实施诬陷、诽谤、诈骗、勒索等违法行为，甚至捏造国家政要言论扰乱社会与政治秩序。

例如在2018年4月，有技术团队制作了美国前总统奥巴马的换脸视频，视频中的假“奥巴马”骂当时任美国总统的特朗普是“彻头彻尾的白痴”。

2021年10月，安徽合肥警方曾查获一起非法利用深度合成技术伪造手机用户人脸动态视频破解身份核验，为黑灰产业提供注册虚拟手机卡等技术支撑的案件。近年来，类似事件开始更多的进入公众视野。

深度合成内容模糊了真实和虚假的边界，将对社会信任、媒体信任、政治信任产生巨大的影响。

陈昌凤认为，虚假内容的高难度甄别影响了事实核查的有效性，在社会重大事件或政治事件节点上，深度合成技术可能被用于操作舆论意见，借助社交媒体，使虚假信息短时间内引发产生病毒式扩散，激化社会矛盾。

负面风险不断加剧，如何有效甄别深度合成内容就成为了关键，但随着合成质量的不断提升，传统基于生物特征的鉴别方式越来越难发挥作用。

在浙江大学网络空间安全学院院长任奎看来，目前对深度合成的检测主要依赖于人工智能模型，依赖于训练数据的完备性，包括检测器泛用性低、公开数据集适用性、数据敏感等，这些都将带来诸多挑战。

中国工程院院士邬贺铨认为，深度合成的治理有两项要点。第一，要持续发展技术，不能“一刀切”地禁止，避免阻碍正向应用与创新。第二，衍生出的安全问题要从源头上解决，利用技术创新、技术对抗等方式，持续提升和迭代检测技术的能力。

田天也谈道，新型伪造方法层出不穷、网络传播环境的日趋复杂，加上基于检测算法存在漏洞缺陷等，反深伪检测技术面临“强对抗性”，需要持续更新与迭代。

《报告》显示，目前学术界和产业界均已对反深伪检测投入了大量研究，Meta、谷歌、微软等机构均推出了深度合成视频认证的方法或产品。

在国内，清华大学、中科大等高校在深度伪造内容检测方面取得显著成果。

清华大学孵化团队瑞莱智慧RealAI、腾讯优图实验室等企业机构已构建人脸合成检测平台并发布针对性的检测产品，支持对多种换脸方法进行检测。例如，瑞莱智慧推出的深度伪造内容检测平台DeepReal拥有工业级的检测性能和应对实网环境对抗变化的检测能力。

清华大学人工智能研究院基础理论研究中心主任朱军认为，深度合成检测面临持续的攻防和博弈，未来还需融合多模态内容的取证分析、基于数字水印的溯源技术等多方面能力，实现精准识别。

03.构建多维度治理机制，引导技术良性发展

深度合成技术的良性发展，离不开多维度治理机制的探索。

《报告》显示，除了发展深度伪造内容检测技术以外，近几年来，针对深度合成技术恶意使用所带来的挑战，世界各国纷纷出台相关法律法规，探索深度合成的治理路径。

国际方面，美国从联邦和州层面进行专门立法，欧盟将深度合成纳入《通用数据保护条例（GDPR）》等现有法律框架规制。此外，德国、新加坡、英国、韩国等国家，均有适用于深度合成技术相关犯罪案件审理的法律法规。

我国也在积极探寻有效的治理机制。

2019年11月起先后出台的《网络音视频信息服务管理规定》、《网络信息内容生态治理规定》、《中华人民共和国民法典》、《互联网信息服务算法推荐管理规定》，均对生成合成类内容等提出了不同程度的监管要求。

今年1月，国家网信办公布了《互联网信息服务深度合成管理规定（征求意见稿）》，对深度合成内容的用途、标记、使用范围以及滥用处罚作出了具体规定。

对于深度合成内容治理路径的探索，陈昌凤认为可以从技术、伦理与法制等几个方面努力，技术方面，通过政府与社会组织参与、协同治理；伦理方面，确立和倡导相关的深度合成原则。

中国社科院哲学所科技哲学研究室主任段伟文建议，对深度合成技术引发的社会、法律和伦理问题，应展开有系统性、前瞻性的跨学科研究，对其可能出现的高风险应用场景，进行有针对性的治理与监管。

中科院自动化所研究员、联合国教科文组织AI伦理特设专家组专家曾毅则倡导产研发展自律自治，在他看来，在法律法规不完全成熟及体系化之前，产业界自身应强化“理论先行”意识，作为产业共同体共同防范滥用、严禁恶用。

对外经济贸易大学法学院副教授许可谈道，社会层面应加大宣传普及力度，强化公民对深度合成等人工智能技术的认识，提高全社会的防范意识，推动公民作为负责任的深度合成技术的使用者，主动标识合成内容并积极践行社会监督。

对此，田天也有类似的观点，深度伪造的本质问题是透明度不足，因此提高公众对深度合成技术的认知尤为重要，只有将门槛降低到所有受众能够在共同的框架下去认识、讨论、理解这个问题的时候，深度合成技术才能健康良性发展。

04.结语：深度合成急需有法可依

总体来看，随着深度合成技术逐渐成熟，合成过程更加高效、内容更为逼真，越来越多的相关正向应用正产生丰富的商用价值。同时面对当前技术仍存在的不安全隐患，检测深度伪造的技术还需持续研究与迭代。

《报告》提出建议，监管部门需提前进行前瞻布局，在保护深度合成技术良性发展的基础上，制订针对不良深度合成引用的配套法规，管理条例；同时各方应与时俱进落实好新的规范要求，并在此前提下不断追求技术突破，不断开拓深度合成技术应用场景，创立示范标杆，形成对人工智能行业整体的带动效应，从而促进新技术的持续健康发展。

文|智东西 ZeR0

编辑|漠影

这些应用的背后，是深度合成技术在发挥作用。

深度合成技术，是指用以深度学习、虚拟现实为代表的生成合成类算法，制作文本、图像、音频、视频、虚拟场景等信息的技术。

01.落地多领域，深度合成内容迎爆发式增长

深度合成的图像、视频、音频、文本等内容，例如热门影视剧片段、话题明星的换脸视频等等，具有极强的娱乐性与传播性。

随着技术日臻成熟，越来越多创作者在互联网上发布和分享深度合成内容，数量逐年高速增长。

《报告》显示，在国内外主流音视频网站、社交媒体平台上，2021年新发布的深度合成视频数量较2017年已增长10倍以上。

用流畅手语解说北京冬奥会谷爱凌夺冠的手语AI合成主播“小聪”、登上2021年央视春晚的虚拟偶像洛天依等虚拟数字人均应用了深度合成技术。

在影视制作领域，深度合成技术已经成为受劣迹艺人行为拖累的作品的救场工具，《长安十二时辰》、《光荣时代》等影视作品均采用这一技术。

与此同时，深度合成内容的关注度也呈指数级增长，通过对互动数据进行统计，2021年新发布的深度合成视频的点赞数已超过3亿。

此前“英国女王发表圣诞贺词”、“阿汤哥表演硬件魔术”等一系列深度合成视频曾火爆“出圈”，引发平台用户大量热讨。

相关数据显示，2017年以来深度合成领域的论文数量正持续增长。其中针对图像类生成视频的研究占比最高，达到64%，音频和文本占比分别为12%和24%。

一些面向公众开发的合成类产品也陆续推出，视频、语音和文本形式的服务最为普遍。

深度合成技术还极大地丰富了虚拟数字空间的信息内容，为“元宇宙”等新商业思维提供支撑。

阿里巴巴安全感知与认知智能部负责人薛辉说，比如虚拟人、数字人即是深度合成的主要应用，也是“元宇宙”的重要组成部分。

02.风险加剧，技术检测成重要应对举措

深度合成激发了新内容创造力的同时，也带来了新的威胁。

2017年。名为“Deepfakes”的用户利用深度合成技术制作的成人视频在Reddit社区中疯狂传播，迫于公众舆论压力，Reddit网站将该用户封号。

统计数据显示，2017年以来，深度合成领域的开源项目发布数量持续增长。

随着技术普及，不法分子可轻易伪造音频、视频，实施诬陷、诽谤、诈骗、勒索等违法行为，甚至捏造国家政要言论扰乱社会与政治秩序。

例如在2018年4月，有技术团队制作了美国前总统奥巴马的换脸视频，视频中的假“奥巴马”骂当时任美国总统的特朗普是“彻头彻尾的白痴”。

深度合成内容模糊了真实和虚假的边界，将对社会信任、媒体信任、政治信任产生巨大的影响。

负面风险不断加剧，如何有效甄别深度合成内容就成为了关键，但随着合成质量的不断提升，传统基于生物特征的鉴别方式越来越难发挥作用。

《报告》显示，目前学术界和产业界均已对反深伪检测投入了大量研究，Meta、谷歌、微软等机构均推出了深度合成视频认证的方法或产品。

在国内，清华大学、中科大等高校在深度伪造内容检测方面取得显著成果。

03.构建多维度治理机制，引导技术良性发展

深度合成技术的良性发展，离不开多维度治理机制的探索。

我国也在积极探寻有效的治理机制。

历史搜索全部删除

热门搜索

AI换脸、合成语音爆发式增长，清华发布《深度合成十大趋势报告》

01.落地多领域，深度合成内容迎爆发式增长

02.风险加剧，技术检测成重要应对举措

03.构建多维度治理机制，引导技术良性发展

04.结语：深度合成急需有法可依

评论

AI换脸、合成语音爆发式增长，清华发布《深度合成十大趋势报告》

01.落地多领域，深度合成内容迎爆发式增长

02.风险加剧，技术检测成重要应对举措

03.构建多维度治理机制，引导技术良性发展

04.结语：深度合成急需有法可依