视频会议卡成PPT？这套AI算法要帮用户化解这种尴尬

记者 | 袁伟腾

新冠疫情期间，人们更多地在网络上进行视频通话和会议。当通话进行时，模糊、卡顿、跳帧的现象却在网速不佳的情况下经常发生。英伟达（Nvidia）开发的一项新技术有望能够解决这些问题，为用户带来更为流畅的“云办公”体验。

近日，英伟达宣布为开发者推出一款名为Nvidia Maxine的新视频会议平台。据英伟达官方网站消息，通过搭载神经元网络与人工智能技术，Maxine能够更高效地处理通话过程中所生成的数据，将同等清晰度视频通话的宽带要求“降低到H.264流媒体视频压缩标准要求的十分之一”，并在同等网络条件下生成更清晰、流畅的视讯影像。

在英伟达公布的一项演示中，视频通话所需数据速率在使用Maxine后从97.28KB/骤降至0.1165KB/帧——节省了近99.9%的数据传输量。英伟达称，Maxine技术在未来将会进一步降低通话过程中的流量消耗。

“通过AI技术，我们能够为用户提供更好的视频通话体验。即使是在网络不佳的条件下，通话质量也能获得明显提升。”一位英伟达的技术人员评价。

新算法背后的原理简单易懂。据研究人员介绍，系统会首先捕捉通话者的静态面部照片，以此为参考，软件不必再将整个视频的像素进行流式传输，只需要分析通话中每个人的关键面部点，便可以在另一边的视频中智能重现面部。英伟达高级产品总监安德鲁·佩奇（Andrew Page）称，他们的解决方案的本质是将带宽问题变成算力问题，相比于增加带宽，增加算力无疑更为容易。

该技术在机器学习中采用了一种名为“对抗生成网络”（generative adversarial network，GANs）的工具，它的原理是让两个神经网络相互竞争，以生成与原始图像高度吻合的虚假图像。GANs能够有效地减少机器学习中所配置的人力资源，大幅提升机器的学习效率。GANs近年来在人工智能及深度学习等领域获得广泛应用，去年风靡一时的DeepFake软件也采用了这项技术。

通过GANs，Maxine能够使用静态照片与面部关键点重建人物面部，智能地调整通话者的面部朝向。“我们能在一定角度内重构通话者的视觉影像，”研究人员表示，“我们相信这能让用户在网络上的交流更加自然。”

Maxine并非一个直接面向消费者的软件，而是提供给第三方公司用以升级自家的视频通话系统。据英伟达官网显示，除了网络优化以外，Maxine还能为开发者提供视频清晰度提升、噪音消除、实时翻译、字幕转录等功能。

Maxine现已投入使用。此前，英伟达宣布与通信公司Avaya达成合作协议，后者将使用Maxine的部分功能，优化旗下多合一视频会议和协作应用程序Avaya Spaces的用户体验。

记者 | 袁伟腾

“通过AI技术，我们能够为用户提供更好的视频通话体验。即使是在网络不佳的条件下，通话质量也能获得明显提升。”一位英伟达的技术人员评价。

历史搜索全部删除

热门搜索

视频会议卡成PPT？这套AI算法要帮用户化解这种尴尬 | 硬科技

英伟达

评论

视频会议卡成PPT？这套AI算法要帮用户化解这种尴尬 | 硬科技