正在阅读:

一文看尽谷歌年度AI盛会:首用AI生成超分辨率视频,公布1000种语言计划

扫一扫下载界面新闻APP

一文看尽谷歌年度AI盛会:首用AI生成超分辨率视频,公布1000种语言计划

从高效生成到预防灾害,AI正带来越来越多积极的影响。

文|智东西 ZeR0

编辑|漠影

智东西11月3日报道,昨晚,谷歌举办人工智能(AI)年度活动,并公布多项AI研究进展,包括用AI生成具有难以置信的真实性的视频、文字、图像、音频,以及用AI预防洪水、野火等自然灾害,解决社会面临的重大挑战。

同时,谷歌宣布推出“一千种语言计划”,其语言模型将支持全球1000种最常用语言的模型,让更多语种受益于AI。

01.AI准确理解文字描述,生成超分辨率视频

生成式AI已经成为高效生成文本、代码、音频、图像和视频的强大工具。

今夏早些时候,谷歌介绍了两种AI生成图像模型Imagen和Parti,它们都能从文本提示生成图像。随后谷歌又公布两种互补的研究方法Phenaki和Imagen Video,能根据文本生成短视频。

其中,Phenaki可以随着文本描述(prompts)的时间变化,生成长达数分钟的连贯视频;Imagen Video是应用于视频序列的扩散模型,在文本理解方面建立在大型Transformer语言模型之上,在高保真图像生成方面依赖于扩散模型,因此兼具高逼真度和极强的语言理解能力。

谷歌Imagen Video和Phenaki团队一直在合作制作AI生成的超级分辨率视频,将Imagen Video和Phenaki模型结合起来时,能得到两全其美的结果:在帧级的超级分辨率和时间上的一致性。

02.写小说、3D合成、音频生成,AI样样在行

除了从文本生成视频外,谷歌也分享了其用于协作的可控文本生成项目LaMDA Wordcraft,可帮助产生一些新的想法或重写句子,来为作家提供协作灵感。

为了测试LaMDA Wordcraft的能力,谷歌与专业作家合作组成研讨会,让他们使用探索写作的文本生成项目Wordcraft编辑器来创作一卷短篇小说,来试验AI文本生成的能力。

在从文本到3D合成方面,谷歌研发了一个预训练的2D文本到图像的扩散模型DreamFusion。给定一个描述生成,DreamFusion就能生成具有高保真外观、深度和法线且能够在不同光照条件下进行渲染的3D模型。

在音频生成方面,谷歌有一个全新的音频生成框架AudioLM。这是一个纯音频模型,在没有任何文字或音乐符号表示的情况下进行训练,可以只根据简短的音频样本学习生成逼真的、高质量的语音和音乐。

谷歌还宣布推出第二代AI Test Kitchen,为人们提供一个了解、体验和反馈其新兴生成性AI技术的途径。第二代AI Test Kitchen将通过两个演示来进一步展示从文本到图像的生成。

第一个演示是“城市梦想家”(City Dreamer),它使用谷歌对话引擎LaMDA和谷歌的图像模型组合,使用户能快速构建个性化的城市景观;第二个演示叫“Wobble”,使用谷歌的图像模型LaMDA和谷歌最新的2D-3D休闲动画技术,可以创造能移动、跳舞的友好怪物。

这些体验将在AI Test Kitchen中陆续登陆,用户可从Play Store或App Store获得该应用,并开始使用LaMDA。

03.推出“一千种语言计划”让AI助攻全球语言

语言是人们互相交流和理解周围世界的核心介质。2017年,谷歌开发了Transformer语言模型,它被视作所有现代语言模型的“鼻祖”,此后谷歌一直专注于具有突破性的语言模型研究,诸如谷歌翻译等应用已经支持几百种语言,谷歌还宣布新增对24种语言的支持。

但这些仍然远远不够。世界上有超过7000种语言,而目前互联网只能很好地支持其中一小部分。

为了向全球更广泛的地区提供基于AI的语言技术,谷歌推出“一千种语言计划”,以支持全球1000种最常用语言的模型。谷歌将这比作“登月行动”,希望以此为世界各地边缘化群体的数十亿人带去更大的包容性。

这个计划覆盖了谷歌长期在多模态、与更多语言群体合作等方面的努力。当前谷歌在研究更先进的模型,能直接处理基于语言的信息,跨越图像、视频和语音等多种模态。

例如,谷歌已经开发了一个通用语言模型(Universal Speech Model),它支持400多种语言,是迄今覆盖语种最多的语言模型。

谷歌正与世界各地的语言群体合作,以获得语言数据,最近宣布在Gboard上支持另外9种非洲语言的语音输入,并在南亚积极收集所有方言和语言的代表性音频样本。

与此同时,谷歌计划在YouTube、GBoard、Translate等产品中改进语言支持,方便人们基于不同语种使用这些技术,并找到相关内容。

04.AI预警洪水,能精确大约100米的范围

洪水每年在世界各地夺走数以万计的生命,造成数十亿美元的损失。而可靠的早期预警系统已被证明可减少43%的死亡、35-50%的经济损失。

谷歌早在2017年就启动洪水预测项目,通过引入AI技术,为人们提供准确而详细的警报,以抵御每年洪水带来的灾难性损失。谷歌洪水预测系统能告诉人们哪些地区将受到影响,以及每个点位的水深是多少,可精确到大约100米的范围,即大概精确到一个村庄或一个社区。

人们能直接在谷歌地图(Google Maps)上看到这些信息,及时做出响应。

此前该系统主要用在印度和孟加拉国。去年,谷歌向印度和孟加拉国的2300万人发送了1.15亿条有关洪水的通知,并引导他们关注Google Search和Maps上的洪水预警。在谷歌的支持下,耶鲁大学经济增长研究中心进行的初步研究表明,其通知使收到洪水预警的人数增加了2倍,采取保护行动的人数也增加了3倍。

借助迁移学习AI技术,谷歌宣布该系统将扩展到18个新的国家,包括巴西、哥伦比亚、斯里兰卡、布基纳法索、喀麦隆、乍得、刚果民主共和国、象牙海岸、加纳、几内亚、马拉维、尼日利亚、塞拉利昂、安哥拉、南苏丹、纳米比亚、利比里亚、南非等。

此外,谷歌还在全球范围内推出新的模型Google FloodHub,该平台可以显示洪水可能发生的时间和地点。

05.实时火灾追踪,及时扑救野火

因气候变化,野火近年来持续恶化。每年,野火造成的损失高达26亿美元,并产生约2千兆吨的二氧化碳排放。

谷歌野火团队使用卫星图像来训练机器学习模型,使其能从空间和时间的维度去识别野火,并及时告知其用户野火发生的地点。其野火追踪项目已在澳大利亚、美国、加拿大和墨西哥上线。

目前谷歌正在研究的3个模型:

1、实时火灾追踪:其模型可实时识别现有火灾的范围。该模型自2021年11月在澳大利亚的Google SOS警报上推出,2022年7月在美国、加拿大和墨西哥的Google SOS警报上推广。

2、火灾蔓延预测:该模型旨在预测现有的火灾将如何演变,以便为正在进行野火扑救的小组提供如蔓延方向预测等的业务信息。

3、早期野火探测:此模型能在火灾出现后不久就发现火灾,以便在火势失控前通知有关部门。

06.为产妇和视网膜疾病筛查带来福音

面向医疗健康,谷歌正通过引入AI技术,帮助呵护产妇健康和加强糖尿病视网膜病变等眼部疾病问题的筛查。

上个月,谷歌在国际学术顶刊Nature的子刊Nature Communications Medicine上发表了一篇论文,展示了AI如何帮助读取和分析低成本超声设备的数据。这可以向准父母提供他们所需的信息,以便其在孕期更早地发现问题。

此外,谷歌还与美国西北大学医学院合作开发AI,协助护士和助产士轻松地收集和解释超声图像。该工具有能力确定胎儿的位置和胎龄,而且可以在没有网络连接的设备上运行,对医护人员在怀孕早期发现问题很有帮助。

与此同时,谷歌也在加强眼科筛查计划,利用其自动视网膜疾病评估工具(ARDA)开展了大量工作,已经成功筛查了超15万名患者,其中有超过一半的筛查是今年完成的。

谷歌还在开发用手机监测呼吸和心率的技术。

07.结语:致力于研发负责任的AI

推进AI研究的旅程中,在帮助人们解决重要现实问题的同时,谷歌一向对道德约束和社会影响非常谨慎。

在本次年度AI活动上,谷歌也再度重申了对负责任的AI的重视,强调如果在没有任何原则或道德指导的情况下开发生成式AI技术,这可能带来很大风险,比如被恶意行为者利用去做坏事。

因此,谷歌研究团队正积极地将谷歌AI原则(Google AI Principles)融入其中,尤其注重3个关键方面:

1、“可控”:确保制造的工具有益于人类,模型和项目需要适当的人为控制,以确保用户安全,例如文本生成图像模型使用了保障数据集来防止生成有害的图像。

2、制造能够检测生成式AI的工具:谷歌在AudioLM项目中训练了一个分类器,能以近99%的准确率检测合成语音。

3、与世界各地的社区积极合作:开源对于谷歌来说是很重要的一部分,谷歌计划制定一套开源政策,以适应其AI原则。谷歌还在积极与艺术家和创作者等合作。

本文为转载内容,授权事宜请联系原著作权人。

谷歌

5.4k
  • 欧盟根据《数字市场法案》对苹果、谷歌和Meta启动调查,苹果、谷歌回应
  • 欧盟就苹果、谷歌和Meta是否遵守《数字市场法案》启动全面调查

评论

暂无评论哦,快来评价一下吧!

下载界面新闻

微信公众号

微博

一文看尽谷歌年度AI盛会:首用AI生成超分辨率视频,公布1000种语言计划

从高效生成到预防灾害,AI正带来越来越多积极的影响。

文|智东西 ZeR0

编辑|漠影

智东西11月3日报道,昨晚,谷歌举办人工智能(AI)年度活动,并公布多项AI研究进展,包括用AI生成具有难以置信的真实性的视频、文字、图像、音频,以及用AI预防洪水、野火等自然灾害,解决社会面临的重大挑战。

同时,谷歌宣布推出“一千种语言计划”,其语言模型将支持全球1000种最常用语言的模型,让更多语种受益于AI。

01.AI准确理解文字描述,生成超分辨率视频

生成式AI已经成为高效生成文本、代码、音频、图像和视频的强大工具。

今夏早些时候,谷歌介绍了两种AI生成图像模型Imagen和Parti,它们都能从文本提示生成图像。随后谷歌又公布两种互补的研究方法Phenaki和Imagen Video,能根据文本生成短视频。

其中,Phenaki可以随着文本描述(prompts)的时间变化,生成长达数分钟的连贯视频;Imagen Video是应用于视频序列的扩散模型,在文本理解方面建立在大型Transformer语言模型之上,在高保真图像生成方面依赖于扩散模型,因此兼具高逼真度和极强的语言理解能力。

谷歌Imagen Video和Phenaki团队一直在合作制作AI生成的超级分辨率视频,将Imagen Video和Phenaki模型结合起来时,能得到两全其美的结果:在帧级的超级分辨率和时间上的一致性。

02.写小说、3D合成、音频生成,AI样样在行

除了从文本生成视频外,谷歌也分享了其用于协作的可控文本生成项目LaMDA Wordcraft,可帮助产生一些新的想法或重写句子,来为作家提供协作灵感。

为了测试LaMDA Wordcraft的能力,谷歌与专业作家合作组成研讨会,让他们使用探索写作的文本生成项目Wordcraft编辑器来创作一卷短篇小说,来试验AI文本生成的能力。

在从文本到3D合成方面,谷歌研发了一个预训练的2D文本到图像的扩散模型DreamFusion。给定一个描述生成,DreamFusion就能生成具有高保真外观、深度和法线且能够在不同光照条件下进行渲染的3D模型。

在音频生成方面,谷歌有一个全新的音频生成框架AudioLM。这是一个纯音频模型,在没有任何文字或音乐符号表示的情况下进行训练,可以只根据简短的音频样本学习生成逼真的、高质量的语音和音乐。

谷歌还宣布推出第二代AI Test Kitchen,为人们提供一个了解、体验和反馈其新兴生成性AI技术的途径。第二代AI Test Kitchen将通过两个演示来进一步展示从文本到图像的生成。

第一个演示是“城市梦想家”(City Dreamer),它使用谷歌对话引擎LaMDA和谷歌的图像模型组合,使用户能快速构建个性化的城市景观;第二个演示叫“Wobble”,使用谷歌的图像模型LaMDA和谷歌最新的2D-3D休闲动画技术,可以创造能移动、跳舞的友好怪物。

这些体验将在AI Test Kitchen中陆续登陆,用户可从Play Store或App Store获得该应用,并开始使用LaMDA。

03.推出“一千种语言计划”让AI助攻全球语言

语言是人们互相交流和理解周围世界的核心介质。2017年,谷歌开发了Transformer语言模型,它被视作所有现代语言模型的“鼻祖”,此后谷歌一直专注于具有突破性的语言模型研究,诸如谷歌翻译等应用已经支持几百种语言,谷歌还宣布新增对24种语言的支持。

但这些仍然远远不够。世界上有超过7000种语言,而目前互联网只能很好地支持其中一小部分。

为了向全球更广泛的地区提供基于AI的语言技术,谷歌推出“一千种语言计划”,以支持全球1000种最常用语言的模型。谷歌将这比作“登月行动”,希望以此为世界各地边缘化群体的数十亿人带去更大的包容性。

这个计划覆盖了谷歌长期在多模态、与更多语言群体合作等方面的努力。当前谷歌在研究更先进的模型,能直接处理基于语言的信息,跨越图像、视频和语音等多种模态。

例如,谷歌已经开发了一个通用语言模型(Universal Speech Model),它支持400多种语言,是迄今覆盖语种最多的语言模型。

谷歌正与世界各地的语言群体合作,以获得语言数据,最近宣布在Gboard上支持另外9种非洲语言的语音输入,并在南亚积极收集所有方言和语言的代表性音频样本。

与此同时,谷歌计划在YouTube、GBoard、Translate等产品中改进语言支持,方便人们基于不同语种使用这些技术,并找到相关内容。

04.AI预警洪水,能精确大约100米的范围

洪水每年在世界各地夺走数以万计的生命,造成数十亿美元的损失。而可靠的早期预警系统已被证明可减少43%的死亡、35-50%的经济损失。

谷歌早在2017年就启动洪水预测项目,通过引入AI技术,为人们提供准确而详细的警报,以抵御每年洪水带来的灾难性损失。谷歌洪水预测系统能告诉人们哪些地区将受到影响,以及每个点位的水深是多少,可精确到大约100米的范围,即大概精确到一个村庄或一个社区。

人们能直接在谷歌地图(Google Maps)上看到这些信息,及时做出响应。

此前该系统主要用在印度和孟加拉国。去年,谷歌向印度和孟加拉国的2300万人发送了1.15亿条有关洪水的通知,并引导他们关注Google Search和Maps上的洪水预警。在谷歌的支持下,耶鲁大学经济增长研究中心进行的初步研究表明,其通知使收到洪水预警的人数增加了2倍,采取保护行动的人数也增加了3倍。

借助迁移学习AI技术,谷歌宣布该系统将扩展到18个新的国家,包括巴西、哥伦比亚、斯里兰卡、布基纳法索、喀麦隆、乍得、刚果民主共和国、象牙海岸、加纳、几内亚、马拉维、尼日利亚、塞拉利昂、安哥拉、南苏丹、纳米比亚、利比里亚、南非等。

此外,谷歌还在全球范围内推出新的模型Google FloodHub,该平台可以显示洪水可能发生的时间和地点。

05.实时火灾追踪,及时扑救野火

因气候变化,野火近年来持续恶化。每年,野火造成的损失高达26亿美元,并产生约2千兆吨的二氧化碳排放。

谷歌野火团队使用卫星图像来训练机器学习模型,使其能从空间和时间的维度去识别野火,并及时告知其用户野火发生的地点。其野火追踪项目已在澳大利亚、美国、加拿大和墨西哥上线。

目前谷歌正在研究的3个模型:

1、实时火灾追踪:其模型可实时识别现有火灾的范围。该模型自2021年11月在澳大利亚的Google SOS警报上推出,2022年7月在美国、加拿大和墨西哥的Google SOS警报上推广。

2、火灾蔓延预测:该模型旨在预测现有的火灾将如何演变,以便为正在进行野火扑救的小组提供如蔓延方向预测等的业务信息。

3、早期野火探测:此模型能在火灾出现后不久就发现火灾,以便在火势失控前通知有关部门。

06.为产妇和视网膜疾病筛查带来福音

面向医疗健康,谷歌正通过引入AI技术,帮助呵护产妇健康和加强糖尿病视网膜病变等眼部疾病问题的筛查。

上个月,谷歌在国际学术顶刊Nature的子刊Nature Communications Medicine上发表了一篇论文,展示了AI如何帮助读取和分析低成本超声设备的数据。这可以向准父母提供他们所需的信息,以便其在孕期更早地发现问题。

此外,谷歌还与美国西北大学医学院合作开发AI,协助护士和助产士轻松地收集和解释超声图像。该工具有能力确定胎儿的位置和胎龄,而且可以在没有网络连接的设备上运行,对医护人员在怀孕早期发现问题很有帮助。

与此同时,谷歌也在加强眼科筛查计划,利用其自动视网膜疾病评估工具(ARDA)开展了大量工作,已经成功筛查了超15万名患者,其中有超过一半的筛查是今年完成的。

谷歌还在开发用手机监测呼吸和心率的技术。

07.结语:致力于研发负责任的AI

推进AI研究的旅程中,在帮助人们解决重要现实问题的同时,谷歌一向对道德约束和社会影响非常谨慎。

在本次年度AI活动上,谷歌也再度重申了对负责任的AI的重视,强调如果在没有任何原则或道德指导的情况下开发生成式AI技术,这可能带来很大风险,比如被恶意行为者利用去做坏事。

因此,谷歌研究团队正积极地将谷歌AI原则(Google AI Principles)融入其中,尤其注重3个关键方面:

1、“可控”:确保制造的工具有益于人类,模型和项目需要适当的人为控制,以确保用户安全,例如文本生成图像模型使用了保障数据集来防止生成有害的图像。

2、制造能够检测生成式AI的工具:谷歌在AudioLM项目中训练了一个分类器,能以近99%的准确率检测合成语音。

3、与世界各地的社区积极合作:开源对于谷歌来说是很重要的一部分,谷歌计划制定一套开源政策,以适应其AI原则。谷歌还在积极与艺术家和创作者等合作。

本文为转载内容,授权事宜请联系原著作权人。