老黄的硬核“厨房”：一个构架搞定所有级别自动驾驶，A100 GPU性能提高20倍|界面新闻

文｜AutoR智驾诺一

英伟达再次带来了硬核“炸弹”。

在刚刚美国加利福尼亚州圣克拉拉举办的GTC 2020上，黄仁勋在自家厨房里完成了一系列产品发布。

这其中包括Orin系统级芯片（SoC）系列、A100 GPU、全新NVIDIA Ampere GPU、全新NVIDIA Isaac机器人平台以及定制对话式AI服务等。

具体来说，DRIVE AGX通过Xavier SoC和基于Turing架构GPU的各种组合，可以提供L2级以上自动驾驶至L5级全自动驾驶功能。

宝马工厂基于NVIDIA Isaac SDK开发的机器人，利用大量强大的深度神经网络，可以处理感知，分割，姿势估计和人体姿势估计，以感知其环境，检测物体，自动导航和移动物体。

而基于Jarvis构建的应用程序可以应用全新NVIDIA A100 Tensor Core GPU中的各项创新技术进行AI计算，使用最强大的视觉和语音模型运行整个多模态应用已成为可能，而且其速度比实时交互所需的300毫秒阈值还要快。

最强自动驾驶构架：每秒2000万亿次运算、性能提高了6倍

英伟达在自动驾驶领域再发力。

随着NVIDIA Ampere架构的推出，NVIDIA DRIVE平台得到了进一步的扩展，实现了从入门级ADAS解决方案到L5级自动驾驶出租车（Robotaxi）系统的全方位性能提升。

在本次GTC大会主题演讲中，NVIDIA创始人兼首席执行官黄仁勋宣布，通过即将推出的Orin系统级芯片（SoC）系列和全新NVIDIA Ampere GPU，对DRIVE AGX平台进行扩展。制造商能够通过单一架构部署高性能AI系统，使其产品阵容中的所有汽车都成为软件定义。

此次扩展的范围从NCAP 五星ADAS系统到DRIVE AGX Pegasus Robotaxi平台。

后者配备两个Orin SoC和两块NVIDIA Ampere GPU，可实现前所未有的每秒2000万亿次运算，超过上一代平台性能的6倍。

目前，DRIVE AGX通过Xavier SoC和基于Turing架构GPU的各种组合，提供L2级以上自动驾驶至L5级全自动驾驶功能。

DRIVE AGX Xavier具有30万亿次运算（ TOPS）性能，NVIDIA DRIVE AGX Pegasus平台的最大性能达到320 TOPS，可运行多个用于实时感知、规划与控制的冗余和不同深度神经网络。

此次推出的NVIDIA Ampere GPU以及即将问世的自带强大计算引擎的Orin处理器系列，将为一切移动物体提供计算性能，在进一步提升DRIVE平台性能的同时，还增加了一款入门级ADAS产品。

根据客户的要求，全新DRIVE AGX系列首先推出了一款新型Orin SoC，值得一提的是，它的功率仅为5瓦，但性能却可达到10 TOPS。

汽车制造商一般会为ADAS系统开发一种计算机系统，同时为更高级别的自动驾驶开发另一种系统，但多个系统的开发成本高昂。

在单一平台上，开发者仅用一种架构便能更轻松地为其所有细分市场开发自动驾驶技术。

由于DRIVE平台是软件定义且基于大型CUDA开发者社区，因此能够轻松且持续不断地获得无线更新。

在DRIVE AGX产品系列向入门级自动驾驶平台拓展的同时，NVIDIA Ampere架构也在进一步提升DRIVE平台的计算性能，赋力下一代DRIVE Pegasus Robotaxi自动驾驶平台。

该平台凭借两个Orin SoC和两块NVIDIA Ampere GPU，可实现2000 TOPS的性能，因此能够处理全自动驾驶出租车运行所需的更高分辨率传感器输入和更先进的自动驾驶深度神经网络。

该架构为NVIDIA第八代GPU提供了迄今为止最大的性能飞跃，将DRIVE系统的性能提高了6倍。

据悉，Orin SoC系列将于明年开始提供样品，在2022年下半年投入生产并向汽车制造商供应，为下一代可编程软件定义NVIDIA DRIVE AGX系列奠定基础。

自主AI物流机器人跑进宝马工厂

英伟达AI机器人重新定义宝马工厂物流管理。

在GTC上，宝马集团宣布已采用全新NVIDIA Isaac机器人平台对其车厂进行优化，利用先进的AI计算与可视化技术为其打造物流机器人。

此次合作重点围绕实施基于NVIDIA技术的端到端系统展开，采用基于软件架构开发、运行于NVIDIA开放式Isaac机器人软件平台的机器人，完成从训练、测试到部署的全过程。

宝马集团希望借此合作优化物流工厂的流程，以更快捷、更高效地生产定制化配置的汽车。

据悉，开发完成后，系统将在宝马集团全球范围内的工厂进行部署。

黄仁勋称，“宝马集团采用 NVIDIA Isaac机器人平台重塑其工厂物流管理流程是一次具有革命性意义的举动，利用在人工智能和机器人领域取得的突破进展，创造出下一个高度可定制、及时、有序的制造水平。”

宝马集团物流高级副总裁Jürgen Maidl表示：“宝马秉承着将选择权交给客户的原则，为不同客户提供针对各款车型，多样化功能的量身定制。要想在一条生产线上，生产更高质量、高度定制化的各款车型，需要端到端的先进计算解决方案。与NVIDIA的合作使我们能够推进当前工厂物流的未来发展，并最终让宝马集团的全球客户满意。”

此次合作将采用NVIDIA DGX AI系统和Isaac仿真技术对机器人进行训练和测试，采用NVIDIA光线追踪GPU对合成机器零件进行渲染，以此强化训练，并采用基于高性能NVIDIA Jetson和EGX edge计算机以及Isaac软件开发套件（SDK）构建的一组全新AI机器人。

目前，宝马工厂从4500个供应商那里接收数百万个零件，单一零件编号数量高达23万。

而随着宝马集团的汽车销售在过去10年中翻了一番，达到250万辆，这些数字还会持续增长，此外，宝马集团的车辆平均为客户提供100种不同的定制化选择，意味着99％的客户订单都各有差别，这些都为工厂物流带来了巨大挑战。

Maidl 表示：“大量定制化配置的需求从根本上来讲，在三个基础层面对宝马集团的生产带来了挑战，即计算、物流规划和数据分析。”

对此，使用NVIDIA的Isaac机器人平台开发五款具有AI功能的机器人，来改进物流工作流程，如用于自动运输物料的导航机器人、用于选择和整理零件的操控机器人，这些机器人都采用NVIDIA Jetson AGX Xavier和EGX 边缘计算机。

基于NVIDIA Isaac SDK开发的机器人，利用大量强大的深度神经网络，可以处理感知，分割，姿势估计和人体姿势估计，以感知其环境，检测物体，自动导航和移动物体。

这些机器人在真实数据和合成数据上进行训练，并使用NVIDIA GPU在各种光线和遮挡条件下渲染光线追踪机器部件，以增强真实数据。

然后，在NVIDIA DGX系统上，基于实际数据和合成数据来训练深度神经网络。接下来，这些机器人在NVIDIA的Isaac模拟器上进行导航和操控的连续测试，并运行于NVIDIA Omniverse虚拟环境中，在该环境中，多位来自不同地区的宝马集团员工都能够在同一个仿真环境中展开工作。

全新NVIDIA A100 GPU性能提高20倍、完成五大突破

英伟达刚刚宣布首款基于NVIDIA® Ampere架构的GPU —— NVIDIA A100已全面投产并已向全球客户交付。

A100采用了NVIDIA Ampere架构的突破性设计，该设计为NVIDIA第八代GPU提供了迄今为止最大的性能飞跃，集AI训练和推理于一身，并且其性能相比于前代产品提升了高达20倍。

作为一款通用型工作负载加速器，A100还被设计用于数据分析、科学计算和云图形。

黄仁勋表示：“云计算和AI的强大趋势正在推动数据中心设计的结构性转变，过去的纯CPU服务器正在被高效的加速计算基础架构所取代。NVIDIA A100 GPU作为一个端到端的机器学习加速器，其实现了从数据分析到训练再到推理20倍的AI性能飞跃。这是有史以来首次，可以在一个平台上实现对横向扩展以及纵向扩展的负载的加速。NVIDIA A100将在提高吞吐量的同时，降低数据中心的成本。”

A100所采用的全新弹性计算技术能够为每项工作分配适量的计算能力。多实例GPU技术可将每个A100 GPU分割为多达七个独立实例来执行推理任务，而第三代NVIDIA NVLink®互联技术能够将多个A100 GPU合并成一个巨大的GPU来执行更大规模的训练任务。

目前，NVIDIA A100 GPU的突破性技术设计来源于五大关键性创新：

第一：NVIDIA Ampere架构 - A100的核心是NVIDIA Ampere GPU架构，该架构包含超过540亿个晶体管，这使其成为全球最大的7纳米处理器。

第二：具有TF32的第三代Tensor Core核心 - NVIDIA广泛采用的Tensor Core核心现在已变得更加灵活、快速且易于使用。其功能经过扩展后加入了专为AI开发的全新TF32，它能在无需更改任何代码的情况下，使FP32精度下的AI性能提高多达20倍。此外，Tensor Core核心现在支持FP64精度，相比于前代，其为HPC应用所提供的计算力比之前提高了多达2.5倍。

第三：多实例GPU - MIG，一种全新技术功能，可将单个A100 GPU分割为多达七个独立的GPU，为不同规模的工作提供不同的计算力，以此实现最佳利用率和投资回报率的最大化。

第四：第三代NVIDIA NVLink - 使GPU之间的高速联接增加至原来的两倍，实现服务器的高效性能扩展。

第五：结构化稀疏 - 这种全新效率技术利用AI数学固有的稀疏性，使性能提升了一倍。

据悉，云服务供应商和系统构建商计划将A100 GPU集成到其产品中，其中包括：阿里云、AWS、Atos、百度智能云、思科、Dell Technologies、富士通、技嘉科技、Google Cloud、新华三、HPE、浪潮、联想、Microsoft Azure、甲骨文、Quanta/QCT、Supermicro和腾讯云。

Microsoft是首批采用NVIDIA A100 GPU的用户之一，计划充分利用其性能和可扩展性。

Microsoft公司副总裁Mikhail Parakhin表示：“Microsoft大规模应用前代NVIDIA GPU训练了全球最大的语言模型——Turing Natural Language Generation。Azure将使用NVIDIA 新一代A100 GPU训练更大型的AI模型，以推动语言、语音、视觉和多模态技术领域的最新发展。”

可以说，凭借这些新功能，NVIDIA A100成为了AI训练和推理以及科学模拟、对话式AI、推荐系统、基因组学、高性能数据分析、地震建模和金融预测等各种高要求工作负载的理想选择。

300毫秒，定制对话式AI服务

对话式AI将成为未来许多行业的关键核心。

英伟达为了让对话式AI更加普及推出GPU加速的应用框架——NVIDIA Jarvis。

该框架使企业能够根据自身所处行业、产品和客户的特点，使用视频和语音数据构建最为先进的定制化对话式AI服务。

首批采用Jarvis为客户提供对话式AI产品和服务的公司包括Voca、Kensho和Square。

NVIDIA创始人兼首席执行官黄仁勋表示：“随着应用程序具备了通过感知细微差别和上下文来理解和交流的能力，对话式AI将成为未来许多行业的关键核心。NVIDIA Jarvis能够帮助医疗、金融服务、教育和零售行业以快速和准确的方式为他们的客户提供自动化的支持服务。”

基于Jarvis构建的应用程序可以应用全新NVIDIA A100 Tensor Core GPU中的各项创新技术进行AI计算，并使用NVIDIA TensorRT™的最新优化进行推理。

现在，使用最强大的视觉和语音模型运行整个多模态应用已成为可能，而且其速度比实时交互所需的300毫秒阈值还要快。

Jarvis提供了一整套GPU加速软件堆栈和工具，使开发者能够轻松地创建、部署和运行端到端的实时AI应用程序，并且能够准确理解各企业及其客户沟通时所用的各种专业术语。

IDC AI软件平台研究总监David Schubmehl表示：“ 根据IDC的统计，对话式AI市场持续保持着快速增长的速度，这主要是因为各大小规模的企业机构都已开始意识到，使用经过训练的虚拟助手和聊天机器人能够帮助他们为客户提供服务，拓展业务价值。IDC预计，全球范围内，自动客户服务代理和数字助理等对话式AI用例的支出投入将从2019年的58亿美元增长至2023年的138亿美元，复合年增长率将达24%。”

Jarvis通过为对话式AI提供端到端的深度学习方案来解决这些难题。该产品包括先进的深度学习模型，例如用于自然语言理解的NVIDIA Megatron BERT等。

企业可以使用NVIDIA NeMo，基于他们自己的数据对这些模型进行进一步的微调，使用TensorRT进行推理优化，并且使用NGC（NVIDIA GPU优化的软件目录）上的Helm图表在云和边缘进行部署。