【视频】号称“全球首家”端到端自动驾驶，是噱头吗？|界面新闻

文|硅谷密探

拒绝传感器，拒绝高精地图，拒绝人工设计的专家规则。来自英国的初创企业Wayve向自动驾驶业界发出了自己的挑战。

2019年3月22日，诞生不满两年的Wayve向外界发布了他们的自动驾驶Demo视频，宣称自己成为了“全球首个”掌握端到端自动驾驶技术，摆脱高精地图，让车辆在它从未见过的道路上行驶的企业。

Wayve的两位创始人Alex Kendall和Amar Shah均博士毕业于剑桥大学机器学习研究组，在语意分割、贝叶斯概率深度学习模型和端到端自动驾驶领域均有不少建树。

去年，他们共同发布的论文《一天学会开车》（你没看错，这篇论文的名字就是《一天学会开车》，Learning to drive in a day）就被机器学习领域顶级会议NeurIPS大会接收，并进行口头报告，这次发布的Demo也正构建于这篇论文之上。

Wayve的自动驾驶试验车和两位创始人，左为Alex Kendall，右为Amar Shah

在这段Demo视频里，Wayve宣称，自己的自动驾驶汽车仅靠摄像头和民用级别的GPS就能实现完全的自动驾驶。

除此之外，Wayve不需要任何手工设计的行驶规则，而是全面迎接AI的掌控，借助“贝叶斯神经网络”就能完成从感知端到控制端“端到端”（end-to-end）的自动驾驶体系。

看它们发布的Demo视频，你就知道了。

端到端VS现有自动驾驶技术

首先，来普及下到底什么是“端到端”（end-to-end）自动驾驶。

端到端其实是深度学习中的一个概念，运用到自动驾驶领域的话，简单来说，是直接将车身视觉、传感器等等采集到的信号，比如路灯信号、有没有行人等，输入到一个统一的神经网络系统，这个系统再做出预测、输出诸如方向盘转弯多少角度、该踩油门幅度多少等汽车下一步应做的动作。

这个端到端自动驾驶跟现有自动驾驶技术最大的区别在哪呢？——是一套算法模型，还是多个算法模型。

事实上，现在Waymo、Cruise等自动驾驶业界企业用的，是多套算法模型和神经网络系统的嵌套。比如高精度地图，有一套专门的处理算法，Lidar搜集的信号也有一套专门的处理算法，信息汇总到一起后，由最终的终端模型进行统一处理，并做最后的决定。而端到端自动驾驶希望采用的，是从头到尾都由一套单一的算法模型，即一个神经网络模型处理所有的信号。

那么，为什么会出现端到端自动驾驶技术呢？因为这可以说是自动驾驶技术的一个终极目标。

通过“端到端”自动驾驶，整个过程无需人工设计的繁复规则，工程师只需要将采集到的图像输入神经网络模型，模型便能直接输出车辆的具体控制。如果预测的控制结果不理想，安全驾驶员便会对车辆进行干预，形成反馈。在这一过程中，模型可以自适应地学习到相对较好的驾驶方法，而无需各种条条框框的干预、限制。

因此，相比主流自动驾驶技术，端到端自动驾驶开发难度低，硬件成本小，还能借助数据的多样性获得不同场景下的泛用性，各方面条件得天独厚，堪称自动驾驶的终极梦想。

事实真的如此吗？

很遗憾，并不是。

端到端自动驾驶的四大缺陷

可以毫不犹豫地说，如今端到端自动驾驶的缺陷来的更为致命。

总的来说，端到端技术不具解释分析性，可靠性、灵活性差，最终带来的结果是安全难以得到保障。

在强调安全第一的自动驾驶行业，端到端如今存在的缺陷有以下几点：

首先，时至今日，对我们来说，端到端模型仍是一个完完全全的黑盒子，工程师们没有办法对它进行系统化的解释分析，而是只能依靠推测和实验进行调整。

举个例子，如果只从输出的结果来看，端到端技术下汽车做出一个汽车减速右转的行动，工程师们无法确定这是因为汽车看到行人，还是因为看到较远处的红灯。但是，在现有的自动驾驶模式下，由于多个识别系统嵌套，因此，相对好理解到底汽车所做的每一个举动背后的逻辑。

这也意味着，如果端到端系统出现问题时，工程师们并不能对其对症下药，做出合理的应对。更多情况下甚至只能简单向模型灌注更多的数据，希冀它能在进一步的训练中“自行”解决问题。这也会大大降低端到端自动驾驶系统原本开发简单的优势。

其次，缺少了高精地图的支持。端到端自动驾驶需要从外界感知更多的信息来保证行车安全，这为系统的可靠度、精度都提出了更高的要求。

Waymo高精地图系统，标出了人行横道、信号灯及可能的所有行驶路径。版权属于Waymo

举例来说，如果汽车行驶遇到路口信号灯时，高精地图可以预先告知汽车信号灯的方位，车辆只需对信号灯的状态作出判断即可。而端到端自动驾驶则需要完成从找到视野里所有的信号灯，判断信号灯是否适用于自己（比如左转车辆可能有专门的左转灯），再到最终判断信号灯的红黄绿状态的一系列任务。在这之中，任何一项出现问题，轻则违反交通法规，影响道路安全，重则引致致命灾难。

为什么不能把端到端和高精地图相结合呢？

说起来简单，实则很难。在模块化的系统里，我们可以将高精地图与感知系统的结果相融合，借助相应的规则提升效果。而在端到端系统中，单一的神经网络模型很难有效利用高精地图提供的环境信息，很难将其与原有的视觉识别系统融合集成。

第三点，相比模块化的主流技术，端到端自动驾驶技术与其研发系统结合过于紧密，其中任何一项变动都可能要对从图像感知到最终控制的整个系统进行重新训练。

在模块化的技术下，工程师可以随时更新、替换负责感知的检测网络，以保持和业内最佳水准（State of The Art）的同步升级。简单说，如果有更（第四声）新的算法能实现对行人的检测，那么，这个算法就能拿来用。

但是，在端到端模型之下，要把新技术融合于旧网络，工程师们不仅要重新设计网络架构，也无法直接使用开源的预训练模型，更要对整个网络进行重新训练、测试、评估。其中的时间、运算、质检成本不言而喻。

除此之外，最后一个严重影响端到端自动驾驶安全性的问题——天气。

现阶段，端到端自动驾驶技术基本以摄像头的视觉感知为基础，在夜间或者大雨天，视觉系统的可靠性会大打折扣，安全性难以得到保证。

上述缺点叠加起来的话，让业界不能不对端到端自动驾驶的安全性打个问号。

或许，端到端深度神经网络在多项任务上能带来99.9%的准确度，然而，自动驾驶容不得半点误差。在数以百万计的行车里程之下，0.1%的错误率也意味着沉重的生命代价。

也就是说，在没有办法解决好最后0.1%错误的情况之下，端到端自动驾驶注定只能是实验室里的宠儿，而非大规模自动驾驶应用的变革者。事实上，此前英伟达和Comma.ai都曾放出过相关的端到端自动驾驶的Demo视频。当然，英伟达的Demo并未在路上跑。

Waymo、Cruise等如何处理最后一公里?

你或许会问，那像Waymo、Cruise等业界较为成熟的公司，又是怎么处理这最后的0.1%的呢？

很简单，几大手段，齐头并进。

（自动驾驶感知系统，版权属于原作者）

第一点，系统模块化设计，分模块质检，高精地图辅助。

正如前面所说，相较于单一的神经网络模型，如今业界更多采用的是系统模块化设计。而系统模块化设计可能是软件开发里最重要的原则之一。通过将自动驾驶系统分解为感知、追踪、规划、控制等多个子模块，不同团队之间可以更好地分工合作，提高开发效率。

除此之外，工程师们还可以对各模块分别进行评估，了解系统的性能瓶颈所在，让我们能对最后的0.1%有更清晰的认知，也便于技术的迭代、更新。

高精地图便在其中起着不可或缺的作用。

高精地图的生成不受时间、车上计算资源的限制，地图采集车往往会对同一区域进行多次采集，产出极为准确的车道线、行车标志等的检测和分类结果。事实上，在湾区的道路上，你便能经常看到Waymo的地图采集车来来往往，就是为了生成高精度地图，为Waymo的安全驾驶添砖加瓦。

（在路上的Waymo）

在这一前提下，它能够帮助感知系统更有效地对周遭环境作出判断，成为自动驾驶汽车的另一只眼睛，也能更好地配合规则设计，遵守当地法律法规，使更安全的驾驶成为可能。

其次，多传感器融合，借助系统冗余保证可靠性。

（自动驾驶汽车上相机、镭达、雷达多传感器的分布示例）

主流的自动驾驶汽车多配备了多个镭达（LIDAR）、雷达（RADAR）和摄像头，实现协同感知。在白天，光照条件良好的情况之下，摄像头能够看到远处的物体，在夜间，依靠自主发射激光束进行感知的镭达便显得更为重要。多个传感器共同协作，才能在复杂的现实环境之中保证系统的准确、可靠。

再者，人类驾驶员先验知识的引入，为自动驾驶系统再度加上安全锁。

比如，在最简单的行车标志检测任务上，基于纯粹深度学习的方法只能通过扩充数据集、调整网络结构来完成。然而，作为驾驶员的人类，其实已知不同交通标志本身的形状、大小，可以通过这些信息对深度学习的结果进行进一步的调整、过滤，达到更好的效果。

但即使在这些重重保障之下，我们仍未对自动驾驶抱有完全的信心。

时至今日，在公开路试的一众自动驾驶汽车上，仍必须配备安全驾驶员以备随时接管车辆，防止意外的发生。

（Cruise自动驾驶汽车及车上的安全驾驶员，版权来自原作者）

Waymo从成立到如今已十年有余，路试里程破两千万英里，但仍在进行更多的试验，想法设法找到未曾遇到的场景，确保自动驾驶万无一失。

反观Wayve的端到端自动驾驶Demo，在一条没有路标牌，没有信号灯，没有复杂路况的社区小路上以个位数的速度行驶了几分钟，便急于将自己的“革命性”突破称之“全球第一”。

细细想来，这场端到端自动驾驶的所谓“革命”，到底是更在于对自动驾驶的崭新探索，还是更在于博人眼球的精彩噱头呢？

自动驾驶的终极目标，到底还有多远？

既然端到端是自动驾驶领域的终极目标，那么，它的到来到底还有多久？

今年4月8号，Uber的首席科学家Raquel Urtasun在一次媒体发布会上说到：“自动驾驶会成为我们生活中的一部分，但这一天何时来到尚未可知。自动驾驶的规模化应用还有很长时间要走。”

软银掌门人、手握千亿愿景基金，在自动驾驶领域全面布局的孙正义，更是给出了他的预测：“不到 50 年时间里，人们将不再允许在城市或高速公路上自行开车，除非他们拥有特殊许可证。因为驾驶者可能会造成交通堵塞和事故。”

听起来，是不是50年太久？

这是因为真正要实现端到端，需要达到的不仅仅是克服技术难度，还取决于以下三点：

首先，端到端模型系统简单却难以保障安全性，主流基于规则的自动驾驶技术系统受限于高精地图，只能在高精地图完备的区域进行行驶。越高精度越意味着系统需要处理的数据量之大。

只有当数据传输带宽更上一层次，才能保证自动驾驶车辆在数据传输过程中，实现“实时”传输，提高传输精度。因此，5G时代的全面到来，或许才能让数据传输的速度更上一层楼。

其次，道路基础设施要完善。要想让自动驾驶车辆能随时跟外界进行“通信”的话，那么，基于物联网（IoT）技术的智慧道路、车联万物就需要实现，这意味着大量的基础设施需要重修，这是政府需要投入的部分了。

第三点，整个汽车业界也必须相互协作，这是一个新挑战。一旦不同品牌不愿意共享车载系统的话，那谈何车连万物呢？车连车可能都无法实现了。

但毫无疑问，在完全自动驾驶的伟大愿景之下，无论哪种技术能引领风骚，大规模商用化的未来又何时能来？我们，都有幸成为见证者。