完全自动驾驶来临前，高效数据闭环是自动驾驶系统的核心竞争力|界面新闻

文丨AutoR智驾诺一

数据是新的“石油”，也必将成为未来创新的命脉。

IDC一组数据报告指出，全球数据正以25%增速呈指数级增长，数据量快速产生释放，终端产生的数据量仍然是最大的，而且上升很快，数据中心的量保持缓慢上升，边缘逐渐扩大，最终扩大到和数据中心的量持平。

除此之外，由于产生来源不同，数据的形态日趋多元化，变得越来越复杂，在过去30年间发生了三次重要的转变：

起初数据以纯PC计算形式为主，2000年之后的10年则是PC计算、服务器、Web2.0时代共同产生，2010年之后数据辐射到了手机、汽车、云计算、IoT、区块链、智能生活、自动驾驶方方面面，它们形成一个大矩阵，这些数据量级巨大并且需要及时处理。

然而，未经处理的数据毫无价值，只有将数据转化为业务价值，才能创造新的服务和体验。

尤其是在自动驾驶领域海量数据的存储和管理能力，正在成为自动驾驶从技术到落地的关键挑战。

更为关键的一点是，自动驾驶汽车产生的数据量会随着其级别升高，自动驾驶级别越高，所需的传感器数量则越多、精度也越高，而数据量就会相应上涨。

对自动驾驶的研发来说，数据贯穿着研发、生产、测试、运营等生命周期，发挥着至关重要的作用，对数据进行高效收集和利用，提高数据循环链路的速度，是整个自动驾驶技术迭代的关键点。

自动驾驶在开发过程中需要采集大量的数据，构建相应的场景数据集，进行算法训练；基于场景数据和真值可以做场景分析，并建立相应的算法评测体系；基于场景数据建立虚拟环境，并生成测试场景，极大地提高自动驾驶系统的测试验证效率。

在部署自动驾驶车辆之后，会产生大量的回传数据，自动驾驶系统也需要基于这些数据不断进行迭代升级，并通过OTA的方式为用户持续推送新的功能、适应更多的场景和提升体验。

举个例子，假设自动驾驶汽车在超车过程中产生了人工接管，或者触发了评测体系里的某些机制产生了回传数据，管理系统会对回传数据进行筛选、标注，并在数据库里检索类似场景数据，如果数据库中的数据不足以解决问题，就需要去有针对性的采集或编辑生产相应的数据，重新进行算法训练、回归测试等流程，实现功能修复或用户体验提升的闭环。

因此，基于数据驱动的自动驾驶，必须完成前期数据的收集、中间数据的存储与迁移以及后期核心数据的训练与管理。

而基于这些关键因素，希捷认为一个完整的自动驾驶数据流动闭环，必须要一套完整的端点－边缘－核心数据解决方案，这不仅仅是满足系统开发需要，也能够持续为用户带来新价值。

那么，在实际测试的过程中，自动驾驶公司如何能够保障数据收集的完整性？

如何在频繁拆卸、长途运输过程中保证数据存储不会丢失？最后，在核心数据层面如何完成数据训练，推理，冷备？