机器也能感知时间，AI系统可预测5分钟内的未来|界面新闻

新智元编译

来源：TechCrunch，arXiv

编辑：文强、肖琴

从几百万年前起，第一个原始人类仰望星空，对宇宙产生好奇开始，我们人类对周遭世界的理解和把控，已经达到了相当娴熟的程度。

我们已经可以超音速飞行，可以转基因，还能治疗癌症。但是，有一件事情是我们一直没有做得很好的，那就是对“时间”的感知——如何从当下推断未来，如何最大限度的利用这种推测？

现在看，机器似乎可以帮助我们做到这一点。

德国波恩大学的计算机科学家设计出了一种软件，能够预测未来5分钟的序列事件，准确率在15％到40％之间。

虽然从数值上看，这个精度并不高，但研究人员Juergen Gall表示，这代表了机器学习超越了单步预测（single-step prediction），向新的领域迈进了一步。相关的研究论文已经被CVPR 2018接收。

Juergen Gall团队展示他们的预测未来系统

超越单步预测

Gall和他同事们的研究目标——教会计算机预测未来——并不是现在才有，实际上，这是机器学习和计算机视觉领域的一个主要课题，有大量的研究人员都在从事相关的工作。

但是，这项工作特殊的地方在于其方法：到目前为止，这些领域的研究集中在对当前行动的解释，或者对预期的下一步行动进行预测上面，也即前面提到的“单步预测”。

单步预测，也就是预测未来往前一步的结果。这是预测未来模式的基础，归结为一个回归问题，输入变量，预测结果。

在进行这样的预测时，目前的研究已经取得了比较好的结果。其中一个例子是，斯坦福大学吴恩达团队设计了一种深度学习算法，在对临终关怀的预测中，实现了高达90％的准确性。

在他们的实验中，斯坦福的研究人员使用了200万份病历对他们设计的神经网络进行训练，通过这些数据，网络能够发现医生发现不了的模式和规律，并以此为基础，对新的病人的情况（患者在接下来3~12个月内的死亡率）进行预测。

这项研究面临的变量十分复杂，而且取得了很高的精度，论文也获得了IEEE生物信息学和生物医学组最佳学生论文奖。但是，这样的算法是基于过往（retrospective），而且只进行单步预测。

多步预测：用CNN和RNN预测未来的两种结构

在Gall和他团队的最新研究中，他们提出了两种方法，对相当长时间的未来发生的大量行动进行预测。他们训练了一个CNN和一个RNN，根据之前看过的视频内容，学习未来视频的“标签”。

“我们表明，即使对于具有大量不同动作的长视频，我们的方法也能够准确预测未来，甚至可以处理嘈杂或错误的输入信息。”作者在论文中这样写道。

下面的图例展示了研究人员设计的两个方法。首先来看RNN的设计。

在RNN系统的结构中，输入是一个序列，网络预测最近观察到的动作的剩余长度，以及下一个动作的标签和长度。将预测结果附加到原始输入，就可以预测下一个动作片段。

而在CNN系统的结构中，输入序列和输出序列都被转换成矩阵的形式。其中，C表示类（class）的数量，S则对应于特定长度的视频片段的数量。矩阵的二进制值表示每个视频片段的标签。

让机器预测长时间的未来，有望实现真正的人机协作

在他们的实验中，Gall和他的团队使用数小时的视频数据来演示不同的烹饪动作（例如煎鸡蛋、拌沙拉等），并仅向软件展示其中的一部分动作。软件根据“已经学到的”来预测接下来的动作步骤。通过这种方法，Gall希望该领域能够向真正的人机共生迈进一步。

“[业界]人们谈论人类和机器人协作，但最终人和机器之间仍存在分离; 他们并没有真正密切地合作，”Gall说。

Gall建议说，通过使用适当的硬件，这个软件可以通过直观地了解任务来帮助人类完成任务，进而在工业环境中帮助人类工作。

Gall说：“老年人越来越多，值得努力在家庭中推广这种机器人来照顾老年人，”Gall说： “我相信10年后服务机器人将能够在家照顾老年人。”

根据人口统计局的报告，今天65岁以上的美国人的数量约为4600万，预计到2060年将翻一番。根据2014年美国疾病控制与预防中心（CDC）的报告，这些老年人中约140万将生活在养老院。日本已经探索过使用这样的软件带来的影响。例如用于疗愈的海豹型机器然PARO，软银的伴侣机器人Pepper等。在日本，四分之一人口是老年人。

随着这类技术的进步，或许会在人类代际之间造成进一步的分化——把爱和关怀外包给一台机器。对于一个尚未成熟的行业来说，很难说这条路将通向何方，但最终决定权掌握在开发人员手中，而不是掌握在他们开发的软件或机器人手中。