谷歌“好奇心”强化学习新突破！改变奖励机制，让智能体不再兜圈子

原创 AI前线小组译 AI前线

来源 | Google Brain

译者 | 核子可乐

编辑 | Natalie

AI 前线导读： 强化学习（简称 RL）已经成为机器学习领域最为活跃的研究方向之一，其中人工代理在完成正确的操作后将获得正面奖励，否则将受到惩罚。这种胡萝卜加大棒式的方法简单而通用，亦使得 DeepMind 能够教授 DQN 算法游玩古老的雅达利游戏、并通过 AlphaGoZero 探索古老的围棋技艺。通过同样的方式，OpenAI 则教会自己的 OpenAI-Five 算法如何游玩现代游戏 Dota，谷歌也借此引导机器人手臂抓握新物体。

然而，尽管强化学习技术获得了广泛成功，但其在实际且广泛的应用道路上仍然面临着诸多挑战。

更多优质内容请关注微信公众号“AI 前线”（ID：ai-front）

标准强化学习算法在反馈稀疏的环境中往往难以奏效——更重要的是，这类环境在现实世界中相当常见。举例来说，大家可以想象一下如何在一个庞大如迷宫般的超市当中找到自己想要的奶酪。虽然我们会不断搜索与探寻，但却仍然不知奶酪所在。如果每一步行动都得不到“胡萝卜”这类肯定，而只有“继续坚持”这一指示，那么大家将无法判断自己是否在朝着正确的方向前进。在缺少奖励机制的情况下，我们为什么还要在这里不断兜圈子？事实上，推动我们的只有好奇心，因为它会激励我们迈入某个自己并不熟悉的商品区域，继续寻找自己心爱的食品。

在“通过可达性实现对情节的好奇心”（https://arxiv.org/abs/1810.02274）研究当中，谷歌 Brain 团队、DeepMind 与 ETH Zürich 共同合作，希望提出一种新的、基于情景记忆的模型。其能够提供强化学习奖励，并利用这种类似于好奇心的机制实现环境探索。由于我们不仅要求代理进行环境探索，同时亦希望其有能力解决初始任务，因此我们将把模型提供的奖励添加到最初的奖励稀疏任务当中。合并之后的奖励将不再稀疏，这意味着标准强化学习算法将能够从中学习。通过这种方式，我们的这一好奇心方法将显著扩展强化学习技术所能解决的任务集范围。

通过可达性实现对情节的好奇心：观察结果被添加至记忆当中，而奖励将根据当前观察内容与记忆中最相似的观察结果间的距离计算得出。代理将因看到不存在于记忆中的情景而获得更多奖励。

这一方法的关键思路，在于将代理对环境的观察结果存储在情景记忆当中，同时亦对代理观察到的一切尚不存在于记忆当中的结果做出奖励。这种“不存在于记忆中”的定义正是上述方法中的新颖之处所在，其将鼓励代理观察并寻求一切不熟悉的事物。这种对陌生事物的探索冲动将推动人工代理前进至新的位置，从而防止其在固有范围内兜圈子并最终协助其完成目标。正如我们将在下文中所讨论，我们的方案使得代理避免了其它一些方案所常见的不良行为。更令我们惊讶的是，这些行为与外行人所谓的“拖延症”倒是有几分相似。

以往的好奇心实现方法

尽管以往 [1][2][3][4] 已经存在不少尝试建立好奇心的方法，但在本篇文章中，我们主要关注一种自然且广受欢迎的方式：基于预测性惊喜的好奇心。在最近的论文当中，这一方法被称为“通过自我监督加以预测的好奇心驱动型探索”（通常简称为 ICM 方法）。为了说明惊喜如何引发好奇，我们再次回到之前提到的在超市中找寻奶酪的比喻中来。

源：Indira Pasko

在漫步超市环境时，大家会尝试预测接下来的情景（「现在我身处肉类销售区，因此我认为下面的拐角处应该是卖鱼的摊位——因为肉和鱼在超市中往往彼此相邻」）。如果您的预测是错误的，大家往往会感到惊讶（「不是吧，这里是卖蔬菜的，跟我想象的不一样！」）在这样的基础之上，我们会得到反馈，并以更强的动力预测下一个角落，希望了解新位置处的实际情况与自己的期望是否相符（当然，也希望在不经意间找到最想要的奶酪）。

同样的，ICM 方法也会建立起一套关于环境动态的预测模型，并在模型未能做出良好预测时向代理提供奖励——这就是所谓惊喜或者新奇的标注。请注意，探索未访问位置并非直接存在于 ICM 好奇心公式当中。对于 ICM 方法，其作用只是尽可能多地提供获得更多“惊喜”的方式，从而最大化整体奖励水平。事实证明，某些环境中可能还存在其它能够造成惊喜的方式，从而导致无法预料的结果。

以基于惊喜的好奇代理有可能被电视节目所吸引。GIF 来自 Deepak Pathak，根据 CC BY 2.0 许可使用。

“拖延症”危机

在《好奇心驱动型学习的大规模研究》（https://pathak22.github.io/large-scale-curiosity/resources/largeScaleCuriosity2018.pdf）一文中，ICM 方法的作者与 OpenAI 研究人员展示了惊喜最大化方法的一种潜在危险：代理有可能会大肆放松自己的“拖延症”问题，即不再做出任何能够实际解决初始任务的行动。为了了解原因，这里我们需要思考一个通用性的思想实验，作者将其称为“嘈杂电视问题”。其中某一代理被置于迷宫环境中并负责寻找一个非常有价值的对象（正如我们在之前超市案例中提到的「奶酪」）。此环境中还包含电视机，其遥控器就掌握在代理手中。频道数量有限（各个频道拥有不同的节目），而每一次按下遥控器都会切换至随机频道。代理该如何在这样的环境下顺利完成任务？

对于这种基于惊喜的好奇心方法，切换频道会产生巨大的回报，因为每一次切换都会带来不可预测且令人惊喜的新内容。更重要的是，即使所有可用频道都循环过一次，随机的频道选择仍会确保每种新变化仍然具备“惊喜”属性——代理会预测频道改变后电视上会出现什么。这种预测有可能会出错，这就成了新的惊喜。更重要的是，即使代理已经看过每个频道上的每个节目，这种变化仍然不可预测。总结来讲，充满对惊喜的好奇心的代理最终将永远留在电视机前，而非执行当初的目标——寻找极具价值的对象。这就像是一种拖延症，很多朋友肯定有切身体会。那么，我们该如何定义好奇心，从而避免上述行为呢？

对情节的好奇心

在“通过可达性实现对情节的好奇心”研究中，我们探索了一种基于记忆的情境好奇心模型，结果证明代理并不太重视这种通过“自我放纵”实现的即时满足感。为什么会这样？继续使用上述示例，在切换频道的一段时间之后，所有节目都将存在于记忆之内，这意味着电视将不再具有吸引力。即使屏幕上出现的节目顺序仍然随机且不可预测，但节目的内容已经被代理所记住！这就是基于惊喜型方法的主要区别所在：我们的方法甚至不会尝试对可能很难（甚至根本不可能）的未来做出预测。相反，代理会检查原有记忆，借此了解自身是否看到过类似于当前观察结果的内容。如此一来，我们的代理将不会被嘈杂的电视机所提供的即时满足感所吸引。其必须去探索电视之外的世界，才能真正获得更多奖励。

然而，我们该如何判断代理是否看到了与现有记忆相同的事物？检查二者之间是否完全匹配可能全无意义：在现实环境中，代理很少会看到两种完全相同的事物。举例来说，即使代理返回同一个房间，其仍然会以不同于记忆的角度对房间做出审视。

我们要做的不是检查记忆内容是否精确匹配，而是利用经过训练的深度神经网络来测量两种体验的相似程度。为了训练这套网络，我们需要猜测是否存在两种在时间上紧密相连、或者在时间上相距很远的观察结果。两段体验的时间接近度可用于判断这两段体验是否归属于同一经历。这种训练通过可达性建立起关于新颖性的一般概念，具体如下所示。

可达性图将决定新颖性。不过在实际操作中，并不存在这样的图——我们需要训练神经网络逼近器来估算观察结果之间的一系列步骤。

实验结果

为了比较不同方法在好奇心层面的实际表现，我们立足两套拥有丰富视觉元素的 3D 环境对其进行了测试，分别为 VizDoom 与 DMLab。在这些环境中，代理的任务在于处理各种问题，例如在迷宫中搜索目标或者收集好内容并避免坏内容。DMLab 环境为代理提供了一种类似于科幻小说中激光发生器的工具。在以往的研究当中，DMLab 的标准设置是为代理装备这款工具以处理所有任务，如果代理在某些特定任务中无需使用该工具，亦可选择不予使用。有趣的是，与之前提到的嘈杂电视实验类似，基于惊喜的 ICM 方法实际上更倾向于使用这款小工具——即使其对于当前任务并无用处！当负责在迷宫中搜索高回报对象时，代理更喜欢花时间对墙壁进行标记，因为这会产生很多“惊喜”奖励。从理论上讲，代理应该能够预测标记结果，但实际上这种能力很难实现，因为其需要远高于标准代理的物理知识储备。