首页 > 技术文章 > Reinforcement Learning and Episodic Memory in Humans and Animals: An Integrative Framework

lucifer1997 2020-08-31 20:12 原文

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

Annual Review of Psychology, no. 1 (2017): 101-128

 

Abstract

  我们回顾了RL的心理学和神经科学,在过去的二十年中,通过对简单学习和决策任务的综合实验研究,实现了重要的进步。但是,RL研究的一个挑战是计算:这些任务的简单性忽略了现实世界中RL的重要方面:(a) 状态空间是高维,连续且部分可观察的;这意味着 (b) 数据相对稀疏,实际上,可能永远不会两次遇到完全相同的情况;此外,(c) 奖励取决于动作的长期结果,而这违背了使RL易于处理的经典假设。一个表面上明显不同的挑战是,就认知而言,RL理论在很大程度上涉及程序和语义记忆,即从许多经验中逐步提取的有关动作价值或世界模型的知识可以驱动选择的方式。这种对语义记忆的关注省略了记忆的许多方面,例如与单独事件的迹有关的回合式记忆。我们建议这两个挑战是相关的。可以通过以下方式来部分解决计算难题:让RL系统具有回合式记忆,使它们能够 (a) 在复杂的状态空间上有效地*似价值函数,(b) 用很少的数据学习,以及 (c) 建立动作与奖励之间的长期依赖关系。我们回顾了该提议所基于的计算理论以及支持它的经验证据。我们的建议表明,记忆在RL中的普遍性和多样化作用可能是集成学习系统的一部分。

 

INTRODUCTION

  RL是生物体通过反复试错学习来预测和获得奖励的过程。从计算的角度来看,这是具有挑战性的,因为动作会对未来奖励产生长期影响(例如,不储蓄可能会导致以后的生活变得贫困,喝死水可能会减轻口渴,却以后来的疾病为代价)。此外,这些延后的结果可能严格取决于其他后续动作和事件:例如,只有当一个人成功毕业后,被录取才有回报。随着时间的流逝,这种序列依赖性极大地加重了经典的维数诅咒(Bellman 1957)。显然,生物体无法尝试所有可能的动作序列。通过对环境结构进行某些简化的假设,计算机科学家设计了有效的算法,可以保证找到最优行为策略。大脑本身使用一种(实际上是几种)算法的发现是现代认知与计算神经科学的巨大成功案例之一。

  二十年来的研究通过行为,神经与计算研究的综合证据来支持这一说法。从1990年代开始,著名的RL研究工作集中于多巴胺能和纹状体系统中动作价值的简单增量学习,这被称为无模型学习(Houk et al., 1995; Montague et al., 1996; Schultz et al., 1997)。后来的工作将这种观点扩展到了额外过程,以进行更多的审议,即所谓的有模型评估(Daw et al., 2005; Dolan&Dayan, 2013)。我们对RL理解的这种扩展提高了理论的计算能力(例如,使它们能够在新颖或变化的环境中更有效地进行选择),并将它们与记忆的认知神经科学的更广泛研究框架联系起来。有模型学习对生物体如何在评估动作的过程中利用有关世界的知识(即任务偶发事件的图或模型)进行了形式化。这些结果在多个记忆系统上进行了并行研究,例如,将纹状体过程学习系统与海马体陈述性学习系统区分开(Eichenbaum&Cohen 2004, Poldrack et al. 2001),每个过程都具有与决策者相呼应的若干特性。RL与可能为其提供支持的记忆系统之间的新兴关系为两者的研究提供了启发。

  尽管取得了成功,但我们仍远没有从认知或计算的角度了解现实世界中RL的工作原理。在这篇综述中,我们提出这两个问题有一个共同的答案。

  认知上,关于RL的研究长期以来一直包含程序学习和语义记忆(就世界事实而言,通常被视为从许多经验中抽象出来的知识,例如经过充分研究的迷宫图)。但是,这项研究与另一种重要的记忆联系有限:回合式记忆将生物体在特定时间和地点经历的单独事件的不同方面联系起来(Tulving 1972)。原则上,这种迹似乎与决策有关;综述的目的之一是弄清它们可能赋予哪些特殊优势。

  在计算上,生物学RL仍然受到支撑它的限制性形式假设的极大阻碍。除少数例外,用于研究RL的实验任务的类型本质上是toy问题:它们旨在在良好控制的环境中隔离某些计算,但不必应对生物体在自然环境中面临的许多决策问题的复杂性。特别是,(a) 真实状态空间是高维连续且部分可观察的;这意味着(b) 数据相对稀疏,实际上,完全相同的情况永远不会出现两次;此外,(c) 奖励取决于动作的长期结果,而这种动作的结果违反了使RL易于处理的概率独立性假设。

  凭直觉,可以通过考虑在股票市场上的投资问题来理解这些含义。股票市场的状态是高维连续的,因此任何给定的状态都不太可能重复(即,市场历史在状态空间中稀疏采样)。此外,投资决策的长期结果取决于只能部分观察到的影响(例如,其他投资者的策略)。当面对这种现实世界的复杂性时,归因于大脑的算法会崩溃。因为生物体显然找到了应对这种复杂性的方法,所以我们面临的难题是,我们对大脑中RL的许多理解实际上可能与生物体自然行为的重要方面无关。

  在这篇综述中,我们提出此难题的一个计算答案是使用一组算法方法(那些基于非参数化(基于核或基于实例)估计的方法),这些方法与认知神经科学中通常检查的方法有所不同并相互补充。非参数化方法在统计上非常适合处理稀疏且任意结构的试验唯一数据。此外,由于它们最终基于对单独事件的记录进行估计,因此它们也可以澄清决策和回合式记忆之间的缺失联系,尽管这些联系与许多其他观点相关并且与其他经验文献有联系,但相对而言还没有得到充分的探索,因此构成了我们综述的*衡。最重要的想法[基于Lengyel&Dayan (2007)的工作]是,回合式记忆可以提供详细且时间扩展的快照,以反映源自单独经验的动作和结果之间的相互依赖性。在经典算法崩溃的情况下,此信息可能是准确进行决策的可靠指南。因此,回合式记忆可以使生物体(a) 在复杂的状态空间上有效地*似价值函数,(b) 用很少的数据学习,以及(c) 建立动作和奖励之间的长期依赖性。

  在以下各节中,我们回顾了神经科学和心理学中RL的当前概念,并提出了主要论点:无论是理论上还是经验上,该概念充其量是不完整的。然后,我们描述了一种基于非参数化估计的额外系统来增强RL的理论框架,我们暂时认为其与回合式记忆等同。我们考虑了这种方法的计算含义,并回顾了与此框架相关的可用证据及其与早期构想的联系。

 

REINFORCEMENT LEARNING: THE CURRENT PICTURE

  我们开始在本节中简要概述了RL问题的标准算法解决方案,然后回顾了大脑实现这些算法的行为和神经证据(有关该材料更广泛的综述,请参阅Dolan&Dayan 2013, Niv 2009;另请参见教科书章节三部曲,Daw 2013, Daw&O'Doherty 2013, Daw&Tobler 2013)。我们在这篇综述中的目标主要是激发与其他研究领域可能联系的更前瞻性的综述。

 

Markov Decision Processes

  在机器学习中,RL关注学到的最优控制,主要是在多步(序列)决策问题中的研究(Bertsekas&Tsitsiklis 1996; Sutton&Barto 1998)。关于该主题的大多数经典工作都涉及一类任务,即Markov决策过程(MDP)。MDP是多步决策任务的正式模型,包括空间导航,俄罗斯方块等游戏以及工厂中的调度问题。如果忽略了对手行为的某些博弈论方面,那么他们还可以粗略地建模多步多人游戏,例如国际象棋。RL的目标通常是通过反复试错来学习,以便在最初未知的MDP中做出最优选择。

  形式上,MDP用离散状态s,动作a和数字奖励r表示。围绕这些模型的心理学与神经科学方面的许多研究都涉及这些正式目标与现实世界的情况,行为和结果之间的棘手关系。非正式地,状态就像任务中的情况(例如,空间迷宫中的位置),动作就像行为选择(向左或向右转),奖励是在某种状态下获得效用的度量(如果饿了,在某个位置获得食物为高价值)。

  MDP由一系列离散的时间步骤组成,在这些时间步骤中,智能体观察环境的某种状态st,获得某种奖励rt,然后选择某个动作at。智能体的目标是在每个步骤中选择动作,以最大化期望累积未来奖励,并为延迟打折扣(以衰减因子γ<1为指数)(即未来奖励的总和rt + γrt+1 + γ2rt+2 + ...)

  因此,目标不是最大化动作的即时奖励,而是最大化在所有未来时间步骤上累加的累积奖励(回报)。动作会影响长期奖励期望,因为在MDP中,每个后继状态st+1是从概率分布P(st+1 | st, at)抽取的,该概率分布取决于当前状态和动作;根据取决于当前状态的概率分布P(rt | st)生成每个步骤的奖励。非正式地,这意味着智能体导航状态(如迷宫中的位置)并通过选择动作来获取奖励。每个动作不仅影响当前奖励,而且通过影响下一个状态,还为后续奖励奠定了基础。相反,由于动作对累积奖励的结果也取决于随后的状态和动作,因此最优选择可能会涉及很多。

  使得这些问题难以解决的是MDP的同名特征,即Markov条件独立性:在任何时间步骤 t,所有未来状态和奖励仅取决于当前状态和通过上述概率分布给出的动作。因此,重要的是,仅在以当前状态和动作为条件的情况下,所有未来事件均独立于所有先前事件。这允许状态-动作价值函数的递归表达式(在某种状态下采取某种动作所期望的未来奖励之和,即作为优化目标量):

公式1是Bellman公式(Bellman 1957)的一种形式,该公式的版本是大多数经典RL算法的基础,此处表示在状态st下采取动作at(然后遵循某些策略π)的期望未来奖励为当前奖励和第二项的总和,第二项代表剩余的所有奖励γrt+1 + γ2rt+2 + ... 洞察是这个总和本身只是后续状态价值Q,根据其概率对可能的后继进行*均。

  RL的主要问题之一是鉴于动作的延后结果,如何有利地进行选择。解决此问题的一种方法是通过根据MDP中奖励,状态和动作的经验来学习估计Qπ(st, at)(或一些密切相关的量),从而集中于预测那些结果。只要对价值函数有一个很好的估计,你就可以简单地通过比较各个候选动作的价值来选择回报最高的动作。许多RL算法都依赖于这种基本逻辑的变体。(我们忽略了一些与Q对连续策略π的依赖性有关的细节;为了我们的目的,想象一下,通过学习Q并根据它进行选择,我们会逐步改进我们的主流动作选择策略,进而推动Q的更新,直到我们得到最优策略。)

 

Model-Based and Model-Free Algorithms

  基于公式1,有两种主要的RL算法:这些类集中于该公式中等号的左侧或右侧。第一种方法是基于估计一步奖励和状态转换分布P(rt | st)和P(st+1 | st, at),它们一起被称为MDP的内部模型。值得注意的是,这些仅涉及即时事件:奖励或状态直接跟随其他状态,因此很容易从局部经验中学习(基本上是通过计数)。有了这些,就有可能迭代扩展公式1的右侧,以计算任何状态和候选动作的状态-动作价值。用于执行此操作的算法(例如价值迭代)本质上是通过心理学仿真来工作的,枚举预期将遵循初始状态与动作的状态可能序列,将沿这些序列的期望奖励相加,并使用学到的模型来跟踪它们的概率(有关详细介绍,参见Daw&Dayan 2014)。

  由于这种方法依赖于内部模型,因此被称为有模型学习。它的主要优点是学习的简单性,但是其主要缺点是选择时的计算复杂性抵消了这种简单性,因为产生状态-动作价值取决于许多分支可能路径上的大量计算。

  第二类算法避免学习世界模型,而是直接从经验中学习长期状态-动作价值Q表(公式1的左侧)。发现用于实现这种无模型RL算法的方法[特别是TD学习算法族;Sutton 1988]是机器学习的重大进步,继续为现代应用奠定了基础(例如,Mnih et al., 2015)。

  简而言之,这些算法使用经历过的状态,动作和奖励来*似公式1的右侧,并将它们取*均以更新长期奖励预测表。更具体地说,许多算法都是基于将价值Q(st, at)与稍后一个时间步骤计算出的样本进行比较而引起的TD奖励预测误差:

当对价值函数进行了很好的估计时,差*均应为零[根据公式1,因为Q(st, at)的期望应等于rt + γQ(st+1, at+1)]。当误差为非零时,可以更新存储的Q以减小误差。

  因此,与有模型算法相比,使用无模型算法要简单得多,因为长期价值已被计算出来,仅需进行比较即可找到最优动作。然而,这些计算上的节省是以不灵活和学习效率较低为代价的。

 

Model-Free Learning in the Brain

  RL理论在神经科学领域的最初(也是最受赞誉)的成功是在奖励行为上,观察到猴子中脑内的多巴胺神经元发放类似于公式2的奖励预测误差(Houk et al. 1995; Montague et al. 1996; Schultz et al. 1997),表明大脑可能将此信号用于RL。该信号的逐次试验波动非常精确地跟踪了模型(Bayer&Glimcher 2005),也可以使用生理学和伏安法在啮齿动物中进行度量(Cohen et al. 2012, Hart et al. 2014)。还可以使用fMRI在人类腹侧纹状体(重要的多巴胺靶标)中度量类似信号(例如Hare et al. 2008)。尽管fMRI度量并非特定于潜在的神经原因,但多巴胺能参与这些预测误差相关性的发现表明,这些相关性受多巴胺能药物(Pessiglione et al. 2006)和帕金森综合征(Schonberg et al. 2010)的调节,其特征是多巴胺能核的相对选择性退化。

  许多研究人员认为,多巴胺可通过调节其靶标(尤其是纹状体中的多棘神经元)的可塑性来推动有关动作的学习(Frank et al. 2004)。通过将它们投射到其他基底神经节核(并最终投射到运动皮层),这些神经元驱动了行为的产生和抑制(Alexander&Crutcher 1990)。因此,人类的帕金森综合征和多巴胺替代疗法可调节RL任务中的学习(Frank et al. 2004, Shohamy et al. 2005)。啮齿动物在时间上更具特异性的光遗传学激发和多巴胺能反应的抑制也推动了专门设计用于隔离误差驱动学习的任务中的学习(Parker et al. 2016; Steinberg et al. 2013)。这些研究利用对系统的选择性较低的电刺激或药理刺激来完善早期文献。值得注意的是,滥用药物总是将多巴胺作为一种常见的疗效联系。这表明这些药物的强化作用最终是由本综述中讨论的相同RL机制驱动的(Everitt&Robbins 2005, Redish 2004)。

  上面讨论的行为实验主要涉及非序列决策任务,例如单步赌博机任务,其中受试者在一组动作(例如,不同的投币机)中反复选择并接收奖励或惩罚。实际上,在这些任务中,选择对奖励的逐次试验依赖性与猴子(Lau&Glimcher 2005)和人类(Seymour et al. 2012)中误差驱动学习所预测的模式在数量上是一致的。然而,根据公式2进行的无模型学习对多步序列任务中的状态学习进行了更加具体和特征性的预测。预测模式已在人类中得到证实(Daw et al. 2011, Fu&Anderson 2008),尽管不是唯一的。确实,在神经生理学模型出现之前很久,行为心理学家就已经确定基本的TD学习本身不能解释许多学习效果,这一点我们将在下一部分中进行探讨。

 

Model-Based Learning in the Brain

  尽管无模型算法和有模型算法最终都收敛于最优价值预测(在各种技术假设下以及在固定MDP的无限经验的理论极限内;例如Bertsekas&Tsitsiklis 1996),但他们在尝试解决方案的逐次试验动态方面有所不同。无模型算法与有模型算法之间的差异是,由于无模型算法通过直接沿有经验的轨迹对它们进行采样来学习长期动作价值,因此在某些情况下它们可能无法整合在不同轨迹中遇到的信息(例如,单独的试验或任务阶段)。

  已使用涉及阶段性经验序列的任务对这种基本见解进行了调查,这些任务的序列安排是要击败无模型学习者。例如,在隐学习中(Gläscher et al. 2010, Tolman 1948)和类似的任务,即感觉预处理(Brogden 1939, Wimmer&Shohamy 2012),生物体首先在没有任何奖励的环境中预暴露于状态-动作的偶发事件(例如,通过探索迷宫),然后随后了解到奖励在特定位置可用。

  对于有模型学习者,这种经验的效果是首先教给它们转换函数P(st+1 | st, at),即迷宫图,然后是奖励函数P(rt | st)。这些信息加在一起,使他们能够在随后的探查阶段通过评估公式1从任何位置导航到奖励。但是,对于无模型学习者,预暴露阶段没有告诉他们对于探查没有任何帮助(仅Q处处为零);特别是,由于他们没有单独学习迷宫地图的表征(状态转换分布),因此在引入奖励后,他们必须从头开始学习导航任务。

  至少在某些情况下,人类甚至啮齿动物都可以成功地整合这些经验,在这种情况下,通过在接受预暴露的人群中进行便捷的导航学习可以证明这一点(Gläscher et al. 2010; Tolman 1948)。这些结果以及在逻辑上相似的研究已被视为拒绝接受,这些结果涉及研究动物在奖励价值变化(例如,结果贬值)或任务偶发事件(例如,引入封锁或捷径,偶发事件退化)之后是否需要额外的经验来调整其决策。无模型RL作为行为的完整说明(Daw et al. 2005; Dickinson&Balleine 2002)。

  但是,相同类型的实验实际上确实支持对无模型学习机制(例如TD)的预测,因为在其他情况下,生物体无法像理论所预测的那样整合(但单独地)关于偶然性和奖励的良好信息。例如,在对食物进行杠杆按压的过度训练之后,即使结果因饱腹感而贬值,啮齿动物仍会按压杠杆(Adams 1982),尽管受过较少训练的动物可以成功地适应。在心理学中,这两种行为(分别是无能力和有能力整合)被称为习惯性行为和目标性行为。啮齿动物的病变研究表明,它们依赖于大脑的离散网络,涉及额叶皮层和纹状体的不同部分(有关综述,参见Daw&O'Doherty 2013)。

  总而言之,无模型学习的预测和多巴胺的预测误差理论与习惯行为非常匹配,但无法说明目标导向行为的额外类别和生物体整合经验的能力。这种缺陷导致提出这样的建议,即可以通过有模型学习与无模型系统一起运行并竞争控制行为输出来理解后一种行为(Daw et al. 2005)。该提议将迄今为止关于商议行为和认知图的更为宽松的思想置于更*等的定量基础上,并且具有更特殊的习惯性学习的神经计算理论,从而能够对其特性进行进一步研究。

  例如,通过两种学习的更具体特征,可以分解与多模型决策任务中有模型或无模型学习相关的决策变量(如Q)的逐次试验行为调整和神经相关性(例如,两步,三状态MDP;Daw et al. 2011)。使用这种技术的实验已经验证了两种学习类型的特征在人类中共存。他们的患病率可以根据情况进行控制(Otto et al. 2013a, b),因人而异(患有强迫症,例如滥用药物)(Gillan et al. 2016),并且可以追踪在选择时间fMRI中未来状态的前瞻性表征(与通过心理学仿真进行的选择时间评估一致)(Doll et al. 2015)。使用精心设计的多步决策任务进行的研究也开始阐明计算捷径,大脑可以通过这些捷径来设法计算期望奖励(Cushman&Morris 2015; Dezfouli&Balleine 2013; Diuk et al. 2013; Huys et al. 2015; Solway&Botvinick 2015)。

  关于支持假定的有模型行为的神经回路知之甚少。特别是在人类神经影像学中,与有模型学习和无模型学习相关的神经信号之间的重叠似乎要多于基于病变工作的预期。例如,人类纹状体中的预测误差信号(Daw et al. 2011)和啮齿动物多巴胺神经元(Sadacca et al. 2016)均反映了有模型的综合估值。(这令人惊讶,因为这些信号为标准的无模型帐户提供了基础。)这样的结果可能表明,与受损大脑相比,这些系统在完整方面的交互作用更大;有模型计算部分是通过利用系统发育较早的有模型电路来建立的;它们之间存在更多的连续体;或者说集成被视为有模型计算特征的价值实际上是异质的,并且可能在不同的时间通过多种不同的机制发生(Gershman et al. 2014; Shohamy&Daw, 2015; Wimmer&Shohamy, 2012)。

  其他数据表明海马体是有模型RL中的重要角色。无模型与有模型的区别似乎在多记忆系统的研究中追踪了类似的二分法,从广义上讲,这将死板的纹状体过程学习系统与与海马体相关的更灵活的声明式记忆系统区分开来(Gabrieli 1998, Knowlton et al. 1996, Squire 1992)。海马体功能的许多特定方面也表明它是RL所设想的世界模型的候选场所。例如,海马体已被视为对空间导航有用的认知图的所在地(O'Keefe&Nadel 1978)。也许有关有模型评估的潜在神经回路的最直接暗示数据也来自空间导航任务,其中,啮齿类动物海马体中的位置细胞表征在导航过程中和选择点处似乎位于动物之前(Johnson&Redish 2007, Pfeiffer & Foster, 2013)。已经建议该预期活动实例化对未来轨迹的搜索以支持有模型评估(例如,公式1中的决策时间计算)。但是,这种现象尚未与证明有模型评估的选择行为(例如隐学习或其他综合任务)具体相关。

  除了空间导航外,海马体还与更抽象的关系信息相关联,让人联想到状态转换函数(Eichenbaum&Cohen 2004; Shohamy&Wagner 2008)。然而,也许海马体最著名的功能是回合式记忆的形成。记忆是特定事件的长期自传快照。该功能还与预期的未来回合规划或其他决策的构建有关(Schacter et al. 2012)。但是,它在RL中没有得到足够的重视。在下面,我们认为这可能是一些有模型决策的基础。海马体记忆功能的这些看似不同的方面之间的关系是一个深层的概念性问题,引起了记忆的认知神经科学领域的持续争论。

 

Computational Shortcomings of the Current Picture

  上面两节中描述的计算和神经机制似乎得到了很好的支持,尽管在世界建模和综合评估的神经实现方面存在一些不确定性。但是,这些机制可以扩展到实际任务的方式仍不清楚。不仅在实验室中研究的任务是小型且人为的,而且更重要的是,允许RL在此类任务中正常工作的假设不适用于许多更丰富的现实环境。

  当前RL概念的许多问题来自状态st的定义。实验室实验通常最多包含少数几个离散的状态和动作,这些状态和动作会清楚地向受试者发出信号,并旨在满足Markov条件独立性。现实世界中的感觉很少满足这些条件。生物体的典型感官体验既太大又太贫乏,以至于不能用作基于公式1的算法。它们过大是因为它们是连续高维的,因此有效的学习需要识别相关维度的子集和在永远不会完全发生的情况之间适当地泛化(Niv et al. 2015)。

  现实世界中的感觉十分贫乏,因为尽管人们立即进行了感官观察,但它们却很少满足Markov属性;过去观察到但当前无法观察到的其他信息会影响未来的状态和期望奖励。即时感觉通常无法满足现实任务中的Markov属性。例如,只要两个不同的位置在导航过程中看起来足够相似而无法区分(状态混叠),或者在日常事件之间存在长期依赖关系(例如有人告诉你,他们明天中午会回来吃午餐)时,就会侵犯该属性。如果对于某些推定状态s不能保持Markov性,则不可能通过Bellman方程(公式2)分解状态-动作价值。

  当然,存在应对这些情况中的一些方法的大量机器学习工作。与神经科学特别相关的是部分可观察到的Markov决策过程(POMDP)理论(Kaelbling et al. 1998),该理论将Markov违背视为由满足Markov性但只能被间接(也许含糊)观察到的隐状态引起的。通过训练,可以学会推断这些状态的身份(这可能确实为RL的状态表征提供了理论基础的一部分;Daw et al. 2006; Gershman et al. 2010, 2015; Rao 2010),但只有这样做后,才能坚定地学习动作价值。在以下各节中,我们将考虑一些机制,这些机制可能适用于学习过程的早期阶段,并且在面对关于如何定义状态,哪些维度相关以及如何推断隐方面的不断学习过程中,也可能具有一定的灵活性和适应能力。

 

EPISODIC MEMORY FOR NONPARAMETRIC VALUE FUNCTION APPROXIMATION

  如果当前RL的计算概念不完整,如何取得进展?一种方法是进一步检查大脑的记忆系统对RL有何建议。

  现有的RL理论已经认识到RL与记忆研究中称为过程记忆(用于无模型策略或动作价值)以及语义声明性记忆(用于世界地图或模型)之间的联系。令人惊讶的是,这些量,例如关于如何骑自行车的程序知识或通常早餐可能包含的语义知识,都表示从一系列事件中提取的统计摘要。相比之下,记忆研究的主要重点是针对one-shot事件的记忆,从单词列表到自传事件,例如你的30岁生日聚会或你今天早上吃的早餐。这篇综述的其余部分考虑了单独事件的记忆如何为RL服务,尤其是为什么这些记忆可以帮助RL理论摆脱其先前的某些弱点以及它们所依据的限制性假设。

  尽管是抽象中的一个有趣的计算对象,但one-shot记忆并不是长期回合式记忆所独有的。例如,工作记忆显然在简短地维护和处理信息方面起着作用,电话号码就是这种情况。我们的综述中也讨论了这种类型的记忆。但是,我们主要考虑长期回合式记忆,除了对RL具有许多吸引人的计算功能外,它还与海马体有关,海马体还具有着有模型RL中涉及的其他记忆功能。(尽管我们尚无法完全协调这些功能,但是很明显,从当前的RL概念来看,回合式方面显然不足。)

  从心理上讲,回合式记忆与详细的自传式记忆相关联,例如你今天早晨吃的早餐,将特定时间和地点的经验的许多不同感官特征联系在一起(Tulving 1972)。在计算上,出于本次综述的目的,我们将强调单独事件记录的概念(如在任务中进行试验)以及该事件的许多方面之间的联系,包括多个感官维度和相继经历的感觉。在下文中,我们对回合式记忆可能赋予生物体决策的哪些优势进行了推理,并认为这些记忆非常适合上述机制处理不佳的情况,并与另一类估计算法紧密相关。

  对于这种解释,我们基于Lengyel&Dayan (2007)的较早建议,该建议提出了回合式记忆可以用来记录并在之后模仿先前奖励的状态与动作序列,这一过程被称为回合式控制。在这篇综述中,我们对类似的想法(称为回合式RL)提出了一些不同的计算原理,其中回合式记忆用于构造状态或状态-动作价值函数的估计(而不是用于提取策略,直接为动作序列)。然后可以将这些评估结果进行比较,以通常的方式得出选择策略。

  上一节确定了现实环境中现有算法的两个困难。首先,情况(状态)空间很大,并且通常不事先知道其哪些特征或维度与价值预测有关。其次,许多RL系统利用Bellman方程的递归结构,但是支撑此递归结构的Markov假设在许多实际环境中(例如,当存在长期依赖性时)无效。通过允许以后构造价值函数的非参数化*似(在编码时不需要预先确定,相对于特定的相关感官维度取*均,或者依赖于状态的特定选择的Bellman方程),单独回合的记忆可以用来帮助缓解这些问题。

  要了解这意味着什么,请回想一下,状态价值表示(可能无限长的)轨迹上的累积未来奖励。无模型算法会存储和更新此价值的运行*均,而有模型算法会使用奖励和转换函数的估计即时计算该值。这些方法是参数化的,因为它们估计一组指定价值函数的参数(在无模型控制的情况下为缓存的价值,在有模型控制的情况下为模型参数)。一旦这些参数被估计,就可以丢弃原始数据。

  回合式RL通过从内存中检索样本来保留原始数据的内存并*似状态价值。从直觉上讲,这是有效的,因为状态价值可以简单地通过将沿该状态启动的内存轨迹上收集的奖励相加或在多个这样的轨迹上取*均来*似得出。由于这些轨迹是单独且时间可扩展的,因此它们捕获了事件之间的任意长距离非Markov依赖性。而且,如下所述,该过程允许在什么情况下出于预测新颖情况下的价值而将相似状态视为灵活且自适应的泛化。

  回合式RL是非参数化的,因为它不依赖于价值函数的固定参数化形式。随着观察到更多数据,*似的有效复杂度(即回合数)逐渐增加。这种方法类似于关于非参数化估计的统计和机器学习方面的先进文献(有关教科书的处理方法,参阅Wasserman 2006),以及在RL设置中将这些技术应用于价值估计的更专业的应用集(例如,Engel et al. 2005; Ormoneit&Sen 2002)。

 

Formalization of Episodic Reinforcement Learning

  回合式RL的最简单实现(图1)是将各个轨迹存储在内存中,并且在遇到熟悉的状态时,检索在该状态下遵循每个候选动作的一组轨迹,对随后获得的奖励进行*均以估计每个动作的价值。正式地,

其中,M是检索到的轨迹数,Rm是每个轨迹的累积折扣回报,并且π是主要策略。当状态空间较小且序列不深时,此方法相当有效。但是,当将其应用于更一般的环境(例如,具有较大的状态空间和较长的规划时间范围)时,存在一些问题。首先,由于似乎只有相对较短的轨迹可以存储在内存中(内存中的大量工作涉及回合之间事件的分段;例如,Ezzyat&Davachi 2011),因此回合式RL可能趋短视,由于迹的截断忽略了长期的未来事件。在计算上,随着时间范围变长,基于样本轨迹的长期奖励估计也会有较大的方差,因为在此过程中,越来越多的随机事件介入(Kearns&Singh 2000)。其次,在复杂或连续的状态空间中,很少会重新访问状态;因此,控制器需要一种泛化为新状态的机制。

  第一个问题可以通过将回合式RL与Bellman方程组合来解决。考虑一个智能体,该智能体检索一组轨迹M,从状态s1中的动作a开始,在某个状态smN中,在以后的N个时间步骤处结束,这对于每个回合m可能有所不同。此状态的价值可以表示为:

  该公式中的第一项表示长度为N的回合的期望回报,第二项表示该迹终止后的期望回报。可以使用有模型价值或无模型价值估计或通过将一系列回合链接在一起来计算第二项。组合这些项可以使回合式RL正确考虑有限轨迹的长期结果。值得注意的是,各个序列捕获事件之间的任意长期依赖关系(直至其长度),并且仅调用Markov假设将它们编织在一起。也有可能将较短的序列编织在一起,或者在一定范围内,将各自的状态转换本身(从一组样本回合中抽取出来)组合在一起(Ormoneit&Sen 2002),以达到可以依赖Markov假设的程度。与传统的无模型方法不同(Sutton 1988),不需要多少依赖于Markov假设就可以在第一次获得经验时做出决定,而可以在以后的选择时(当用于计算决策变量时)做出决定。因此,此决定可以通过临时的额外经验来告知。

  回合链接的过程与分层RL中选项的使用极为相似(Botvinick et al. 2009)。选项是具有特定启动和终止条件的策略;当一个选项终止时,将调用另一个选项。正如选项允许智能体从原始动作中构建可重用的子例程一样,回合允许智能体重用过去的经验。实际上,回合式检索可能是创建选项的一种方式。

  第二个问题(泛化)可以通过允许价值是回合的*滑插值来解决。具体而言,可以通过以下方式估计轨迹的期望回报:

其中M是检索到的内存迹的数量,sm1是存储在内存迹m中轨迹的初始状态,Rm是该轨迹的回报。核函数K(s1, sm1)度量当前状态与检索到的状态之间的相似度。核函数也可以在状态-动作或状态-动作-奖励元组上定义。这样的泛化对于选择的目的很重要,因为它允许智能体估计在新的情况下或在连续状态空间中采取特定动作的价值。该模型的一个重要特征是核函数K不需要在初步学习时就固定下来,而是可以在回合用于指导选择之前由后续经验来确定。这与基于参数化函数*似方案(例如神经网络)的传统泛化形成对比,后者在编码时间等于状态空间某些区域的*均价值(例如Sutton&Barto 1998)。

  适当的核取决于状态空间的结构。例如,在光滑的实价值状态空间中,常用的核是高斯核:

其中带宽参数σ2控制着价值函数*似的*滑度;较小的带宽会引起更陡峭的泛化梯度,并且在极限情况下不会产生泛化(即纯回合式记忆)。最优带宽随着数量的增加而减小,并且随着回合的分散而增加(Wasserman 2006)。直观上,带宽提供了一种正则化形式,可防止核估计过度泛化。还可以在离散的状态空间以及图形,语法和树之类的结构化对象上定义核(Gärtner et al. 2004),有时可以指定带宽的类似参数化。

  基于核的RL方法与适用于其他认知领域的相似方法非常吻合(Jäkel et al. 2009)。记忆,分类,目标识别和函数学习的示例模型可以解释为核密度估计的形式。特别相关的是Gilboa&Schmeidler (2001)的基于案例的决策理论,该理论(如我们在"Case-Based Decision Theory and Decision by Sampling"一节中所述)将核密度估计应用于决策问题。机器学习的研究证明了基于核的方法的有效性(Ormoneit&Sen 2002),尽管相对较少的工作将这些方法的计算与统计折衷和常规的有模型与无模型RL进行了比较。

 

Reinforcement Learning and Memory for Individual Episodes

  上一节概述的框架和Lengyel&Dayan (2007)的先前提案建议,在某些情况下,RL行为应该由记忆驱动的单独回合与有模型或无模型学习者所采用的这些回合的汇总统计信息不同。目前,直接支持这些预测的经验文献很少,主要是因为在RL研究中最常使用的行为任务种类不容易解决这些问题。这些任务的两个局限性导致了这些缺陷。

  首先,与分类研究不同(受试者对许多独特的刺激做出判断,而基于示例的模型使我们联想到我们的框架)早已成功(Nosofsky 1986),大多数RL的实验室研究包括许多重复且基本相同的试验。因此,从实验上或心理上,几乎没有什么可以区分回合,只有很少的客观可预测的特征,除了暂时性地控制受试者可能检索的回合。其次,尽管非参数化回合式评估的一些最有趣的特征(如一般的RL评估)发生在序列决策任务的评估过程中,但与这些想法相关的现有工作大部分发生在没有序列结构的重复选择-奖励赌博机任务中。但是,确实存在一些支持证据。

  最*,Collins&Frank (2012)提出了一个模型以及相关的实验任务来进行测试,该模型认为人类在RL任务中的许多逐项试验选择是由对工作记忆中先前事件的一小部分记忆驱动的,而不是与无模型(和有模型)的RL关联的增量运行*均。这个想法与当前的回合式RL提议有些相似(尽管重点是与存储不同的存储系统)。为了支持这一理论,研究人员发现,在类似赌博机的任务中,增加访问次数(设定大小)或两次状态访问之间的时间延迟会减慢学习速度,这一发现与标准RL模型不一致,但通过使用刺激历史上的有限内存缓存以确定动作价值。具有与较高水*的前额叶多巴胺相关的遗传多态性的个体在动作价值中表现出更大的先前刺激历史的保留。使用该任务的进一步工作表明,精神分裂症患者在RL的工作记忆成分中具有选择性损伤(Collins et al. 2014),这与精神分裂症患者的前额叶多巴胺水*降低的观察结果一致。

  正如我们所描述的,这种机制与回合式评估并不完全一致。首先,任务是确定性的,状态空间是离散的,因此不执行泛化和对带噪结果进行*均的方面。其次,我们[和其他理论家,例如Zilli&Hasselmo (2008)]假设,基于回合式的RL系统在较长的延迟(包括从一天到第二天的学习)中有用,并且更大的状态空间,它可能必须涉及海马体的回合式记忆系统,而不是短期的工作记忆。

  Erev及其同事已经完成了其他有关赌博机任务的工作,在这种情况下具有随机结果(例如Erev et al. 2008)。这些研究人员认为,可以通过维护个体试验结果而非运行*均值的模型来最好地解释受试者选择偏好的许多综合特征。根据可以被认为是回合式RL实例的模型,受试者会根据先前从他们那里获得的特定奖励的一小部分样本(例如一两个)来评估赌博机,尽管并非总是如此(这是可以预测的)通过运行*均值。这种采样所隐含的决策变量的统计数据解释了这些任务中偏好的多种特征,例如对风险和损失的敏感性。

  检验这种模型的一个问题是赌博机任务中所有试验的基本相似性。其他研究已将附带的试验性独特图像与赌博机任务整合在一起,从而开始获得对单独回合的控制力。例如,Bornstein et al. (2015)发现,使用这些图像提醒受试者先前的试验会在提醒后立即影响他们的后续动作:如果过去的动作产生了奖励,则该试验的提醒会促使受试者重复进行,而如果该动作导致损失,然后催促受试者避免损失。这种操作可能被理解为影响回合式RL中的记忆检索。

  Wimmer et al. (2014)研究了使用fMRI的类似操作。在这项研究中,试验唯一对象的回合式记忆(在实验后进行测试)与奖励历史对编码时间决策的影响呈负相关,因此,更好的(随后测量的)回合式记忆与较弱的反馈驱动学习有关。成功的回合式编码的负面影响还与纹状体预测误差信号减弱以及海马体和纹状体之间的连通性增加有关。对于回合式结果,可能的解释是,由于试验独特的对象完全是任务所附带的,回合式评价机制(在参与的程度上)有效地将不受控制的噪声注入了评估过程,从而掩盖了奖励驱动选择行为和相关的纹状体信号。

 

Overcoming State Aliasing

  回合式RL的一个优势是它的鲁棒性:即使Markov属性不在轨迹内,也可以通过记住的轨迹有效地估计状态价值。即,即使样本轨迹内的事件之间存在任意的长期依赖关系,遵循某个当前状态s1的一组回报也可以有效地估计其长期价值。但是,此属性仅部分解决了状态表征的问题。特别是,如果起始状态s1本身不满足Markov属性(即,如果s1之后的结果取决于s1之前发生但未反映在其中的事件),则与s1匹配的回报集将不反映此额外信息。这将在回合式价值估计中引入额外的噪声。

  当状态混叠时,可能会违反此假设:如果根据当前观察值无法区分多个状态,则在给出当前观察值的情况下,该价值没有条件独立于智能体的历史记录。解决此问题的方法再次依靠记忆(在这种情况下为短期工作记忆)通过用适当的*期刺激历史来增强状态来消除歧义。例如,如果你收到了在第二个交通信号灯后左转的指示,则不仅仅通过你是否在交通信号灯中而是通过其前面的轨迹来指定左转弯的价值。但是,如果你可以记住你通过了多少个交通信号灯,则可以消除这种依赖性。换句话说,交通灯的数量足以反映你的历史记录,并且将其存储在内存中可让你将其合并到状态表征中并有效地应用标准RL算法。这里的主要问题是要存储多少历史记录。

  这种见解是工作记忆辅助RL的几种计算模型的基础。多巴胺在前额叶皮层中起门控信号的作用,使多巴胺的相位爆发能够瞬时增加前额叶神经元的增益,从而使它们对传入的输入产生更大的响应(Cohen et al. 2002)。重要的是,Braver&Cohen (2000)证明了TD学习可用于将相关信息自适应地分配到工作记忆中,而不包括无关紧要的干扰因素。从本质上讲,这项工作以与选择运动动作相同的方式来处理评估(通过RL)和认知动作的选择(从工作记忆中插入和删除项),从而全面解释了多巴胺在认知和运动控制中的作用。O'Reilly&Frank (2006)通过展示如何在前额叶-基底神经节相互作用的生物学详细模型中实现自适应门控来扩展这一想法。Todd et al. (2008)提供了进一步的见解,他阐明了如何将自适应门控理解为部分可观察性的标准计算解决方案。

  所有这些模型都试图解决的挑战是发现哪些特定的过去事件需要保留在工作记忆中以及保留多长时间。值得注意的是,Todd et al. (2008)的模型通过利用一种称为TD(λ)的TD价值估计形式发现了这些长期关系,其中所有先前访问的状态都可以在每个时间步骤进行更新;该算法的这种变体在统计上与通过回合式采样轨迹对状态价值的评估有关(Sutton&Barto 1998)。这表明,回合式记忆对于相同的目的也可能有用。从回合式RL模型的角度来看,这种学习实际上使生物体能够弄清楚在什么情况下可以应用Markov属性。然后,可以将这种理解应用到使用回合式轨迹中存储的经验来计算价值。与本综述的重复主题一致,相对于Todd et al. (2008)的状态学习模型,这种理解的一个优势是不需要从新的经验中重新获得动作价值,而只是重新计算为状态空间演变的理解。

 

Approximating Value Functions Over Complex State Spaces

  如上所述,在新情况下做出原始决策时,原始内存迹的用途有限,因为它们的泛化效果很差。使用前面的示例,如果强制绕行,则准确计数交通信号灯将失败。在这种情况下,有必要使用一个价值函数*似,该价值函数随着与存储的内存迹的偏差而逐渐降低。这种局限性促使人们使用允许某种程度泛化的核方法。

  在RL研究中,此问题通常作为价值函数*似的问题解决:智能体如何在(可能是连续高维)状态上逼*函数Q(s, a)?计算神经科学方面的许多工作都致力于尝试了解这些问题如何在大脑中发挥作用。提出的架构通常实现线性或非线性参数化*似,例如使Q(s, a)通过状态空间上定义的一组基础函数的加权和来*似。但是,尚不清楚此类参数化*似是否可以扩展到现实世界中的问题,而在这些问题中,适当的特征空间是难以捉摸的。机器学习中追求的一种方法是开发复杂的架构,例如深度神经网络,它可以学习从大量训练数据中发现良好的参数化表征(Mnih et al. 2015)。但是,这种方法似乎无法提供人类行为的完整信息,在某些情况下,观察到非常少量的数据后可能会有效(例如,Griffiths et al. 2010; Lee et al. 2014)。这种能力部分归因于指导学习的强烈归纳偏差(Griffiths et al. 2010)。另一个因素可能是大脑对核方法的使用,这些方法可以从稀疏的训练示例到新的测试情况进行泛化,从而捕获状态空间的基础结构。

  直观地,一个好的核为具有相似价值的状态分配了高度相似性,从而允许对这些状态中的奖励进行*均的价值函数*似,而不必对具有不同价值的状态进行*均。在有关生物学RL的文献中,主要针对选择参数化(线性)价值函数*似的一组适当的基础函数来讨论这些泛化问题(例如,Foster et al. 2000; Ludvig et al. 2008),但是完全相同的考虑因素适用于非参数化泛化的核选择。后者的一个特殊优势是,核是在选择时间使用的,而不是在编码时间使用的,因此,可以像随后讨论的许多方案一样,通过后续经验来学习或适应核。

  在空间域中,可以给出适当的泛化,以进行具体的几何解释。例如,在欧氏空间坐标上定义的高斯核会错误地预测站在银行金库外的位置非常有价值。该错误是由于未能对进入金库内部的可能性较低这一事实进行编码而导致的。几何边界会在其他情况下的*滑价值函数中引起不连续性,并且可以通过表示测地距离(沿着空间连通性图的最短路径)方面的相似性来编码此类不连续性。该原理从物理空间扩展到任意特征空间(Mahadevan 2007, Tenenbaum et al. 2000)。

  Gustafson&Daw (2011)提出,将海马体中的位置细胞(由其作为基本函数而不是*似核)编码为一个测地空间度量,这由几何不规则环境中的系统空间扭曲证明。Stachenfeld et al. (2004)扩展了这个想法,他认为海马体中的测地空间度量可能来自称为后继表征(SR)的更一般的预测表征(Dayan 1993)。特别地,每个状态(例如,空间位置)可以根据后续状态的期望未来占有率来表示(见图2)。SR表示的距离捕获了测地距离的关键属性,因为通过边界的可能性很小,因此期望的未来占用率很低。SR超越了测地距离,它还结合了行为策略变化引起的空间扭曲。SR的重要计算优势在于,它使价值计算变得微不足道:状态的价值只是每个后继状态的期望未来占用率的总和,该后继状态由该状态的期望奖励加权。

  可以将SR(或测地距离函数)视为编码状态空间底层结构的核的一种特殊选择,而不是用于编码参数化价值*似的基本函数。Bellman方程意味着状态及其后继趋向于具有相似的价值,因此SR恰好是一个好的核,因为它具有预测性。SR可以使用TD方法直接从状态转换中学习(Dayan 1993, Stachenfeld et al. 2014),因此提供了一种合理的机制,可以通过学习使核函数适应任意状态空间。

  核设计的另一个方面涉及多维状态空间:在许多现实世界中的任务中,只有某些维度与任务性能相关,因此需要对特征空间进行某种形式的选择性注意力。在核视图中,选择性注意力将表现为取决于手头任务的状态之间相似结构的扭曲。这个想法已经体现在几种有影响力的分类模型中,这些模型假定误差驱动的学习会影响从特征输入到相似性的映射(Kruschke 1992, Love et al. 2004)。在RL任务中已经开始探索相关的想法(Gershman et al. 2010; Niv et al. 2015; Vaidya&Fellows 2015)。这项研究表明,在奖励历史的基础上,顶叶和额叶皮层的经典注意力区域参与了对刺激特征的责任分配。尽管研究人员已经从无模型RL角度解释了这种现象,但相同维度的注意力滤波器可能会影响回合式RL使用的核。此外,这将是有利的,因为一旦选择了适当的维度注意力,在选择时而不是在编码时应用注意力滤波器将减少对重新学习价值的需求。

 

Learning with Sparse Data

  各种回合式估计的另一个优点是,当有模型学习和无模型学习失败时,它们可以在相对较低的数据限制下成功(相对而言),如Lengyel & Dayan (2007)的仿真所证明的那样。这种分析与在各种任务的训练过程中行为控制从海马体向纹状体转移的证据是一致的(Packard&McGaugh 1996, Poldrack et al. 2001),尽管这些任务并未明确地分离出回合式RL策略。

  一些证据表明,海马体在决策任务的one-shot学习中起特殊作用。Lee et al. (2014)发现人类可以通过一次观察就学习到一种新颖的刺激-奖励结果,而这种快速学习选择性地动员了海马体。快速学习还与海马体和腹外侧前额叶皮层之间的偶联增加有关,这被解释为支持早期假设的证据,即腹外侧前额叶皮层充当不同RL系统之间仲裁的元控制器(Lee et al. 2014)。

  出于统计考虑的读者可能会反对非参数化*似(例如核密度估计)通常比参数化方法具有较低的数据效率,这与我们的说法是矛盾的,因为我们认为此类*似可以在低数据范围内使用。的确,强大的参数化假设(例如Markovian假设)可以提供归纳偏差来指导和约束推理,但是这种偏差仅在假设正确的情况下才有用。鉴于自然环境中存在高维度和状态混叠的双重问题,很可能只有在识别相关维度和刺激历史的初始学习阶段对标准参数化假设进行验证和调整后,才能依赖标准参数化假设。此外,尽管非参数化*似的收敛速度通常较慢,但由于其优越的灵活性,此类*似实现了渐*较低的误差(Wasserman 2006)。这是偏差-方差折衷的一个例子(Geman et al. 1992):非参数化方法更接*于价值函数(偏差较小),但泛化能力较差(方差较大)为代价。核*滑的目的正是通过引入偏差(即正则化)来减少方差。如果价值函数本身是*滑的,并且此*滑度与核函数很好地匹配,则增加的偏差将很小;如前一部分所述,在具有相似期望价值的状态下,核*滑应该是最强的,这一点可以使用重现核希尔伯特空间的理论来精确确定(Schölkopf&Smola 2002)。从这个讨论中,我们可以得出结论,当价值函数不能由参数族很好地*似时,回合式RL应该在低数据限制下表现相对较好,但是这些价值仍然以核捕获的方式在状态空间上保持*滑。

 

INTERACTIONS BETWEEN LEARNING SYSTEMS

  当代RL研究的中心主题是多种学习和控制系统之间的相互作用(Daw et al. 2005; Dolan & Dayan, 2013)。这项研究大部分集中在指导无模型系统和有模型系统之间竞争性相互作用的原则上,例如,在什么情况下值得进行有模型的审议,而不是仅根据先前学习的无模型偏好进行操作(Daw et al. 2005; Keramati et al. 2011),但整个故事更加复杂且动荡不安,尤其是考虑到建议的回合式记忆参与。首先,额外影响的可能性扩展了仲裁问题:什么时候大脑应该使用先前学习的地图或模型来比较回合与规划,应该咨询哪些回合?其次,影响可能以简单竞争以外的其他方式相互作用。例如,如本节下面所讨论的,回合除了用于在决策时计算价值外,还可以用于无模型价值的离线训练,例如在睡眠期间。第三,并且相关地,所有这些考虑都可能使无模型和有模型系统的工作变得复杂或混乱,因为它们先前已经被构思出来。尤其是,尚未确定有模型选择的认知和计算基础,并且至少某些被认为是有模型的行为可能源于这些影响因素。

  正如我们已经明确指出的那样,回合式RL很可能与有模型和无模型系统一起(或作为其一部分)构成另一个系统。确实,在其他研究中,单独回合对选择的影响可能被误认为是无模型学习或有模型学习,而通常假定这些模型而是取决于在许多回合中学习到的统计摘要。例如,在一步赌博机选择任务中,对单独最*回合的记忆可以支持逐次试验选择调整,这种调整看起来类似于无模型动作价值的增量学习(Bornstein et al. 2015, Collins&Frank 2012, Erev et al. 2008)。

  回合式影响也可能以多种方式被伪装成有模型的。例如,在多步序列任务中,单独轨迹的回合式快照也包含有关任务的序列状态-状态图的信息,并且可能支持具有基于图或模型选择的签名的行为(Daw et al. 2011, Tolman 1948),而未实际使用统计世界模型(例如Gershman et al. 2014)。的确,在海马体功能认知神经科学中,由心理学仿真进行规划而不是由语义表述(或除语义表述之外)支持的想法是一个重要的提议(Hassabis&Maguire 2009, Schacter et al. 2012)。

  正如我们已经描述的那样,回合式无模型RL也似乎相互竞争,就像人们认为有模型和无模型RL一样。这种竞争可能被理解为第三系统或有模型系统的一个偶然的方面。单独试验中成功的回合式记忆与对奖励历史和神经预测误差信号的敏感性负相关(Wimmer et al. 2014; 相反的结果,参见Murty et al. 2016)。回合式记忆对奖励指导选择的干扰作用也可以通过增加对过去行为的偶然提醒而直接产生(Bornstein et al. 2015)。更一般地,海马体在行为控制中的参与往往在训练的早期占主导地位,而纹状体在训练的后期则占主导地位(Packard&McGaugh 1996, Poldrack et al. 2001)。

  这些竞争性的相互作用与争夺行为控制的很大程度上独立于系统的图相吻合,而元控制器根据训练过程中不同点的相对功效在三个(或两个)系统之间进行仲裁。特别地,当参数稀疏和状态空间的复杂性导致参数化价值*似时,回合式RL在训练初期可能会很有用(Lengyel&Dayan 2007)。在所有这些方面,我们设想的回合式RL都呼应了也归因于有模型RL的功能。尽管仅回合式RL似乎不可能解释有模型RL的所有表现,但是这两个推定的系统并没有以与它们(总的来说)与无模型学习分离的相同方式被清楚地加以区分。因此,将需要更精确地识别对行为和大脑活动的影响,这些影响与在地图或世界模型中对单个事件的统计摘要和对它们的统计摘要的检索可验证地联系在一起。如果发现单独回合直接影响评估,则有必要充实新兴的有模型和无模型影响之间竞争的理论和实验解释——广义地说,被认为反映了由于花费时间重新计算更好的动作价值而导致的合理的速度-精度折衷(Keramati et al. 2011),还可以权衡针对这些重新计算与原始模型进行咨询的原始回合的相对成本和收益。

  回合式记忆的影响也可能影响有模型和无模型的区分,使情况进一步复杂化。例如,纹状体和海马体可以协同竞争地相互作用(有关综述,请参见Pennartz et al. 2011)。有证据表明,这两个区域的记忆回放(Lansink et al. 2009)和振荡动态(van der Meer&Redish 2011)是协调的。人类神经影像学研究表明虚拟导航期间海马体和纹状体之间的功能连接(Brown et al. 2012)和基于上下文的决策(Ross et al. 2011)。

  这些交互中的某些交互作用的一种功能解释是,它们支持回合式记忆对无模型价值的协同影响。这样的交互将进一步利用回合式记忆进行选择(超出非参数化价值计算),并且还会产生可能再次模仿有模型系统的某些行为的选择。按照传统观念,无模型RL仅限于从直接经验中学习,这使其变得缺乏灵活性。例如,分别经历环境的不同部分将导致分离的无模型价值函数,其中在部分边界处违反了Bellman方程所隐含的价值的一致性。有模型系统的传统标志之一是能够将这些组件缝合在一起,以建立一个世界模型,然后将其用于模拟从未经历过的状态转换与奖励的序列(Shohamy&Daw 2015)。但是,获得相同效果的另一种方法是将这些替代经验提供给无模型学习者,然后该学习者可以使用与使用实际经验来更新其存储价值相同的方式来使用它。通过简单地回放回合式记忆中的经验片段,将这些片段插入原本单独的经验中,甚至不需要建立世界模型就可以实现这一目标。这种回放机制是另一种方式(除了非参数化评估之外),在这种情况下,回合式记忆可能会通过驱动无模型价值学习来影响选择。这种混合架构最初是由Sutton (1991)在机器学习文献中提出的,他将其称为Dyna。

  Gershman及其同事(2014)报告了行为证据,证明人类的价值得到类似Dyna的离线回放的支持。在这些实验中,参与者分别学习了单个MDP的不同部分,然后进行了回顾性重估测试,以查看他们的决定是否反映出整体价值。实验确实找到了重估的证据,通常将其作为有模型的价值计算的标志。但是,实验表明,成功重估的程度对旨在影响Dyna风格的离线回放的几种操作敏感,但与有模型选择无关(在选择时通过心理模拟对决策变量进行及时计算的意义上)。尤其是,通过使用次要任务将人们置于学习过程中而不是在随后的选择阶段中,使其处于认知负担之下,从而使重估受到干扰。可以通过在重估测试之前给人们一个短暂的静止(听古典音乐)时间来减轻负载的有害影响,这与离线模拟过程的操作一致。

  神经影像学研究(Kurth-Nelson et al. 2015; Wimmer&Shohamy, 2012)也表明,在学习(而非选择)时获得的记忆支持了类似整合任务的成功重估。更广泛地讲(尽管与决策或学习无关),在安静休息,睡眠,甚至持续行为期间,海马体的神经元记录中反复观察到对先前经历的神经反应的回放(Carr et al. 2011, Skaggs&McNaughton 1996)。这些现象表明,海马体可能是基于回放的学习的神经基础的候选者。但是,在所有这些情况下,包括人类实验在内,还不清楚是否检索到的主题是回合式的(例如,就单独事件的自传快照而言)还是反映出了来自多个回合统计数据的更多语义知识(例如,统计世界模型)。

 

RELATIONSHIP TO OTHER FRAMEWORKS

Case-Based Decision Theory and Decision by Sampling

  行为经济学的研究探索了记忆在决策中的作用,重点放在one-shot决策问题上,而不是我们所关注的序列问题上。这项工作的起点是对期望效用理论的批判,后者是新古典经济学的基石,它假设决策者将考虑世界上所有可能的状态以及所有可能的结果,以便在计算期望价值时对其进行*均。正如Gilboa&Schmeidler (2001)指出的那样,许多现实世界的情况都不太符合期望效用框架:状态和结果集对于决策者而言并不容易获得。例如,选择一个保姆将需要列举所有可能的保姆档案以及雇用一个特定保姆的所有可能的后果。出于所有实际目的,这些集合是无限的。为了解决这个问题,Gilboa&Schmeidler (2001)借鉴了认知科学领域的一个古老传统,提出了一个基于案例的决策理论(CBDT)(Riesbeck&Schank 1989)。

  这种理论的基本原语是案例,由决策问题,行为和结果组成。先前观察到的案例构成记忆。决策者在决策问题上具有相似性函数,在结果方面具有效用函数,并假定通过与使用相似性函数的先前案例进行比较,可以对新决策问题的行为进行排名。这种表述不需要详尽地列举状态和结果,只需要从内存中检索一个子集即可。有趣的是,排名机制是一种基于核的价值估计的形式,其相似度函数对应于一个核,而案例对应于回合。

  CBDT的相似性函数有效地确定了哪些内存可用。为简单起见,我们可以想象某些内存的相似度为零,这样就不会将这些内存检索到可用的子集中,而将所有检索到的内存设为常数价值。在CBDT的最基本形式中,分配给某个行为的效用与存储在为该行为选择的检索到的存储器子集中的结果的总效用成正比。该模型对记忆在确定参考点中的作用具有有趣的含义,因为仅根据可用记忆来判断行为(Simonson&Tversky 1992)。例如,Simonsohn&Loewenstein (2006)报告说,搬到新城市的家庭的租金支出将有很大不同,具体取决于其原籍城市的租金分布。在相关的理论工作中,P. Bordalo, N. Gennaioli, and A. Shleifer(未发表的手稿)制定了基于记忆的决策模型,该模型可让检索到的记忆影响决策者的参考点。

  Stewart et al. (2006)通过采样理论,认为所有决策理论量(效用,概率,时间持续时间等)都是基于内存中的样本,从而使这一逻辑在决策上更进一步。他们证明,前景理论中这些量的描述性参数化(Kahneman&Tversky 1979)可以凭经验从它们的生态分布中得出(它们是可用内存的代名词)。例如,Stewart et al. (2006)发现责任到银行账户的分布(衡量收益的生态分布的一种度量)*似为幂律分布,在效用函数反映收益的相对等级的假设下,暗指幂律揭示的效用函数。这种分析再现了Kahneman&Tversky (1979)提出的效用函数的曲率,其纯粹是出于描述风险厌恶的描述。关于借方的相对分布的类似考虑解释了损失规避。

  相对于基于内存的样本计算主观效用的想法对于决策模型具有深远的意义。这表明没有稳定的估值机制始终遵循理性选择的公理。这个想法基于一系列远远超出经济决策的心理学原理。从大小,持续时间和痛苦的心理物理学到因果推理和人类感知,基本上所有的判断都是相对的:根据确定比较集的上下文因素,同一目标可以被感知为截然不同(Kahneman&Miller 1986, Stewart et al. 2005)。对于市场研究人员来说,这一点并没有丢失,他们早就认识到比较(或考虑)集合构成在消费者选择中的重要性(Bettman 1979, Lynch&Srull 1982, Nedungadi 1990)。

 

Contingent Sampling Models and Instance-Based Learning

  尽管已经开发出大多数经济模型来解释根据描述的决定(例如,明确描述的彩票),但是RL范式通常涉及基于经验的决策(必须学习彩票结构)。行为经济学家也在与RL研究大不相同的文献中研究了类似赌博机问题的体验式学习。这里强调的最重要发现是,体验式学习通常会与基于描述的决策产生显著差异(Hertwig&Erev 2009)。例如,Kahneman&Tversky (1979)的基于描述的经典实验表明稀有事件明显权重过高,但基于经验的实验却发现了相反的现象:稀有事件的权重过低(例如Barron&Erev 2003, Hau et al. 2008)。Biele及其同事(2009)认为,这种权重偏低是从记忆中偶然采样的结果,其中基于与当前情况的相似性抽取样本。由于稀有事件不太可能出现在采样集中,因此这些事件将相对被忽略。该模型还可以解释许多其他令人费解的行为,例如过度自信(由于小样本方差的估计偏差)和惯性(倾向于重复先前选择的倾向;Biele et al. 2009)。Gonzalez及其同事(Gonzalez&Dutt 2011, Gonzalez et al.2003)建立了紧密相关的基于实例的学习模型。当前讨论的重点是样本类似于回合,并且采样过程本身有效地实现了核*滑的形式,因此这符合我们的总体框架。

  如果经验决定取决于某种形式的偶然采样,那么我们应该期望记忆偏差会影响决策。Ludvig, Madan及其同事(Ludvig et al. 2015; Madan et al. 2014)表明,召回极端积极或消极事件的偏差与风险偏好有系统地相关。在一组实验中(Madan et al. 2014),回忆极端事件的趋势中的个体差异与对风险收益的偏好正相关,而与对风险损失的偏好负相关。另一个实验(Ludvig et al. 2015)使用启动提示来操纵记忆,并显示启动过去的胜利会促进寻求风险。从理论上讲,Lieder et al. (2014)表明,当目标是最大程度地减少有限数量样本的期望效用估计的方差时,过高权重的极端事件采样策略是合理的。

 

CONCLUSIONS

  我们已经对RL的当前认知神经科学概念进行了综述,其中有模型和无模型的系统竞争(有时是协作)控制行为。这种双系统结构是出于*衡速度和灵活性的需要而在计算上获得动力的,但是我们认为,当数据稀疏且观测值在较长的时间距离上具有依赖性时,这两个系统(至少按照传统的构想)都无法在高维,连续,部分可观察的状态空间中良好地运行。不幸的是,这种情况可能是许多现实世界中学习问题的特征。通过实现非参数化价值函数*似的形式,第三种系统(回合式RL)可以为这些问题提供部分解决方案。如我们所展示的,这个概念可以将关于回合式记忆在RL中的作用的许多不同的观察联系在一起。尽管如此,我们的理论仍是推测性的。我们已经对其进行了抽象的构架,以突出这些思想的普遍性,但是要取得进步,必须首先将理论更精确地形式化,以便可以进行定量预测。我们希望在不久的将来,这将成为理论和实验研究的激动人心的领域。

推荐阅读