来源:CreateAMind
Building Machines That Learn and Think Like People
构建像人类一样学习和思考的机器
https://arxiv.org/pdf/1604.00289
摘要
人工智能(AI)的最新进展重新唤起了人们构建像人类一样学习和思考的系统的兴趣。许多进步来自于深度神经网络在诸如物体识别、视频游戏和棋类游戏等任务中的端到端训练,其性能在某些方面达到了甚至超越人类的水平。尽管这些系统受到生物学启发并取得了性能上的成就,但它们在关键方面与人类智能不同。我们回顾了认知科学的进展,认为真正像人类一样学习和思考的机器需要在学习的内容和方式上超越当前的工程趋势。具体而言,我们认为这些机器应该:(a)构建能够支持解释和理解的因果模型,而不仅仅是解决模式识别问题;(b)基于直觉的物理和心理理论来构建学习基础,以支持和丰富所学到的知识;(c)利用组合性和学会学习的能力,快速获取并泛化知识到新任务和情境中。我们提出了实现这些目标的具体挑战和有希望的途径,这些途径可以结合近期神经网络的进步与更结构化的认知模型的优势。
1 引言
人工智能(AI)一直是一个起起落落的故事,但从任何传统成功的衡量标准来看,过去几年都取得了非凡的进步。其中大部分进步来自于“深度学习”的最新进展,其特征是学习具有多层表示的大型神经网络风格模型。这些模型在许多领域取得了显著的进展,包括物体识别、语音识别和控制(LeCun,Bengio & Hinton,2015;Schmidhuber,2015)。在物体识别方面,Krizhevsky、Sutskever和Hinton(2012)训练了一个深度卷积神经网络(convnets;LeCun等人,1989),几乎将当时最具挑战性的基准测试的错误率减半。自那以后,卷积神经网络继续占据主导地位,最近在某些物体识别基准测试中接近人类水平的表现(He,Zhang,Ren & Sun,2015;Russakovsky等人,2015;Szegedy等人,2014)。在自动语音识别方面,自20世纪80年代末以来,隐马尔可夫模型(HMMs)一直是领先方法(Juang & Rabiner,1990),然而这一框架逐渐被深度学习组件取代(Hinton等人,2012)。如今,领先的语音识别方法是完全基于神经网络的系统(Graves,Mohamed & Hinton,2013;Weng,Yu,Watanabe & Juang,2014)。深度学习的思想也被应用于学习复杂的控制问题。V. Mnih等人(2015)将深度学习和强化学习的思想结合起来,开发出一种“深度强化学习”算法,该算法仅通过像素帧和游戏得分就能学会玩大量简单的视频游戏,并在许多这些游戏中达到人类或超人类水平的表现(另见Guo,Singh,Lee,Lewis & Wang,2014;Schaul,Quan,Antonoglou & Silver,2016;Stadie,Levine & Abbeel,2016)。
这些成就帮助神经网络重新确立了其在机器学习中的领先地位,就像它们在20世纪80年代末和90年代初一样。神经网络的近期成功引起了学术界之外的关注。在工业界,像谷歌和Facebook这样的公司都有积极的研究部门探索这些技术,并且基于深度学习的物体和语音识别系统已经被部署在智能手机和网络的核心产品中。媒体也广泛报道了神经网络的许多近期成就,通常认为神经网络之所以取得近期的成功,是因为其类似大脑的计算方式,从而能够模拟人类学习和人类认知。
在本文中,我们将这种兴奋视为一个机会,来审视机器像人类一样学习或思考的含义。我们首先回顾了认知科学家、发展心理学家和人工智能研究人员之前提出的一些标准。其次,我们阐述了我们认为构建像人类一样学习或思考的机器所必需的要素,综合了认知科学研究中的理论思想和实验数据。第三,我们从这些要素的角度来考虑当代人工智能(特别是深度学习),发现深度学习模型尚未纳入其中许多要素,因此可能以与人类不同的方式解决一些问题。最后,我们讨论了我们认为构建像人类一样学习和思考的机器的最有可能的路径。这包括将深度学习与我们识别的核心认知要素相结合的前景,部分灵感来自于最近将神经网络与经典心理学和计算机科学中的低级构建块(注意力、工作记忆、堆栈、队列)融合的工作,这些构建块传统上被认为与神经网络不兼容。除了我们提议中的具体要素外,我们还从更广泛的层面上区分了两种不同的智能计算方法。统计模式识别方法将预测视为主要目标,通常是在特定的分类、回归或控制任务的背景下。在这种观点中,学习是关于发现具有共同高价值状态的特征——在分类设置中是一个共同的标签,或在强化学习设置中的一个共同值——在一个庞大且多样化的训练数据集中。另一种方法将世界的模型视为首要,其中学习是模型构建的过程。认知是关于使用这些模型来理解世界,解释我们所看到的,想象可能发生但未发生的事情,或者可能是真实但尚未实现的事情,然后规划行动以使其成为现实。模式识别与模型构建、预测与解释之间的区别,是我们对人类智能的看法的核心。正如科学家寻求解释自然而非仅仅预测它一样,我们认为人类思维本质上是一种模型构建活动。我们在下面通过许多例子详细阐述了这一关键观点。我们还讨论了模式识别如何支持模型构建,即使它不是智能的核心,也可以通过“无模型”的算法来实现,这些算法通过经验学习如何使基本推理更具计算效率。
在继续之前,我们先对本文的目标提供一些注意事项,并简要概述一下关键思想。
1.1 本文不是什么
自从有了神经网络,几乎就有对神经网络的批评(Crick,1989;Fodor & Pylyshyn,1988;Marcus,1998,2001;Minsky & Papert,1969;Pinker & Prince,1988)。尽管我们在本文中对神经网络持批判态度,但我们的目标是基于它们的成功进行拓展,而不是纠结于它们的不足。我们认为神经网络在开发更像人类的学习机器方面有其价值:它们被应用于许多类型的机器学习问题中,展示了基于梯度的学习和深度潜在变量层次结构的强大能力。神经网络也有着作为认知计算模型的丰富历史(McClelland,Rumelhart & the PDP Research Group,1986;Rumelhart,McClelland & the PDP Research Group,1986)——我们在下一节中将更详细地描述这一历史。在更根本的层面上,任何学习的计算模型最终都必须基于大脑的生物神经网络。
我们也相信,未来的神经网络将与当前的前沿技术大不相同。它们可能会被赋予直觉物理、心理理论、因果推理以及其他我们在接下来的章节中描述的能力。更多的结构和归纳偏差可能会被内置到网络中,或者从相关任务的先前经验中学习而来,从而导致更像人类的学习和发展模式。网络可能会学会有效地搜索和发现新的心理模型或直觉理论,而这些改进的模型反过来又将促进后续的学习,使系统能够学会学习——利用先前的知识从极少的训练数据中做出更丰富的推断。
区分声称模仿或从人类认知中汲取灵感的人工智能(AI)和不这样做的AI也很重要。本文关注前者。后者是一种完全合理且有用的方法来开发AI算法——避免从认知或神经角度获得启发,以及避免声称认知或神经上的合理性。事实上,许多研究人员就是这样做的,而本文与这种研究策略下进行的工作几乎没有相关性。另一方面,我们认为,逆向工程人类智能可以为AI和机器学习提供有益的指导(并且已经做到了),特别是对于人类擅长的领域和任务类型。尽管最近在计算上取得了成就,但人类在解决一系列复杂的计算问题方面仍然优于机器,包括概念学习、场景理解、语言习得、语言理解、语音识别等。其他人类认知能力在计算上仍然难以理解,包括创造力、常识和通用推理。只要自然智能仍然是智能的最佳范例,我们就相信,逆向工程人类解决复杂计算问题的方案将继续为AI提供指导并推动其发展。
最后,尽管我们关注的是AI中的神经网络方法,但并不希望给人留下这些是AI近期进展的唯一贡献者的印象。相反,最近一些最令人兴奋的进展是在概率机器学习的新形式中(Ghahramani,2015)。例如,研究人员开发了自动化的统计推理技术(Lloyd,Duvenaud,Grosse,Tenenbaum & Ghahramani,2014)、自动化的模型构建和选择技术(Grosse,Salakhutdinov,Freeman & Tenenbaum,2012)以及概率编程语言(例如,Gelman,Lee & Guo,2015;Goodman,Mansinghka,Roy,Bonawitz & Tenenbaum,2008;Mansinghka,Selsam & Perov,2014)。我们相信,这些方法将在未来的AI系统中发挥重要作用,它们与我们在这里讨论的认知科学思想至少一样兼容,但对这些联系的全面讨论超出了本文的范围。
1.2 关键思想概述
本文的核心目标是提出一套构建更像人类的学习和思考机器的核心要素。我们将在第4节中详细阐述这些要素和主题,但在这里我们先简要概述关键思想。
第一组要素关注于发展的“启动软件”,即在发展早期就出现的认知能力。关注发展的原因有多个。如果一个要素在发展早期就出现,那么无论它是通过经验学习得来的还是天生就有的,它肯定在儿童或成人尝试学习本文讨论的任务类型之前就已经活跃且可用。此外,一个要素出现得越早,它就越有可能成为后续发展和学习的基础。
我们关注两种发展早期的启动软件(参见Wellman & Gelman,1992,对两者的综述)。首先是直觉物理(第4.1.1节):婴儿具有原始的物体概念,使他们能够跨时间追踪物体,并排除物理上不可能的轨迹。例如,婴儿知道物体会在时间中持续存在,它们是固体且连贯的。凭借这些一般性原则,人们能够更快地学习并做出更准确的预测。尽管任务可能是新的,但物理规律仍然不变。第二种在早期发展中出现的软件是直觉心理学(第4.1.2节):婴儿理解其他人具有目标和信念等心理状态,这种理解强烈地约束了他们的学习和预测。一个孩子观看专家玩一款新视频游戏时,可以推断出游戏角色具有自主性,并试图寻求奖励而避免惩罚。这种推断立即约束了其他推断,使孩子能够推断出哪些物体是好的,哪些是坏的。这些类型的推断进一步加速了新任务的学习。
第二组要素关注于学习。尽管学习有多种视角,但我们认为模型构建是人类水平学习的标志,即通过构建世界的因果模型来解释观察到的数据(第4.2.2节)。从这个角度来看,早期出现的直觉物理和心理学能力也是世界的因果模型。学习的主要任务之一是扩展和丰富这些模型,并构建其他领域的类似因果结构理论。
与机器学习中的最新算法相比,人类学习的特点是丰富性和高效性。儿童天生具有发现稀疏观察事件背后原因的能力和愿望,并利用这些知识远远超出数据的匮乏。人们能够从非常有限的经验中学习这些结构丰富的模型,这似乎有些矛盾。我们认为组合性和学会学习是使这种快速模型学习成为可能的要素(分别见第4.2.1节和第4.2.3节)。
最后一组要素涉及我们大脑构建的丰富模型如何在实时中付诸行动(第4.3节)。人们能够以惊人的速度感知和行动。人们可以在一秒钟内理解一个新场景,或者在说出和听到一个新话语的时间内理解它。在机器视觉和语音系统中使用神经网络的一个重要动机是像大脑一样快速地做出反应。尽管神经网络通常旨在进行模式识别而非模型构建,但我们将讨论这些“无模型”的方法如何加速感知和认知中的缓慢基于模型的推理(第4.3.1节)。通过学习这些推理中的模式,可以在不经过代价高昂的中间步骤的情况下预测推理的输出。将“学会推理”的神经网络与丰富的模型构建学习机制相结合,为解释人类大脑如何如此快速地理解世界提供了一种有希望的方式。
我们还将讨论强化学习中基于模型和无模型方法的整合(第4.3.2节),这是一个最近取得快速进展的领域。一旦学习了任务的因果模型,人类就可以利用该模型规划最大化未来奖励的动作序列;当奖励被用作模型构建成功的度量时,这被称为基于模型的强化学习。然而,在复杂模型中进行规划既繁琐又缓慢,使得实时控制的速度-准确性权衡变得不利。相比之下,无模型的强化学习算法(如当前的深度强化学习实现)支持快速控制,但以灵活性和可能的准确性为代价。我们将回顾证据表明,人类以竞争性和合作性的方式结合了基于模型和无模型的学习算法,并且这些互动受到元认知过程的监督。人类水平的强化学习的复杂性尚未在AI系统中实现,但这是一个认知方法和工程方法之间特别有希望交叉的领域。
2 人工智能中的认知与神经启发
关于人工智能(AI)是否以及如何与人类认知心理学相关的问题,比“人工智能”和“认知心理学”这两个术语本身还要古老。艾伦·图灵怀疑,建造并教育一台“儿童机器”比试图完全捕捉成人的认知能力要容易(图灵,1950)。图灵将儿童的心智比作一个笔记本,有“很少的机制和大量的空白页”,而儿童机器的心智则是通过响应奖励和惩罚来填充笔记本,类似于强化学习。这种对表征和学习的看法呼应了图灵时代占主导地位的行为主义心理学传统。它也呼应了现代连接主义模型的强经验主义,即我们可以通过感官输入的统计模式学习我们所知道的几乎所有内容。
认知科学摒弃了过于简化的行为主义观点,并在早期的人工智能研究中发挥了核心作用(博登,2006)。纽厄尔和西蒙(1961)开发了他们的“通用问题求解器”,既是人工智能算法,也是人类问题求解的模型,他们随后对其进行了实验测试(纽厄尔和西蒙,1972)。其他研究领域的AI先驱也明确引用了人类认知,甚至在认知心理学期刊上发表了论文(例如,鲍勃罗和温诺格拉德,1977;海耶斯-罗思和海耶斯-罗思,1979;温诺格拉德,1972)。例如,沙克(1972)在《认知心理学》杂志上写道:
我们希望能够构建一个程序,像孩子一样学习如何做我们在本文中所描述的事情,而不是被强行灌输必要的大量信息。
明斯基(1974)也表达了类似的观点:
我不在人类思维理论和制造智能机器的方案之间划清界限;今天将这两个领域分开没有任何意义,因为这两个领域都没有足够的理论来解释——或者产生——足够的思维能力。
这些研究大多假设人类知识表征是符号化的,并且推理、语言、规划和视觉可以用符号操作来理解。与此同时,一种截然不同的方法正在被探索,基于类似神经元的“子符号”计算(例如,福岛,1980;格罗斯伯格,1976;罗森布拉特,1958)。这种方法的表征和算法更多地受到神经科学的启发,而不是认知心理学,尽管最终它会发展成为一个有影响力的关于认知本质的思想流派——平行分布式处理(PDP)(麦克莱兰等人,1986;鲁梅尔哈特,麦克莱兰和PDP研究小组,1986)。顾名思义,PDP强调通过组合简单单元来并行计算,以集体实现复杂的计算。这些神经网络所学到的知识因此分布在单元的集合中,而不是像大多数符号数据结构那样局部化。最近对神经网络的兴趣重新兴起,更常被称为“深度学习”,它们在表征承诺上与早期的PDP模型相同,甚至经常使用相同的算法(见勒昆等人,2015;施密德胡伯,2015,近期综述),“深度”指的是可以通过组合多层表征来构建更强大的模型(仍然非常符合PDP风格),同时利用最近在硬件和计算能力方面的进步,以及大规模数据集,来学习更深层的模型。
还需要澄清的是,PDP视角与“模型构建”兼容,而不仅仅是“模式识别”。一些最初以PDP名义进行的工作(鲁梅尔哈特,麦克莱兰和PDP研究小组,1986)更接近模型构建而非模式识别,而最近的大型判别式深度学习系统则更纯粹地体现了模式识别(见博图,2014,相关讨论)。然而,正如所讨论的,还有关于模型内所学表征的性质的问题——它们的形式、组合性和可转移性——以及用于到达那里的发展启动软件。本文聚焦于这些问题。
神经网络模型和PDP方法提供了一种关于心智(以及更广泛的智能)的子符号视角,通常以最小的约束和归纳偏差来引导学习。这种方法的支持者认为,许多经典的结构化知识类型,如图、语法、规则、对象、结构描述、程序等,可以是有用的,但也是误导性的隐喻,用于描述思维。这些结构更多是派生现象而非真实存在,是更基本的子符号认知过程的涌现属性(麦克莱兰等人,2010)。与其他研究认知的范式相比,这种对表征本质的立场通常伴随着一种相对“白板”的初始知识和表征愿景,就像图灵的空白笔记本一样。
在这个范式中,尝试理解特定的认知能力或现象时,一种常见的科学策略是训练一个相对通用的神经网络来执行该任务,只有在必要时才添加额外的成分。这种方法表明,神经网络可以表现得好像它们学到了明确结构化的知识,例如生成单词过去时的规则(鲁梅尔哈特和麦克莱兰,1986),解决简单平衡梁物理问题的规则(麦克莱兰,1988),或者表示生物类型(植物和动物)及其属性分布的树(罗杰斯和麦克莱兰,2004)。训练大规模相对通用的网络也是当前物体识别的最佳方法(赫等人,2015;克里日夫斯基等人,2012;鲁萨科夫斯基等人,2015;塞格迪等人,2014),这些卷积网络的高级特征表征也被用于预测人类和猕猴IT皮层的神经反应模式(卡利赫-拉扎维和克里格斯科特,2014;克里格斯科特,2015;亚明等人,2014),以及人类对常见物体图像的典型性评分(莱克,扎伦巴,费尔格斯和古雷基斯,2015)和相似性评分(彼得森,阿博特和格里菲斯,2016)。此外,研究人员还训练通用网络执行结构化甚至战略性任务,例如最近使用深度Q学习网络(DQN)玩简单视频游戏的工作(V. Mnih等人,2015)。
如果神经网络在机器视觉、语言和控制方面有如此广泛的应用,并且如果它们可以被训练来模拟表征认知特征的规则性和结构化行为,那么我们是否还需要更多来开发真正像人类一样学习和思考的机器呢?相对通用的神经网络能带我们离这个目标有多远?
3 构建更像人类的机器的挑战
尽管认知科学尚未对心智或智能达成统一的解释,但“心智是一组几乎没有初始约束的通用神经网络的集合”这一说法在当代认知科学中显得相当极端。一个不同的图景已经浮现,它强调了早期归纳偏差的重要性,包括诸如数字、空间、主体性和物体等核心概念,以及依赖先验知识从少量训练数据中提取知识的强大学习算法。这些知识通常以丰富的理论结构组织起来,具备人类思维所特有的渐进式推理和生成能力。
在这里,我们提出了两个机器学习和人工智能的挑战性问题:学习简单的视觉概念(莱克、萨拉赫丁诺夫和特嫩鲍姆,2015)以及学习玩Atari游戏《冰封王座》(V. Mnih等人,2015)。我们还用这些问题作为贯穿始终的例子,来说明以下各节中核心认知要素的重要性。
3.1 字符挑战
第一个挑战涉及手写字符识别,这是比较不同类型机器学习算法的经典问题。霍夫斯塔特(Hofstadter)在1985年认为,以人们所做的一切方式(包括手写和印刷)识别字符的问题,几乎包含了人工智能的所有基本挑战,如果不是全部的话。无论这一说法是否正确,它都突显了即使是像字母这样“简单”的人类水平概念背后所隐藏的惊人复杂性。更实际地说,手写字符识别是一个儿童和成人都必须学会解决的真实问题,其实际应用范围从阅读信封地址到自动取款机中的支票识别等。与更一般的物体识别形式相比,手写字符识别也更为简单——感兴趣的物体是二维的,与背景分离,且通常不受遮挡。与人们学习和观察其他类型物体的方式相比,似乎在短期内有可能构建出能够看到人们所能看到的字符结构的大部分的算法。
标准的基准测试是用于数字识别的MNIST数据集(LeCun, Bottou, Bengio, & Haffner, 1998),它涉及将数字图像分类为“0”到“9”的类别。训练集为每个类别提供6,000张图像,总计60,000张训练图像。由于有大量的训练数据可供使用,许多算法都取得了令人满意的性能,包括K最近邻算法(测试误差为5%)、支持向量机(测试误差约为1%)以及卷积神经网络(测试误差低于1%;LeCun等人,1998)。使用深度卷积网络取得的最好结果非常接近人类水平的表现,误差率为0.2%(Ciresan, Meier, & Schmidhuber, 2012)。同样,最近将卷积网络应用于更具挑战性的ImageNet物体识别基准测试的结果表明,人类水平的表现也即将在该数据集上实现(Russakovsky等人,2015)。
尽管人类和神经网络在MNIST数字识别任务以及其他大规模图像分类任务上的表现可能相当,但这并不意味着它们的学习和思维方式相同。至少存在两个重要差异:人类可以从较少的示例中学习,并且他们学习到的表征更为丰富,这一比较既适用于学习手写字符,也适用于学习更一般的物体类别(图1)。人类可以从单个示例中学会识别新的手写字符(图1A-i),使他们能够区分其他人绘制的新实例和类似但并非同类的非实例(Lake, Salakhutdinov, & Tenenbaum, 2015;E. G. Miller, Matsakis, & Viola, 2000)。此外,人类学到的不仅仅是如何进行模式识别:他们学到的是一个概念——即一个类别模型,允许他们将所获得的知识灵活地应用于新的方式。除了识别新实例外,人类还可以生成新的实例(图1A-ii),将字符解析为其最重要的部分和关系(图1A-iii;Lake, Salakhutdinov, 和 Tenenbaum(2012)),以及根据一组相关的字符生成新的字符(图1A-iv)。这些额外的能力是随着对底层概念的掌握而自然获得的。
即使是对于这些简单的视觉概念,人类仍然是比字符识别的最佳算法更优秀、更复杂的学习者。人类从更少的示例中学习到更多的东西,将这些人类水平的学习能力引入机器就是字符挑战。我们最近报告了在这一挑战上使用概率程序归纳法所取得的进展(Lake, Salakhutdinov, & Tenenbaum, 2015),但人类完整的认知能力的某些方面仍然难以企及。尽管人类和模型都将字符表示为一系列笔画和关系,但人类拥有更丰富的笔画之间结构关系的储备。此外,人类能够高效地整合一个字符的多个示例,以推断哪些元素是可选的,例如“7”中的水平横杠,将同一字符的不同变体合并成一个连贯的单一表示。通过结合深度学习和概率程序归纳法来应对更丰富的字符挑战版本,可能会取得进一步的进展。
3.2 Frostbite挑战
第二个挑战涉及Atari游戏《Frostbite》(图2),这是V. Mnih等人(2015)的DQN(深度Q网络)所解决的控制问题之一。DQN是强化学习领域的一个重大突破,它表明单一算法可以学会玩多种复杂的任务。该网络被训练用于玩49款经典的Atari游戏,这些游戏被提议作为强化学习的测试领域(Bellemare, Naddaf, Veness, & Bowling, 2013),令人印象深刻的是,它在其中29款游戏上达到了人类水平或更高的表现。然而,它在《Frostbite》以及其他需要长期规划策略的游戏中却遇到了特别的困难。
在《Frostbite》中,玩家控制一个代理(Frostbite Bailey),任务是在时间限制内建造一个冰屋。冰屋是通过代理在水中跳跃冰块来一块一块建造的(图2A-C)。挑战在于,冰块在不断移动(向左或向右),并且只有在冰块处于活跃状态(白色而非蓝色)时,它们才会对冰屋的建造做出贡献。代理还可以通过收集鱼来获得额外的分数,同时避免多种致命的危险(掉入水中、雪鹅、北极熊等)。在这款游戏中取得成功需要一个长期的规划,以确保代理能够完成一个子目标(例如到达一个冰块),然后安全地继续下一个子目标。最终,当冰屋的所有部件都就位后,代理必须进入冰屋,从而在时间耗尽之前完成关卡(图2C)。
DQN通过结合强大的模式识别器(深度卷积神经网络)和简单的无模型强化学习算法(Q学习;Watkins & Dayan, 1992)来学习玩《Frostbite》和其他Atari游戏。这些组件使网络能够将感官输入(像素帧)映射到一个小动作集合上的策略上,而映射和策略都被训练以优化长期累积奖励(游戏得分)。该网络体现了大多数连接主义模型所具有的强烈经验主义方法:除了卷积网络中固有的关于图像结构的假设外,网络中几乎没有其他内置内容,因此网络必须为每款新游戏基本上从头开始学习一个视觉和概念系统。在V. Mnih等人(2015)的研究中,网络架构和超参数是固定的,但网络是针对每款游戏重新训练的,这意味着视觉系统和策略高度专门化于其训练的游戏。最近的研究已经展示了这些针对特定游戏的网络如何共享视觉特征(Rusu等人,2016)或者被用来训练一个多任务网络(Parisotto, Ba, & Salakhutdinov, 2016),在学习玩新游戏时实现了适度的迁移学习效果。
尽管DQN在假设很少先验知识的情况下学会以人类水平的表现玩游戏这一事实令人感兴趣,但DQN可能正在以一种与人类截然不同的方式学习玩《Frostbite》和其他游戏。一种检验差异的方法是考虑学习所需的体验量。在V. Mnih等人(2015)的研究中,DQN与一位专业游戏玩家进行了比较,后者在49款Atari游戏上每款大约练习了两个小时(尽管他或她可能对其中一些游戏已经有一定的经验)。DQN在每款游戏上被训练了2亿帧,相当于大约924小时的游戏时间(大约38天),几乎是人类所获得体验的500倍。此外,DQN还采用了体验回放,在学习过程中,这些帧平均还会被回放大约8次。
凭借完整的924小时独特体验以及额外的回放,DQN在控制测试环节中仅达到了不到10%的人类水平表现(见图3中的DQN)。DQN的更近期变体已经展示了更优越的表现(Schaul等人,2016;Stadie等人,2016;van Hasselt, Guez, & Silver, 2016;Wang等人,2016),通过采用更智能的体验回放(Schaul等人,2016)达到了专业游戏玩家得分的83%,通过使用更智能的回放和更有效的参数共享(Wang等人,2016)达到了96%(见图3中的DQN+和DQN++)。但它们需要大量的体验才能达到这一水平:Schaul等人(2016)提供的学习曲线显示,在231小时后表现约为46%,在116小时后约为19%,而在仅仅2小时后则低于3.5%(这接近随机游戏,大约为1.5%)。人类和机器学习曲线之间的差异表明,它们可能正在学习不同种类的知识,使用不同的学习机制,或者两者兼而有之。
如果我们观察学习的最初阶段,这种对比将变得更加戏剧化。尽管原始的DQN和这些更近期的变体都需要数小时的体验才能可靠地优于随机游戏,但即使是非专业的玩家,也可以在玩游戏仅仅几分钟后掌握游戏的基本规则。我们推测,人们通过推断一个通用的框架来描述游戏的目标、物体类型及其相互作用,从而做到这一点,这利用了我们下面描述的那种直觉理论、模型构建能力以及基于模型的规划机制。尽管新手玩家可能会犯一些错误,例如推断鱼是有害的而不是有益的,但他们可以在几分钟内学会比随机游戏表现得更好。如果人类能够先观看专家玩游戏几分钟,他们可以学得更快。在非正式的实验中,两位作者在Javascript模拟器(<http://www.virtualatari.org/soft.php?soft=Frostbite>)上玩《Frostbite》,在YouTube上观看专家游戏视频仅仅两分钟后,我们发现在最多15-20分钟的总练习后,我们能够达到或超过V. Mnih等人(2015)中报告的人类专家的得分。
还有其他的行为特征表明,人类与DQN在表征和学习方面存在根本差异。例如,在游戏《冰封王座》中,每到达一个活跃的冰块就会获得递增的奖励,这为DQN提供了完成更大任务(建造一个雪屋)的相关子目标。如果没有这些子目标,DQN将不得不采取随机行动,直到偶然地建造了一个雪屋并因完成整个关卡而获得奖励。相比之下,人们在学习如何玩一款新游戏时,可能不会以同样的方式依赖于递增的得分。在《冰封王座》中,有可能在没有递增反馈的情况下,弄清楚建造雪屋这一更高层次的目标;同样,在其他如《蒙特祖玛的复仇》这样的Atari 2600游戏中,稀疏的反馈是一个困难的来源,而人类在这些游戏中明显优于当前的DQN方法。
DQN学习到的网络也相当不适应输入和目标的变化:改变物体的颜色或外观,或者改变网络的目标,如果不对网络进行重新训练,将会对其性能产生毁灭性的影响。尽管任何特定的模型必然是简化的,不应该以一般人类智能的标准来衡量,但DQN与人类灵活性之间的对比仍然非常显著。例如,想象一下,你被要求带着以下任何一个新目标去玩《冰封王座》:
- 获得尽可能低的分数。
- 获得最接近100、300、1000、3000或任何水平的分数,但不要超过。
- 击败你旁边正在玩的朋友,但只是刚好,不要太悬殊,以免让他们难堪。
- 尽可能长时间地存活下去。
- 尽可能快地死亡。
- 在温度计时器归零并死亡(即尽可能接近因冻伤而死亡,但又不真正死亡)的最后时刻通过每个关卡。
- 不顾分数,到达最远的未探索关卡。
- 看看你是否能找到隐藏的彩蛋。
- 获得尽可能多的鱼。
- 触碰屏幕上每一个单独的冰块,且仅触碰一次。
- 尽可能高效地教你的朋友如何玩。
这一系列目标突显了人类智能的一个基本组成部分:人们可以学习模型,并将其用于任意新的任务和目标。虽然神经网络可以使用相同的刺激学习多个映射或任务——根据指定的目标调整其输出——但这些模型需要大量的训练或重新配置才能添加新任务(例如,Collins & Frank, 2013; Eliasmith et al., 2012; Rougier, Noelle, Braver, Cohen, & O’Reilly, 2005)。相比之下,人们几乎不需要重新训练或重新配置,就能相对轻松地将新任务和目标添加到他们的技能库中。
将《冰封王座》的例子与人类游戏进行对比,尤其具有说服力。即使是最好的深度网络,也需要经过数千次游戏过程才能逐渐学习,花费很长时间才能达到良好的性能,并且局限于特定的输入和目标模式。相比之下,人类在玩了几分钟的少量游戏后,就能理解游戏及其目标,其表现甚至超过了深度网络在经过近一千小时的经验后所达到的水平。更令人印象深刻的是,人们能够理解得足够多,从而发明或接受新目标,对输入的变化进行泛化,并向他人解释游戏。为什么人类会有所不同呢?DQN和其他现代机器学习方法可能缺少人类智能的哪些核心要素呢?
有人可能会反对说,《冰封王座》和字符挑战将人类学习的速度与神经网络学习的速度进行了不公平的比较。我们在第5节中详细讨论了这一反对意见,但我们觉得在这里也提前说明很重要。引用一位早期稿件的审稿人的话来说,“并不是DQN和人类以不同的方式解决相同的任务。他们可能更好地被视为解决不同的任务。人类学习者——与DQN和许多其他深度学习系统不同——带着丰富的先验经验去解决新问题。人类正在解决一系列多年来的连续问题,这些问题具有丰富的重叠结构。因此,人类通常对这些任务拥有重要的领域特定知识,甚至在他们‘开始’之前就已经有了。DQN则是从零开始。”我们同意这一点,这实际上是我们在这里要表达的观点的另一种说法。人类学习者从根本上承担着与当今神经网络不同的学习任务,如果我们想制造出像人类一样学习和思考的机器,那么我们的机器就需要面对人类学习者所面对的那种任务,而不是回避它们。
人类从未真正从零开始,甚至从未接近“从零开始”,这才是他们成功的关键。那么,构建人类学习和思维模型的挑战就变成了:我们如何利用丰富的先验知识来快速学习新任务和解决新问题呢?这种先验知识的形式是什么,它是如何从天生的能力和以往经验的某种组合中构建起来的呢?我们在下一节中提出的这些核心要素为应对这一挑战提供了一种途径。
4 人类智能的核心要素
在引言部分,我们阐述了我们认为的智能的核心要素。在这里,我们将详细探讨这些要素,并将其与当前神经网络建模的现状进行对比。尽管这些并非人类学习和思维所需的唯一要素(参见第5节关于语言的讨论),但它们是大多数当前基于学习的人工智能系统中所缺失的关键构建块——至少没有全部具备——而对这些要素的额外关注可能会特别富有成效。我们相信,将这些要素整合起来,将产生比当前人工智能系统中所见的更强大、更接近人类的学习和思维能力。
在详细探讨每个要素之前,重要的是要澄清,我们所说的“核心要素”并不一定意味着这些要素是由基因预先设定的,或者必须“内置”到任何学习算法中。我们希望我们的讨论对这些关键要素的起源保持中立。当一个孩子或成年人开始学习一个新的字符或学习如何玩《冰封王座》时,他们已经具备了深度学习系统所不具备的丰富现实世界经验——这种经验很难在一般意义上被模拟。当然,这些核心要素会因这种经验而得到丰富,有些甚至可能是这种经验的产物。无论这些要素是通过学习获得的、内置的还是被丰富了的,关键主张是,这些要素在产生类似人类的学习和思维方面发挥了积极且重要的作用,而这是当代机器学习尚未捕捉到的。
4.1 发展初期的启动软件
在早期发展中,人类对几个核心领域有着基础性的理解(Spelke, 2003; Spelke & Kinzler, 2007)。这些领域包括数字(数值和集合运算)、空间(几何和导航)、物理(无生命物体和力学)以及心理学(主体和群体)。这些核心领域在认知的概念节点上划分了认知功能,每个领域都由一组实体以及关联这些实体的抽象原则来组织。其底层的认知表征可以被理解为“直觉理论”,其因果结构类似于科学理论(Carey, 2004, 2009; Gopnik et al., 2004; Gopnik & Meltzoff, 1999; Gweon, Tenenbaum, & Schulz, 2010; L. Schulz, 2012; Wellman & Gelman, 1992, 1998)。进一步地,“儿童作为科学家”的观点将学习过程本身也视为类似科学家的行为,最近的实验表明,儿童会主动寻找新的数据以区分假设、隔离变量、检验因果假设、利用数据生成过程来得出结论,并有选择地向他人学习(Cook, Goodman, & Schulz, 2011; Gweon et al., 2010; L. E. Schulz, Gopnik, & Glymour, 2007; Stahl & Feigenson, 2015; Tsividis, Gershman, Tenenbaum, & Schulz, 2013)。我们将在第4.2节中探讨学习机制的本质。
每个核心领域都受到了大量的研究和分析,这些领域被认为在不同文化之间是共有的,并且部分也与非人类动物共享。所有这些领域都可能是当前机器学习的重要补充,尽管在下面的部分中,我们特别关注对物体和主体的早期理解。
4.1.1 直觉物理学
幼儿对直觉物理学有着丰富的知识。无论这些知识是通过学习获得的还是与生俱来的,重要的物理概念在儿童或成人学习玩《冰封王座》的年龄之前就已经存在,这表明这些资源可能被用于解决这一问题以及许多日常与物理相关的任务。早在2个月大甚至更早的时候,婴儿就期望无生命物体遵循持续性、连续性、凝聚性和固体性等原则(Spelke, 1990; Spelke, Gutheil, & Van de Walle, 1995)。幼儿认为物体应该沿着平滑的路径移动,不会凭空出现或消失,不会相互穿透,也不会在远处产生作用。这些期望指导了婴儿早期的物体分割,出现在基于外观的线索(如颜色、纹理和感知良好性)之前(Spelke, 1990)。
这些期望还继续指导后续的学习。大约在6个月大时,婴儿已经对刚体、软体和流体形成了不同的期望(Rips & Hespos, 2015)。例如,流体被期望能够通过障碍物,而固体物体则不能(Hespos, Ferry, & Rips, 2009)。到他们的第一个生日时,婴儿已经经历了几次对基本物理概念(如惯性、支撑、容纳和碰撞)的理解转变(Baillargeon, 2004; Baillargeon, Li, Ng, & Yuan, 2009; Hespos & Baillargeon, 2008)。
目前还没有一个被广泛接受的关于这些早期物理原则和概念的计算解释,以前的建议范围从决策树(Baillargeon et al., 2009),到线索,再到规则列表(Siegler & Chen, 1998)。一种有前景的近期方法将直觉物理推理视为类似于对物理引擎软件的推理,这种模拟器是现代动画和游戏的动力来源(Bates, Yildirim, Tenenbaum, & Battaglia, 2015; Battaglia, Hamrick, & Tenenbaum, 2013; Gerstenberg, Goodman, Lagnado, & Tenenbaum, 2015; Sanborn, Mansinghka, & Griffiths, 2013)。根据这一假设,人们使用物体及其物理相关属性(如质量、弹性、表面摩擦)以及作用于物体的力(如重力、摩擦力或碰撞冲击)的内部表征来重建感知场景。与物理真实情况相比,直觉物理状态表征是近似的、概率性的,并且在许多方面过于简化和不完整。然而,它仍然足够丰富,能够支持心理模拟,以预测物体在不久的将来将如何移动,无论是它们自身的运动还是对我们将要施加的力的响应。
这种“直觉物理引擎”方法使得人们能够灵活适应各种日常场景和判断,超越了感知线索。例如(见图4),从《叠叠乐》游戏中重建的木块塔的物理引擎可以用来预测塔是否会倒下(以及如何倒下),与成年人做出这些预测的方式非常接近(Battaglia et al., 2013),也可以用于研究婴儿的更简单的物理预测(Téglás et al., 2011)。基于模拟的模型还可以捕捉人们如何做出假设性或反事实的预测:如果移除某些积木,添加更多积木,或者支撑塔的桌子被摇晃,会发生什么?如果某些积木被粘在一起,或者附着在桌面表面呢?如果积木是由不同的材料制成的(如泡沫塑料、铅、冰)呢?如果一种颜色的积木比其他颜色的积木重得多呢?每一种物理判断可能都需要新的特征或新的训练,才能使基于模式识别的解释达到与基于模型的模拟器相同的水平。
将这种直觉物理学嵌入或引入深度学习系统的前景如何呢?心理学中的联结主义模型以前曾被应用于物理推理任务,例如平衡梁规则(McClelland, 1988; Shultz, 2003)或与运动中距离、速度和时间相关的规则(Buckingham & Shultz, 2000),但这些网络并没有尝试处理复杂的场景作为输入,或者像图4中那样广泛的场景和判断。
Facebook AI研究人员最近的一篇论文(Lerer, Gross, & Fergus, 2016)在这一方向上迈出了令人兴奋的一步。Lerer等人(2016)训练了一个基于深度卷积网络的系统(PhysNet),使其能够从类似于图4A的模拟图像中预测积木塔的稳定性,但这些图像的配置要简单得多,仅为垂直堆叠的两个、三个或四个立方体积木。令人印象深刻的是,PhysNet能够泛化到简单的现实世界中的积木塔图像,在这些图像上的表现与人类相当,同时在合成图像上的表现甚至超过了人类。人类和PhysNet对积木塔的置信度也存在相关性,尽管这种相关性不如Battaglia等人(2013)的近似概率模拟模型和实验那么强。一个局限性在于,PhysNet目前需要大量的训练——大约10万到20万场景——才能学会对单一任务(塔是否会倒下?)在有限的场景范围(两到四个立方体的塔)内进行判断。虽然它已经被证明能够泛化,但这种泛化也是有限的(例如,从两个和三个立方体的塔泛化到四个立方体的塔)。相比之下,人类在执行任何特定任务时需要的经验要少得多,并且能够在无需新的训练的情况下泛化到许多新的判断和复杂场景(尽管他们在与世界更广泛的互动中获得了大量的物理经验)。深度学习系统(如PhysNet)能否在不明确模拟三维空间中物体之间因果互动的情况下捕捉到这种灵活性?我们不确定,但我们希望这是一个它们会接受的挑战。
或者,与其试图在不模拟物理的情况下进行预测,神经网络是否可以在给定正确类型和数量的训练数据的情况下被训练成一个通用的物理模拟器,例如儿童所经历的原始输入?这是一个活跃且引人入胜的研究领域,但它也面临着重大挑战。对于训练用于物体分类的网络,更深层通常会对从边缘到纹理、再到形状部件再到完整物体的更高层次特征变得更加敏感(Yosinski, Clune, Bengio, & Lipson, 2014; Zeiler & Fergus, 2014)。对于在物理相关数据上训练的深度网络,目前还不清楚更高层次是否会编码物体、一般物理属性、力以及近似牛顿力学。一个在动态像素数据上训练的通用网络可能会学到这些概念的隐式表征,但它是否能够像人类更明确的物理概念那样广泛地泛化到训练上下文之外?例如,考虑一个学习预测几个球在一个盒子里反弹的轨迹的网络(Kodratoff & Michalski, 2014)。如果这个网络实际上学到了类似牛顿力学的东西,那么它应该能够泛化到有趣的不同场景——至少是不同数量、不同形状的物体,在不同形状、大小和方向(相对于重力)的盒子里反弹,更不用说上述讨论的所有塔任务了,这些任务也属于牛顿力学领域。神经网络研究人员尚未接受这一挑战,但我们希望他们会接受。正如我们在第5节中进一步讨论的那样,尚不清楚是否能够用人类婴儿所拥有的数据类型(以及数量)来学习此类模型。
将基于物体和物理的原始概念整合到深度神经网络中可能具有挑战性,但在许多任务的学习速度和性能方面可能会带来巨大的回报。以学习玩《冰封王座》为例。尽管很难确切地弄清楚网络是如何学会解决特定任务的,但DQN可能并没有将《冰封王座》的截图解析为根据直觉物理规则运动的稳定物体或精灵(图2)。然而,整合基于物理引擎的表征可以帮助DQN以更快、更通用的方式学会玩像《冰封王座》这样的游戏,无论物理知识是隐式地包含在神经网络中,还是更明确地包含在模拟器中。除了减少训练数据量并可能提高DQN达到的性能水平外,它还可以消除在物体(例如,鸟、冰块和鱼)的行为、奖励结构或外观发生轻微变化时重新训练《冰封王座》网络的需要。当引入一种新的物体类型(如《冰封王座》后期关卡中的熊,图2D)时,拥有直觉物理的网络也会更容易将这种物体类型纳入其知识体系(添加新物体的挑战也在Marcus, 1998, 2001中讨论过)。通过这种方式,将直觉物理与深度学习整合可能是迈向更接近人类的学习算法的重要一步,或者被阻塞的主体之前被关联为负面的,或者……
对基于线索的解释的一种替代方法是使用行动选择的生成模型,例如贝克尔(Baker)、萨克斯(Saxe)和特南鲍姆(Tenenbaum)(2009)提出的贝叶斯逆向规划(或“贝叶斯心理理论”)模型,或者哈拉-埃廷格(Jara-Ettinger)、格温(Gweon)、特南鲍姆和舒尔茨(Schulz)(2015)提出的“朴素效用演算”模型(还可参见杰恩和肯普(Jern and Kemp, 2015)、陶伯和斯特耶弗斯(Tauber and Steyvers, 2011),以及基于预测编码的另一种相关替代方法,该方法来自基尔纳(Kilner)、弗里斯顿(Friston)和弗里斯(Frith, 2007))。这些模型明确形式化了诸如“目标”“主体”“规划”“成本”“效率”和“信念”等心理主义概念,这些概念被用来描述婴儿期的核心心理推理。它们假设成人和儿童将主体视为近似理性的规划者,选择实现目标的最有效手段。规划计算可以形式化为马尔可夫决策过程(或部分可观测马尔可夫决策过程,POMDPs)的解决方案,输入是定义在主体状态空间上的效用函数和信念函数,以及主体的状态-行动转移函数,输出是主体为最有效地实现目标(或最大化效用)而应执行的一系列行动。通过模拟这些规划过程,人们可以预测主体接下来可能会做什么,或者通过观察一系列行动,使用逆向推理来推断场景中主体的效用和信念。这与使用模拟引擎进行直觉物理推理是直接类比的,可以用来预测场景中接下来会发生什么,或者根据物体的运动来推断它们的动态属性。它产生了类似灵活的推理能力:效用和信念可以根据主体可能为各种新目标和情境采取的行动进行调整。重要的是,与直觉物理不同,直觉心理学中的基于模拟的推理可以递归嵌套,以理解社会互动——我们可以思考主体对其他主体的思考。
与直觉物理的情况一样,通用深度网络在捕捉直觉心理推理方面的成功将部分取决于人类所使用的表征。尽管深度网络尚未应用于涉及心理理论和直觉心理学的情境,但它们可能能够学会视觉线索、启发式方法以及涉及主体的场景的总结性统计特征。如果这就是人类心理推理的全部基础,那么基于数据的深度学习方法很可能会在这个领域取得成功。
然而,在我们看来,任何关于直觉心理推理的完整形式化解释都需要包括主体性、目标、效率和互惠关系的表征。与物体和力一样,目前尚不清楚是否可以从仅具有预测能力的深度神经网络中产生这些概念(主体、目标等)的完整表征。与直觉物理领域类似,有可能通过在各种情境中大量的训练轨迹,深度学习技术可以在没有学到更一般的有目标或社会导向行为的情况下,近似于婴儿期的推理。但除非这些概念是真实的,否则这也不太可能类似于人类学习、理解和应用直觉心理学的方式。就像在物理相关任务中,如果不了解物体,改变场景的设置或推断的目标可能难以泛化,如果不理解直觉心理学,改变主体的设置或他们的目标和信念也难以进行推理。
在介绍《冰封王座》挑战时,我们讨论了人们如何通过观看一位经验丰富的玩家玩几分钟,然后自己玩几轮,就能极其迅速地学会玩这款游戏。直觉心理学为从他人那里高效学习提供了基础,尤其是在以高效传递知识为目标的教学情境中(Shafto, Goodman, & Griffiths, 2014)。在观看专家玩《冰封王座》的情况下,无论是否有明确的教学目标,直觉心理学都能让我们推断出经验丰富的玩家的信念、愿望和意图。例如,我们可以通过观察经验丰富的玩家似乎在避开鸟儿,从而了解到鸟儿是要避开的。我们不需要经历一个遇到鸟儿的例子——并看到《冰封王座》中的贝利因为鸟儿而死亡——就能推断出鸟儿可能是危险的。只要看到经验丰富的玩家的回避行为最好被解释为基于这种信念的行为,就足够了。
同样,考虑一下在视频游戏中越来越流行的副手角色(sidekick agent)是如何被期望帮助玩家实现目标的。这种角色可以在不同的情境下以不同的方式提供帮助,比如获取物品、清理道路、战斗、防御、治疗和提供信息——所有这些都基于“提供帮助”的一般概念(Macindoe, 2013)。一个明确的主体表征可以预测这种角色在新情境下将如何提供帮助,而基于像素的自下而上的表征可能就会陷入困境。
有几种方法可以将直觉心理学融入当代深度学习系统。虽然它可以被内置,但直觉心理学也可能以其他方式产生。联结主义者认为,以硬连线皮层回路形式存在的先天约束不太可能(Elman, 2005; Elman et al., 1996),但一个简单的归纳偏差,例如倾向于注意到能够移动其他事物的事物,可以启动对更抽象的主体概念的推理(S. Ullman, Harari, & Dorfman, 2012)。同样,大量的有目标导向和社会导向的行为也可以归结为一个简单的效用演算(例如,Jara-Ettinger et al., 2015),这种演算可以与其他认知能力共享。尽管直觉心理学的起源仍然是一个有争议的问题,但很明显,这些能力是早期出现的,并且在人类学习和思维中发挥着重要作用,这在《冰封王座》挑战中得到了体现,也在更广泛地学习新视频游戏时得到了体现。
4.2 学习作为快速模型构建
自诞生以来,神经网络模型就强调了学习的重要性。神经网络有许多学习算法,包括感知器算法(Rosenblatt, 1958)、赫布学习(Hebb, 1949)、BCM规则(Bienenstock, Cooper, & Munro, 1982)、反向传播(Rumelhart, Hinton, & Williams, 1986)、醒睡算法(Hinton, Dayan, Frey, & Neal, 1995)以及对比散度(Hinton, 2002)。无论是监督学习还是无监督学习,这些算法都将学习实现为连接强度的逐步调整过程。对于监督学习,更新通常旨在提高算法的模式识别能力。对于无监督学习,更新则致力于逐渐使模型内部模式的统计特性与输入数据的统计特性相匹配。
近年来,机器学习在使用反向传播和大数据集解决复杂的模式识别问题方面取得了特别的成功。尽管这些算法在多个具有挑战性的基准测试中达到了人类水平的性能,但在其他方面,它们仍然远远没有达到人类水平的学习能力。深度神经网络通常需要比人类更多的数据来解决相同类型的问题,无论是学习识别一种新类型的物体,还是学习玩一种新游戏。在学习母语中单词的含义时,儿童能够从非常稀疏的数据中做出有意义的泛化(Carey & Bartlett, 1978; Landau, Smith, & Jones, 1988; E. M. Markman, 1989; Smith, Jones, Landau, Gershkoff-Stowe, & Samuelson, 2002; F. Xu & Tenenbaum, 2007,尽管Horst和Samuelson在2008年提出了关于记忆限制的问题)。儿童可能只需要看到几个关于发刷、菠萝或光剑的概念的例子,就能大致“理解”,掌握定义每个概念的无限集合与所有可能物体的无限集合之间的边界。儿童在学习新概念方面比成年人更有经验——从开始说话到高中毕业,每天大约学习九到十个新单词(Bloom, 2000; Carey, 1978)——然而,快速“单次学习”的能力在成年后并没有消失。一个成年人可能只需要看到一张图片或一部关于一种新型两轮车辆的电影,就能推断出这个概念与其他概念之间的边界,使他或她能够区分这个概念的新实例与外观相似但属于不同类型物体(图1B-i)。
与人类学习的效率形成对比的是,神经网络由于其作为高度灵活的函数逼近器的通用性,臭名昭著地需要大量数据(偏差/方差困境;Geman, Bienenstock, & Doursat, 1992)。例如,用于物体识别的ImageNet数据集这样的基准任务为每个类别提供了数百或数千个示例(Krizhevsky et al., 2012; Russakovsky et al., 2015)——1000个发刷、1000个菠萝等。在学习新的手写字符或学习玩《冰封王座》的背景下,MNIST基准数据集包括每个手写数字的6000个示例(LeCun et al., 1998),而V. Mnih等人(2015)的DQN在每个Atari视频游戏中大约进行了924小时的独特训练体验(图3)。在这两种情况下,算法显然没有像学习执行相同任务的人那样高效地使用信息。
还有一点需要指出的是,人类学习许多类别的概念的速度要慢得多。在学校学习的概念通常更具挑战性,也更难掌握,包括数学函数、对数、导数、积分、原子、电子、重力、DNA、进化等。也有一些领域,机器学习者的表现优于人类学习者,例如梳理金融或天气数据。但对于大多数认知上自然的概念——儿童学习作为单词含义的那些事物——人类仍然是比机器更好的学习者。本节我们关注的就是这种类型的学习,它更适合于逆向工程并阐述使人类学习成功所需的额外原则。它也为将这些要素融入下一代机器学习和人工智能算法提供了可能性,有望在人类容易和难以掌握的概念学习方面取得进展。
即使只有几个例子,人类也能学到非常丰富的概念模型。丰富性的一个指标是这些模型支持的多种功能(A. B. Markman & Ross, 2003; Solomon, Medin, & Lynch, 1999)。除了分类之外,概念还支持预测(Murphy & Ross, 1994; Rips, 1975)、行动(Barsalou, 1983)、交流(A. B. Markman & Makin, 1998)、想象(Jern & Kemp, 2013; Ward, 1994)、解释(Lombrozo, 2009; Williams & Lombrozo, 2010)以及组合(Murphy, 1988; Osherson & Smith, 1981)。这些能力并不是相互独立的;相反,它们相互关联并相互作用(Solomon et al., 1999),随着对底层概念的掌握而自然获得。回到前面提到的新型两轮车辆的例子,一个人可以绘制出一系列新的实例(图1B-ii),将概念分解为其最重要的组成部分(图1B-iii),甚至可以通过组合熟悉的概念来创造一个新的复杂概念(图1B-iv)。同样,正如在《冰封王座》的背景下所讨论的,已经掌握了游戏基础的玩家可以灵活地将其知识应用于无限多的《冰封王座》变体(第3.2节)。获得的知识支持对新任务和新需求的重新配置,例如修改游戏的目标,以在获得尽可能少的分数的情况下生存,或者高效地将规则教给朋友。
这种丰富性和灵活性表明,将学习视为模型构建比将学习视为模式识别是一个更好的隐喻。此外,人类的单次学习能力表明,这些模型是基于丰富的领域知识构建的,而不是从一张白纸开始(Mikolov, Joulin, & Baroni, 2016; Mitchell, Keller, & Kedar-cabelli, 1986)。相比之下,深度学习的许多最新进展都在模式识别问题上,包括物体识别、语音识别和(无模型的)视频游戏学习,这些问题利用了大型数据集和很少的领域知识。
最近也有一些关于其他类型任务的研究,包括学习图像的生成模型(Denton, Chintala, Szlam, & Fergus, 2015; Gregor, Danihelka, Graves, Rezende, & Wierstra, 2015)、生成标题(Karpathy & Fei-Fei, 2015; Vinyals, Toshev, Bengio, & Erhan, 2014; K. Xu et al., 2015)、问答(Sukhbaatar, Szlam, Weston, & Fergus, 2015; Weston, Chopra, & Bordes, 2015)以及学习简单算法(Graves, Wayne, & Danihelka, 2014; Grefenstette, Hermann, Suleyman, & Blunsom, 2015);我们在第6.1节中讨论了问答和学习简单算法。然而,至少对于图像和标题生成来说,这些任务大多是在与人类从少量数据集中进行泛化的惊人能力相悖的大数据环境中研究的(尽管Rezende, Mohamed, Danihelka, Gregor, & Wierstra, 2016提出了一个针对字符挑战的深度学习方法)。此外,学习能够毫不费力地泛化到未训练的新任务的神经网络风格的表征一直很困难(参见Davis & Marcus, 2015; Marcus, 1998, 2001)。为了快速学习更强大、更通用的表征,可能还需要哪些额外的要素?
一个相关的案例研究来自我们自己在字符挑战方面的研究(第3.1节;Lake, 2014; Lake, Salakhutdinov, & Tenenbaum, 2015)。人类和各种机器学习方法在从世界各字母表中学习新的手写字符方面进行了比较。除了评估几种深度学习模型外,我们还开发了一种使用贝叶斯程序学习(BPL)的算法,该算法将概念表示为简单的随机程序——也就是说,当执行时,这些结构化的程序可以生成一个概念的新实例(图5A)。这些程序使模型能够表达关于原始数据是如何形成的因果知识,并且概率语义允许模型处理噪声并执行创造性任务。通过随机原始概念的组合重用,这些原始概念可以以新的方式组合以创造新概念,从而实现跨概念的结构共享。
请注意,我们在这里对“模型”一词进行了重载,既指代整个贝叶斯程序学习(BPL)框架(这是一个生成模型),也指代它从图像中推断出的个体概率模型(或概念),用于表示新的手写字符。这里存在一个模型的层级结构:一个更高层次的程序生成不同类型的概念,而这些概念本身也是程序,可以被执行以生成某个概念的实例。在这里,将学习描述为“快速模型构建”指的是BPL构建生成模型(低层次程序),这些模型能够生成某个概念的实例(图5B)。
学习这种形式的模型使得BPL能够在具有挑战性的单次分类任务中达到人类水平的表现(图1A-i),并且超越了当前的深度学习模型,例如卷积网络(Koch, Zemel, & Salakhutdinov, 2015)。7 BPL学到的表征还使其能够以其他更具创造性、更类似人类的方式进行泛化,这一点通过“视觉图灵测试”得到了评估(例如,图5B)。这些任务包括生成新的实例(图1A-ii和图5B)、将物体分解为其基本组成部分(图1A-iii),以及以特定字母表的风格生成新概念(图1A-iv)。以下部分将讨论对这一框架的成功至关重要的三个主要要素——组合性、因果性和学会学习——并且我们认为这些要素对于更广泛地理解人类学习作为快速模型构建非常重要。尽管这些要素自然地适合于BPL或概率程序归纳框架,但它们也可以被整合到深度学习模型和其他类型的机器学习算法中,我们将在下面更详细地讨论这些前景。
4.2.1 组合性
组合性是一个经典的概念,即可以通过组合原始元素来构建新的表征。在计算机编程中,原始函数可以组合在一起以创建新函数,而这些新函数又可以进一步组合以创建更复杂的函数。这种函数层级结构为描述高级函数提供了一种高效的描述方式,就像用于描述复杂物体或场景的部件层级结构一样(Bienenstock, Geman, & Potter, 1997)。组合性也是生产力的核心:可以从有限的原始元素集合中构建无限数量的表征,就像人类的思维可以产生无限多的想法、说出或理解无限多的句子,或者从看似无限的可能性空间中学习新概念一样(Fodor, 1975; Fodor & Pylyshyn, 1988; Marcus, 2001; Piantadosi, 2011)。
组合性在人工智能和认知科学中都产生了广泛的影响,尤其是在与物体识别、概念表征和语言相关的理论中。在这里,我们以物体概念的组合性表征为例进行说明。结构描述模型将视觉概念表示为部件和关系的组合,这为构建新概念的模型提供了强大的归纳偏差(Biederman, 1987; Hummel & Biederman, 1992; Marr & Nishihara, 1978; van den Hengel et al., 2015; Winston, 1975)。例如,图1B中的新型两轮车辆可以被表示为两个轮子通过一个平台连接,平台支撑着一个柱子,柱子上装有车把等。部件本身也可以由子部件组成,形成一个“部件整体关系”的层级结