机器智能:搜索和学习

2024年3月10日 下午5:55:50

Richard S. Sutton是DeepMind杰出研究科学家,阿尔伯塔大学计算机科学教授,强化学习之父。下面这篇文章是他2019年写的关于AI研究方面的教训。想要更好理解和发展AI,需要摆脱人类自我认知的束缚;想要更好理解和做好投资,需要摆脱传统金融理论的束缚。通过搜索和学习来掌握元方法比存量知识更重要。

惨痛的教训

Rich Sutton
2019年3月13日

AI 研究的 70 年历史告诉我们,一个重要的道理就是,能够充分利用计算能力的通用方法,最终会取得最好的效果,而且远远超过其他方法。这主要是因为摩尔定律,也就是说,计算的成本会不断地以指数级别下降。大多数 AI 研究都是假设计算机的计算资源是固定不变的(这样的话,利用人类的知识就是提高性能的少数几种方法之一),但是,在稍微长一点的时间里,计算机的计算能力就会大幅增加。为了在短期内获得一些改进,研究人员会尝试利用他们对问题领域的人类知识,但是从长远来看,真正重要的是利用计算能力。这两种方法并不一定是互相排斥的,但是在实际操作中,它们往往相互排斥。在一种方法上花费的时间,就是没有在另一种方法上花费的时间。而且,人们对于选择一种方法或另一种方法,也会有心理上的偏好。另外,基于人类知识的方法,往往会让问题变得更复杂,从而不利于利用计算能力的通用方法。有很多 AI 研究人员后知后觉地学到了这个痛苦的教训,回顾一下其中一些比较典型的例子,会有很多收获。

在计算机象棋中,1997 年击败世界冠军卡斯帕罗夫的方法,就是基于大规模的深度搜索。当时,这让大部分计算机象棋研究人员感到震惊,因为他们一直在寻求的方法,是基于人类对象棋特殊结构的理解。当一个更简单的、基于搜索的方法,加上特殊的硬件和软件,显示出了远胜于其他方法的效果时,这些基于人类知识的象棋研究人员并没有很好地接受失败。他们说,“暴力”搜索这次或许赢了,但它不是一种通用的策略,而且它也不是人们下象棋的方式。这些研究人员希望基于人类输入的方法能够获胜,当他们失败了,他们感到失望。

计算机围棋的研究进展,也和计算机象棋一样,只是晚了 20 年。一开始,人们想方设法避免搜索,而是利用人类的知识,或者游戏的特点,但是当搜索被大规模有效运用时,所有这些努力都变得毫无意义,甚至是有害的。另一个重要因素是使用自我对弈来学习价值函数(这在许多其他游戏中,甚至在象棋中,都很重要,虽然自我对弈学习在 1997 年首次击败世界冠军的程序中,并没有起到很大的作用)。自我对弈学习,以及通用学习,就像搜索一样,它能够充分利用计算能力。搜索和学习是进行 AI 研究的两个最重要的技术类别,它们能够利用大量的计算资源。在计算机围棋中,和计算机象棋一样,研究人员最初的努力是利用人类的理解(这样就可以减少搜索的需要),但是直到很久以后,他们才发现,拥抱搜索和学习才是获得更大成功的关键。

在语音识别领域,早在 20 世纪 70 年代,美国国防高级研究计划局(DARPA)发起一项竞赛。有一些人花了很大的力气,想利用人类的知识,比如单词、音素、人类声道等。还有些人使用一些新的方法,更多地依赖于统计和计算,基于一种叫做隐马尔可夫模型 (HMM) 的技术。结果,统计和计算的方法打败了基于人类知识的方法。这引起自然语言处理领域的一个重大变化,经过了几十年的演变,统计和计算成了这个领域的主流。深度学习在语音识别中的崛起,是这一趋势的最新成果。深度学习的方法更少依赖人类知识,更多依赖计算,还利用大量的训练数据,来制造出更好的语音识别系统。就像在游戏中一样,研究人员总是想要做出一些和他们自己的思维方式相似的系统——他们试图把自己的知识放进系统里——但这最终证明适得其反,而且浪费研究人员的时间,因为当计算机的计算能力变得很强,而且有一种好的使用方法时,这些知识就显得不那么重要了。

计算机视觉领域也是一样的情况。一开始,人们想要利用人类的知识,比如搜索边缘、广义圆柱体、SIFT 特征等来处理视觉问题。但是现在这些方法都被淘汰了。现代深度学习神经网络只用卷积和不变性这两个概念就得到了更好的效果。

这是一个很大的教训。我们还没有完全吸取这个教训,因为我们还在重复同样的错误。要想明白这一点,而且有效地避免它,我们必须明白这些错误的诱惑。我们必须吸取这个惨痛的教训,那就是把我们自以为的思考方式强加给智能体,从长远来看是不可行的。这个痛苦的教训是基于以下历史事实:

  1. AI 研究人员经常试图把知识放进他们的智能体里
  2. 这在短期内总是有用的,并且让研究人员感到满意,但是
  3. 长期来看,它会遇到瓶颈,甚至阻碍进一步的发展,而且
  4. 突破性的发展最终是通过一个相反的方法达到的,这个方法是基于搜索和学习的规模化计算。最终的成功会让人不甘心,而且往往没法完全接受,因为它战胜了人们所喜欢的以人为中心的方法。

惨痛的教训告诉我们,通用方法的强大力量,就是那些能够随着计算能力的增加而不断提升的方法,即使计算能力已经很强了。在这些方法中,有两种方法似乎可以无限扩展,那就是搜索和学习。

惨痛的教训还告诉我们,意识的内容非常复杂,无法简化;我们不应该再去寻找简单的方法来理解意识的内容,比如用简单的方法来理解空间、物体、多个智能体或对称性。这些都是外部世界的一部分,是随意的、复杂的、无法穷尽的。它们不是我们应该内置的,因为它们的复杂性是无限的;相反,我们应该只构建那些能够探索和捕获复杂性的元方法。这些方法的一个关键是,它们能够找到合适的近似,但是寻找它们的过程应该是由我们的方法来完成,而不是由我们自己来完成。我们想要的是能够像我们一样创新的 AI 智能体,而不是我们已知的智能体。把我们的知识内置进去,只会让我们更难理解创新的过程是怎样的。

原文链接:

http://www.incompleteideas.net/IncIdeas/BitterLesson.html