加载中 ...

首页 > 科技 > 人工智能 > 正文

强化学习之父：AI研究70年教训深刻未来探索要靠智能体自己

2019-03-20 16:32:00 来源：亿欧网

近日，强化学习之父、加拿大计算机科学家Richard S. Sutton在其个人网站上发文，指出了过去70年来AI研究方面的苦涩教训：我们过于依靠人类知识了。

Sutton认为，过去70年来，AI研究走过的最大弯路，就是过于重视人类既有经验和知识，研究人员在训练AI模型时，往往想将人类知识灌输给智能体，而不是让智能体自己去探索。这实际上只是个记录的过程，并未实现真正的学习。

事实证明，这种基于人类知识的所谓”以人为本“的方法，并未收到很好的效果，尤其是在可用计算力迅猛增长的大背景下，在国际象棋、围棋、计算机视觉等热门领域，智能体本身已经可以自己完成”规模化搜索和学习“，取得的效果要远好于传统方法。

Sutton由此认为，过去的教训必须总结，未来的研究中，应该让AI智能体能够像我们一样自己去发现，而不是将我们发现的东西记下来，因为后者只会让我们更难以了解发现的过程究竟是怎样的。

以下为文章原文：

在过去70年中，人工智能研究中得出的一个最大教训是，通用化的方法最终往往是最有效的，而且能够大幅提升性能。造成这个结果的最终原因是摩尔定律，或者说，是摩尔定律总结出的计算力随时间的变化趋势。

大多数人工智能研究都有个假设前提，即智能体的可用计算力是一个不变的常量，也就是说，提升性能的方法可能就只有利用人类自己的知识了。但是，如果项目周期比一般情况较长时，一定会有丰富的计算力可以投入使用。从短期来看，研究人员可以利用自己掌握的相关领域的人类知识来换取性能提升，但从长远来看，唯一重要的还是计算力。

我们完全没有必要让这两者相互对立起来，但实际上，它们往往就是相互对立的。项目时间有限，把时间花在计算力上，就不能花在人类知识的利用上。研究人员在心理上往往会偏向某一种方式。人类知识方法往往使解决问题的方法变得复杂化，与利用利用计算力得出的通用化方法相比，适应性上不如前者。

不少AI研究人员用了很长时间才明白这个教训，所以我觉得这个问题值得单独拿出来讲一讲。

过去70年AI研究的深刻教训：靠人类知识，远不如靠智能体自己

1997年，IBM的计算机“深蓝”击败了世界冠军卡斯帕罗夫，“深蓝”的开发就是基于大规模的深度搜索。而当时，大多数计算机象棋研究人员采用的方法，都是利用人类对国际象棋特殊结构的理解。

当一个简单的、基于搜索的方法在专门的软硬件上显示出强大性能时，彼时基于人类知识的国际象棋研究人员沮丧地表示，这次“野蛮搜索“可能压倒了人类的经验和知识，取得了胜利，但这无论如何不是人们下棋的方式。这些研究人员一直希望基于“人类知识”的方法能够获胜，因为没有实现这一点，他们的失望溢于言表。

计算机围棋中也出现了类似的研究模式，不过比国际象棋迟来了20年。研究人员希望通过人类知识或棋局的独有特征，来避开大规模搜索，但所有这些努力都证明是用错了地方，而且，在搜索大规模应用之后，这种错误显得更加明显了。

同样重要的是，通过智能体的自我学习来学习价值功能。像大规模搜索一样，AI需要通过自对弈和通用学习来提升性能，实现大规模的计算应用。

搜索和学习是在AI研究中利用计算力的两种最重要的技术。在计算机围棋中，研究人员最初的方向也是利用人类知识，搜索用的比较少，很长时间以后，才通过搜索和学习获得了更大的成功。

在语音识别方面，早期的研究利用了一系列基于人类知识的专门方法：词汇、音素、人类声道知识等。而比较新的方法更偏向统计性，并且计算量更大，基于隐马尔可夫模型（HMM）。与国际象棋和围棋一样，在语音识别领域，同样是统计方法战胜了基于人类知识的方法。这导致所有NLP研究在近几十年内发生了重大变化，统计和计算在这一领域占据了主导地位。最近的语音识别领域中，深度学习的兴起是这个趋势的最新体现。

深度学习方法对人类知识的依赖更少，应用了更多的计算，以及对大量训练集的学习，生成性能更高语音识别系统。和棋类对弈一样，研究人员一开始总是想让系统按照人类的思维的方式运作，试图将人类知识放输入系统，但事实证明，最终是适得其反，而且极大地浪费了研究人员的时间。随着计算力的迅速增长，研究人员也找到了能够高效利用计算力的方式。

在计算机视觉领域也是如此，早期研究将“视觉”设想为搜索的边缘或广义圆柱体。但今天这一切都被抛弃了。现代深度学习神经网络仅使用卷积和某些不变性的概念，并且表现得更好。

这是一个很大的教训。我们仍然没有完全理解这个领域，因为我们会继续犯下同样的错误。要看到这一点，并从中总结教训，即建立我们认为理解自身思考方式的体系，从长远来看解决不了问题，AI研究从重“人类知识”到重“计算和搜索”的演进过程，已经证明了这一点。

回顾过去，我们可以总结出下面几点认识：

1）AI研究人员经常想要将知识传给智能体

2）这个方式在短期内总是会有效，研究人员本人可以获得满意结果。

3）从长远来看，这种方式对未来的性能提升没有帮助，甚至有阻碍作用。

4）AI的突破性进展最终要通过基于搜索和学习进行规模化计算的方法来实现。

对于AI研究而言，最终的成功可能反而会充满了苦涩，很多人往往理解不了，因为它战胜的是“以人为本”的老方法。

要让智能体自己去搜索和发现，而不是靠人类

通用方法具备强大功能，即使可用计算力已经非常强大，我们仍然可以通过增加计算力来扩展的方法。而基于计算力的搜索和学习可以按照这一方向任意扩展下去。

第二个教训是，人类思维的实际内容的复杂程度是无可比拟的，我们不应该在尝试寻找关于思维内容的简单方法，如对空间、对象，多智能体或对称性的思维内容的简单方法。

所有这些在本质上都是复杂的外部世界的一部分，它们的复杂性是无穷无尽的，我们应该集中精力构建可以找到并捕获这种任意复杂性的”元方法“。构建这种“元方法”的关键在于，智能体能够找到很好的近似结果，但是具体执行搜索、进行发现的应该是智能体自己，而不是我们。我们希望AI智能体能够像我们一样自己去发现，而不是将我们发现的东西记下来，因为后者只会让我们更难以了解发现的过程究竟是怎样的。

作者简介：

Richard S Sutton是加拿大计算机科学家，阿尔伯塔大学计算机科学教授和iCORE主席。他被认为是现代计算强化学习的创始人之一，在时间差异学习和政策梯度方法方面，对该领域做出了重要贡献。

（更多精彩内容，点击这里下载都市财经手机版）

“都市财经”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题，请与

我们联系删除或处理，客服邮箱admin@5iecity.net，稿件内容仅为传递更多信息之目的，不代表本网观点，亦不代表本网站赞同

其观点或证实其内容的真实性。

7*24小时

声音提醒
60秒后自动更新

【33家苹果概念公司上半年盈利，近八成正增长 Wind数据显示，截至8月27日晚，有37家苹果概念公司披露半年度报告。上半年，33家公司实现盈利，其中26家公司净利润同比实现正增长，占比近八成。券商分析称，预计下半年苹果AirPods产品出货量持续增长，苹果5G手机换机周期将至，苹果产业链相关公司有望受益。（中证报）
06:34
蔚来宣布拟发行7500万股美国存托股份（ADS）。
06:28
【合理区间双向波动人民币“弹回”年初高位】屡破阻力位后，人民币对美元汇率重回1月下旬高位。近三个月，人民币对美元汇率总体升值，在7月重返“6时代”后，近期继续上探。分析人士认为，美元走弱、中国经济持续复苏、人民币资产吸引力提升，是人民币升值的重要因素。总体而言，人民币对美元汇率弹性十足，呈现围绕合理均衡水平双向波动态势。（中证报）
06:23
据媒体报道：TikTok要求竞购方出资300亿美元收购其美国业务。
06:21
特斯拉CEO马斯克：美国内华达州超级工厂遭遇严重的网络袭击。
06:20
【中证报头版：合理区间双向波动，人民币“弹回”年初高位】屡破阻力位后，人民币对美元汇率重回1月下旬高位。近三个月，人民币对美元汇率总体升值，在7月重返“6时代”后，近期继续上探。分析人士认为，美元走弱、中国经济持续复苏、人民币资产吸引力提升，是人民币升值的重要因素。总体而言，人民币对美元汇率弹性十足，呈现围绕合理均衡水平双向波动态势。
06:05
【英媒：中国国内航空市场下月将“完全恢复”】ForwardKeys的数据显示，本月中国国内机场的客流达到2019年同期的86%。随着新增病例的减少，更多航班恢复运行，目前机票预订量已恢复到98%，其中大部分是8月中下旬的旅行。ForwardKeys公司副总裁奥利维尔·庞蒂预测，中国国内航空市场将在9月初全面恢复，这是基于多种因素，如疫情持续得到控制，航空公司继续“大力促销”。在新的免税政策助力下，海南度假胜地三亚的旅游出现强劲复苏。（环球网）
06:03
【证券日报头版评论：科创板魅力绽放，蚂蚁上市或将引发羊群效应】蚂蚁集团的上市将大幅提升科创板的融资能力和融资水平，同时也将在市场上产生羊群效应，会吸引更多企业在科创板上市。对于刚刚一周岁的科创板，面对蚂蚁集团这个独角兽，既考验科创板的接纳能力也是对科创板承受能力的测试。蚂蚁集团的上市只是一个开始，接下来，将会有更多的优质科技创新企业“寻香而来”，借助科创板实现企业的高质量发展。
05:59
离岸人民币（CNH）兑美元北京时间04:59报6.8887元，较周三纽约尾盘跌80点，盘中整体交投于6.8688-6.8937元区间。
05:11
标普500指数11大板块涨跌各异，8大板块收涨，3大板块收跌；其中，金融板块领涨，其次是房地产板块；电信业务板块领跌，其次是非日常生活消费品板块。
05:08
美股各大类资产类ETF中，恐慌指数做多-iPath领涨，涨超3%，盘中一度涨超11%；其次是美国房地产ETF，涨1.47%；美国国债20+年ETF-iShares领跌，跌1.7%，其次是美国布伦特原油基金，跌1.27%。
04:39
市场消息：TikTok工程师据悉针对关闭美国业务可能性制定预案。
04:35
New Steet Research首次覆盖台积电台股，并给予其买入初始评级，目标价为640台币。
04:30
摩根士丹利将瑞声科技评级下调至低配，目标价为38港元。
04:30
【戴尔季度盈利和营收均超预期，股价盘后涨近6%】戴尔二季度经调整EPS 1.92美元，市场预期1.38美元。二季度经调整营收228亿美元，市场预期225亿美元
04:26

强化学习之父：AI研究70年教训深刻未来探索要靠智能体自己

7*24小时

热门文章

热点专题

热点视频

头条想革百度的“命”，不是该放弃竞价排名吗？

云从科技3D人体技术取得重大突破 刷新三项世界纪录

全球VC纷纷入局 人工智能将如何引爆医疗行业

强化学习之父：AI研究70年教训深刻 未来探索要靠智能体自己

7*24小时

热门文章

热点专题

热点视频

头条想革百度的“命”，不是该放弃竞价排名吗？

推荐阅读

云从科技3D人体技术取得重大突破刷新三项世界纪录

全球VC纷纷入局人工智能将如何引爆医疗行业

强化学习之父：AI研究70年教训深刻未来探索要靠智能体自己