会员登录
还没有账号立即注册

邮箱登录

保持登录

用第三方帐号直接登录

谷歌DeepMind与牛津学者新论文,探讨智能系统的目标控制

科技|观维网费路航2016-06-07 21:24|阅读  次|

我要分享

0

[摘要] 谷歌DeepMind研究科学家Laurent Orseau和牛津大学研究副教授、机器智能研究院(MIRI)Stuart Armstrong博士共同发表了一篇新论文,探讨包容错误的智能代理设计。...

AI前沿 | 谷歌DeepMind与牛津学者新论文,探讨智能系统的目标控制 

谷歌DeepMind研究科学家Laurent Orseau和牛津大学研究副教授、机器智能研究院(MIRI)Stuart Armstrong博士共同发表了一篇新论文,探讨包容错误的智能代理设计。论文《可安全干预的智能代理》将于本月底在纽约的第32届“人工智能中的不确定性”大会上呈现。论文摘要如下:

“强化学习中的智能代理在与复杂环境(例如真实世界)互动时,不可能永远都在最佳状态上。如果代理在人类的监督下进行实时操作,系统会时不时地需要人类来按下暂停键,防止代理持续进行一系列有害的行为——对代理或对环境有害的行为——并由人类来将代理带往安全的环境。然而,如果学习中的代理期望从原本要执行的行为中获得奖励,长此以往,它可能会学会避免此类的人类干预,例如,代理会让暂停键失效——这是我们不想要的结果。

这篇论文探索了一种方法,可以确保代理不会学会如何避免(或寻求)环境或者人类操作员对其进行干预。我们提供了安全干预的定义,探索了无监管下的学习特性,并证明有些代理已经可以安全地进行干预,例如Q-learning,或者可以简单转变为可安全干预的代理,例如Sarsa。我们的结论是,即便是理想的、不可计算的强化学习代理,在总体可计算的(决定论的)环境中,也可以转变为可安全干预的代理。”

Orseau和Armstrong的论文为解决矫正问题带来了一个新的视角。可矫正的代理指的是,能够识别到自身有缺陷、或者正在开发中的代理,并能帮助其操作员进行维护、改善或者自我替换,而不是抗拒这些操作。

在强人工智能系统中,矫正主要是为了在系统终极目标不正确的时候,避免不安全的收敛工具性政策(例如,保护其当前的目标系统未来不受修改影响的政策)。这让我们能够实施基于试错和学习的恰当方法,来解决AI价值规范的问题。

干预是为了让直觉性的矫正概念形式化。例如,“无关用途”是过往对另一种矫正的定义:系统不介意程序员修改其终极目标,因此能避免强迫程序员进行修改、或避免修改。而“可安全干预的代理”则试图定义另一种系统,不介意程序员修改其政策,不会阻止程序员干预它们的日常行为(也不会强迫程序员去干预)。

这样做的目标是,让代理认为没有未来干预时选择最优的政策。即便代理过去经历过干预,也会好像未来不会有任何干预一样行动。Orseau和Armstrong在论文中让我们看到,若干类型的代理是可以安全干预的,或者可以简单转变为可安全干预的代理。


返回网站首页
分享:

热点文章

“十九大”胜利闭幕,金山云出色完成视

10月24日上午,万众瞩目的党的”十九大”胜利闭幕,而在25日召开的十九届中央委员第一次全体会议上,新一界领导班子正式亮相,这标志着我国社会主...

企业办公服务峰会11月2日召开,探讨企

首届聚焦企业办公服务对企业轻资产转型发展的推动、以及企业IT办公服务解决方案的企业办公服务峰会,将于11月2日在北京亚洲大酒店召开。峰会以“...

俄罗斯世界杯赛程表 买足彩到互联网彩

时光如水,岁月如歌。转眼还有不到一年的时间,四年一度的世界杯足球赛即将于2018月6月14日至7月15日在俄罗斯境内11座城市中的12座球场内举行。虽...

iPhone X开售数量有限价格高 玩互联网

iPhone一直是全球知名品牌,该品牌手机最大特点就是每年更新换代快。近日根据来自供应链的可靠消息曝出,目前富士康已经提前发出了 iPhone X 的第...

苹果独木难撑 金山云KSC265为直播业减

可以说,苹果宣布旗下iOS11和Mac OS这两大操作系统支持H.265标准,是这家公司在高清视频生态中纵深布局的重要体现。尽管很多评论都认为,这将给视...

观维图说 更多