NIPS 2016 有什么值得关注的好nips2016论文集么

独家对话NIPS 2016最佳论文作者:如何打造新型强化学习观
12 月 5 日,机器学习和计算神经科学的国际顶级会议第 30 届神经信息处理系统大会(NIPS 2016)在西班牙巴塞罗那开幕。本届大会最佳论文奖(Best Paper Award)获奖论文是《Value Iteration Networks》。
2016 NIPS 最佳论文《Value Iteration Networks》的作者,是加州大学伯克利分校 Aviv Tamar、吴翼(Yi Wu)等人。这篇论文介绍了一个能学习设计策略,而不是被动的完全遵循策略的神经网络。同时,这种新的强化学习观并不是基于模型的(model-free)。机器之心第一时间联系到最佳论文的作者之一吴翼(Yi Wu),让他为我们详细讲述 VIN 的特点、应用方式和他的研究心得。
与最佳论文作者吴翼的对话
机器之心:恭喜获奖!能谈谈你的研究方向和最近工作吗?
答:我自己的研究兴趣比较广泛,主要考虑的问题是如何能够在 AI 模型中更好的表达人的先验知识,并利用这些人的已有知识,让模型利用更少的数据,做出更好的推断。
我做过的项目包括概率编程语言(probabilistic programming language)以及概率推理(probabilistic inference),层次强化学习(hierachical reinforcement learning)。
除此之外,这个假期我在北京的今日头条实验室做了 3 个月实习,期间利用层次化模型处理了一些与自然语言处理(natural language processing)相关的问题。回到 Berkeley 之后我也和一些相关教授合作,继续利用层次化模型做一些和 NLP 有关的问题。
机器之心:请简单介绍一下《Value IterationNetwork》的主题及 VIN 网络应用的场景 。
答:VIN 的目的主要是解决深度强化学习泛化能力较弱的问题。
传统的深度强化学习(比如 deep Q-learning)目标一般是采用神经网络学习一个从状态(state)到决策(action)的直接映射。神经网络往往会记忆一些训练集中出现的场景。所以,即使模型在训练时表现很好,一旦我们换了一个与之前训练时完全不同的场景,传统深度强化学习方法就会表现的比较差。
在 VIN 中,我们提出,不光需要利用神经网络学习一个从状态到决策的直接映射,还要让网络学会如何在当前环境下做长远的规划(learn to plan),并利用长远的规划辅助神经网络做出更好的决策。
通俗点来说叫:授人以鱼不如授人以渔。不妨说大家生活在北京,那么要怎么才能让一个人学会认路呢?传统的方法就是通过日复一日的训练,让一个人每天都从天安门走到西直门,久而久之,你就知道了长安街周边区域大致应该怎么走,就不会迷路了。但是如果这个人被突然扔到了上海,并让他从静安寺走到外滩,这个人基本就蒙了。VIN 提出的 learning to plan 的意义就在于,让这个人在北京学认路的时候,同时学会看地图。虽然这个人到了上海之后不认识路,但是如果他会看地图,他可以在地图上规划出从静安寺到外滩的道路,然后只要他能知道自己现在处在地图上的什么位置以及周边道路的方向,那么利用地图提供的额外的规划信息,即使这个人是第一次到上海,他也能成功的从静安寺走到外滩。
在文章中,我们提出了一种特殊的网络结构(value iteration module),这种结构和经典的规划算法 value iteration 有着相同的数学表达形式。利用这种数学性质,VIN 将传统的规划算法(planning algorithm)嵌入了神经网络,使得网络具有长期规划的能力。
VIN 中所使用的特殊结构,value iteration module,在很多问题上都可以直接加入现有的强化学习框架,并用来改进很多现有模型的泛化能力。
机器之心:你跟从 Russell 教授学习带来了哪些启发?
答:Berkeley 有着全世界最好的 AI 研究氛围和学者,我很幸运能够在 Berkeley 学习和研究。
我的导师 Stuart Russell 教授对我的影响是最大的。他改变了很多我对的科研观点和习惯,让我不要急功近利。在我比较艰难的时间段里他也不停的鼓励我,也对我在很多方面给予了很大的支持,信任和帮助。
此外我第一篇关于概率编程语言的论文也非常幸运得到了 Rastislav Bodik 教授的指导和帮助,不过很不凑巧,在我博士第一年结束之后他就被挖到了华盛顿大学(University of Washington)。
在强化学习方面,我得到了 Pieter Abbeel 教授,Sergey Levine 教授,Aviv Tarmar 博士,还有他们组里的很多博士生的帮助。他们都是领域里最厉害的学者,让我学到了非常多的东西。
在自然语言处理方面,我在今日头条实验室实习的时候得到了李磊博士的很多指导,回到 Berkeley 后,我和 David Bamman 教授也有合作,他也是圈内顶尖的学者,也总能给我提出很有价值的建议和指导。
机器之心:获得 BestPaper 是意料之中的事情吗?有什么感想?答:大家知道消息的时候还是挺意外的,也很高兴。毕竟 best paper 是个很高的荣誉,这一次 NIPS 也有很多非常非常优秀的工作,能够被选中,大家都非常开心。
在本研究中,我们介绍了价值迭代网络(value iteration network, VIN):一个完全可微分的神经网络,其中嵌入了「规划模块」。VIN 可以经过学习获得规划(planning)的能力,适用于预测涉及基于规划的推理结果,例如用于规划强化学习的策略。这种新方法的关键在于价值迭代算法的新型可微近似,它可以被表征为一个卷积神经网络,并以端到端的方式训练使用标准反向传播。我们在离散和连续的路径规划域和一个基于自然语言的搜索任务上评估了 VIN 产生的策略。实验证明,通过学习明确的规划计算,VIN 策略可以更好地泛化到未见过的新域。
过去十年中,深度卷积神经网络(CNN)已经在物体识别、动作识别和语义分割等任务上革新了监督学习的方式。最近,CNN 被用到了需要视觉观测的强化学习(RL)任务中,如 Atari 游戏、机器人操作、和模拟学习(IL)。在这些任务中,一个神经网络(NN)被训练去表征一个策略——从系统状态的一个观测到一个行为的映射,其目的是表征一个拥有良好的长期行为的控制策略,通常被量化为成本随时间变化的一个序列的最小化。
强化学习(RL)中决策制定的连续性(quential nature)与一步决策(one-step decisionsin)监督学习有本质的不同,而且通常需要某种形式的规划。然而,大部分最近的深度强化学习研究中都用到了与监督学习任务中使用的标准网络十分相似的神经网络架构,通常由用于提取特征的 CNN 构成,CNN 的所有层都连在一起,能将特征映射到行动(action)的概率分布上。这样的网络具有内在的反应性,同时特别的一点是它缺乏明确的规划计算。序列问题中反应策略的成功要归功于该学习算法,它训练了一个反应策略去选择在其训练领域有良好长期结果的行动。
为了理解为什么一个策略(policy)中的规划(planning)是一个重要的要素,可以参考一下图 1(左)中网格世界的导航任务,其中的 agent 能观测其域的地图,并且被要求在某些障碍之间导航到目标位置。有人希望训练一个策略后能解决带有不同的障碍配置的该问题的其他几个实例,该策略能泛化到解决一个不同的、看不见的域,如图 1(右)显示。然而,根据我们的实验显示,虽然标准的基于 CNN 的网络能被轻易训练去解决这类地图的一个集合,它们却无法很好的泛化到这个集合之外的新任务中,因为它们不理解该行为的基于目标的形式。这个观察结果显示被反应策略(reactive policy)学习的计算不同于规划(planning),它需要解决的是一个新任务。
图 1:一个网格世界域的两个实例。任务在障碍之间移动到全局。
在这个研究中,我们提出了一个基于神经网络的策略(policy),它能有效地去学习规划(plan),我们的模型,termeda 值迭代网络(VIN),有一个可微分的「规划程序」,被植入了该神经网络结构。我们方法的关键是观测到经典值迭代(VI)规划算法可能由一个 特定类型的 CNN 表征。通过将这样一个 VI 网络模块植入到一个标准的前馈分类网络中,我们就获得了一个能学习一个规划计算的神经网络模型。这个 VI 模块是可微分的,而且整个网络能被训练去使用一个标准的反向传播。这就让我们的策略简单到能训练使用标准的强化学习和模拟学习算法,并且直接与神经网络整合,用于感知和控制。
我们的方法不同于基于模型的强化学习,后者需要系统识别以将观测映射到动力学模型中,然后产生解决策略。在强化学习的许多应用中,包括机器人操纵和移动场景中,进行准确的系统识别是极其困难的,同时建模错误会严重降低策略的表现。在这样的领域中,人们通常会选择无模型方法。由于 VIN 仅是神经网络策略,它可以进行无模型训练,不需要进行明确的系统识别。此外,通过训练网络端到端可以减轻 VIN 中的建模误差的影响。
我们证明了 VIN 可以有效应用于标准的强化学习和模拟学习算法中的各种问题,其中包括需要视觉感知,连续控制,以及在 WebNav 挑战中的基于自然语言的决策问题。在训练之后,策略学习将观察映射到与任务相关的规划计算中,随后基于结果生成动作预测的计划。正如我们所展示的结果,这种方式可以更好地为新的,未经训练的任务形式的实例归纳出更好的策略。
结论和展望
强大的和可扩展的强化学习方法为深度学习开启了一系列新的问题。然而,最近很少有新的研究探索如何建立在不确定环境下规划策略的架构,目前的强化学习理论和基准很少探究经过训练的策略的通用性质。本研究通过更好地概括策略表示的方法,朝着这个方向迈出了一步。
我们提出的 VIN 方法学习与解决任务相关的大致策略并计算规划,同时,我们已经在实验中证明,这样的计算方式在不同种类任务中具有更好的适用性,从简单的适用性价值迭代的网格世界,到连续控制,甚至到维基百科链接的导航。在未来的研究中,我们计划向基于模拟或最优线性控制学习的方向开发不同的计算规划方式,并将它们与反应策略相结合,从而为任务和运动规划拓展新的强化学习解决方案。
以下是最佳论文《Value Iteration Networks》相关的演讲幻灯片介绍,演讲者为该论文的第一作者、 Berkeley AI Research Lab (BAIR) 博士后 Aviv Tamar。
P1-6:介绍
对于自动化机器人的目标(比如命令机器人打开冰箱给你拿牛奶瓶),用强化学习可以吗?深度强化学习从高维的视觉输入中学习策略,学习执行动作,但它理解这些策略和动作吗?可以简单测试一下:泛化到一个网格世界中。
P7-10:观察:反应性策略(reactive policies)的泛化效果并不好。
为什么反应性策略的泛化效果不好呢?
一个序列任务需要一个规划计算(planning computation)
强化学习绕过了它——而是学习一个映射(比如,状态→Q 值,状态→带有高返回(return)的动作,状态→带有高优势(advantage)的动作,状态→专家动作,[状态]→[基于规划的项])
Q/返回/优势:在训练域(training domains)上的规划
新任务:需要重新规划(re-plan)
P11:在这项成果中,我们可以学习规划和能够泛化到未见过的任务的策略。
P12-14:背景
P16-21:一种基于规划的策略模型
从一个反应性策略开始
加入一个明确的规划计算
将观察(observation)映射到规划 MDP&
假设:观察可被映射到一个有用的(但未知的)规划计算
神经网络将观察映射成奖励和转变(transitions)
然后,学习这些
怎么去使用这种规划计算?
事实 1 :值函数 = 关于规划的足够信息
思路 1:作为特征向量加入反应性策略
事实 2:动作预测可以仅需要 V-*的子集
类似于注意模型,对学习非常有效
策略仍然是一个映射 g ?(s) → Prob(a)
映射 R-、P-、注意的参数 θ
我们可以反向传播吗?
反向传播怎么通过规划计算?
P22-23:价值迭代=卷积网络
P24-27:价值迭代网络(VIN)
P28-29:实验
1.VIN 能学习规划计算吗?
2.VIN 能够比反应策略泛化得更好吗?
P30-46:网格世界域
P47-51:火星导航域
P52-59:连续控制域
P60-72:网页导航域:基于语言的搜索2016年就业调查报告论文doc_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
2016年就业调查报告论文doc
上传于||暂无简介
阅读已结束,如果下载本文需要使用1下载券
想免费下载本文?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩7页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢在校大学生2016年两会心得-心得体会-论文联盟
您好,游客
背景颜色:
在校大学生2016年两会心得
来源:论文联盟&
在校大学生2016年两会心得
作为一名在校的大学生,尤其是一名入党积极分子,应该积极的在思想,本领,作风上找差距,争取能够早日达到一名合格党员所要求的标准。每年的两会都应该是我们关注的焦点,通过每年举行的两会,可以使我们能够在第一时间准确的认识到党和国家的要求和方向,是我们及时调整,准确修正自身工作方向的正确指导。通过学习两会精神,从而了解国际国内形势,认清大局,明辨是非,站对立场,坚决拥护党中央和国家所做出的科学决策。在日常的生活工作学习中自觉践行两会精神,自觉履行学生干部应尽的义务,积极带动同学参与到两会精神的学习、讨论和中去。
3月,伟大的祖国隆重召开了全国两会,共商国事,关注民生,深谋发展,不断开创美好的未来。"两会"上,"改革创新"是代表委员们谈论最多的主题:《政府工作》提出今年着力抓好9项工作,国务院机构改革方案......这些目标的实现,都必须勇于探索,不断改革创新。
站在新的历史方位,代表委员们有着深刻而又清醒的认识:机遇与挑战并存的时代,要让中国这艘巨轮沿着又好又快、科学发展的航道前进,持之以恒的改革创新是推动巨轮前行的不竭动力。改革创新为发展注入前进动力,发展反过来又"点燃"新一轮改革创新的"火花"。这样一对作用力显现在领域的方方面面。
在建设创新型国家、本文由联盟收集整理创新型城市的过程中,要想技术创新,首先必须制度创新。张兆安代表用"四不"了在营造良好改革创新氛围时必须进一步完善的方面:操作层面不清晰、微观层面不支撑、体制机制不协调、多层目标不统筹。要改现状,必须从制度创新入手。"体制机制的改革创新跟不上,自主创新的效果将大打折扣。"马兴瑞委员也提到,一个国家的竞争力,很大程度上取决于政府机构的竞争力,从国外的看,政府对支柱产业的支持很大。现在我国自主创新的政策很好,但是难以落实,需要通过政府体制的改革推进自主创新。代表委员们疾呼,时不我待,必须加快改革步伐,探索更有利于经济社会发展的创新机制与体系。此次国务院机构改革方案的出台,可视作政府营造良好改革创新氛围迈出的第一步创新要有坚韧不拔的勇气。沿着科学发展的道路迈进,是一项伟大的事业,也是一场坚韧的长跑,需要我们坚定信念,将改革创新贯穿于始终。不停顿的改革创新,需要不停顿地解放思想。当今世界正在发生广泛深刻的变革,当代中国也在发生广泛而又深刻的变革,不适应这种变革的需要,挑战面前不解放思想、知难而上,我们就将停滞不前,就将惨遭淘汰。解放思想是发展的"金钥匙",是推动一切工作的"总发动机"。解放思想,就要突破禁锢,摆脱束缚人们思想的旧观念和传统的思维模式,敢于反映阻碍改革创新的突出问题,切实推进体制、机制和制度建设。
现在流行的网友参政议政也是参与两会的形式和渠道的方式,总理亲自就社会问题与广大网民交流,众多的两会代表和委员将作为自己收集材料,整理议案,沟通民情,社会调研的重要渠道。互联网的充分利用,给了广大百姓的了解和参与到国家中来的机会,老百姓能够自由的表达自己的想法和意见,这是我国民主建设的重要进步,也充分体现了我国讲民主,重民生的执政理念。真正做到了权为民所用,情为民所系,利为民所谋。
关注两会,更让我们全面深刻地了解到我国存在的现实问题有多么普遍和繁杂;关注两会,同样让我们明白,党和国家为了能够在国际上挺直脊梁,在国内给人民提供一个健康、和谐的生活 境,付出了多少心血和努力;关注两会让我们心中升腾起澎湃的爱国热情和强烈的社会责任感,进而提升自己的能力,为祖国的现代化建设储备资本。作为一名入党积极分子,在思想上我要认真学习两会精神,紧跟中央文件。在行动上,要切身大会精神,以实际行动拥护党中央所作出的决定。请在实践中检验我。
欢迎浏览更多 →
相关文章 & & &
本栏目最新更新文章
   同意评论声明
   发表
尊重网上道德,遵守中华人民共和国的各项有关法律法规
承担一切因您的行为而直接或间接导致的民事或刑事法律责任
本站管理人员有权保留或删除其管辖留言中的任意内容
本站有权在网站内转载或引用您的评论
参与本评论即表明您已经阅读并接受上述条款
内容分类导航

我要回帖

更多关于 nips 2016 论文 的文章

 

随机推荐