《深度学习的“深度”有什么意义

《神经网络和深度学习》系列文章二十二:交叉熵的意义是什么?它又是怎么来的?_哈工大SCIR_传送门
《神经网络和深度学习》系列文章二十二:交叉熵的意义是什么?它又是怎么来的?
哈工大SCIR
出处: Michael Nielsen的《Neural Network and Deep Learning》,点击末尾“阅读原文”即可查看英文原文。本节译者:哈工大SCIR本科生 袁建华校对:哈工大SCIR硕士生 徐梓翔声明:我们将在每周四连载该书的中文翻译,如需转载请联系wechat_editors[at]ir.hit.edu.cn,未经授权不得转载。使用神经网络识别手写数字反向传播算法是如何工作的改进神经网络的学习方法改进神经网络的学习方式交叉熵损失函数用交叉熵解决手写数字识别问题交叉熵意味着什么?它从哪里来?Softmax过拟合和正则化正则化为什么正则化能够降低过拟合?其他正则化技术参数初始化重温手写数字识别:代码如何选择神经网络的超参数其他技术神经网络能够计算任意函数的视觉证明为什么深度神经网络的训练是困难的深度学习我们之前对交叉熵的讨论集中在代数分析和实际实现。这些工作看起来是足够了,但也留下一些待回答的更宽泛的概念问题,比如:交叉熵的意义是什么?有没有直观方式去思考交叉熵?还有,我们怎么才能在一开始的时候就想到交叉熵?我们从最后一个问题入手:什么会促使我们在第一时间想到交叉熵?假设我们发现了之前描述过的学习减缓问题,并且明白根源是公式(55)和公式(56)中的项。在仔细观察了这两个公式之后,我们可能会猜想——是否可以通过选择一个代价函数使得项消失。那样的话,一个单一训练样本的代价就会满足:(71) (72) 如果我们能选择某个代价函数使得这个等式成立,那么它们将会直接使得如下直觉成立:一开始的错误越大,神经元学习得越快。同时它们也消除了学习减缓的问题。实际上,如果我们从这些等式着手,凭借我们的数学嗅觉,就能够推导出交叉熵的公式。注意由链式法则,我们有:(73) 运用最后一个等式变成:(74) 和等式(72)对比,我们得到:(75) 将这个表达式对求积分有:(76) 常数部分为某个值。这是单个训练样本对代价的贡献。想得到完整的代价函数,我们必须在所有样本上平均一下,得到:(77) 其中,常数部分是每个训练样本各自常数的平均值。因而我们可以看出,公式(71)和(72)唯一确定了交叉熵的形式,以及一个整体的常数项。交叉熵不是奇迹般凭空产生的,而是我们能够以一种简单自然的方式发现的。那交叉熵的直观意义是什么?我们又该如何理解它呢?深入地解释这个问题会扯得很远,我就不细说了。但值得一提的是,在信息论领域是有一种标准方式来解释交叉熵的。大致说来,想法就是:交叉熵是对惊讶的测度。特别地,我们的神经元尝试去计算函数。但是,取而代之的是,它计算函数。假设我们把当作为时神经元估计的概率,是的正确值为时估计的概率。然后,交叉熵衡量的是我们在了解的真实值时的平均「惊讶」程度。当输出是我们期望的值,我们得到低程度的惊讶;当输出不是我们期望的,我们得到高程度的惊讶。当然,我还没准确说明「惊讶」是什么意思,所以这个措辞听起来很空洞。但事实上是有一种精确的信息理论方法来阐述惊讶所表达的意思的。不幸的是,我并不知晓网络上是否能够找到有关该主题的出色、简短、内自含的讨论。但是如果你想深究下去,维基百科上有一个能让你正确入门的。细节部分可通过研读有关Kraft不等式的材料来补充,这些材料在所写的有关信息论的书籍的第五章中可以找到。问题我们已经详尽地讨论了当我们使用平方代价来训练的神经网络时,会产生输出神经元饱和、学习速率下降的问题。另一个会妨碍学习的因素是等式(61)中项。因为该项的存在,当输入接近于0时,对应的权重会学习得很慢。解释一下,为什么我们不能通过选择一个好的代价函数来消除项。“哈工大SCIR”公众号编辑部:郭江,李家琦,徐俊,李忠阳,俞霖霖本期编辑:李家琦长按下图并点击 “识别图中二维码”,即可关注哈尔滨工业大学社会计算与信息检索研究中心微信公共号:”哈工大SCIR” 。点击左下角“阅读原文”,即可查看原文。
觉得不错,分享给更多人看到
哈工大SCIR 微信二维码
分享这篇文章
4月8日 20:06
哈工大SCIR 最新头条文章
哈工大SCIR 热门头条文章深度学习及其意义-中国社会科学网
深度学习及其意义
日 15:34 来源:《课程·教材·教法》
作者:郭华
内容摘要:深度学习的提出,既是对教学规律的尊重,也是对时代挑战的主动回应。
关键词:深度学习;教学规律;社会历史实践;核心素养
作者简介:
  作者简介:郭华,北京师范大学教育学部,北京 100875 郭华,北京师范大学教育学部教授,主要研究课程与教学论、教育社会学。  内容提要:深度学习的提出,既是对教学规律的尊重,也是对时代挑战的主动回应。深度学习的五个特征,为理解教学活动提供了新的视角,为消解种种二元对立观念提供了理论支持。深度学习的研究与实践,确立了学生个体经验与人类历史文化的相关性,落实了学生在教学活动中的主体地位,使学生能够在教学活动中模拟性地“参与”人类社会历史实践,形成有助于未来发展的核心素养,而教师的作用与价值也在深度学习中得以充分实现。  关 键 词:深度学习 教学规律 社会历史实践 核心素养  标题注释:本文系教育部基础教育课程教材发展中心“‘深度学习’教学改进”项目的研究成果之一。  中图分类号:G42 文献标志码:A 文章编号:16)10-0003-08  “鹦鹉学舌”“小和尚念经有口无心”等机械的、死记硬背的学习,历来被批判,而“有意义学习”“知其然又知其所以然的学习”,自然是被嘉许的。吊诡的是,在实践中,被嘉许的,常常做不到,而被批判的,却常常是难以摆脱的无奈现实。正如人们所看到、所遭受的那样,原本应该是成就人、培养人、让人体悟感受生命意义和价值的教学活动,竟然变成令人生厌、极力逃避的活动。  在令人生厌的教学活动中,学生的主动性、积极性、参与性总是很弱。针对这种情形,便有了相应的改革和尝试。例如,改变学习方式、改变教学组织形式、尝试先学后教、翻转课堂等等。所有这些改革,都在于让学生学得主动、积极,参与性强。但是,若改革只以学生主动性为目的,便易着眼表面,从形式上入手,甚至顾此失彼。例如,强调学生的兴趣而忽视系统科学知识的学习;强调学生的主动参与而忽视教师的引导;强调学生的愉悦而轻视严肃严格的学习;等等。这些致力于激发学生主动学习的教学改革,虽有效果但效果不大,或流于形式而无视内容,或流于机械僵化而丧失灵活生动。这说明负责任而有意义的教学改进,必须基于教学规律之上。  2014年教育部基础教育课程教材发展中心在全国多个实验区开展了“‘深度学习’教学改进”项目研究,努力在自觉的教育实验活动中探索教学规律,促进学生核心素养的发展,使教学活动真正成为培养人的理智活动,成为能够回应时代和社会发展要求的社会实践活动。  一、深度学习的紧迫性  在相当长的时期里,“教学即传递”是人们对教学活动的定位,即人类认识成果是传递物、教师是传递者、学生是接受者。虽然也有批判者认为教学并非“传递”而是“体验”“创新”,但是,这种观点除了作为“教学即传递”的“非此即彼”的对立面,在实践中实难找到落实的方法与路径。而“教学即传递”则因体现了教学最基本的方法与路径,而在教学实践中有着广泛、持续且扎实的影响。但这种观点及相应的实践,本身并没能体现教学活动全部的内涵与意义,很大程度上片面化了教师、学生的角色与地位,也弱化了知识本应有的意义与作用,降低了教学活动本应有的地位。在社会发展相对缓慢、知识来源相对单一的时代,在“知识就是力量”、在信息需要索取而非选择的时代,当发布的知识具有权威性而无需个人做评判只需接受的时代,“传递”(甚至只是“灌输”或知识的“平移”)足以应对,因而有着实践的合法性基础。  但是,当信息时代来临,知识来源途径多样混杂,每一个人都可能发布信息而每一个人也都面临着要对信息的正误做出独立评判的时候,若教学还只是定位于“传递”,主要以死记硬背为手段的表层学习,或它的反面——只强调探究形式而无探究精神的学习形式,不仅苍白无力,甚至有害。  我们必须要思考:在“百度一下你就知道”的时代,如果教学的目的还只是传递和接受知识,教学存在的价值何在?在“百度一下你就知道”的时代,若教师还只作为知识的拥有者和传递者,那么,教师还有存在的价值吗?教师在何种意义上是无可替代的?当信息真假不明、良莠不齐地汇聚而来时,教学如何能够帮助学生辨别真伪、明辨是非?在“百度一下你就知道”的时代,学生凭什么要通过艰苦的学习去掌握课本上“枯燥”“死板”“无趣”的知识?教学如何让学生体会知识的价值和意义?  当AlphaGo大胜围棋职业九段选手李世石①的时代,只传递知识的教学自然不行,它的反面,不关注知识的价值而只形式化地关注探究、创新和体验的教学,同样不行。  信息时代的到来,逼迫着教学必须从农耕时代朴素的“教学即传递”的观念中走出来,也从非此即彼的各种形式化的改革中走出来,重新认识教学的任务与功能[1]。教学不仅要帮助学生承继人类认识成果,而且要在这个过程中感受、体验人类认识过程中的思想的、行为的、判断力的精华,成长为能够明辨是非、有正确价值观、有担当的未来社会实践的主人。总之,教学为了发展,教学要促进发展,教学要让学生具备自主发展的意识与能力,要发展学生的核心素养。这成为当前紧迫的任务。正如马克思所说:“社会一旦有技术上的需要,则这种需要就会比十所大学更能把科学推向前进。”信息时代把我们以前本应有但被忽略了的思考与实践,凸显出来,逼迫我们给出答案,深度学习的研究应运而生。
转载请注明来源:中国社会科学网
(责编:毕雁)
用户昵称:
&(您填写的昵称将出现在评论列表中)
所有评论仅代表网友意见
最新发表的评论0条,总共0条
查看全部评论
中国社会科学网版权所有,未经书面授权禁止使用
Copyright (C)
by www.cssn.cn. all rights reserved深度学习的“深度”有什么意义?
深度学习的“深度”有什么意义?
作者: 来源:
深度进修的&深度&,
早几年评论辩论的挺多的,身边有不合的懂得:深度=更大年夜范围的收集,也有认为:深度=更抽象的特点,近年来物理上也有人侧面显示:深度=玻璃相改变,如不雅后者的不雅点成立,那么仅仅惹人GPU甚至FPGA硬件的目标只是加快,
没有算法的赞助(调参也算一种算法,后面会解释)是不会加深的!(注:等号表示强关系,不表示等价)70-90年代关于神经收集的数学结论可谓不可偻指算,根本上很多评论辩论了范围和泛化之间的关系,尤其是分类问题,关于分类的练习误差和测试误差(泛化才能),根本上归结为几个根本要乞降限制:
模型要多复杂:
增长复杂度老是能拟合浩揭捉练样本,而要获得优胜的泛化才能,广泛认为复杂度应当为练习数据数量标某种幂次,才能有较好的泛化才能。并且幂次请求小于1,若不然,每增长一个练习样本,都必须要扩充收集,这种模型没有任何实际意义。谢天谢地,神经收集可以知足这个请求,参考文献3。
要若干练习数据:如不雅收集节点数为 N,连接权重数为W,那么泛化误差小于随便率性指定值& 的一个合理的请求就是: 练习数据的数量
&(W/&)Log(N/&),这解释复杂的模型须要更多的练习以获得优良的泛化才能!事实上,赓续进步数据量,独裁感知器模型也能达到今朝深度进修的程度(参考文献2),认为深度进修=通俗独裁神经收集,切实其实有实际的来由。
奥卡姆剃刀困惑:理论上,带一层隐蔽层的核基神经收集可以将随便率性数据拟合好(懂得为级数展开,每个项就是一个隐蔽神经元),那么提嘉宾杂度的感化是啥?无法辩论的事实是,数据量足够高今后,简单的分类器都能给出优良的结不雅。关于这一点大年夜相变角度能解释为何须要实际工程须要一个&过度复杂的收集&,而不是一个大年夜小&方才好的&收集。
复杂的价值:一个根本的定理,测试误差 &= 练习误差 +
模型复杂度,过度复杂的价值就是过拟合。防止过拟合的办法没有通论,业界通称&黑魔法&。度量&深&这个&深&同复杂度的接洽是很慎密的。神经收集的复杂度,我们可以应用层数,神经元数量,或者连接权重数量作为度量。相对的,数据本身的复杂度,我们用带标签的数据的比例和不带标签的数据的比例来衡量。深度=范围?收集复杂性同分类误差之间的接洽:膳绫擎4点告诉我们的表象是,针对静态非时序分类问题,我们貌似可以不要高大年夜上的算法,只要数据量足够,收集足够复杂,机械够大年夜,速度够快,懂得&黑魔法&,在如今的工业界的数据量和模型平日都是用亿来衡量其范围的时代,此乃现世王道。深度=更多抽象特点?连续串问题来了,何为特点?何为好的特点?深度进修的特点为何被称为抽象的?独裁和抽象的关系是啥?
特点=函数展开的基函数?数学大将基函数懂得成特点是可以的,当然不须要完全,也不须要正交。比如下图,图片特点提取,稀少编码就是在一堆特点傍边寻找起码且拟合最好的特点组,前提假设是图片都可以被分化为这些特点的线性叠加。然而前提纲求分化仍然是线性的,使得机械上好计算,然则实际问题须要的特点平日是不合类型的组合,强行线性组合就像是吃正宗粤菜的时刻来个山东煎饼不雅子一样。(图取自吴恩达的slide)特点=低维流形嵌入?产生成千上万个没经验证的特点老是轻易的,但去除冗余特点,也就是去掉落那些添不添加都不影响结不雅的特点,就须要相当的技能。一种就是经由过程低维流形去寻找最重要的构造,这种办法可以应用独裁自编码去逐财揭捉缩维度,也可以用传统独裁神经收集+Isomap类似的办法一步到位地紧缩维度,然后赓续调剂使得嵌入低维的数据点&互相分别的最远&。因为数据点靠的近表示类似,故此这种办法能将数据本身的平移扭转按次序嵌入到每块低维子流形傍边。反过来说,如不雅练习数据已经包含有其本身的扭转平移,其低维子流形将会被填充得&加倍的饱满&(如绿色的圆圈,因为手写数字1无论若何写都是&
的某种扭转拉伸),其低维的界线就更轻易被发明。然而这种办法是假设数据的可解释性隐蔽在其低维流形构造上,不免让人费解,并且不合标签的嵌入子流形可否被充分分别也是异常艰苦的工作。(参考G.E.Hinton
06年 nature, Y LeCun,etc)深度=玻璃相改变?何为玻璃相?它对泛化误差的影响是啥?
相,作为区分两种状况的词,有个异常实际和直不雅的影响就是,外部前提不变的话,大年夜一种相跨到另一种相是有很大年夜难度的!比如水在低温会结冰,同样前提,让水不结冰的概率,固然按照玻尔兹曼分布来看并非为零,过冷水就是一例。但这种状况是异常不稳定的,一旦扰动很快就变成冰,弗成能回到液体。
相变过程=搜刮能量最小点,这是一个粗浅的懂得,在给定前提下(比如温度T),相变就是大年夜能量高的状况(低温水)找到能量低的状况(冰)。然则该过程不是直线式的下陂过程,时代要翻过一些很小的山头,描述这些小山头的阻碍我们用一个正的能量垒&DE来表示。其阻碍时光按照阿伦尼乌斯的不雅点,正比于N*E^(&DE/T),指数型的迁延。前面的参数N用来形容山头的多寡。
玻璃相。假设这些小山头不是一个,而是体系自由度的指数,固然每个山头的高度不高,累计的阻碍仍然异常可不雅,甚至严重影响钠揭捉找最小能量态的可能性,进入这种像踩到沥青的区域,我们用玻璃相来形容。如下图,比如蛋白质折叠的能量漏斗模型(能量landscape),大年夜计算机模仿上来看,穿过玻璃改变区(glass
transition)进入能量最小值是最消费时光的一个区域。这个过程硬件提速固然重要,然则并行加快是线性的进步,只解决空间复杂,不解决时光复杂!玻璃区域是包含有时光复杂的,一旦范围巨大年夜后,没有算法技能,寻找能量最低点,在这种非凸的模型上,根本无望。
  推荐阅读
  如果说女人如水,面对着非常有亲和力的北沃品牌创始人陆樱秋女士,你能感受到女人如水温柔背后的力量。将近三个小时的访谈中,我们一起来聆听北沃(Beauty
water)的品牌故事。  陆樱秋女士,广东百沃环保科技&&&
本文标题:
地址:http://www.17bianji.com/lsqh/35082.html
乐购科技部分新闻及文章转载自互联网,供读者交流和学习,若有涉及作者版权等问题请及时与我们联系,以便更正、删除或按规定办理。感谢所有提供资讯的网站,欢迎各类媒体与乐购科技进行文章共享合作。
自媒体专栏
栏目ID=71的表不存在(操作类型=0)469被浏览39,186分享邀请回答0添加评论分享收藏感谢收起深度学习之后是什么?——《人工智能的未来》书评
本书从神经科学和人脑研究的角度,对神经网络与深度学习理论的不足进行批判;跳出应用层面,从“何为智能的本质”的视角出发,本书搭建了一套经典的智能模型,并希望以此启发人工智能研究超越当前深度学习框架,向真正的强智能迈进。
《人工智能的未来》,是Palm公司、Numenta公司及Handspring公司的创办者、计算机科学家与神经科学家Jeff
Hawkins写于2004年的科学著作。本书从神经科学和人脑研究的角度,对神经网络与深度学习理论的不足进行批判;跳出应用层面,从“何为智能的本质”的视角出发,本书搭建了一套经典的智能模型,并希望以此启发人工智能研究超越当前深度学习框架,向真正的强智能迈进。纠正图灵的错误:智能≠行为本书从批判现有人工智能算法与理论体系入手,指出目前学界商界研究人工智能的诸多误区,其中最重要的一点便是“将智能简单的等同于智能行为”。这一谬误起源于经典“图灵测试”,企图用行为主义框架定义智能本质。通过“中文屋”实验,可以对“智能=行为”这一论断进行证伪。中文屋实验旨在证明我们不能通过黑箱机制和大量计算的方式得到智能。假设一位只说英语的人身处一个密闭房间中,并随身带着一本写有中文翻译程序的书,将写着中文的纸片通过小窗口送入房间中,房间中的人可以对任何中文做出翻译,房间外的人也就将误以为该翻译者可以理解中文;同理,通过“简单算法+海量计算”提升算法精准度的方法具有局限,部分学者“通过并联深度学习模型得到强人工智能“的设想是不可实现的。在开始“创造智能”之前,应先理解现存智能,即人脑智能的运作方式,并对某些元素进行借鉴。从神经科学角度解释人类智能的特征:层级、封装与知识模块在理解人脑智能的运作方式前,需要先从生物解剖学的角度,大致理解人脑的功能。人脑包含大脑、小脑、脑干等部分,其中大脑可分为左右脑、前后脑等若干部分,由300亿神经元细胞组成的新大脑皮层是产生智能的最重要器官;新皮层包裹在大脑最外侧,包含6层细胞,展开后面积约同一张纸巾。6层神经细胞的层级结构,帮助人类完成了复杂的识别、思考和预测。根据作者的观点,人脑相当于一个巨大的素材库,信息从底层向上层传递,下层细胞不同的兴奋组合,可以引起不同高层细胞的兴奋;越上层的神经元细胞,包含的信息越多,从而形成一个底部异常活跃,顶部逐渐趋于平稳的结构。“垂直柱”是一系列神经元的组合,具有相同或相近的周围感受野,即倾向于同时兴奋;一个垂直柱很可能储存着一个认知对象,如一个物体或一个完整动作。一个名为“联合区”的区域,将视觉、听觉、触觉等信息整合到一起,因此当我们“听到某人声音”和
“看到某人图像”的时候,大脑可以匹配同一个对象。“反馈性”、“层级性”和“序列性”,是人脑功能的主要特征。神经元细胞的反馈是双向的,即时的反馈保证了对错误的即时修正;层级性将复杂的任务分解,类似于程序语言中的封装;序列性是人脑对信息的组织形式:信息通过序列的方式,在一个垂直柱内被“物理储存”。智能本质新论:记忆-预测模型作者认为,智能的本质不能通过行为因素进行判断,“预测”能力应当作为衡量智能的标准。换言之,智能的核心,是通过已知推测未知的能力。人类智能和动物最主要的区别,在于人类智能不仅停留在应激反应级别,更能通过类比、阅读等间接方式进行学习,并在未亲身经历的情况下形成经验和预判。作者将人类的认知模式总结为“记忆-预测”模型。在“记忆”阶段,人脑大量吸取信息素材和这些素材的组合序列,并为它们“命名”:将一系列神经元兴奋储存成垂直柱,在再次受到特征刺激时同时兴奋。在预测阶段,一个人接触到具有一定特征的刺激后,大脑对刺激进行拟合,并匹配最适的“兴奋序列”。当后续刺激和预测相一致时,大脑兴奋的神经元序列保持不变,个体的认知也不发生改变;当后续刺激和预测相异时,大脑会根据最新的信息,重新进行预测;当已有的知识(兴奋序列)不能解释当前的刺激时,大脑将在已有的垂直柱上进行修改,并形成新的“命名”。举例而言,当一个人听到一段音乐时,他立刻会和自己已经听过的最相似的音乐进行对比,并得出“这是我听过的A音乐”,或“这与我听过的A音乐有若干不同”的判断。人脑“记忆-预测”模型中,已有知识(兴奋序列)的复用率很高;各层皮质细胞储存的信息相当于一个素材库,知识相当于一个个兴奋序列;通过对已有序列最小限度的修改,大脑就形成了新知识。这些兴奋序列或知识被称为“恒定表征”,相似于很多学者一直呼吁、建议运用在人工智能算法中的“知识结构”。对比深度学习算法,指明人工智能未来可以发现,相比于人脑的认知机制,神经网络和深度学习的机制显得简陋许多。首先,神经网络和深度学习对神经元机制的模仿是粗略的,这一算法仅模仿了两个神经元之间“增强”或“减弱”刺激的关系,鲜明的层次结构、封装处理、和“垂直柱”知识储存机制,都没有在深度学习算法中体现;其次,神经网络算法建立在一系列“IF-THEN”判断语句上;而人脑认知则建立在“预测-证伪”机制上;对比可发现,前者对于已有知识和“记忆-素材”的复用率极低。因此,神经网络算法仅是对人类神经系统的粗劣模仿;通过更大数据量、更强计算能力、和更多的训练,不能弥补算法本身的拙劣性。同时应该发现,一些科学家“通过串联各弱智能的深度学习模式识别算法,形成强智能”的想法,很难真正实现。深度学习算法不能很好的识别主体,不同类型的信息(图像、文字等)难以被整合;命名机制和特征序列提取并不能通过深度学习算法实现。深度学习在人工智能“识别”层面具有优势,而进入“认知”层面,其他机器学习算法协同深度学习,才能达到更佳效果。最后,在本书中作者无意为人工智能的发展指明明确的方向,也并未做出“仿生和人脑智能是实现强智能的最好方式”之论断。然而,通过参考人脑机制,我们发现了“垂直柱”、“层级制”、“记忆-预测”等尚未充分应用于机器学习、可能对机器学习有所裨益的机制和模式,这些才是真正具有价值的。
扫一扫,加微信订阅号

我要回帖

 

随机推荐