bp神经网络激励函数数的作用是什么？有没有形象的解释

面相 | 海贼王 | 牙齿矫正 | 徐州市 | 虚拟专用服务器 | Windows 7 | 疤痕修复 | 方言 | 幼儿教育 | 英文歌曲 | 武术 | 餐饮 | 口臭 | 冬奥会 | 化疗 | 汽车音响 | 休学 | 片尾 | 骨折 | 电子技术研发 | 胃炎 | 姓氏 | 过敏性鼻炎 | 房贷 | 身高 | 加湿器 | 雅马哈 | 金平区 | 马鞍山市 | 取名 | 美杜莎 | 韩国 | 饮食 | 怀集县 | 牙套 | 古琴 | 语言学习 | 坦克 | 体检 | 冠心病 | 书籍 | 寺庙 | 美国电影 | 驾驶经验 | 寓言 | 学术 | 坐月子 | 日语语法 | 山东艺术学院 | 类风湿 | 手相 | 乳腺癌 | 运动损伤 | 自卑 | 房山 | 辩论赛 | 机械键盘 | 大学专业选择 | 塑料制品 | 护发 | 眼袋 | 肺癌 | 血型 | 玄幻小说 | 华为路由器 | 温州市 | 留学香港 | 大学生就业 | 大学生创业 | 城市规划 | 美术生 | 一体机 | 率土之滨 | r（编程语言） | 发音 | 记忆力 | 散光 | 互联网公司 | 西班牙语 | 口腔溃疡 | 汉语 | 观后感 | 留学生 | 参考文献 | 印度 | 中耳炎 | 澳门特别行政区 | 近视手术 | 尧山 | 荨麻疹 | 花卉 | 特许加盟 | 烹饪学校 | 设计院 | 岳阳县 | 婴儿喂养 | 痛风 | 营销策划 | 狐臭 | 失眠 | 眼科学 | 药品 | 欧美 | 弱视 | 童年 | 丙肝 | 合生元 | 男生 | 材料 | 中央戏剧学院 | 葡萄酒 | 网络推广 | 胃痛 | 酒文化 | 脱发 | 情绪管理 | 花样姐姐 | 示波器 | 胶原蛋白 | 痤疮 | 自驾游 | 孩子 | 马克思主义哲学 | 大学就读体验 | 美国留学 | 本科毕业论文 | 白内障 | 精神分裂症 | 在线教育 | 无线耳机 | 发动机 | win8 | 桥梁 | 非洲 | 婚恋网站 | 驾驶技术 | 敏感皮肤 | 学车 | 武昌区 | 整形 | 红酒 | 语言学 | Android手机 | 拉丁舞 | 猪肉 | 大学军训 | 高效学习 | 手绘 | 法国 | 刑事案件 | 胃病 | 牙科医院 | 宁夏回族自治区 | 邳州市 | 国家 | 口红 | 尿毒症 | 时间管理 | 事业单位考试 | 迅雷（软件） | 中国科学技术大学 | 康佳 | 西装 | 蓝河 | 肺气肿 | 地黄 | 外貌 | 高中化学 | 励志故事 | 小吃 | 关节炎 | 驻马店市 | 鲁迅美术学院 | 交警 | 发电 | 皮肤保养 | 文玩 | 轮胎 | 山东工艺美术学院 | 钢笔 | 食道癌 | 校服 | 酵素 | 日本漫画 | 非典 | 服装行业 | 数控车床 | 毕业论文 | 蓝莓 | 七田真 | 配方奶粉 | 头痛 | 枸杞 | 孕妇装 | 儿童 | 婴儿车 | 西医 | 本田（honda） | 研究生导师 | 美白 |

你的位置：网站首页 >> 频道首页 >>计算机 >>bp神经网络激励函数数的作用是什么？有没有形象的解释

bp神经网络激励函数数的作用是什么？有没有形象的解释

来源：蜘蛛抓取(WebSpider) 时间：2017-03-23 03:43 标签：神经网络传递函数作用

翻译为激活函数（activation function）会更好。&br&&br&激活函数是用来加入非线性因素的，因为线性模型的表达能力不够。&br&&br&以下，同种颜色为同类数据。&br&&br&某些数据是线性可分的，意思是，可以用一条直线将数据分开。比如下图：&br&&figure&&img src=&https://pic2.zhimg.com/afdefdd433e9d_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/afdefdd433e9d_r.jpg&&&/figure&&br&&br&&br&这时候你需要通过一定的机器学习的方法，比如感知机算法(perceptron learning algorithm) 找到一个合适的线性方程。&br&&br&但是有些数据不是线性可分的。比如如下数据：&br&&figure&&img src=&https://pic2.zhimg.com/1ef9d4f8ef4f59_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic2.zhimg.com/1ef9d4f8ef4f59_r.jpg&&&/figure&&br&&br&第二组数据你就没有办法画出一条直线来将数据区分开。&br&&br&这时候有两个办法，第一个办法，是做线性变换(linear transformation)，比如讲x,y变成x^2,y^2，这样可以画出圆形。如图所示：&br&&figure&&img src=&https://pic4.zhimg.com/7ccca57370be03_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/7ccca57370be03_r.jpg&&&/figure&&br&如果将坐标轴从x,y变为以x^2,y^2为标准，你会发现数据经过变换后是线性可分的了。大致示意图如下：&br&&figure&&img src=&https://pic1.zhimg.com/04cccf522b8d0fb403c64bd6db53d204_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/04cccf522b8d0fb403c64bd6db53d204_r.jpg&&&/figure&另外一种方法是引入非线性函数。我们来看异或问题(xor problem)。以下是xor真值表&br&&figure&&img src=&https://pic3.zhimg.com/8a5b88d6beda0c6ed7fa_b.jpg& data-rawwidth=&247& data-rawheight=&81& class=&content_image& width=&247&&&/figure&&br&&br&这个真值表不是线性可分的，所以不能使用线性模型，如图所示&br&&figure&&img src=&https://pic1.zhimg.com/b766ff563ee2f_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/b766ff563ee2f_r.jpg&&&/figure&&br&我们可以设计一种神经网络，通过激活函数来使得这组数据线性可分。&br&激活函数我们选择阀值函数（threshold function），也就是大于某个值输出1（被激活了），小于等于则输出0（没有激活）。这个函数是非线性函数。&br&&br&神经网络示意图如下：&br&&br&&br&&figure&&img src=&https://pic4.zhimg.com/d45fd7b8ae8a0b2fb2967_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/d45fd7b8ae8a0b2fb2967_r.jpg&&&/figure&其中直线上的数字为权重。圆圈中的数字为阀值。第二层，如果输入大于1.5则输出1，否则0；第三层，如果输入大于0.5，则输出1，否则0.&br&&br&我们来一步步算。&br&&br&第一层到第二层（阀值1.5）&br&&figure&&img src=&https://pic2.zhimg.com/bee8ea5e2f7c49d0718a9_b.jpg& data-rawwidth=&328& data-rawheight=&80& class=&content_image& width=&328&&&/figure&&br&&br&第二层到第三层(阀值0.5)&br&&figure&&img src=&https://pic4.zhimg.com/2c54fea477b2e7c47657_b.jpg& data-rawwidth=&410& data-rawheight=&81& class=&content_image& width=&410&&&/figure&&br&可以看到第三层输出就是我们所要的xor的答案。&br&&br&经过变换后的数据是线性可分的（n维，比如本例中可以用平面），如图所示：&br&&figure&&img src=&https://pic1.zhimg.com/3bfe4ba6407aee8d2d938_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic1.zhimg.com/3bfe4ba6407aee8d2d938_r.jpg&&&/figure&&br&&br&总而言之，激活函数可以引入非线性因素，解决线性模型所不能解决的问题。
翻译为激活函数（activation function）会更好。激活函数是用来加入非线性因素的，因为线性模型的表达能力不够。以下，同种颜色为同类数据。某些数据是线性可分的，意思是，可以用一条直线将数据分开。比如下图：这时候你需要通过一定的机器学习的方法…
&a data-title=&@lee philip& data-editable=&true& class=&member_mention& href=&//www.zhihu.com/people/c5b2fd6388410deddbee& data-hash=&c5b2fd6388410deddbee& data-tip=&p$b$c5b2fd6388410deddbee& data-hovercard=&p$b$c5b2fd6388410deddbee&&@lee philip&/a& 写得非常好，学习。&br&&br&&p&不过好像还是写得比较专业了，理解起来还是有点难度，所以补充几点可以更清晰，纯粹个人理解，如果有错请指出来，因为在下也是正在学习中。&/p&&br&&p&Activation function　翻译成激活函数，不要误解是指这个函数去激活什么，而是指如何把“激活的神经元的特征”通过函数把特征保留并映射出来，这是神经网络能解决非线性问题关键。&/p&&br&&p&激活函数众所周知有tanh,sigmoid,ReLU等。&/p&&p&tanh　　　双切正切函数，取值范围[-1,1]&br&&/p&&p&sigmoid　采用S形函数，取值范围[0,1]&/p&&p&ReLU
简单而粗暴，大于0的留下，否则一律为0。&/p&&br&&p&因为神经网络的数学基础是处处可微的，所以选取的激活函数要能保证数据输入与输出也是可微的。&br&&/p&&br&&p&神经网络中，运算特征是不断进行循环计算，所以在每代循环过程中，每个神经元的值也是在不断变化的。&/p&&br&&p&这就导致了tanh特征相差明显时的效果会很好，在循环过程中会不断扩大特征效果显示出来。&/p&&p&但有时候，特征相差比较复杂或是相差不是特别大时，需要更细微的分类判断的时候，sigmoid效果就好了。&/p&&br&&p&所以sigmoid相比用得更多，但近年发现数据有一个很有意思的特征。&/p&&br&&p&也就是稀疏性，数据有很多的冗余，而近似程度的最大保留数据特征，可以用大多数元素为0的稀疏矩阵来实现。&/p&&br&&p&而Relu，它就是取的max(0,x)，因为神经网络是不断反复计算，实际上变成了它在尝试不断试探如何用一个大多数为0的矩阵来尝试表达数据特征，结果因为稀疏特性的存在，反而这种方法变得运算得又快效果又好了。&/p&&br&&p&所以，据说，目前大多在用max(0,x)来代替sigmod函数了。&/p&
写得非常好，学习。不过好像还是写得比较专业了，理解起来还是有点难度，所以补充几点可以更清晰，纯粹个人理解，如果有错请指出来，因为在下也是正在学习中。 Activation function 翻译成激活函数，不要误解是指这个函数去激活什么，而是指如…
我觉得&a data-hash=&c5b2fd6388410deddbee& href=&//www.zhihu.com/people/c5b2fd6388410deddbee& class=&member_mention& data-tip=&p$b$c5b2fd6388410deddbee& data-hovercard=&p$b$c5b2fd6388410deddbee&&@lee philip&/a&的答案呢主要是在说为什么需要用非线性函数来进行分类, 而没有点出为什么没有activation function就不能非线性分类. 于是乎祭出我上次用的几幅图吧~~~&br&----------------------------------&br&这是一个单层的感知机, 也是我们最常用的神经网络组成单元啦. 用它可以划出一条线, 把平面分割开&br&&figure&&img src=&https://pic2.zhimg.com/2e83bcd9147f13ecfaf799_b.png& data-rawwidth=&884& data-rawheight=&460& class=&origin_image zh-lightbox-thumb& width=&884& data-original=&https://pic2.zhimg.com/2e83bcd9147f13ecfaf799_r.png&&&/figure&&br&那么很容易地我们就会想用多个感知机来进行组合, 获得更强的分类能力, 这是没问题的啦~~~~&br&如图所示,&br&&figure&&img src=&https://pic2.zhimg.com/ef7eb0f0dd_b.png& data-rawwidth=&880& data-rawheight=&459& class=&origin_image zh-lightbox-thumb& width=&880& data-original=&https://pic2.zhimg.com/ef7eb0f0dd_r.png&&&/figure&那么我们动笔算一算, 就可以发现, 这样一个神经网络组合起来,输出的时候无论如何都还是一个线性方程哎~~~~纳尼, 说好的非线性分类呢~~~!!!!???&br&&figure&&img src=&https://pic4.zhimg.com/7c6e12aed30bf315eed8dfb_b.png& data-rawwidth=&890& data-rawheight=&409& class=&origin_image zh-lightbox-thumb& width=&890& data-original=&https://pic4.zhimg.com/7c6e12aed30bf315eed8dfb_r.png&&&/figure&再盗用一幅经常在课堂上用的图...然而我已经不知道出处是哪了, 好像好多老师都是直接用的, 那我就不客气了嘿嘿嘿~~这幅图就跟前面的图一样, 描述了当我们直接使用step activation function的时候所能获得的分类器, 其实只能还是线性的, 最多不过是复杂的线性组合罢了~~~当然你可以说我们可以用无限条直线去逼近一条曲线啊......额,当然可以, 不过比起用non-linear的activation function来说就太傻了嘛....&br&&figure&&img src=&https://pic1.zhimg.com/cae47d1ae8_b.png& data-rawwidth=&643& data-rawheight=&298& class=&origin_image zh-lightbox-thumb& width=&643& data-original=&https://pic1.zhimg.com/cae47d1ae8_r.png&&&/figure&&br&&br&祭出主菜. 题主问的激励函数作用是什么, 就在这里了!!&br&我们在每一层叠加完了以后, 加一个激活函数, 如图中的&img src=&//www.zhihu.com/equation?tex=y%3D%5Csigma%28a%29& alt=&y=\sigma(a)& eeimg=&1&&. 这样输出的就是一个不折不扣的非线性函数!&br&&figure&&img src=&https://pic4.zhimg.com/32cbeac5eaea9d655b9a50e4d8d0a687_b.png& data-rawwidth=&886& data-rawheight=&486& class=&origin_image zh-lightbox-thumb& width=&886& data-original=&https://pic4.zhimg.com/32cbeac5eaea9d655b9a50e4d8d0a687_r.png&&&/figure&于是就很容易拓展到多层的情况啦, 更刚刚一样的结构, 加上non-linear activation function之后, 输出就变成了一个复杂的, 复杂的, 超级复杂的函数....额别问我他会长成什么样, 没人知道的~~~~我们只能说, 有了这样的非线性激活函数以后, 神经网络的表达能力更加强大了~~(比起纯线性组合, 那是必须得啊!)&br&&figure&&img src=&https://pic4.zhimg.com/3e4d3aabb90f51f61d3bf7_b.png& data-rawwidth=&923& data-rawheight=&453& class=&origin_image zh-lightbox-thumb& width=&923& data-original=&https://pic4.zhimg.com/3e4d3aabb90f51f61d3bf7_r.png&&&/figure&继续厚颜无耻地放一张跟之前那副图并列的图, 加上非线性激活函数之后, 我们就有可能学习到这样的平滑分类平面. 这个比刚刚那个看起来牛逼多了有木有!&br&&figure&&img src=&https://pic4.zhimg.com/fab8a7ae1cbd7f03c067_b.png& data-rawwidth=&657& data-rawheight=&331& class=&origin_image zh-lightbox-thumb& width=&657& data-original=&https://pic4.zhimg.com/fab8a7ae1cbd7f03c067_r.png&&&/figure&--------------------------------------&br&这样表达应该能够比较清楚地回答题主的问题了吧? 这就是为什么我们要有非线性的激活函数!&br&&br&额, 基于这两天刚交完ann的报告, 就再说点个人的想法吧. 关于activation function这个东西的选择确实很trick, 可以说是完全依赖于做什么application吧. 比如我在做regression的时候, 不仅尝试了tanh, sigmoid这些常用的, 还试了一把近两年在dl中超级火的ReLU. 结果发现ReLU做出来的准确度简直是不忍直视啊...于是在报告里吹了一大通可能这个function不work的原因...其实自己知道那就是扯淡好么, 如果实验结果好了, 肯定又能找到一堆其它理由去support它了. &br&所以这也是NN一直以来饱受诟病的大问题, 别看这两年DL风生水起, 依然是个没办法好好解释的东西, 谁也不敢保证这东西放到某个应用上就一定能成, 最后调出来的就发paper, 调不出来就换参数, 甚至换一个模型继续试呗...&br&当然我也不是经验很丰富啦, 对调参这门手艺还是继续保持敬仰的~~~ 只是最近看到好多摩拳擦掌准备投身DL想要干一番大事业的同学, 有感而发...花点时间搞搞清楚原理可能就不会觉得这个东西那么靠谱了, 更多的像是magic, 还不如其它的模型用着心理踏实...入行需谨慎啊......&br&The end...
我觉得的答案呢主要是在说为什么需要用非线性函数来进行分类, 而没有点出为什么没有activation function就不能非线性分类. 于是乎祭出我上次用的几幅图吧~~~ ---------------------------------- 这是一个单层的感知机, 也是我们最常用的神经网…
已有帐号？
无法登录？
社交帐号登录
2606 人关注
1290 条内容
6071 人关注
639 条内容
643 人关注
318 条内容
220 条内容
1108 人关注
248 条内容906被浏览99,130分享邀请回答citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.740.9413&rep=rep1&type=pdf0添加评论分享收藏感谢收起神经网络中激励函数（传递函数）是用什么方法选择的呢？_百度知道
神经网络中激励函数（传递函数）是用什么方法选择的呢？
什么时候选择阈值的，什么时候选择线性的，有什么时候选择S型的呢？
我有更好的答案
常用的S型有tansig、logsig，输出范围为-1~1；用线性purelin输出则没有限制
采纳率：33%
医学还是自动学里的？
数学的，应该算自动化的吧。
为您推荐：
其他类似问题
传递函数的相关知识
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。&>&形象的解释神经网络激活函数的作用是什么？
形象的解释神经网络激活函数的作用是什么？
上传大小：505KB
形象的解释神经网络激活函数的作用是什么？
综合评分：0
10积分/C币
下载个数：
{%username%}回复{%com_username%}{%time%}\
/*点击出现回复框*/
$(".respond_btn").on("click", function (e) {
$(this).parents(".rightLi").children(".respond_box").show();
e.stopPropagation();
$(".cancel_res").on("click", function (e) {
$(this).parents(".res_b").siblings(".res_area").val("");
$(this).parents(".respond_box").hide();
e.stopPropagation();
/*删除评论*/
$(".del_comment_c").on("click", function (e) {
var id = $(e.target).attr("id");
$.getJSON('/index.php/comment/do_invalid/' + id,
function (data) {
if (data.succ == 1) {
$(e.target).parents(".conLi").remove();
alert(data.msg);
$(".res_btn").click(function (e) {
var parentWrap = $(this).parents(".respond_box"),
q = parentWrap.find(".form1").serializeArray(),
resStr = $.trim(parentWrap.find(".res_area_r").val());
console.log(q);
//var res_area_r = $.trim($(".res_area_r").val());
if (resStr == '') {
$(".res_text").css({color: "red"});
$.post("/index.php/comment/do_comment_reply/", q,
function (data) {
if (data.succ == 1) {
var $target,
evt = e || window.
$target = $(evt.target || evt.srcElement);
var $dd = $target.parents('dd');
var $wrapReply = $dd.find('.respond_box');
console.log($wrapReply);
//var mess = $(".res_area_r").val();
var mess = resS
var str = str.replace(/{%header%}/g, data.header)
.replace(/{%href%}/g, 'http://' + window.location.host + '/user/' + data.username)
.replace(/{%username%}/g, data.username)
.replace(/{%com_username%}/g, data.com_username)
.replace(/{%time%}/g, data.time)
.replace(/{%id%}/g, data.id)
.replace(/{%mess%}/g, mess);
$dd.after(str);
$(".respond_box").hide();
$(".res_area_r").val("");
$(".res_area").val("");
$wrapReply.hide();
alert(data.msg);
}, "json");
/*删除回复*/
$(".rightLi").on("click", '.del_comment_r', function (e) {
var id = $(e.target).attr("id");
$.getJSON('/index.php/comment/do_comment_del/' + id,
function (data) {
if (data.succ == 1) {
$(e.target).parent().parent().parent().parent().parent().remove();
$(e.target).parents('.res_list').remove()
alert(data.msg);
//填充回复
function KeyP(v) {
var parentWrap = $(v).parents(".respond_box");
parentWrap.find(".res_area_r").val($.trim(parentWrap.find(".res_area").val()));
评论共有0条
综合评分：
积分/C币：5
VIP会员动态
CSDN下载频道资源及相关规则调整公告V11.10
下载频道用户反馈专区
下载频道积分规则调整V1710.18
spring mvc+mybatis+mysql+maven+bootstrap 整合实现增删查改简单实例.zip
资源所需积分/C币
当前拥有积分
当前拥有C币
输入下载码
为了良好体验，不建议使用迅雷下载
形象的解释神经网络激活函数的作用是什么？
会员到期时间：
剩余下载个数：
剩余积分：0
为了良好体验，不建议使用迅雷下载
积分不足！
资源所需积分/C币
当前拥有积分
您可以选择
程序员的必选
绿色安全资源
资源所需积分/C币
当前拥有积分
当前拥有C币
为了良好体验，不建议使用迅雷下载
资源所需积分/C币
当前拥有积分
当前拥有C币
为了良好体验，不建议使用迅雷下载
资源所需积分/C币
当前拥有积分
当前拥有C币
您的积分不足，将扣除 10 C币
为了良好体验，不建议使用迅雷下载
无法举报自己的资源
你当前的下载分为234。
你还不是VIP会员
开通VIP会员权限，免积分下载
你下载资源过于频繁，请输入验证码
您因违反CSDN下载频道规则而被锁定帐户，如有疑问，请联络:!
若举报审核通过，可返还被扣除的积分
被举报人：
guhongpiaoyi
举报的资源分：
请选择类型
资源无法下载（ 404页面、下载失败、资源本身问题）
资源无法使用（文件损坏、内容缺失、题文不符）
侵犯版权资源（侵犯公司或个人版权）
虚假资源（恶意欺诈、刷分资源）
含色情、危害国家安全内容
含广告、木马病毒资源
*详细原因：
形象的解释神经网络激活函数的作用是什么？/*--------------------CSS部分-------------------*/
/*--------------------JS部分-------------------*/
一、前言激励函数在神经网络的作用通俗上讲就是讲多个线性输入转换为非线性的关系。不使用激励函数的话，神经网络的每层都只是做线性变换，多层输入叠加后也还是线性变换。因为线性模型的表达能力不够，激励函数可以引入非线性因素。1.1 单一的神经网络如果没有激励函数，在单层神经网络中，我们的输入和输出关系如下图：这是一个线性方程的直观表示，如果我们增加感知机，如下图：&其中结果输出就是右边的绿色区域，但是本质上还是各种线性方程的组合，对于非线性数据则无法很好的处理。如下数据：上图数据你就没有办法画出一条直线来将数据区分开.这时候有两个办法，第一个办法，是做线性变换(linear transformation)，比如讲x,y变成x^2,y^2，这样可以画出圆形。如图所示：如果将坐标轴从x,y变为以x^2,y^2为标准，你会发现数据经过变换后是线性可分的了。大致示意图如下：1.2 含有激励函数的神经网络加入非线性激励函数后，神经网络就有可能学习到平滑的曲线来分割平面，而不是用复杂的线性组合逼近平滑曲线来分割平面。这就是为什么我们要有非线性的激活函数的原因。如下图所示说明加入非线性激活函数后的差异，上图为用线性组合逼近平滑曲线来分割平面，下图为平滑的曲线来分割平面：二、激励函数1、激活函数通常有如下一些性质：非线性：当激活函数是线性的时候，一个两层的神经网络就可以逼近基本上所有的函数了。但是，如果激活函数是恒等激活函数的时候（即f(x)=x），就不满足这个性质了，而且如果MLP使用的是恒等激活函数，那么其实整个网络跟单层神经网络是等价的。
可微性：当优化方法是基于梯度的时候，这个性质是必须的。
单调性：当激活函数是单调的时候，单层网络能够保证是凸函数。
f(x)≈x：当激活函数满足这个性质的时候，如果参数的初始化是random的很小的值，那么神经网络的训练将会很高效；如果不满足这个性质，那么就需要很用心的去设置初始值。
输出值的范围：当激活函数输出值是有限的时候，基于梯度的优化方法会更加稳定，因为特征的表示受有限权值的影响更显著；当激活函数的输出是无限的时候，模型的训练会更加高效，不过在这种情况小，一般需要更小的learning rate.2、常用的激励函数1、单极性 sigmod函数，图形为：sigmod激励函数符合实际，当输入很小时，输出接近于0；当输入很大时，输出值接近1但sigmod函数存在较大的缺点：1、当输入值很小时或很大时，输出曲线基本就是直线了，回想一下反向传播的过程，我们最后用于迭代的梯度，是由中间这些梯度值结果相乘得到的，因此如果中间的局部梯度值非常小，直接会把最终梯度结果拉近0，意味着存在梯度趋向为02、非零中心化，也就是当输入为0时，输出不为0，，因为每一层的输出都要作为下一层的输入，而未0中心化会直接影响梯度下降，我们这么举个例子吧，如果输出的结果均值不为0，举个极端的例子，全部为正的话(例如f=wTx+b中所有x&0)，那么反向传播回传到w上的梯度将要么全部为正要么全部为负(取决于f的梯度正负性)，这带来的后果是，反向传播得到的梯度用于权重更新的时候，不是平缓地迭代变化，而是类似锯齿状的突变。影响梯度下降的动态性2、双极性sigma函数，图形为：3、双曲正切函数，图形为：与sigmoid相比，输出至的范围变成了0中心化[-1, 1]。但梯度消失现象依然存在。所以在实际应用中，tanh激励函数还是比sigmoid要用的多一些的4.ReLu 函数全称是rectified linear unit,它被广泛应用到了卷积神经网络中，并且出现了一些变体。函数基本形式是：f(x) = max(0,x), smooth approxiation形式为：函数的样子所示：两种变体是：noisy Relu也就是在原来的Relu分类部分添加均值为0，方差为sigma的高斯噪声leaky Relu这个leaky ReLu的好处是当神经元处于非激活状态是，允许一个非0的梯度存在。优点：（1）不会出现梯度消失，收敛速度快；&&&&&&&&& （2）前向计算量小，只需要计算max(0, x)，不像sigmoid中有指数计算；&&&&&&&& （3）反向传播计算快，导数计算简单，无需指数、出发计算；&&&&&&&& （4）有些神经元的值为0，使网络具有saprse性质，可减小过拟合。缺点：（1）比较脆弱，在训练时容易“die”，反向传播中如果一个参数为0，后面的参数就会不更新。使用合适的学习当然，这和参数设置有关系，所以我们要特别小心，再举个实际的例子哈，如果学习速率被设的太高，结果你会发现，训练的过程中可能有高达40%的ReLU单元都挂掉了。所以我们要小心设定初始的学习率等参数，在一定程度上控制这个问题。率会减弱这种情况。5、径向基函数，，g表示的就是径向基函数，绝对值表达的是径向距离。图形为：6、one-side hyperbolic ratio function，图形为：那我们咋选用神经元/激励函数呢？一般说来，用的最多的依旧是ReLU，但是我们确实得小心设定学习率，同时在训练过程中，还得时不时看看神经元此时的状态(是否还『活着』)。当然，如果你非常担心神经元训练过程中挂掉，你可以试试Leaky ReLU和Maxout。额，少用sigmoid老古董吧，有兴趣倒是可以试试tanh，不过话说回来，通常状况下，它的效果不如ReLU/Maxout。三、具体内容可以参考：四、参考文献1、2、3、4、
阅读(...) 评论()

bp神经网络激励函数数的作用是什么？有没有形象的解释

我要回帖

更多关于神经网络传递函数作用的文章

随机推荐

bp神经网络激励函数数的作用是什么？有没有形象的解释

我要回帖

更多关于 神经网络传递函数作用 的文章

随机推荐

更多关于神经网络传递函数作用的文章