机器学习需要 了解统计学什么知识

苹果/安卓/wp
积分 18978, 距离下一级还需 12622 积分
权限: 自定义头衔, 签名中使用图片, 隐身, 设置帖子权限, 设置回复可见, 签名中使用代码
道具: 彩虹炫, 涂鸦板, 雷达卡, 热点灯, 金钱卡, 显身卡, 匿名卡, 抢沙发, 提升卡, 沉默卡, 千斤顶, 变色卡, 置顶卡
购买后可立即获得
权限: 隐身
道具: 金钱卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板
TA的文库&&
苦逼签到天数: 8 天连续签到: 1 天[LV.3]偶尔看看II
这是一个很好的问题,对于新手、特别是非统计科班出身的人来说,心里总是有这样的顾虑,掌握的统计学基础只是不够,然而又应该从哪里入手呢?以下是中国统计网整理自知乎的一些答案,希望对大家会有所帮助。@肖玄:我认为首先要明确的是学统计干什么,如果有明确的作用,比如时间序列,市场调研这些,那么推荐书籍各不一样,统计终究只是一个工具,在实际运用中的偏重和变化还是蛮大的,如果不是有特别的目的,只是想要了解统计的话建议从理论基础看起,再看一些实际操作的书会比较好。基础书籍,我看前面各位大师都推荐的差不多了,就不详细写了,就简单写一下我理解的基础书籍涉及的方面
第一个是《统计学基础》,建议这个先看,至少能大致了解统计是什么东西。只看过人大版的,私底下觉得逻辑还是有点问题,大神勿喷,也许是我脑子笨。不过作为入门还是不错的。
接下来就是《概率论与数理统计》,这是所有数学学科中最霸气的一门,没有之一。
然后是《多元统计》《时间序列》,基本上到这里统计大致的框架已经有了。
其他的《非参数统计》、《贝叶斯统计》等等看自己需要。
另外这里推荐一本非主流的书,高级调查分析师考试中的《预测与决策》教材,这是我最喜欢的一本统计相关的教材,没有之一。但是貌似现在要买到比较难,如果有哪位知友知道哪里有买,那么求共享,我也只有一个打印的版本。操作书籍,好吧,我知道这4个字比较糙,大家将就看。
如果要涉及开源软件,建议R,知乎上面关于学习R的数据推荐太多,不重复了,自己搜一下就行了。
就说一下SPSS,这里推荐第一个是中文版的SPSS操作手册,这个绝对是宝典,另外可以参考一本实际案例的书,哪本都行,关键是要跟着案例自己去操作分析。通俗书籍,最后推荐一点统计的通俗书籍,理论毕竟看起来太烦,通俗的读物可以帮助更多的理解,像《统计陷阱》,《深入浅出XXX》,这些都适合入门的看一下。另外如果有明确的目的,最好看一下统计学之前分析的方法,比如如果你做市场分析方面的话,可以去了解下消费者行为学,市场营销理论,这样才能了解统计在学科上的意义。@邹日佳:还是强烈推荐先把理论搞清楚,见过直接上软件搞统计的,解释数据一塌糊涂,连回归做的是因变量的期望都不知道。
前期需要:微积分
统计学知识较深,用的地方非常广,还是希望说一下您想做什么用。
是在工程上用?还是在临床试验上用?还是基因组排序上用?处理金融资产实现无风险套利时用?亦或是在法律统计上用?
无论怎样,数理方面一定要过关,不论是t统计量、卡方统计量、F统计量,一定要知道它的式子是个什么形式,这样才好说明意义,也才好进行筛选与对比,可以找《概率论与数理统计》这本书看一看
能做统计的软件太多了,SAS、R、S-PLUS、SPSS、Eviews、Matlab,都可以以后学的统计知识得看你想拿它做什么用,软件也要根据你不同的用处来选择,等你修改好问题后,我会再来具体说明的。@王洪城:忽视对象和目标而谈方法,的确是耍流氓。统计学太宽、太杂,而且正处在蓬勃发展之中,任何一个细小的领域都能耗尽人的一生。况且统计学这东西,用的很广,越来越多的文科生都想用用统计来支持自己的结论。文科生、工科生、经管类学生、数学系学生有不同的目标,自然方法不一样。不过,如果只是想要粗略地了解统计学的大概的话,还是有一些很好读的书的。比如《女士品茶》、Rao的《统计与真理》,这些可以了解(只是了解)统计的思想、哲学和历史。国内吴喜之《从数据到结论》、Freedman的《统计学》都写的很不错,有一些很好的案例,对统计的一些概念也会有一些理解。感觉统计就跟医学差不多,对付小感冒这种病,只要自己买药,按照说明书服用,就ok了;如果只是像做个回归,看看相关系数这种,现在已经有很成熟的方法和软件,像exel和spss。遇到复杂一点的问题还是请教专业人士吧,即使你能够用一些方法得出结果,对结果的解释也是很大的一个问题,大病还是得到医院治。当然我并不是说统计很难,无法自学成功。统计并不难,只是无法速成,只是统计自身的特殊情况(对于特定情况下的模型选择、结果解释,即使在专业人士之间也会有争议)使得统计有很大的灵活性,只有对统计了解地够多,才能够应付多变的情况,得到最符合预期且合理的结果。一句话,想得多,读得少。想了解直接就去看,缺啥补啥呗。@郑来轶:给你推荐几本统计学的经典图书,《深入浅出统计学》、《漫画统计学》、《女士品茶》、《爱上统计学》、《统计陷阱》,都很不错的。@李超群:统计学的学习,需要先把这门知识,化为日常生活中的一点一滴,不要把统计学只落在纸面或试卷上的冰冷文字,它是有命的,在生活中习以为常的事情,背后都有各种有趣的统计知识。 虽然不清楚题主希望从事的方向(应用统计/理论统计……)
不过对于入门来讲,需要事前掌握的知识不需要多么的特殊,有一定的数理知识基础,学习了高等数学,就基本上相当于解决了前置技能,所需要的不过是找到合适的教材与合适的老师,加上认真学习,并尝试在生活中应用就可以。
推荐阅读的几本书:和楼上的几位会有重合的部分。
《女士品茶——20世纪统计学怎样变革了科学》,很有趣的统计学发展史;
《统计陷阱》数字是怎样欺骗了你
《深入浅出统计学》《深入浅出数据分析》深入浅出系列出品,必属精品
《统计与真理----怎样运用偶然性》
《统计学的世界》《爱上统计学》有些概念性的知识,可以强化掌握
《漫画统计学》系列
《社会心理学》戴维·迈尔斯 第8版--这本书作为心理学的教材,超经典。毕业前曾认真读了一遍,可以看到心理学与统计学的结合
以上书籍为课外阅读,至于正式学习的教材么~本科时基本上全使用的是人大版的教材,黄皮封面的那些,说实话,即枯燥又无味,印象最深的是人大版的《抽样技术》,有很多印刷错误,以致上课时亲爱的teacher会先花十分钟,在黑板中把本章节中错漏的地方通知大家修改过来~(PS:teacher是本校数理统计方向数一数二的大牛)后来偶然间接触了一些国外的教材,惊为天人。学习教材参见肖玄与李少洋,尚可的推荐即可。
载入中......
分析的有道理
总评分:&热心指数 + 1&
不错~~~~·
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
&nbsp&nbsp|
如有投资本站或合作意向,请联系(010-);
邮箱:service@pinggu.org
投诉或不良信息处理:(010-)
论坛法律顾问:王进律师你似乎来到了没有知识存在的荒原...
来源链接是否正确?用户、话题或问题是否存在?机器学习开发者的现代化路径:不需要从统计学微积分开始
发表于 01:23|
来源MachineLearningMastery|
作者Jason Brownlee
摘要:本文面向程序员介绍了一种有别于传统的机器学习攻略,不需要高学历、精通数学、大数据以及超级计算机,也不需要花费太多的时间,只要自上而下专注实际结果,即可简单、高效地实现从开发者到机器学习践行者的飞跃。
【编者按】机器学习算法的传统学习路径,是从统计学、概率论、线性代数、微积分等多种数学知识开始,但专业程序员、机器学习爱好者、网站大拿认为这种自下而上的方法停留在算法层面,没有考虑到软件开发和交付,不适合专业程序员,他在中面向程序员介绍了一种有别于传统的机器学习入门攻略,让您能够简单、高效地实现从开发者到机器学习践行者的飞跃。CSDN将其节选翻译,包括传统学习方法为什么失灵,如何使用现代的方式和“单项最优”的工具与平台来处理实际的端到端的机器学习问题,以及如何规避常见的错误。原文标题为:面向程序员的机器学习:从开发者到机器学习践行者的飞跃。传统方法的大错特错!从统计学、概率论、线性代数、微积分等多种数学知识开始,这种自下而上的机器学习教学方法。从表面上看起来,它是缜密的、系统的、听起来似乎是正确的观点,又怎么可能是错误的呢?自下而上式编程模式(或者,如何杀死萌芽中的程序员)想象一下,你是一个开发初学者。你已经学会了一些编程方法和语言,并且你正开始学习如何创造单机软件。你告诉你的朋友和家人,你想从事一个每天都在编程的事业。他们告诉你,在你得到一份程序员工作之前,你需要修得计算机科学学位。然后,你注册课程并开始修计算机科学学位。几个学期后,你接触到的是越来越多的深奥的代数,微积分和离散数学。你使用的是过时的编程语言。此时,你编程和创造软件的激情也开始动摇。在实践者道路中,开始进行机器学习的传统方法存在着分歧也许在某种程度上你不这么认为。往回一看,你意识到没有学到关于现代软件开发实践、语言、工具或者任何在你追求的软件创造和交付中能够使用的方法。看到与机器学习类似的地方了么?值得庆幸的是,编程已经有长的历史了,现在已经很流行并且对经济也相当重要,我们已经找到了其它方式给崭露头角的年轻(或资深)程序员所需要的技能,去做他们想做的事情,例如:创造软件。这并不意味着要教新手程序员可计算性和计算复杂度的理论,或者是算法与数据结构的深层细节。一些有用的知识(后者提到的算法复杂性与数据结构)可以晚点教。也许有些集中的资料,必须在工程师已经掌握编程知识的前提下才能理解,它们不能单独地拿出来教。值得庆幸的是,我们已经把重点放在了软件工程学位上。我们也有像这种给你学习编写程序的资源了……没错,其实就是编程。如果一个开发者想“做”机器学习,他真的必须花几年时间和几十甚至成百上千的美元,来获取必要的数学知识和更高的学位么?答案当然是不!还有一个更好的方法。一个更好的方法正如计算机科学,你不能仅仅只是将模式反转为自上而下,并使用相同的教学材料。原因是,计算机科学课程从来就没有把开发和交付软件的实际问题涵盖到课程内容当中,而且机器学习的课程和书籍也远远不足。它们一般停在了算法方面。你需要一个自上而下的方法来学习机器学习。一种你想要专注于实际结果的方法:使用现代的方式和“单项最优”的工具与平台来处理实际的端到端的机器学习问题。学习机器学习的一种更好方法,开始学习处理端到端的机器学习问题上面是我认为的黄砖路。1. 一个可重复的有系统流程的结果一旦你知道一些工具,那么用机器学习算法解决这个问题就显得比较容易,然后你可能就认为这个问题“完成”了。这是很危险的。你怎么知道你已经完成了?你怎么知道结果就是好的?你又如何知道在数据集上的结果是可靠的呢?在解决机器学习问题上,你需要系统化学习。这是一个项目,就像一个软件项目,良好的处理过程可以得到一个高质量的,能够在项目之间复用的结果。考虑这样一个流程,你可以思考一些明确的需求,例如:一个指导你从端到端,从问题规范到演示文稿的演示或到结果部署的流程。就像一个软件项目,你认为你完成了,但事实上你可能没有。要有一个最终交付的心,从一开始就设定一个明确的项目终止条件并集中精力去努力完成它。一个循序渐进的流程,你总是知道下一步该做什么。不知道下一步该做什么是一个项目的杀手。一个保证“好”结果的流程,比如说,优于平均水平或者是比项目要求的结果要好。在项目中,使用已知置信度来可靠地传递良好的结果,但不一定要求是最准确的结果,这是非常常见的。一个不必根据特定工具、编程语言、算法潮流而改变的流程。工具可以不断变化,但过程必须是自适应的。考虑到该领域对算法的痴迷,总会有新的、强大的算法从学术界产生。选择一个系统的、可重复的过程,你可以始终如一地用它来提供结果很多伟大的流程,包括一些旧的流程,能够为你的需要提供帮助。例如:(KDD),我已经运用到了。其他…选择或使用一个对你最好的流程,并且符合上面的要求。2. 把“单项最优”工具应用到你的处理过程中机器学习工具和库在不断变化,但在任何一个单一的时间点,你必须使用一些东西,让它很好地应用到你提供的结果选择过程中。你不想评估和选择任何一个过时的算法或者库,你想要所谓的“单项最优”,能给你快速、可靠以及高质量结果的工具或库,并能自动化处理那些和你提供的处理过程一样多的流程。同样,你不得不自己做这些选择。如果你问其他人,你会听到他们的偏见,而他们通常使用的是最新工具。我也有我自己的偏爱,我喜欢为不同类型的工作使用不同的工具和平台。例如,在上面列出的情况下,我会建议使用以下最佳的训练工具:One-off预测模型:Weka平台,因为我可以加载一个CSV文件,所以在任何时候我都可以不需要任何代码(参见我的映射过程)来设计一个实验并且得到最佳的模型。Embedded预测模型:Python中的scikit-learn库,因为我可以在开发模型和部署时使用相同的语言。&IPython以一种很好的方式展示你的管道,并受到广大开发团队的喜爱。MLaaS也是面向更大数据的一个选择。Deep-dive模型:R平台扩展包,因为我可以使用整个R平台快速地、自动地尝试很多先进的模型,并设计出更精准的特征选择,特征工程和算法优化实验。在实际当中,这三个工具在三个场景中的使用取决于具体的实际情况。把你首选的机器学习工具映射到你的系统流程中使之能够解决实际问题和开发一样,你需要学习你的工具以充分利用它们。你还需要静观其变,如果那些新的更好的工具可以使用,你应该转到这些工具上,让它们永远的适应到你的重复过程中。3. 使用半正式化工作产品进行有针对性的实践你可以通过实践取得好的发展——通过开发大量的软件。使用这种熟悉的方法来获得良好的机器学习。你在每个项目中练习的越多,对机器学习(理想的端到端工作问题)的掌握就越好。谨慎选择你的实践数据集你想挑选的数据集应该是真实的而不是人为的。现在有数以百计的免费数据可以获取,并且它们正在不断地增加复杂性。我建议从的小内存数据集开始。它们是众所周知的、比较干净的,并且可以作为你新的流程和工具的一个良好开端。在此基础上,我会推荐大内存数据集,比如那些来自Kaggle和KDD杯比赛的数据集。它们本身有些噪声数据,需要你更多灵活的处理和不同的技巧。坚持使用表格数据,这是给我所有学生的建议。图像和文本数据的处理是新而不同的领域,就它们本身(计算机视觉和自然语言处理)而言,需要你去学习这些领域专业的方法和工具。如果它们是你想要的或是想解决的问题类型,那么最好是从这里开始,而且这里有很多的资源可以获得。写出你的结果并建立一个公共的工作包创建并保留每个项目的半正式工作产品。我的意思是详细写出你所做的和你所学的一些单独的文件,这样你可以在未来和接下来的项目中再次使用。这类似于为每个编程项目保留一个目录,并从先前的项目中复用代码和思想。它会大大缩短编程时间,所以我强烈地推荐这个。保留所有的脚本、代码以及生成的图像,但重要的是要写下你的发现。把它想象成类似代码中的注释。一个单独记录的文件可以是一个简单的PPT或是文本文件,或是与一个会议的演讲或YouTube视频一样详尽地阐述。工作思路和完整的分离项目,撰写结果并建立项目组合在一个公共的版本控制库(如GitHub)保存每个项目,这样其他的初学者就可以借鉴你的项目并扩展你的工作。同时把项目链接到你的博客上,如LinkedIn或其它任何地方来证明你增升的技术和能力。关于这一思想的更多文章,请查看我的相关博文“”。公共的GitHub库文件很快成为公司招聘过程中,在简历上真正关心技能和成果的方面。是的,这种方法是专为开发者提供的我们上面制定的方法,是作为开发人员的你可以开始学习机器学习并取得进展而使用的方法。当然,你可能会对这个方法是否真的适合你而存有一些疑惑。下面,让我来解决你的这些疑虑。你不需要去写代码你可能是一个web开发者或者类似的开发者,你不需要写大量的代码。你能够使用这个方法开始并运用机器学习。比如这样的工具,可以在不需要任何的编程能力条件下,使得设计机器学习实验和建立模型变得非常简单。编写代码可以让你掌握更多不同的工具和技能,但是这并不是必须的,并且也不是首要的你不需要精通数学跟开发一样,你不需要懂得关于计算性或大O符号再去编写代码,并上线有用而且可靠的软件,你可以在没有统计学,概率论和线性代数的背景下解决端到端的机器学习问题。值得注意的是,我们没有从理论开始,但我们不忽略它。在你需要它的时候,再将方法和算法从中分离出来。事实上,你会忍受不住的。原因是,解决机器学习问题是让人上瘾的。在追求更好的结果和更准确的预测上,你会使用你能够找到的任何资源。学习对你而言,只是提取智慧中的结晶再将其运用到你的问题上而已。如果你的目的是掌握理论知识,那么这个方法是慢而低效率的。这就是为什么当通过镜片看世界时会感觉如此不舒服。从机器学习开发者的目标来看,它的意义颇多。你不需要一个高文凭没有一个门卫会有这方面的知识。这些所有的知识都是可以获得的,并且在现在你完全可以自学。在你开始处理机器学习问题之前,你不需要花掉大量的时间和金钱去拿一个学位。如果你志在获得更高的学位,为什么不先开始解决机器学习问题,并在几周或几个月后,等你建立了一个完整的小型项目,再回头考虑获得学位的事情。到那时,你不仅会在这个领域的广度上有一个清晰的想法,还会有你非常感兴趣的那部分。我后来的确回去了,并且拿到了更高的学位。我喜欢做研究,但我更喜欢处理实际问题并交付客户真正关心的更多的结果。我也是在修学位之前就开始处理机器学习问题的,我没有意识到的是,在我面前已经有了这些资源和这条路。这也是我为何如此激情地说服像你这样的开发者的一个原因,你现在有你所需要的资源了,那么开始行动吧。这是在机器学习中很容易出现的不行动的借口你不需要大数据机器学习算法开发在小数据集上理解最佳。数据足够小,你就可以在微软的Excel中查看,可以加载到内存中并且在桌面的工作空间中处理。大数据!=机器学习。你可以使用大数据建立预测模型,但把它当做是你技能领域的一个专长。在机器学习中,我通常建议我的学生使用小内存数据集进行学习。如果大数据机器学习是你想要工作的领域,那么从这里开始吧!你不需要一台超级计算机的确,一些最先进的算法,如深度学习确实需要非常强大的多核GPU。他们是强大的、令人兴奋的算法。但它们也可以在小问题上工作,并且你同样可以用你的台式CPU来计算。你没有必要在拥有一台大的快速的计算机之前,不开始机器学习。在你去买一个桌面超级计算机或租金非常贵的之前,你最好把这些时间花在如何将这些算法用在更小更容易理解的数据集上,并从中获取最大利益。你不需要大量的时间我们都有忙碌的生活,但如果你真的想要学到点什么,你需要花点时间。我之前说过,处理机器学习的问题是会让人上瘾的。如果你在机器学习竞赛中被超越了,你会很乐意挤出一个月晚上看电视的时间来将你的算法提高几个百分点。其实,如果从一开始你就有一个清晰的过程和一个好的工具,那么你可以在一两个小时内处理一个数据集上的端到端问题,也许是花掉一个或两个晚上。事实上,只要其中的几个工具,还有一个完整机器学习项目的文件夹工作空间,你就可以开始解决更大的更有趣的问题了。接着在你的看板中把它分解成多个小任务,然后指定时间开始。开发者如何避免最常见的错误自从我发起Machine&Learning&Mastery以来,我一直在给人以不同的忠告将近两年了。在这段时间里,我看到了五个常见的陷阱,希望你可以避免。不采取行动:一切都安排好了,然而我却看到很多开发者都没有采取行动。看电视或阅读新闻比在一个迷人的领域里获得一个新而有价值的技能更容易。真是“牵马到河易,强马饮水难”啊。挑选的问题太大:通常,我发现开发者挑选的第一个或第二个数据集太难工作了。问题太大、太复杂或太嘈杂,他们没有准备好去挑战。可怕的是“失败”抹杀了开发者的动机并且放弃这个过程。所以,要挑选那些你能在1小时内就解决的小问题。在你做更大的事情之前,先去做一下这个吧。从零开始实现算法:我们有算法实现。它们已经封装好了。至少能满足你在未来几年里想要做的有趣的事情。如果你的目标是学习如何开发和提供可靠的、准确的预测模型,不要花时间去从零开始实现算法,使用库就行。另一方面,如果你想把重点放在实现算法上,那么就要很清楚地把你的目标和重点放在它上面。没有坚持一个过程:与敏捷软件开发一样,如果你偏离了这个过程,车轮可以很快地关闭你的项目,结果往往会造成大的混乱。坚持一个过程,从开始到终止,系统地通过并完成端到端问题才是关键。你可以重新审视“你发现的有趣的事情……”作为一个后续的小项目(在你写下的一个“后续工作想法”部分),但也要完成这个过程并且交付它。不使用资源:在机器学习领域有很多杰出的论文,书籍和博客文章。你可以利用这些资源来改进你处理的过程,使用的工具和结果的精度。可以使用第三方资源从你的算法和数据集上获取更多的信息。得出算法和问题框架的一个思路。一个智慧的结晶可以改变你项目的流程。记住,如果你采用了自上而下的流程,理论就必须出现在后面。最后再花时间去理解你的终极模型。温馨提示,不要让任何一个错误发生在你的身上。下一步我们已经涵盖了很多方法,我希望可以开始让你相信,你可以开始机器学习并且会有所成就。未来,你成为机器学习开发者的梦想会成为现实,并且也很容易实现。更新:看看下面这个思维导图,你会对文中的重要概念有一个清晰的脉络(感谢Simeon提的建议)。点击查看原图原文链接:(译者/刘帝伟 审校/刘翔宇、朱正贵 责编/周建丁)&关于译者:&,中南大学软件学院在读研究生,关注机器学习、数据挖掘及生物信息领域。&1. 加入CSDN人工智能用户微信群,交流人工智能相关技术,请加微信号“jianding_zhou”或扫右方二维码,由工作人员加入。入群后请改群名片,格式:机构名-技术方向-姓名/昵称。2. 加入CSDN 人工智能技术交流QQ群,请搜索群号加入:。3. CSDN高端专家微信群,采取受邀加入方式,不惧高门槛的请加微信号“jianding_zhou”或扫描右方二维码,PS:请务必带上你的BIO。
推荐阅读相关主题:
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
相关热门文章商品名称:
评价得分:
其他谈论话题
多品类齐全,轻松购物
快多仓直发,极速配送
好正品行货,精致服务
省天天低价,畅选无忧当前位置: &
2,962 次阅读 -
这个问题是一个非常好的问题,很多机器学习界和统计学界的大牛们都或多或少的思考过这个问题。比如,在最近脍炙人口的Talking machine节目中就论述过统计学和机器学习的区别。先上主要结论吧:统计学家更关心模型的可解释性,而机器学习专家更关心模型的预测能力。
以下内容是由对“talking machine”的转述归纳(引用格式标出的部分)+个人评注共同组成,节目介绍及英文原文附在最后。
统计学和机器学习之间的边界到底在哪里?在过去的十多年间,机器学习取得了惊人的突破,我们是否可以把这些巨大的成功归功于其背后统计学方法的进步,还是说另有原因?
: “我认为统计学和机器学习最本质的区别在于根本目标不同。统计学家更关心模型的可解释性,而机器学习专家更关心模型的预测能力。”
** 统计学想干嘛?
“以下的论述可能比较卡通化,是对问题的一个简化,但是从某种意义上来说,统计学更像是面向科学服务的一门工具。统计检验和假设检验,是当科学家们想要理解这个世界的一些性质,或者想要回答关于某个进程的一些关键因素时的首选利器。比如说,某种药物到底对治病有没有效果?统计学家为这一类的问题提供了非常完美的工具,有了这些工具,科学家们得以去测量和估计某些可以理解的变量的效果和作用。所谓可以理解的变量,说的是,科学家在建模时所涉及到的变量通常都有正常人类能够理解的量纲(比如物理学模型中的质量,速度),并且能与你要观察的某种现象或者效应直接挂钩(比如研究某种基因修饰对表观型的影响有多大时,该种基因含量,所表达的蛋白质的含量)。也就是说,统计学模型里涉及到的参数都是有实际意义的,因此当某个假设通过了检验时,我们就知道一些现实中的变量是如何相互作用的。
从这个角度来说,统计学通常把自己看做是量化分析的守门人,它的目标是通过严格的测量估计,假设检验,挑选出值得信任的假设,以此来理解各种生物体中的因果关联,或者是社会学中的某种进程或者是效应。当然,统计学里还包括了很多其他的重要想法和概念,比如,它对心理学、医学、社会学中的各种实验设计提出了规范和建设性框架。”
简而言之,统计学更多是关于世界本质的一个个检验,它的目标是建立一个可以理解的世界的模型。
** 机器学习目标为何?
“不同于统计学,机器学习更关心的不是模型的可解释性,而是模型的预测能力。机器学习的目标是搭建一套高效可靠的系统,能够持续的预测未来并且稳定的工作。比如,机器视觉系统需要做的是正确预测一张图片里的小动物到底是猫还是狗,两张人脸的照片里是不是同一个人,一个室内机器人是不是能够正确的识别出它周围的环境,等等。但这些系统内部的参数通常是数量巨大并且无法被人们直接理解的,更不用说有和现实生活中的某些特性对应的量纲了。但即使搞不清这些参数到底代表了什么,只要你的模型work,总能给出极为准确的预测就是王道。
有时候,某一类机器学习问题的正确率突然有了大幅度的提升,可能得益于人们弄清了该优化问题背后的理论难点,但更多的时候,某种算法是否成功完全由预测结果说了算,即使人们对其中的原理依然所知甚少。”
深度学习(deep learning)之所以在2000年至2010年的十年间比较沉寂,原因不外乎是人们无法理解它的学习过程中到底发生了什么,它一层一层学出来的feature究竟是什么,而它的表现又并非一枝独秀,因此它在一批更容易被人们理解的模型之间就显得不那么起眼了。但当Geff 在 2010 image net contest比赛上以deep convolutional neural network把对手甩开十条街后,deep net便瞬间令所有人折服了 。引用Geff的原话,”归根到底,我们还是得拿数据说话,当你的方法能将错误率降低一半时,人们必须得对你刮目相看。”(data always wins, when you can half the error rate, people will take you seriously.)
** 谁促进了谁?
从某种程度上说,统计学习理论里的很多想法的确给了机器学习一些启发,但是,这几年来机器学习发展的如此之快,如此火爆的根本原因更多的是来源于可训练数据量的大幅度提升(互联网的普及,human computation平台的成熟,各类线下数据的电子化等等)以及电脑运算性能的突飞猛进(ps,显卡计算的飞速发展已经到了丧心病狂的地步了,NVIDIA对研究机构的资助简直是不遗余力,不惜血本的拼命往外送显卡,真是超级大手笔。。。),而并不一定是统计理论本身的根本性突破。
“作为一个快速发展的行业,毫无疑问,机器学习吸引了统计学家的目光,越来越多的统计学界的一流人才都开始从机器学习领域吸收新鲜的想法,无论是算法层面,模型层面还是统计推断层面。可以说,机器学习是将统计学习中很早就提出来的一些想法进行了重新挖掘和重新定义。尽管机器学习的成功涉及到了一系列的统计学习方法,但这并不意味着统计学本身是这种成功的根本原因和最大推动力。”
** 求同存异
尽管统计学和机器学习的着眼目标不同,但在某些情况下,两者共同关注的一个问题是,一个模型究竟为什么work。虽然之前说到了实战结果是检验模型有效型的终极标准,但大家总归是希望最终能够理解在一步一步优化的过程中到底发生了什么,是什么trick,满足了什么条件,使得prediction error能够快速converge。有人说,devils are in the details比如,即使在深度学习横扫了全领域的今天,人们对neural network内部的trick依然是一知半解,如何改进现有网络的结构和更新迭代的规则使得它能够更快的converge,更准确的generalize?机器学习界的研究者们在一步步探究其内部机理的过程中也逐渐的将模型的准确率提上新高。
当然,作为更偏向于应用于实际的机器学习界,除了受制于理论上的upper bound,lower bound之外,在实际问题中,还会碰到很多对运算时间和存储容量上的限制,而这些往往是做统计理论的人不太关心的问题。
在回答的最后,Ryan说道:
做为在这两个领域里都有所活动的研究人员,有时自己也会迷茫我到底属于哪边?通常来说,机器学习界的专家,是不会缺席统计学的顶会的。但内心深处,我还是会觉得机器学习才是我真正的家:)
以下是答主的碎碎念:机器学习真是一个非常有趣的领域,它的有趣性不仅在于你能够通过它发现现实中data的很多有意思的pattern,还在于那些引领着你发现有趣规律的算法中本身蕴藏着的智慧。能进入这个领域我真是深感幸运,希望能早点进化成a serious player.
==========================================================================
最后给 talking machine节目打个小广告,是今年年初推出的一档融趣味性与高质量于一身,巨星大佬云集的机器学习访谈节目,每期节目里通常会邀请行业神牛谈谈行业发展,最新动向,以及比如他们在某期节目里居然同时邀请到了Geff Hinton, Yoshua Bengio and Yann LeCun同台论道! 这节目的规格有多高就不用我赘述了吧。对machine learning感兴趣的筒子们可以去关注下~
==========================================================================
本期节目的英文原文(4:50-10:50)(比较潦草的听打的,有不准确的还请轻拍)
(节目链接)
Q: One may be concerned with statistical efficiency and one is concerned with computational efficiency. But in practice, they play with a lot of the same problems and some advances. Are some of the advances we’ve seen in the last 10 years in image processing, speech recognition and translation, are they the results of advances in machine learning or are they the results of advances or uses in statistics?
A: I think there are really some cool differences between statistics and machine learning. It really has a lot to do with what the objectives are. This is gonna be a little bit cartoonish, but at some level, statistics as related to service to science. Which scientists broadly defined, means answer questions, coherently about properties of the world. So statistical testing, like hypothesis testing, is a really important thing, where there is some effect you would like to understand. Rather than whether it exists or not, whether this drug works or not. And statistics has an amazing toolkit for answering questions like that of this flavor. Then there is also kind of estimating interpretable properties of the world.
So you build a model and it contains variable, and should be understandable in terms of phenomena, and have units we understand. You want to know what effect this genetic modification is on phenotype. So I think statistics, sort of views itself as in many ways, being about performing those kinds of estimation. And getting answers to that are trustable, trustable by society broadly defined. And as a result in some ways, the field of statistics is kind of a gate-keeper for a lot of quantitative ideas of estimation of the data, in which it requires some kind of rigor for understanding a lot of biological, sociological processes. I should say that statistics, of course, includes a lot of other important ideas, like experimental design, gene-statistics, and a lot of other things.
Machine learning, has on the other hand, been a largely about prediction. And about building systems that are not necessarily interpretable, that don’t necessarily with parameter estimation that something makes sense, like a unit, and so on. But it is entirely about making a great prediction about something like, oh, it’s an image, a cat or a dog, or is this person the same, what environment this robot is navigating in, and so on.
And there is kind of a philosophy that statistics, about testing, about recovering that truth, whereas machine learning people have been happier to just make great predictions. Some successes have been due to theoretical understanding that empirical success, as measured by actually doing well, on different problems, is kind of sufficient.
As I have said, it’s kind of a cartoon impression of things. But I think it holds true in forms of a lot of different sorts of problems. And this is different though, that have the success of machine learning, in the last 8 or 15 years. Has those been due to statistical ideas… And you know at some level, it is certainly true that statistical ideas inform machine learning and there is a lot of language, but I think, part of the reason that machine learning has become popular is that because it is so aggressively raised in new computational capabilities, algorithmic. And statistical methodology particularly, has this sort of conservatism. That caused it to embrace pure algorithmic ideas.
What we are saying, I think, are the sort of, is actually a real merging of this fields, in which many good statisticians are starting to pay a lot more attention to machine learning community for interesting algorithmic ideas, and sort of new modeling insights, and inference insights.
And I think machine learning is really coming around to push there is a long history of very important ideas in statistics that a don’t need to just be reinvented over and over again.
I guess at the end of the day I would say that just because a lot of these new successes have involved a lot of statistical methodologies doesn’t mean that statistics are sort of responsible for them.
And in some ways, and some of the very best people around and had a hard time identifying I belong to one, or the other. I kind of think myself as being like this, like I like to go to statistics conferences, and talk to statisticians, but I also really care about computation, I care about the AI version of this problem. And consider this machine learning community as been my home.
于知乎的答案
原帖》》/question//answer/
注:转载文章均来自于公开网络,仅供学习使用,不会用于任何商业用途,如果侵犯到原作者的权益,请您与我们联系删除或者授权事宜,联系邮箱:contact@dataunion.org。转载数盟网站文章请注明原文章作者,否则产生的任何版权纠纷与数盟无关。
相关文章!
不用想啦,马上 发表自已的想法.
做最棒的数据科学社区
扫描二维码,加微信公众号
联系我们:

我要回帖

 

随机推荐