数据科学家 / 统计学家应该养成哪些好习惯

中国MRO支撑平台技术社区 - 数据科学家应该拥有的好习惯(1)
数据科学家应该拥有的好习惯(一)
1. 分析数据前,一定要尽可能多的进行数据可视化! 做exploratory data analysis(探索性数据分析)
我上过的几乎所有的应用性的统计课程上的老师都会强调这一点。这个习惯对于数据科学家、统计学家来说估计是最最实用的。
在实际的数据分析过程中,数据可视化可以揭示很多in sights:从选择什么样的模型,选择哪些feature建模,到如何分析结果,解释结果等等。
给一个很著名的例子, Anscombe's
quartet (安斯库姆四重奏):这个例子包含四组数据。每组数据有11个(x, y)数据样本点。
四组数据样本里x的均值方差全相等,y的均值方差基本相等,x与y的相关系数也很接近。
导致的结果是,四组数据线性回归的结果基本一样。但是,这四组数据本身差别很大。如下图。
如果不做可视化,简单跑一个线性回归,我们只能得到同样的回归线。
数据可视化后,很直观的,左上图是传统的线性回归;右上图需要high-左下图x和y是线性关系,但是有右下图x和y没有线性关系,也有outlier, etc.
每一个数据科学家都应该熟悉各种图的画法,更重要的是,不同的图如何反映不同的信息以及面对不同的数据类型时,应该选择哪种图才能最好的揭示数据里蕴含的信息。
为此,强烈推荐关于R里ggplot包的教程:ggplot2 - Elegant Graphics for Data Analysis
当然另一方面,如果数据量太大维度太高,数据可视化做起来就比较困难。这时候就需要一些经验技巧了。
2. 跑完程序得到模型结果时,一定提醒自己:任务只完成50%,分析,验证,解释结果才是根本
很多时候,我们以为写完code跑完程序就完事了。能做到这一步只能算是一个合格的data analyst。这离数据科学家,统计学家还差远了。
分析,验证,解释结果才是根本! 这个过程更需要data sense, domain knowledge, and statistical expertise.
在拿到结果的时候,一定要多问自己为什么。
模型assumptions是否满足?结果是否make sense?能否解答research question?
特别当结果不符合expectation时,要么有新发现,要么有错误!如果有错,错在哪里?
如果模型假设不成立,如何修正?是否有outliers,如何处理?
或有missing values,missing的机制是啥样的(missing at random, completely at random, or NOT at random)?
是否有multicollinearity?
数据收集是否有bias (如selection bias)?
建模是否忽略了confounding factors (Simpson's paradox)?
3. 养成story-telling(讲故事)的习惯
把分析结果跟你的boss或者collaborator讲!务必让他们明白!这个太需要技巧了, 特别是当你的collaborator是layperson的时候。
不会说只能等着被虐,哪怕analysis做的再好!
(未完待续)
微信公众号
数据分析 \ 编辑严进军)> 问题详情
()是统计学家、软件程序员、图形设计师与作家的结合体。A、数据作家B、数据科学家C、数据程序员D、数
悬赏:0&答案豆
提问人:匿名网友
发布时间:
()是统计学家、软件程序员、图形设计师与作家的结合体。A、数据作家B、数据科学家C、数据程序员D、数据设计师
您可能感兴趣的试题
1从事下列哪一工作的人才会受到网络远程外包的冲击()。A、牙医B、放射医学C、护士D、按摩师2在“网格化”社会服务管理体系中,基层工作有哪些难点( )。A、权小责大B、评比主体的先天条件不同C、网络不畅通D、网络系统错误频出3在经济领域,互联网推动了( )的兴起。A、远程外包B、小众商品市场C、新免费模式D、大数据掘金4在意识形态宣传方面,中央和地方创造出了哪些商业网站管理新模式来应对网络带来的挑战( )。A、阻断外资扶植B、培育行业协会C、建立自律机制D、加强红色教育
我有更好的答案
请先输入下方的验证码查看最佳答案
图形验证:
验证码提交中……
找答案会员
享三项特权
找答案会员
享三项特权
找答案会员
享三项特权
选择支付方式:
支付宝付款
郑重提醒:支付后,系统自动为您完成注册
请使用微信扫码支付(元)
支付后,系统自动为您完成注册
遇到问题请联系在线客服QQ:
请您不要关闭此页面,支付完成后点击支付完成按钮
遇到问题请联系在线客服QQ:
恭喜您!升级VIP会员成功
常用邮箱:
用于找回密码
确认密码:70人已关注统计学家(Statistician)VS. 数据科学家 (Data Scientist)
Emotion is the innate weakness of human.这个问题有意思,我找到了张图片,总结的非常精辟。图片来源
revolutionanalytics. com这个问题有意思,我找到了张图片,总结的非常精辟。图片来源
revolutionanalytics. com先来看下统计学的大致研究内容:统计学是通过收集数据、分析数据,并通过数据进行统计推断的学科。这就意味着统计学家所研究的载体虽然是数据,但是研究的内容包含着各种各样的统计方法。也就是说,统计学家所研究的主要内容包含收集数据的统计方法、分析数据的统计方法和进行统计推断的统计方法。统计学作为一门学科,其对应的科学家的研究重点,在于根据现阶段的统计困难和需求,在理论上对于统计方法进行研究与改良、甚至创新。反观数据科学家,它最初是由Natahn Yau在2009年首次提出,其概念是“采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师”。说得更详细一些,在理论上,数据科学家要掌握相应的研究方法和理论知识,在操作中还要掌握数据库、软件开发甚至网络编程的能力。也就是说,数据科学家研究的在提也是数据,但是方法不同。他更讲究运用现存的合理的方法去挖掘信息,解决问题。对于统计学家和数据科学家的具体定义,可以通过百科词条进行查找,此处不再过多赘述。通过以上的基本描述,已经可以看出两者之间还是存在本质的区别的。数据科学家相比较于统计学家更像是一个工作,更像是某个公司中的科研顾问。虽然出发点都是从数据开始,力求解决实际问题。但统计学家更侧中从理论的角度,对于新出的问题给予新的解决放法;而数据科学家则是将理论运用于实际,更侧重从实际出发去,通过已有的方法给出适合实际情况的答案。此外,由于数据科学家的要求比较综合,对于程序的基本语言例如C、Python、R以及数据库语言SQL乃至Hadoop都要有所了解。但他们相比于统计学家研究方向的深度,还是有一定的差距的。综上,统计学家更偏向于统计方法理论上的研究,而数据科学家更偏向于对实际问题的解决,要求也更加综合。以上是本人的一些看法,希望大家多多补充~先来看下统计学的大致研究内容:统计学是通过收集数据、分析数据,并通过数据进行统计推断的学科。这就意味着统计学家所研究的载体虽然是数据,但是研究的内容包含着各种各样的统计方法。也就是说,统计学家所研究的主要内容包含收集数据的统计方法、分析数据的统计方法和进行统计推断的统计方法。统计学作为一门学科,其对应的科学家的研究重点,在于根据现阶段的统计困难和需求,在理论上对于统计方法进行研究与改良、甚至创新。反观数据科学家,它最初是由Natahn Yau在2009年首次提出,其概念是“采用科学方法、运用数据挖掘工具寻找新的数据洞察的工程师”。说得更详细一些,在理论上,数据科学家要掌握相应的研究方法和理论知识,在操作中还要掌握数据库、软件开发甚至网络编程的能力。也就是说,数据科学家研究的在提也是数据,但是方法不同。他更讲究运用现存的合理的方法去挖掘信息,解决问题。对于统计学家和数据科学家的具体定义,可以通过百科词条进行查找,此处不再过多赘述。通过以上的基本描述,已经可以看出两者之间还是存在本质的区别的。数据科学家相比较于统计学家更像是一个工作,更像是某个公司中的科研顾问。虽然出发点都是从数据开始,力求解决实际问题。但统计学家更侧中从理论的角度,对于新出的问题给予新的解决放法;而数据科学家则是将理论运用于实际,更侧重从实际出发去,通过已有的方法给出适合实际情况的答案。此外,由于数据科学家的要求比较综合,对于程序的基本语言例如C、Python、R以及数据库语言SQL乃至Hadoop都要有所了解。但他们相比于统计学家研究方向的深度,还是有一定的差距的。综上,统计学家更偏向于统计方法理论上的研究,而数据科学家更偏向于对实际问题的解决,要求也更加综合。以上是本人的一些看法,希望大家多多补充~
后可以回答该问题
统计学家(Statistician)VS. 数据科学家 (Data Scientist)
相关标签:
相关标签:
关注我们咨询服务合作法律法规京ICP备号
下载申请方APP
即刻拥有你的学业规划助手第一章统计学及数据介绍;1.0介绍;1.1统计学定义;1.2统计学的研究范围;1.3统计学在核工业中的应用;1.4描述性统计学;1.0引言;什么是统计学?对于一些工程师和科学家而言,这是一;接下来将要特别为大家呈现统计学不是简单而枯燥的数;1.向读者介绍统计学的语言;2.向读者介绍并且使他们了解基础的统计分析深层次;3.向读者提供一套用以解决他们有计划的收集
第一章 统计学及数据介绍
1.1 统计学定义
1.2 统计学的研究范围
1.3 统计学在核工业中的应用
1.4 描述性统计学
什么是统计学?对于一些工程师和科学家而言,这是一门令人难以理解,迷惑的学科。这种看法源于对统计分析的目的和用处的理解缺乏,毫无疑问,这也部分由于某些广告商和销售员,为了使顾客加深对他们产品或服务的印象,展示一些数据图表,使用一些统计学上的科学术语所造成的误导性的结论。本文所期望的就是能帮助读者减少或者排除关于统计学益处的迷惑,同时也帮助读者养成一个关于所有报道价值观念的真正意义的健康怀疑论的好习惯。
接下来将要特别为大家呈现统计学不是简单而枯燥的数据整理操作这种琐碎之事;事实上,数据库越小,正是应用统计学知识越重要越有价值的时候。为了做到这一点,需要做到以下三点:
1. 向读者介绍统计学的语言。
2. 向读者介绍并且使他们了解基础的统计分析深层次的含义
3. 向读者提供一套用以解决他们有计划的收集和分析数据的难题的手段方法
当然,一个人不可能简单的凭自己在书本中掌握的统计学知识而成为一个统计学家。许多深奥复杂的手段方法已经超越了这篇文章的研究范围。然而,我希望这篇文章能使读者感兴趣,进而以他的工作为引导,积累知识,为其统计学打下基础。
1.1 统计学定义
回到这个问题上,统计学对于许多人来说是许多不同的东西。著名的统计学家Dr.Goerge E.P。 Box曾经半开玩笑的说过:”统计学家所做的事即是统计学。”在这个迂回的定义背后的含义是统计学的确涉足于许多领域,在完成许多学科的任务时,统计学横跨众多科学,经济学以及社会科学。对于以上一些学科而言,统计学家或许是个数学家;对于数学家而言,他又像是一个诀窍秘诀的追随者(一个数字“工程师”)。对于统计
学家的小女儿而言,她的爸爸是一个“专治生病的数字的医生”。事实上,他什么都不是但又什么都是。
更正式点,统计学可以被定义为:”通过对于不确定性的出现进行推论,从而掌握对于此现象的知识的一门科学”。在定义中的三个关键字用下划线划出。科学表明有许多特殊的逻辑规则或数学定理以及许多特殊的方法论。统计学有这些规则和方法论。尽管有人会说这些规则是属于数学的,正是由于将这些规则运用于现实生活中从而把统计学从数学中分离出来。这些应用即是推论。统计学家基于观察和推测从而推断出事物本质的状态,以此来帮助他们做出决定的过程。这和概率论是相反的,概率论是数学的一个分支,通过对一些确定事件的推导给出对本质状态的一个假设。在统计学定义中的第三个关键词是不确定性。这是这篇文章的观点即事物的本质不是确定的。尽管一些真正的物质上的联系有可能甚至很有可能是存在的,人们或者不能被准许去观察到他们,或者是能力不够而观察不到他们,或者两者都是。我们永远不能确定我们拥有绝对正确的知识,这种情况在科学发展史上一再出现。不论证据多么明显,有是存在我们得出错误结论的几率。统计学能处理得到这种获得错误结论的几率。一个怀疑论者曾讽刺性的定义统计学为一门在其中你会有5%的时间是错误的科学。尽管不是在他所想表达的这个语境中,事实上在这个定义里还是体现出一些智慧。关键点是在所有人的观察中都存在着不确定,而统计学家想通过一种量化的方法以及一种特别的知识体系去解决这种不确定。
已然建立的统计学是一门科学,现在我想让大家知道统计学也是一
种艺术,或者这样说,统计学的应用过程是一种艺术。在解决任何在界定这些现实问题上存在困难的难题并且决定用什么技术手段应用于如何解决这些难题。因此,统计学家在和他的顾客或工程师或科学家交流讨论时必须培养一种把问题问到节骨眼上并能提供恰到好处的工具去解决难题的艺术。
1.2 统计学的范畴
正如数学一样,统计学在仅涉及一些其他科学或努力领域方面是独
一无二的。物理学家和生物学家,各种各样的工程师,社会学家,心理学家,经济学家,农学家,民调机构曾经都需要处理统计信息。统计学甚至曾经用来解决历史文献的作者身份问题,还用来解决骨头化石的年代和起源的问题。事实上,在这些学科或者其他学科中的例子可以在一本写给门外汉的名为《统计学:探索未知》的杰出著作中发现。
事实上,无论处理任何类型的数据,都是在处理统计学问题。这并
不是是否在运用统计学的问题,而是是否把统计方法运用的得当的问题。对于绝大部分人来说,统计学是数据分析的同义词,这确实是正确的,数据分析是统计学的主要工作。我们将在这篇文章的第一部分来讨论分析的手法,去描述数据的集合,去验证特定数据来源的假设,去比较两个或者多个数据集合是否相等,去建立曲线和多元函数,并且去建立对生产过程的控制的限制。对于从基础研究到产品经理的科学家而言,这些技术都是有用武之地的。
此外,数据分析以及从数据中引申出来的推论这个在统计学领域中
同等重要的第二个部分的存在并没有被充分认识。这个领域是数据收集,
或者更确切的说,应该是有计划的数据收集。这个领域总体上被看做实验的设计,通常合理的观点是任何数据的收集都是有实验在进行。正如在电脑中,“输入垃圾,输出垃圾”的陈词滥调同样适用于科学研究。
实验的设计需要有效的利用实验区获取最多的信息。正因为需要有
效的利用实验,所以需要有效的利用时间和金钱,在这一点上许多的科学家都没能很好的利用统计学。优秀的“实验性”设计的基本技术将在文章的第一部分很有必要的讨论研究,所以在恰当的设计和恰当的分析之间经常有一个直接联系。第二部分将致力于讨论试验的设计这个领域内的概念,技术以及应用的更多细节。
总而言之,统计学可以被描述为对于来源广泛的各种数据或实验的
恰当的计划和分析。它包含了数学,科学理论以及经验主义。它很好的符合了获取科学思想的摆动曲线(见图一
首先建立一个基于理论或先前观察或两者都有的关于事物本质状态
的猜想或假说。然后拓展并实施一个调查的计划,即实验。通过恰当的手段对获取的数据进行分析并做出推论。这个过程将我们引向一个新的猜想,一个有希望比原先的实验能更加准确的描述事物本质状态的猜想。统计分析,尽管不是一个能自己做决定的过程,但在以量化方式做决定的过程中是一个极其有用的工具。
1.3 核工业中的统计学
在这个部分,我们将讨论一些在核工业中运用统计学的简单但经典的例子。值得注意的是,这些技术并不是指针对核工业,从总体上来说,同样可以应用于其他工业领域。通篇文章中出现的许多例子是基于核能的商业应用,即压水反应堆(PWR)。
1. 冷却液的不同化学成分构成对材料腐蚀的比较
在基础科学研究领域,一个经典的课题是对于不同的一级或者二级回路中冷却液的化学成分对于材料腐蚀的影响的研究。许多不同化学成分的冷却液在一个测试设备中进行试验,每个试验将在指定的时间内进行以获得所有化学成分的同等信息。然后以统计学的思想去对每个冷却液试验中所得到的数据进行表述,一般通过计算算术平均数和标准差――能衡量数值波动情况。建立一个基于可用数据的置信区间能以特定概率和置信概率涵盖冷却液腐蚀的真实值。利用方差分析和F测试的技术可以在冷却液的平均值中进行比较。最终,经过一段长时间的重复试验,估计出腐蚀情况和时间之间的函数关系。
2. 合成不确定度以获得设计极限
在开发性设计领域,装置组装的不确定度的极限包含于许多部件和组装操作合并起来产生的一个令人满意的小概率产生一个超过的极限。这个单因子因素是特定部件的直径上的制造公差,部件的偏心距意味着同心度,并且在装置组装时或许有可能发生对中误差。
物理学家关注于在许多影响核心性能变量的基础上设置设计极限。在核能设计手册中的有整个一章节用来讨论处理在制造中产生的不确定度并检验数据,操作中的不确定度,和设计模型的不确定度。
3. 工具,材料和供应商的资质
在开发性工作中,经常需要去决定使用哪些正确的工具和材料,或者去查实一个技术人员或者供应商是否有足够的能力去完成指定的工作。可以通过有计划的测试去评估这些,来消除这些不希望出现的不稳定因素的来源,并使明确的分析那些令人感兴趣的东西成为可能。
对于锆合金锭的强度分析是评估材料和工艺变量的一个项目中的例子。我们需要评估一个或多个供应商,并可能需要了解他们各自生产可接受材料的能力之间的差异。锭的组成的变化能试着去获得可能的最佳性质的锭块。工艺变量可能包括滚动操作的次数和施加于每次滚动上的力,不同实施操作的温度,还有锭在各个温度上保持的时间。所有的这些变量都可以在一次认真计划的多因素实验中分析出,并且还能涵盖其他一些响应变量,如强度。
4.生产批量估计
在生产活动中,生产并持续生产合格的材料是必须的。可以通过一个样
品计划来达到这一点。每个批次的产品,例如燃料元件,取样然后测试每份样品元件是否合格。如果发现许多不合格元件,整个批次的元件不合格,并必须需要采取合适的手段来调整生产过程。另外一个确保一贯的合格产品的步骤是管控图。一旦一个生产过程被判定为受控中,即生产合格的产品,当任何未来的观测值跌落超过这些极限时控制极限升高,这个进程被称为失控,并开始采取修正措施。控制极限是基于许多元件的均值变量或每个元件的可用性。效益的过程变量包括元件尺寸,加载,断裂等。
4. 运作工厂数据的使用
在实际运作一个工厂的时,数据能够并且必须被记录和分析以监控所有运作中的系统的动态。这个数据能够用来在问题变得严重前发现潜在的麻烦,去识别出这些反常的源头,去评估特定程序或几乎的效用,去按照要求的操作流程来做出调整。根据运作中的工厂数据做出推论是相当困难的,原因在于总体而言这些数据并不来自细心计划并执行的实验。因此,未识别来源的变量可能存在于令人对实验研究下获得的数据的影响困惑的数据中。
1.4 描述统计学
三亿文库包含各类专业文献、文学作品欣赏、外语学习资料、应用写作文书、中学教育、生活休闲娱乐、专业论文、幼儿教育、小学教育、统计学及数据介绍50等内容。 
 《统计学》2数据的描述_经济学_高等教育_教育专区。高等教育出版社袁卫主编《统计学》 第二章 统计数据的描述 【说明】 (一)统计数据的分类、表达形式 1.按...  统计学整理_财务管理_经管营销_专业资料。第1章什么是统计学? 统计学是研究收集数据,整理数据,分析数据以及由数据分析得出结论的方法,简称为“数据 的科学” 。 ...  统计学知识点汇总第一章:统计学是收集、处理、分析、解析数据并从数据中得出结论的科学。 分类:描述统计、推断统计。 描述统计是研究数据收集、处理和描述的统计学...  统计学实验报告学 姓专班号: 名: 业: 级: 指导教师: 数据的预处理实验报告班级: 学号: 姓名:一、抽样 第一步:单击“工具”菜单,再选择“数据分析”选项,...  统计学基本知识_数学_自然科学_专业资料。第一章 统计学基本知识 第一节 统计...进 一步介绍产品合格率与检测数据分散度(正态分布中的标准偏差) 之间的关系,由此...  统计学_数学_自然科学_专业资料。统计学重点知识第一章(P2、8、9)名词解释: 1.统计学:是收集、处理、分析、解释数据并从数据中得出结论的科学。 2.描述统计:...  第一章 1、什么是统计学:收集、处理、分析、解释数据并从数据中得出结论的科学 2、统计方法: (1)描述统计(知道总体数据) ①含义:研究数据收集、整理和描述的...  《统计学原理》课程简介
统计学原理 3 Principle of Statistics 6 预修课程:无 面向对象:二年级本科生 《统计学原理》是一门搜集、整理和分析统计数据的...  统计学数据分析_经济/市场_经管营销_专业资料。1 回归分析分 行 编号 1 2 3 4 5 6 7 8 国民总收入 (亿元) 736.7

我要回帖

 

随机推荐