科学家的一天统计人一天的选择是多少

做过一点统计模型,做过一点数据分析,现在工作名字叫数据科学家,厚着脸皮抛砖引玉,聊聊数据分析中需要养成的良好习惯。1. 了解数据分析的目的 / 需求做数据分析的新人可能都遇到过,辛辛苦苦花了几个小时做出来的结果,跟客户 / 合作伙伴 / PM / 老板要的不是一个东西,运气好的话回去修补一下,花个半小时之类的,运气不好的话直接推倒重来,搞不好又得晚上加班了。比如说下午六点,正准备收拾东西回家,PM 跟你说想看知乎用户的活跃度,跟数据分析师提出需求说,我们来看看大家使用时长吧。那么问题来了,是看平均呢还是看中位数?是看某一种客户端比如移动端吗,或者是想每种客户端都分开来看?要根据用户的注册时间来做下划分吗?是否想看具体某个城市的?甚至再退后一步,PM 想看这个干什么?仅仅是好奇,还是现在有个很重要的决定需要以此为基础?数据分析师需要以此来决定这件事情的优先级,是可以推回去的呢?还是说需要立马动手做,下班之前就需要给结果的。二十岁的人生,三十年的工作经验,都是加班闹的。来源:2. 用常识来验证结果虽然说数据说话,但是前提是数据来源、分析过程、解读等都是正确的。如何保证结果的正确性,最基本的一点就是不同方面来快速验证一下数量级。比如说 PM 想看知乎用户使用 Live 的数量,发现迄今为止有 50 万 iPhone 用户点击了 Live 的页面,2 万安卓用户点击了 Live 的页面。同时还知道知乎有五百万 iPhone 日活,而安卓的日活是三千万,由此可见 iPhone 用户就是舍得花钱啊,同时安卓用户那里还有很大的机会。然后简单比较一下可以发现,二者的参与率差了 150 倍,常识判断这差得有点太大了,难以解释。再仔细研究一下数据来源发现,原来安卓客户端的数据记录是取样 1% 的,所以直接看只有 2 万安卓用户点击,但实际上应该在两百万左右,这样一来 iPhone 和安卓的差别就比较合理了。时刻谨记常识来源:3. 时刻注意数据分析的结果是否具有误导性经常说的一句话叫 " 数据会说谎 "。然后数据自身是不会说谎的,而是取决于如何做数据分析、如何展示结果。有时候是数据分析无意中引入了误导性元素,比如说不合理的坐标轴,有时候是刻意引入某些误导性元素,以达到特别的目的,这些都是应该尽量避免的。比如说下图同样的增幅,因为用了不同的 y 轴,左右看起来就完全不一样了。如果听众没有仔细看坐标轴而仅仅看图形的话,妥妥的就被忽悠了(来源:)。此外还有一些数据分析中常见的错误,可以参考下面回答:4. 想想你的听众是谁数据很多时候不仅仅是一个人埋头苦干,还需要跟人交流,比如说跟合作伙伴的沟通,跟老板的沟通,跟其他组员的沟通,跟不同部门的人沟通。针对不同的听众,相应的需要强调不同方面。比如说跟合作伙伴沟通的时候,可能他们知道你做这个的目的是什么,可能会对结果更感兴趣,以及由数据提供了什么建议或者决定。至于具体数据来源或者分析方法之类对他们来说不是那么重要,大多数时候只要确保数据分析师知道自己在做什么就可以了。跟老板沟通结果的时候,大部分时候可能他们知道你做的大致方向,对分析思路的方法基本一点就通,细节方面可能无法面面俱到。而跟不同部门的人沟通的时候,分享数据分析的结果之前,最好还能讲讲这件事情的目的,一些背景,大方向是什么诸如此类。来源:5. 动手之前先看看这件事情是不是已经有人做过了这点在大一点的公司尤其明显,PM 或者老板提出一个需求,或者数据分析师自己对某一个问题感兴趣,然后想也没想,就 SQL 写得飞快跑了起来。很快一天过去了,产出了一大堆数据和报表,被自己的高效感动了,收拾书包回家。晚上打开电脑,突然不知道哪根经搭错了,想白天做的这个事情会不会已经有人做过了呢?于是内网搜了一下,豁然发现某个角落里有一堆早就做好的 pipeline,数据、报表一应俱全,90% 想要的结果都在里面了,真是不知道该哭还是想笑。数据分析很多时候是不需要重新造轮子的。来源:6. 数据大小很重要又不重要几年前,有个大数据的笑话,Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it. 看不懂的请 google translate.几年过去了,teenage 应该也长大成人不再是 teenage sex 了,很多时候大家是真的在做大数据了。虽然 size matters,但是数据分析师更应该关注数据能提供什么价值。本来想放个 size matters 的图,然后 google 了一下之后,出来的都是办公室不宜的,所以你们自己脑补吧。7. So what?描述性的数据据分析很重要,是了解用户,了解产品,感受大方向的基础。比如针对知乎活跃用户做个画像,发现 55% 男性,40% 女性(别问我剩下 5% 怎么回事),70% 年薪百万,80% 985/211,90% 健身,100% 都是活跃用户(废话),如此种种。这么一大堆图表、信息堆起来之后,需要仔细想想这到底说明了什么问题?对改进产品有什么启示,比如说开个健身爆照专栏轮带逛?如果仅仅是停留在描述性数据分析阶段的话,那么就无法发挥数据的最大作用,从数据的角度引导产品的改进。ps. 引导产品改进可以是多个方面的,数据引导仅仅是其中的一部分。8. 保持好奇心数据分析不是一个新的学科,但是工具、内容、应用方向等一直在不断改变,所以保持好奇心,持续学习进步,探索新领域对长期发展是最重要的一点,(个人认为)没有之一。图片来源:与诸君共勉。来源:知乎 作者:【知乎日报】千万用户的选择,做朋友圈里的新鲜事分享大牛。 此问题还有 延伸阅读:
原网页已经由 ZAKER 转码排版成功护送危急病人到抢救室,病人家属下跪感谢。
警犬趴在车窗上不肯离去,让送别的战友热泪盈眶。
声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。
  本文观点来自对《如何成为一位数据科学家――大数据时代的统计学思考》(Rachel Schutt,Cathy O’Neil)的阅读。文中并没有给出数据科学家的定义,但是给出了其应具有的技能:统计学、线性代数、编程技能、数据预处理、数据再加工、数据建模、可视化和有效沟通。而该篇文章只对统计学进行了介绍。
  详情 ↓
  一、统计推断
  “数据就是现实世界运转留下来的痕迹。而这些痕迹会被如何展示出来,则取决于我们采用什么样的数据收集和样本采集方法。”作为数据科学家,其任务是将现实世界转化为抽象数据,然后从抽象数据中发现知识,再将该知识应用于现实世界。这个过程可能不是一次性的,更可能是迭代的。
  因为未必一次发现的知识就是完全正确的。可能还要将该知识在现实世界中再进行验证,然后根据验证结果再进行一轮现实世界――数据抽象――现实世界的过程。这一从现实世界到数据,再从数据到现实世界的流程就是统计推断的领域。这门学科关注从过程产生的数据中提取信息,包含流程、方法和理论。
  由于整个过程中人(数据科学家)的存在,因此这并不是像人们想的那样是客观的,而是明显主观的。例如可以选择不同的过程,以及通过不同的方式采集得到不同的数据。
  二、总体和样本
  这个比较好理解,总体就是全部的观察对象,样本就是总体中的选取的一个子集。但这涉及到如何选取这个子集,即采样方法的问题。如果采样方法存在偏差,那么通过对样本的研究得出的结论也是有偏差的。
  这里,作者提到了大数据。即如果有能力对所有数据进行分析,还需要进行采样分析吗?作者也并没有直接回答这个问题,而是指出即使在谷歌,数据科学家和统计学家都在用到采样来处理大数据。而且是否采样也取决于个人想实际解决的问题。
  我的理解是,大数据技术(Hadoop,Spark等)提供了更有力量的一个手段来帮助人们进行更全面的分析,但它也有相应的代价,包括人力成本、计算成本和时间成本。就像杀鸡是否要用牛刀一样,不同问题还是适合用不同的工具来解决。因此采样统计仍然是解决问题的一个可选手段。
  三、偏差
  这里举了个有趣的例子,微软研究院KateCrawford女士提到,如果对飓风桑迪前后对推特数据进行分析,会得到如下结论:人们在飓风来临前在购物,飓风过后在聚会。这里的购物可不是为了应对飓风而大采购。好像这个结论告诉大家飓风对人们没什么影响。实际上,由于分析的样本就不对,结论自然不对。推特的重度用户是纽约人,他们的确是完全不受飓风影响的,但那些受飓风影响的人们却不怎么发推特。这就是采样导致的偏差的一个例子。
  四、新的数据类型
  由于互联网的快速发展,要分析的数据类型也从原来简单的数据(数字、分类变量和二进制变量)发展为更加丰富的数据类型,包括:
  1.文字:电子邮件、微博、网站上的文章等;
  2.记录:用户数据、带有时间戳的事件记录和JSON格式的日志文件;
  3.地理位置信息数据;
  4.网络:这里应该指的是例如朋友关联、人际关系等事物之间连接关系构成的网络或图;
  5.多媒体信息:包括图片、音频和视频等。
  这些新数据类型的出现使得数据科学家在选择数据时应更谨慎,并且需要研究不同类型的分析方法。
  作者还给出了其对“大数据”的理解:大数据是大是相对的,20世纪70年代的大数据概念和现在的大数据概念是不一样的。当用一台机器无法处理时,就可以称为“大数据”。
  另外,作者并不认同库克耶和迈尔-舍恩伯格的文章“The Rise of Big Data”中的观点:接受数据中存在杂乱噪声;重视结论,放弃探究产生结果的原因。他们提出这观点的原因是,认为总体就是全部,有了全部,就能够得出正确的结论。但本文作者认为总体并不等于全部。因为总体其实也取决于数据科学家的判断,一旦判断出错,认为是全体研究对象产生了这些数据,但实际上只是部分研究对象产生的,就会发生错误。正如同上述的通过推特用户研究飓风影响的例子。也正因为此,作者提出“数据是不客观的”。
  五、建模
  作为一名数据科学家,建模是不可避免的研究数据的手段。通过建模找出数据的规律,并采用模型表示这些规律,以及用于在现实世界中进行进一步验证。模型有很多表达方式,在不同的学科和领域有不同的形式,比如建筑学中用蓝图和三维立体模型,分子生物学中用连接氨基酸的三维图像表示蛋白质结构,数据科学家用函数来描述数据的规律。
  那么等于一堆看起来杂乱无章的数据,应该怎么建模呢?应该怎么选择模型呢?作者认为模型的选择一半是艺术,一半是科学。无非还是需要依靠假设、从最简单模型起步、探索性分析、反复尝试以及模型复杂度(建模代价)与模型准确率之间的权衡等方式。接着作者对建模时用到的最基本的概率分布进行了介绍。这些就是概率书本上的一些经典概率分布,这里直接引用了原文中的图:
  另外,要避免建模过程中出现过拟合问题。所谓过拟合,也就是模型对于样本数据特别符合,但对于样本之外的数据却并不能准确描述。也就是说建立的模型失去了其普适性,往往是因为对于样本数据过于调优所致。
  六、数据科学的工作流程
  这里也直接引用原文中的图:
  该流程中的几个活动从字面上都比较能直观地理解其含义。但可以看到几个特点:
  活动之间有迭代。从探索性数据分析可能会回到收集原始数据,再进行一次迭代。因为探索性分析就有可能出现分析错误,所以需要再次进行从头开始。
  活动不是按照固定步骤进行。没有固定的流程,有些活动是可以跳过的。例如清理数据后,可以选择机器学习算法训练模型,然后再进行沟通、可视化和报告,也可以清理数据结束就进入到沟通、可视化和报告。还有就是机器学习之后可以进入到构建数据产品。其实这些活动往往取决于此次数据分析的目的,有时候可以跳过某些活动,有时候这些活动可以并行执行。
  模型结果要反馈回现实世界。就是图中的虚线箭头。因为一次分析往往只是对采样样本进行研究得到模型,但是否能够适用于更广大的未采样样本,还需要进一步验证。另外,得到了数据模型,往往是需要依据该模型进行决策,调整系统,然后将调整的系统再次在现实世界中运行,看是否能够达到调整预期。例如,根据对网站用户行为的建模,调整了推荐系统的推荐策略,实施后是否真的提升了网站的产品销售量,就需要进一步验证研究了。
  七、数据科学家在数据科学工作中的角色
  这里也引用了原文中的图:
  其实,大家要注意,这张图只是举例这几个环节需要数据科学家做哪些活动,但并不是说数据科学家仅仅参与这几个环节,其实很容易想到他们肯定还要参与所有后续活动,如探索性数据分析、机器学习、沟通和构建数据产品等。
  结束语
  以上,就是基于原文对数据科学家的一个简单介绍。原文对几个观点的质疑还是比较中肯。例如对2008《Wired》杂志主编Chris Anderson在杂志上发表的文章“The End of Theory: The Data Deluge Makes the Scientific Method Obsolete”中所认为的,数据即信息,有了数据就不需要其他了,了解相关性就够了。且说以海量数据为例,“谷歌根本没有使用模型”。显然上述说法明显是有问题的。还有就是对库克耶和迈尔-舍恩伯格提的“N=全部”观点的质疑。因此意见领袖由于不是该行业的专家,因此只是向广大群众介绍了相关概念和问题,但其说法并不一定准确。因此要对意见领袖的话保持自己一定的判断。
  注:本文来源上财统研会,转载务必注明来源、出处及作者信息。数据观微信公众号(ID:cbdioreview) ,欲了解更多大数据行业相关资讯,可搜索数据观(中国大数据产业观察网)进入查看。
  Editors' Picks精选
↓点击标题或图片进入阅读↓
欢迎举报抄袭、转载、暴力色情及含有欺诈和虚假信息的不良文章。
请先登录再操作
请先登录再操作
微信扫一扫分享至朋友圈
搜狐公众平台官方账号
生活时尚&搭配博主 /生活时尚自媒体 /时尚类书籍作者
搜狐网教育频道官方账号
全球最大华文占星网站-专业研究星座命理及测算服务机构
中国大数据产业观察网,简称“数据观”是一个大数据新闻门户网...
主演:黄晓明/陈乔恩/乔任梁/谢君豪/吕佳容/戚迹
主演:陈晓/陈妍希/张馨予/杨明娜/毛晓彤/孙耀琦
主演:陈键锋/李依晓/张迪/郑亦桐/张明明/何彦霓
主演:尚格?云顿/乔?弗拉尼甘/Bianca Bree
主演:艾斯?库珀/ 查宁?塔图姆/ 乔纳?希尔
baby14岁写真曝光
李冰冰向成龙撒娇争宠
李湘遭闺蜜曝光旧爱
美女模特教老板走秀
曝搬砖男神奇葩择偶观
柳岩被迫成赚钱工具
大屁小P虐心恋
匆匆那年大结局
乔杉遭粉丝骚扰
男闺蜜的尴尬初夜
客服热线:86-10-
客服邮箱:数据科学家每天都在做些什么?_图文_百度文库
两大类热门资源免费畅读
续费一年阅读会员,立省24元!
数据科学家每天都在做些什么?
||暂无简介
人人都是产品经理社区()是...|
总评分0.0|
阅读已结束,如果下载本文需要使用0下载券
想免费下载更多文档?
定制HR最喜欢的简历
下载文档到电脑,查找使用更方便
还剩1页未读,继续阅读
定制HR最喜欢的简历
你可能喜欢译者:机器之心
最新一期的 KDnuggets 调查展示了一份数据科学家使用度最高的算法列表,这份列表中包含了很多惊喜,包括最学术的算法和面向产业化的算法。
哪些方法/算法是您在过去 12 个月中运用到一个实际的数据科学相关的应用程序中的?
这是基于 844 个投票者的结果。
排名前十的算法以及他们的投票者的比例分布如下:
图 1 :数据科学家使用度最高的 10 大算法
每个受访者平均使用 8.1 个算法,这相比于 2011 的相似调查显示的结果有了巨大的增长。
与 2011 年关于数据分析/数据挖掘的调查相比,我们注意到最常用的方法仍然是回归、聚类、决策树/Rules 和可视化。
相对来说最大的增长是由 (pct2016 /pct2011 – 1) 测定的以下算法:
Boosting,从 2011 年的 23.5% 至 2016 年的 32.8%,同比增长 40%
文本挖掘,从 2011 年的 27.7% 至 2016 年的 35.9%,同比增长 30%
可视化,从 2011 年的 38.3% 至 2016 年的 48.7%,同比增长 27%
时间序列/序列分析,从 2011 年的 29.6% 至 2016 年的 37.0%,同比增长 25%
异常/偏差检测,从 2011 年的 16.4% 至 2016 年的 19.5%,同比增长 19%
集成方法,从 2011 年的 28.3%至 2016 年的 33.6%,同比增长 19%
支持向量机,从 2011 年的 28.6% 至 2016 年的 33.6%,同比增长 18%
回归,从 2011 年的 57.9% 至 2016 年的 67.1%,同比增长 16%
最受欢迎算法在 2016 年的调查中有了新的上榜名单:
K-近邻,46%
主成分分析,43%
随机森林,38%
神经网络 – 深度学习,19%
奇异值分解,16%
最大幅下降的有:
关联规则,从 2011 年的 28.6% 至 2016 年的 15.3%,同比下降 47%
隆起造型,从 2011 年的 4.8% 至 2016 年的 3.1%,同比下降 36%
因素分析,从 2011 年的 18.6% 至 2016 年的 14.2%,同比下降 24%
生存分析,从 2011 年的 9.3% 至 2016 年的 7.9%,同比下降 15%
下表显示了不同的算法类型的使用:监督算法、无监督算法、元算法,以及职业类型决定的对算法的使用。我们排除 NA(4.5%)和其他(3%)的职业类型。
表 1:根据职业类型显示的不同算法使用度
我们注意到,几乎每个人都使用监督学习算法。
政府和产业业数据科学家比学生和学术研究人员使用更多不同类型的算法,而产业数据科学家们更倾向于使用元算法。
接下来,我们根据职业类型分析了前 10 名的算法+深度学习使用情况。
表 2:根据职业类型分类的 10 大算法+深度学习使用情况
为了更明显的看到差异,我们计算了具体职业分类相比于平均算法使用度的一个算法偏差,即偏差(ALG,类型)=使用(ALG,类型)/使用(ALG,所有的)
图 2:职业对算法的使用偏好
我们注意到,产业数据科学家们更倾向于使用回归、可视化、统计、随机森林和时间序列。政府/非营利更倾向于使用可视化、主成分分析和时间序列。学术研究人员更倾向于使用主成分分析和深度学习。学生普遍使用更少的算法,但多为文本挖掘和深度学习。
接下来,我们看看某一具体地域的参与度,表示整体的 KDnuggets 的用户:
美国/加拿大,40%
拉丁美洲,5%
非洲/中东,3.4%
澳洲/新西兰,2.2%
由于在 2011 年的调查中,我们将产业/政府分在了一组,而将学术研究/学生分在了第二组,并计算了算法对于业界/政府的亲切度:
因此亲切度为 0 的算法表示它在产业/政府和学术研究人员或学生之间的使用情况对等。越高 IG 亲切度表示算法越被产业界普遍使用,反之越接近「学术」。
最「产业」的算法是:
异常检测,1.61
生存分析,1.39
因子分析,0.83
时间序列/序列,0.69
关联规则,0.5
而 uplifting modeling 又是最「产业的算法」,令人惊讶的发现是,它的使用率极低 – 只有 3.1% – 是本次调查的算法中最低的。
最学术的算法是:
常规神经网络,-0.35
朴素贝叶斯,-0.35
支持向量机,-0.24
深度学习,-0.19
下图显示了所有的算法及其产业/学术亲切度。
图 3:KDnuggets 投票:最常被数据科学家使用的算法:产业界 VS 学术界
下表有关于算法的细节、两次调查中使用算法的比例、以及像上面解释的产业亲切度。
接下来的图表展示了算法的细节,按列
N:根据使用度排名
算法:算法名称,
类型:S – 监督,U – 无监督,M – 元,Z – 其他,
在 2016 年调查中使用这种算法的调查者比例
在 2011 年调查中使用这种算法的调查者比例
变动(%2016 年/2011% – 1),
产业亲切度(如上所述)
表 3:KDnuggets 2016 调查:数据科学家使用的算法
本文来自微信公众账号提交,由微讯啦收录,转载请注明出处。
微信扫码 分享文章

我要回帖

更多关于 mysql 一天24小时统计 的文章

 

随机推荐