大数据分析师有哪些岗位要求,有网站可以自学吗?或者哪里学习可靠呢?

怎样进行大数据的入门级学习?
请问有什么好的方式、材料、心得等?
按投票排序
我在去年年底的时候曾应一位前辈的要求,写了一个学习“数据科学:从入门到进阶”的经验贴,我就直接把它贴在下面了。虽然题主问的是大数据的入门,但在我看来“大数据”就是数据科学的一个高阶状态。以下内容中除个别情况,我基本上都会使用“数据科学”这个概念。---------------------------------正
文-----------------------------------数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据。但从狭义上来看,我认为数据科学就是解决三个问题:1. data pre-2. data interpretation;3.data modeling and analysis. 这也就是我们做数据工作的三个大步骤:1、原始数据要经过一连串收集、提取、清洗、整理等等的预处理过程,才能形成高质量的数据;2、我们想看看数据“长什么样”,有什么特点和规律;3、按照自己的需要,比如要对数据贴标签分类,或者预测,或者想要从大量复杂的数据中提取有价值的且不易发现的信息,都要对数据建模,得到output。这三个步骤未必严谨,每个大步骤下面可能依问题的不同也会有不同的小步骤,但按我这几年的经验来看,按照这个大思路走,数据一般不会做跑偏。这样看来,数据科学其实就是门复合型的技术,既然是技术就从编程语言谈起吧,为了简练,只说说R和Python。但既然是荐数据科学方面的书,我这里就不提R/Python编程基础之类的书了,直接上跟数据科学相关的。R programming如果只是想初步了解一下R语言已经R在数据分析方面的应用,那不妨就看看这两本:R in action:我的R语言大数据101。其实对于一个没有任何编程基础的人来说,一开始就学这本书,学习曲线可能会比较陡峭。但如果配合上一些辅助材料,如官方发布的R basics(),stackoverflow上有tag-R的问题集(),遇到复杂的问题可在上面搜索,总会找到解决方案的。这样一来,用这本书拿来入门学习也问题不大。而且这本书作者写得也比较轻松,紧贴实战。Data analysis and graphics using R:使用R语言做数据分析的入门书。这本书的特点也是紧贴实战,没有过多地讲解统计学理论,所以喜欢通过情境应用来学习的人应该会喜欢这本入门书。而且这本书可读性比较强,也就是说哪怕你手头没电脑写不了代码,有事没事拿出这本书翻一翻,也能读得进去。但如果你先用R来从事实实在在的数据工作,那么上面两本恐怕不够,还需要这些:Modern applied statistics with S:这本书里统计学的理论就讲得比较多了,好处就是你可以用一本书既复习了统计学,又学了R语言。(S/Splus和R的关系就类似于Unix和Linux,所以用S教程学习R,一点问题都没有)Data manipulation with R:这本书实务性很强,它教给你怎么从不同格式的原始数据文件里读取、清洗、转换、整合成高质量的数据。当然和任何一本注重实战的书一样,本书也有丰富的真实数据或模拟数据供你练习。对于真正从事数据处理工作的人来说,这本书的内容非常重要,因为对于任何研究,一项熟练的数据预处理技能可以帮你节省大量的时间和精力。否则,你的研究总是要等待你的数据。R Graphics Cookbook:想用R做可视化,就用这本书吧。150多个recipes,足以帮你应付绝大多数类型的数据。以我现在极业余的可视化操作水平来看,R是最容易做出最漂亮的图表的工具了。An introduction to statistical learning with application in R:这本书算是著名的the element of statistical learning的姊妹篇,后者更注重统计(机器)学习的模型和算法,而前者所涉及的模型和算法原没有后者全面或深入,但却是用R来学习和应用机器学习的很好的入口。A handbook of statistical analysis using R:这本书内容同样非常扎实,很多统计学的学生就是用这本书来学习用R来进行统计建模的。PythonThink Python,Think Stats,Think Bayes:这是Allen B. Downey写的著名的Think X series三大卷。其实是三本精致的小册子,如果想快速地掌握Python在统计方面的操作,好好阅读这三本书,认真做习题,答案链接在书里有。这三本书学通了,就可以上手用Python进行基本的统计建模了。Python For Data Analysis: 作者是pandas的主要开发者,也正是Pandas使Python能够像R一样拥有dataframe的功能,能够处理结构比较复杂的数据。这本书其实analysis讲得不多,说成数据处理应该更合适。掌握了这本书,处理各种糟心的数据就问题不大了。Introduction to Python for Econometrics, Statistics and Data Analysis:这本书第一章就告诉你要安装Numpy, Scipy, Matplotlib, Pandas, IPython等等。然后接下来的十好几章就是逐一介绍这几个库该怎么用。很全面,但读起来比较枯燥,可以用来当工具书。Practical Data Analysis: 这本书挺奇葩,貌似很畅销,但作者把内容安排得东一榔头西一棒子,什么都讲一点,但一个都没讲透。这本书可以作为我们学习数据分析的一个索引,看到哪块内容有意思,就顺着它这个藤去摸更多的瓜。Python Data Visualization Cookbook: 用Python做可视化的教材肯定不少,我看过的也就这一本,觉得还不错。其实这类书差别都不会很大,咬住一本啃下来就是王道。Exploratory Data Analysis 和 Data VisualizationExploratory Data Analysis:John Tukey写于1977年的经典老教材,是这一领域的开山之作。如今EDA已经是统计学里的重要一支,但当时还是有很多人对他的工作不屑一顾。可他爱数据,坚信数据可以以一种出人意料的方式呈现出来。正是他的努力,让数据可视化成为一门无比迷人的技术。但这本书不推荐阅读了,内容略过时。要想完整地了解EDA,推荐下一本:Exploratory Data Analysis with MATLAB:这本书虽然标题带了个MATLAB,但实际上内容几乎没怎么讲MATLAB,只是每讲一个方法的时候就列出对应的MATALB函数。这本书的重要之处在于,这是我读过的讲EDA最系统的一本书,除了对visualization有不输于John Tucky的讲解外,对于高维的数据集,通过怎样的方法才能让我们从中找到潜在的pattern,这本书也做了详尽的讲解。全书所以案例都有对应的MATALB代码,而且还提供了GUI(图形用户界面)。所以这本书学起来还是相当轻松愉悦的。Visualize This:中译本叫“鲜活的数据”,作者是个“超级数据迷”,建立了一个叫的网页展示他的数据可视化作品,这本书告诉你该选择什么样的可视化工具,然后告诉你怎样visualize关系型数据、时间序列、空间数据等,最后你就可以用数据讲故事了。如果你只想感受一下数据可视化是个什么,可以直接点开下面这个链接感受下吧!A tour through the visualization zoo()Machine Learning & Data Mining这一块就不多说了,不是因为它不重要,而是因为它太太太重要。所以这一部分就推两本书,都是”世界名著“,都比较难读,需要一点点地啃。这两本书拿下,基本就算是登堂入室了。其实作为机器学习的延伸和深化,概率图模型(PGM)和深度学习(deep learning)同样值得研究,特别是后者现在简直火得不得了。但PGM偏难,啃K.Daphne那本大作实在太烧脑,也没必要,而且在数据领域的应用也不算很广。deep learning目前工业界的步子迈得比学术界的大,各个domain的应用如火如荼,但要有公认的好教材问世则还需时日,所以PGM和deep learning这两块就不荐书了。The Element of Statistical Learning:要学机器学习,如果让我只推荐一本书,我就推荐这本巨著。Hastie、Tibshirani、Friedman这三位大牛写书写得太用心了,大厦建得够高够大,结构也非常严谨,而且很有前瞻性,纳入了很多前沿的内容,而不仅仅是一部综述性的教材。(图表也做得非常漂亮,应该是用R语言的ggplot2做的。)这本书注重讲解模型和算法本身,所以需要具备比较扎实的数理基础,啃起这本书来才不会太吃力。事实上掌握模型和算法的原理非常重要。机器学习(统计学习)的库现在已经非常丰富,即使你没有完全搞懂某个模型或算法的原理和过程,只要会用那几个库,机器学习也能做得下去。但你会发现你把数据代进去,效果永远都不好。但是,当你透彻地理解了模型和算法本身,你再调用那几个库的时候,心情是完全不一样的,效果也不一样。Data Mining: Concepts and Techniques, by Jiawei Han and Micheline Kamber 数据挖掘的教材汗牛充栋,之所以推荐这本韩家炜爷爷的,是因为虽然他这本书的出发点是应用,但原理上的内容也一点没有落下,内容非常完整。而且紧跟时代,更新的很快,我看过的是第二版,就已经加进去了social network analysis这种当时的前沿内容。现在已经有第三版了,我还没看过,但应该也加入了不少新内容。其实这本书并不难读,只是篇幅较长,啃起来比较耗时。其实这两本书里单拎出来一块内容可能又是几本书的节奏,比如bayesian方法,再拿出两三本书来讲也不为过,我个人用到的比较多,而且也确实有不少好书。但并非是所有data scientist都要用到,所以这一块就不再细说。还有一些印象比较深刻的书:Big Data Glossary: 主要讲解大数据处理技术及工具,内容涵盖了NoSQL,MapReduce,Storage,Servers,NLP库与工具包,机器学习工具包,数据可视化工具包,数据清洗,序列化指南等等。总之,是一本辞典式的大数据入门指导。Mining of Massive Datasets:这本书是斯坦福大学Web Mining的讲义,里面很多内容与韩家炜的Data Mining那本书重合,但这本书里详细地讲了MapReduce的设计原理,PageRank(Google创业时期的核心排序算法,现在也在不断优化更新)讲解得也比较详细。Developing Analytic Talent: 作者是个从事了十几年数据工作的geek,技术博客写得很有个人风格,写的内容都比较偏门,通常只有具备相关数据处理经验的人能体会出来,丝毫不照顾初学者的感受。比如他会谈到当数据流更新太快时该怎么办,或者MapReduce在什么时候不好用的问题,才不管你懂不懂相关基础原理。所以这本书不太适合初学者阅读。这本书其实是作者的博客文章的集结,用how to become a data scientist的逻辑把他近几年的博客文章串联了起来。Past, Present and Future of Statistical Science:这本书是由COPSS(统计学社主席委员会,由国际各大统计学会的带头人组成)在50周年出版的一本纪念册,里面有50位统计学家每人分别贡献出的一两篇文章,有的回忆了自己当年如何走上统计学这条路,有的探讨了一些统计学的根本问题,有的谈了谈自己在从事的前沿研究,有的则给年轻一代写下了寄语。非常有爱的一本书。其它资料Harvard Data Science:这是H大的Data science在线课,我没有修过,但口碑很好。这门课需要费用8千刀左右,比起华盛顿大学的4千刀的Data science在线课虽贵一倍,但比斯坦福的14千刀要便宜将近一半(而且斯坦福的更偏计算机)。如果想自学,早有好心人分享了slides: ()和homeworks and solutions: ()PyData:PyData是来自各个domain的用Python做数据的人每年举行一次的聚会,期间会有各路牛人举行一些规模不大的seminar或workshop,有好心人已经把video上传到github,有兴趣的去认领吧()工具R/Python/MATLAB(必备):如果是做数据分析和模型开发,以我的观察来看,使用这三种工具的最多。R生来就是一个统计学家开发的软件,所做的事也自然围绕统计学展开。MATLAB虽然算不上是个专业的数据分析工具,但因为很多人不是专业做数据的,做数据还是为了自己的domain expertise(特别是科学计算、信号处理等),而MATLAB又是个强大无比的Domain expertise工具,所以很多人也就顺带让MATLAB也承担了数据处理的工作,虽然它有时候显得效率不高。Python虽然不是做数据分析的专业软件,但作为一个面向对象的高级动态语言,其开源的生态使Python拥有无比丰富的库,Numpy, Scipy 实现了矩阵运算/科学计算,相当于实现了MATLAB的功能,Pandas又使Python能够像R一样处理dataframe,scikit-learn又实现了机器学习。SQL(必备):虽然现在人们都说传统的关系型数据库如Oracle、MySQL越来越无法适应大数据的发展,但对于很多人来说,他们每天都有处理数据的需要,但可能一辈子都没机会接触TB级的数据。不管怎么说,不论是用关系型还是非关系型数据库,SQL语言是必须要掌握的技能,用什么数据库视具体情况而定。MongoDB(可选):目前最受欢迎的非关系型数据库NoSQL之一,不少人认为MongoDB完全可以取代mySQL。确实MongoDB方便易用,扩展性强,Web2.0时代的必需品。Hadoop/Spark/Storm(可选): MapReduce是当前最著名也是运用最广泛的分布式计算框架,由Google建立。Hadoop/Spark/storm都是基于MapReduce的框架建立起来的分布式计算系统,要说他们之间的区别就是,Hadoop用硬盘存储数据,Spark用内存存储数据,Storm只接受实时数据流而不存储数据。一言以蔽之,如果数据是离线的,如果数据比较复杂且对处理速度要求一般,就Hadoop,如果要速度,就Spark,如果数据是在线的实时的流数据,就Storm。OpenRefine(可选):Google开发的一个易于操作的数据清洗工具,可以实现一些基本的清洗功能。Tableau(可选):一个可交互的数据可视化工具,操作简单,开箱即用。而且图表都设计得非常漂亮。专业版1999美刀,终身使用。媒体和公关方面用得比较多。Gephi(可选):跟Tableau类似,都是那种可交互的可视化工具,不需要编程基础,生成的图表在美学和设计上也是花了心血的。更擅长复杂网络的可视化。------------------------------------正
完-----------------------------------------除了比较难找到资料给出链接之外,其余都需要各位自己动手了。也请多多支持正版。刚开通了值乎,欢迎来扰。 (二维码自动识别)
最有用的三点: - 多看书; - 多写代码; - 多交流。----------------看书的方面,@ 的答案里列得已经非常详细了,确实都是经典。补充基本个人感觉比较有价值的:Toby Segaran (2007) Programming Collective Intelligence, O'ReillyJoel Grus (2015) Data Science from Scratch, O'ReillyRussell Jurney (2013) Agile Data Science, O'Reilly以上三本书的共同特点是,不拘泥于具体技术细节,而是通过实例描述了end to end的整套大数据流程,同时又提供了非常down to earth的代码,让读者能够马上上手实践。回国工作一段时间,有个比较突出的体会:国内的技术人才绝大部分基础扎实,能力很强,对各种技术如数家珍,上手都非常快,比起国外同行稍显薄弱的是分析实际业务问题,建立Technology Stack来解决之的能力。以上推荐的三本书有助于培养这方面的能力。做为Data Scientist,本人关注的主要是Data Science相关方向的资料。和题主问题略有出入,望海涵。---------------写代码的方面,公司或研究所有现成的环境是最好的。如果没有,自己看书在云端搭一个。现在云服务已然是白菜价,这些投资会物超所值。不知道题主说的入门级是有多基础,如果Linux, Git, Vim还不会的话,首先补上这几课。有了环境,选一本自己能看得下去的书,跟着把里面的例子跑一遍,弄懂每行代码是干嘛的。[ 08/28/2015 ] 评论有朋友问新手编程如何入门。 赞同
的回复,再补充几点:如果完全没有编程基础,目标又是数据科学方向(而非软件工程师),不推荐从C族语言(C/C++/Java/C#)起步。直接学Python,容易入门,很快能在实际工作中用上。高票答案中推荐了一些Python的书都不错。Think Python是非常好的入门书,每章的例子都很短小精悍,容易理解,自己敲一遍,再把每章的习题做一做,Python入门基本就没问题。Think Python的问题是教材气重了些。如果需要写复用度高的,健壮的代码,推荐和这本结合看:Practical Python。手机党查资料不方便,这里就不给链接了。回到电脑前再补充。---------------交流的方面,多参加一些线下活动,认识朋友。多刷Stack Overflow, Quora。Youtube上的各种讲座,会议,教程,多到你不敢相信。Slidesshare欢迎补充。需要讲得详细些的地方,欢迎留言。
大数据是个很大的范畴,很虚的概念,基本上说给外行人听的。就好比写程序,有写前端的,写后端的,有写嵌入式的,有写客户端的,有写APP的,从语言上来讲主流的语言就几十种。这些的入门方法都不一样。你最好明确你的目的,并且有个确切的应用方向,是对什么行业的数据,数据来源是什么,关注是存储还是分析挖掘,数据量多大,是文本类还是图像类还是纯粹的商业数字,这些工作完全不一样。
问问题前可以花几秒钟看一下知乎上有没有类似问题,这是基本常识。
&&&大数据是什么?来看看维基百科的定义大数据(英语:Big data或Megadata),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。上面那段看起来比较绕,可以一起看看通俗解释:如果你是负责做淘宝网的产品推荐工作的,想知道购买首饰的用户是否也会购买电子产品,然后再决定是否给三星做推荐。在这种条件下就需要调用前一段时间(例如一年)的用户数据,只有通过大量数据的证明才能确认两者是否有关联性,如果使用传统数据处理方法,就会耗费大量时间,等确认正相关的时候,三星的促销期都已经过去了,而像淘宝、京东等每天数据量动辄以TB计数,要迅速处理、分析并给出精准恰当的投放推荐,这就是大数据的作用。&&&与大数据相关的工作?在美国,与大数据相关的职位统称为“数据科学家”;而在国内,与大数据相关的岗位则细分得多,主要分为数据分析、数据挖掘、数据工程师、数据架构师四类。·数据分析:运用工具,提取、分析、呈现数据,实现数据的商业意义·数据挖掘:机器学习,算法实现·数据工程师:开发运用简单数据工具,实现数据建模等功能,需要业务理解·数据架构师:高级算法设计与优化;数据相关系统设计与优化,有垂直行业经验最佳&&&大数据学习?·统计学·计算机(或许还能加上点机器学习的知识)这两门学科是大数据基础中的基础,跨过这两道坎就有了从事大数据工作的资格。所以也有人说,大数据工程师是一个精通统计学的程序员,而不会编程的统计狗也不是好的大数据专家。统计学:多元统计分析、应用回归计算机:R、python、SQL、数据分析、机器学习matlab和mathematica两个软件也是需要掌握的,前者在实际的工程应用和模拟分析上有很大优势,后者则在计算功能和数学模型分析上十分优秀,相互补助可以取长补短。1、视频习惯网上学习的,可以参考如下资源:·Coursera:数据分析计算:网络智能与大数据:MATLAB程序开发入门:Python交互式编程:算法思想:机器学习:全英文授课,分别针对每个不同领域,适合深度学习Coursera就不用多介绍了吧,基本是国内支持最棒的国外MOOC课程平台了像机器学习这门课程,建议没有编程基础的文科生们慎学,可能会hold不住难度=。=·网易云课堂: 英文授课中文字幕,成体系化,相对集中便于速成学术出版商wiley制作的课程(学术狗们可能因为查文献什么的更了解wiley),在专业领域的权威性和前沿性能得到保证。但学习这门课程需要有一定的程序设计基础经验,熟悉基本的 SQL 语句,初级程序员进阶可以考虑。2、书籍《商务与经济统计学》:Statistics for Business and
Economics詹姆斯·麦克拉夫博士写的,如果没记错的话,现在中文版已经出到第十版了吧,这本书在统计学知识和联系实际案例上都做得不错,遇到过好几个统计学专业的同学都推荐这本书。《R语言实战》:R in Action卡巴科弗教授撰写,R语言界公认的圣经,因为中文翻译蛮通俗,在讲案例的时候还会重复延伸到基础知识,死磕起来也不会太费劲,能让人以最快的速度进入R语言的世界。《深入浅出数据分析》:Head First Data Analysis对就是这本名声在外、像砖头一样的书,但他字大行稀,而且插图满天飞,最重要的是讲的真的超简单,根本不用担心看不懂,入门必备。要是觉得纸质书88元太贵就弄个PDF看吧,估计也是看一遍就能搞定知识点的。《利用PYTHON进行数据分析》:Python for Data Analysis也是入门级教材,全书最后还附了一个大约三十页篇幅的Python快速入门,总觉得是个极大的萌点。3、其他豆列:Road to
Data Scientist 数据科学家之路是一个很好的学习资料索引,如果英文水平还不错可以去这里找原版看。书籍:《大数据时代:生活、工作与思维的大变革》:Big Data:A Revolution That
Will Transform How We Live, Work, and Think关于大数据对社会、生活、思维影响的书,如果前面推荐的书是从技术入门,那这本书就从感性的角度解释了大数据。书比较厚,有些重复的话可以忽略。。。论坛:大数据中国关于大数据在国内的进展、大数据研究、应用、资讯等都有,可以了解整个行业的动态。 实践:
自己装个Cassandra之类的数据库,在上面弄个小项目试试,看看自己能力如何最后加个自己的微信公众号:naogustudy刚刚开始运营,戳我每天学点新技能(●'?'●)?
大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,通过对数据的挖掘分析来影响企业的商业决策。这群人在国外被叫做数据科学家(Data
Scientist),这个头衔最早由D.J.Pati和Jeff
Hammerbacher于2008年提出,他们后来分别成为了领英(LinkedIn)和Facebook数据科学团队的负责人。而数据科学家这个职位目前也已经在美国传统的电信、零售、金融、制造、物流、医疗、教育等行业里开始创造价值。不过在国内,大数据的应用才刚刚萌芽,人才市场还不那么成熟,“你很难期望有一个全才来完成整个链条上的所有环节。更多公司会根据自己已有的资源和短板,招聘能和现有团队互补的人才。”领英(LinkedIn)中国商务分析及战略总监王昱尧对《第一财经周刊》说。于是每家公司对大数据工作的要求不尽相同:有的强调数据库编程、有的突出应用数学和统计学知识、有的则要求有咨询公司或投行相关的经验、有些是希望能找到懂得产品和市场的应用型人才。正因为如此,很多公司会针对自己的业务类型和团队分工,给这群与大数据打交道的人一些新的头衔和定义:数据挖掘工程师、大数据专家、数据研究员、用户分析专家等都是经常在国内公司里出现的Title,我们将其统称为“大数据工程师”。王昱尧认为,在一个成熟的数据驱动型公司,“大数据工程师”往往是一个团队,它意味着从数据的收集、整理展现、分析和商业洞察、以至于市场转化的全过程。这个团队中可能包括数据工程师、分析师、产品专员、市场专员和商业决策者等角色,共同完成从原始数据到商业价值的转换—概括来讲,这是一个支持企业做出商业决策、发掘商业模式的重要群体。由于国内的大数据工作还处在一个有待开发的阶段,因此能从其中挖掘出多少价值完全取决于工程师的个人能力。已经身处这个行业的专家给出了一些人才需求的大体框架,包括要有计算机编码能力、数学及统计学相关背景,当然如果能对一些特定领域或行业有比较深入的了解,对于其快速判断并抓准关键因素则更有帮助。虽然对于一些大公司来说,拥有硕博学历的公司人是比较好的选择,不过阿里巴巴集团研究员薛贵荣强调,学历并不是最主要的因素,能有大规模处理数据的经验并且有喜欢在数据海洋中寻宝的好奇心会更适合这个工作。除此之外,一个优秀的大数据工程师要具备一定的逻辑分析能力,并能迅速定位某个商业问题的关键属性和决定因素。“他得知道什么是相关的,哪个是重要的,使用什么样的数据是最有价值的,如何快速找到每个业务最核心的需求。”联合国百度大数据联合实验室数据科学家沈志勇说。学习能力能帮助大数据工程师快速适应不同的项目,并在短时间内成为这个领域的数据专家;沟通能力则能让他们的工作开展地更顺利,因为大数据工程师的工作主要分为两种方式:由市场部驱动和由数据分析部门驱动,前者需要常常向产品经理了解开发需求,后者则需要找运营部了解数据模型实际转化的情况。你可以将以上这些要求看做是成为大数据工程师的努力方向,因为根据万宝瑞华管理合伙人颜莉萍的观察,这是一个很大的人才缺口。目前国内的大数据应用多集中在互联网领域,有超过56%的企业在筹备发展大数据研究,“未来5年,94%的公司都会需要数据科学家。”颜莉萍说。因此她也建议一些原本从事与数据工作相关的公司人可以考虑转型。本期《第一财经周刊》采访了BAT这3家国内互联网公司,以及相关领域的人力资源专家,他们从职场角度为我们解读如何成为大数据工程师以及这类岗位的职场现状。A 大数据工程师做什么?用阿里巴巴集团研究员薛贵荣的话来说,大数据工程师就是一群“玩数据”的人,玩出数据的商业价值,让数据变成生产力。大数据和传统数据的最大区别在于,它是在线的、实时的,规模海量且形式不规整,无章法可循,因此“会玩”这些数据的人就很重要。沈志勇认为如果把大数据想象成一座不停累积的矿山,那么大数据工程师的工作就是,“第一步,定位并抽取信息所在的数据集,相当于探矿和采矿。第二步,把它变成直接可以做判断的信息,相当于冶炼。最后是应用,把数据可视化等。”因此分析历史、预测未来、优化选择,这是大数据工程师在“玩数据”时最重要的三大任务。通过这三个工作方向,他们帮助企业做出更好的商业决策。找出过去事件的特征大数据工程师一个很重要的工作,就是通过分析数据来找出过去事件的特征。比如,腾讯的数据团队正在搭建一个数据仓库,把公司所有网络平台上数量庞大、不规整的数据信息进行梳理,总结出可供查询的特征,来支持公司各类业务对数据的需求,包括广告投放、游戏开发、社交网络等。找出过去事件的特征,最大的作用是可以帮助企业更好地认识消费者。通过分析用户以往的行为轨迹,就能够了解这个人,并预测他的行为。“你可以知道他是什么样的人、他的年纪、兴趣爱好,是不是互联网付费用户、喜欢玩什么类型的游戏,平常喜欢在网上做什么事情。”腾讯云计算有限公司北京研发中心总经理郑立峰对《第一财经周刊》说。下一步到了业务层面,就可以针对各类人群推荐相关服务,比如手游,或是基于不同特征和需求衍生出新的业务模式,比如微信的电影票业务。预测未来可能发生的事情通过引入关键因素,大数据工程师可以预测未来的消费趋势。在阿里妈妈的营销平台上,工程师正试图通过引入气象数据来帮助淘宝卖家做生意。“比如今年夏天不热,很可能某些产品就没有去年畅销,除了空调、电扇,背心、游泳衣等都可能会受其影响。那么我们就会建立气象数据和销售数据之间的关系,找到与之相关的品类,提前警示卖家周转库存。”薛贵荣说。在百度,沈志勇支持“百度预测”部分产品的模型研发,试图用大数据为更广泛的人群服务。已经上线的包括世界杯预测、高考预测、景点预测等。以百度景点预测为例,大数据工程师需要收集所有可能影响一段时间内景点人流量的关键因素进行预测,并为全国各个景点未来的拥挤度分级—在接下来的若干天时间里,它究竟是畅通、拥挤,还是一般拥挤?找出最优化的结果根据不同企业的业务性质,大数据工程师可以通过数据分析来达到不同的目的。以腾讯来说,郑立峰认为能反映大数据工程师工作的最简单直接的例子就是选项测试(AB
Test),即帮助产品经理在A、B两个备选方案中做出选择。在过去,决策者只能依据经验进行判断,但如今大数据工程师可以通过大范围地实时测试—比如,在社交网络产品的例子中,让一半用户看到A界面,另一半使用B界面,观察统计一段时间内的点击率和转化率,以此帮助市场部做出最终选择。作为电商的阿里巴巴,则希望通过大数据锁定精准的人群,帮助卖家做更好的营销。“我们更期待的是你能找到这样一批人,比起现有的用户,这些人对产品更感兴趣。”薛贵荣说。一个淘宝的实例是,某人参卖家原来推广的目标人群是产妇,但工程师通过挖掘数据之间的关联性后发现,针对孕妇群体投放的营销转化率更高。B 需要具备的能力数学及统计学相关的背景就我们采访过的BAT三家互联网大公司来说,对于大数据工程师的要求都是希望是统计学和数学背景的硕士或博士学历。沈志勇认为,缺乏理论背景的数据工作者,更容易进入一个技能上的危险区域(DangerZone)—一堆数字,按照不同的数据模型和算法总能捯饬出一些结果来,但如果你不知道那代表什么,就并不是真正有意义的结果,并且那样的结果还容易误导你。“只有具备一定的理论知识,才能理解模型、复用模型甚至创新模型,来解决实际问题。”沈志勇说。计算机编码能力实际开发能力和大规模的数据处理能力是作为大数据工程师的一些必备要素。“因为许多数据的价值来自于挖掘的过程,你必须亲自动手才能发现金子的价值。”郑立峰说。举例来说,现在人们在社交网络上所产生的许多记录都是非结构化的数据,如何从这些毫无头绪的文字、语音、图像甚至视频中攫取有意义的信息就需要大数据工程师亲自挖掘。即使在某些团队中,大数据工程师的职责以商业分析为主,但也要熟悉计算机处理大数据的方式。对特定应用领域或行业的知识在颜莉萍看来,大数据工程师这个角色很重要的一点是,不能脱离市场,因为大数据只有和特定领域的应用结合起来才能产生价值。所以,在某个或多个垂直行业的经历能为应聘者积累对行业的认知,对于之后成为大数据工程师有很大帮助,因此这也是应聘这个岗位时较有说服力的加分项。“他不能只是懂得数据,还要有商业头脑,不论对零售、医药、游戏还是旅游等行业,能就其中某些领域有一定的理解,最好还是与公司的业务方向一致的,”就此薛贵荣还打了个比方,“过去我们说一些奢侈品店员势利,看人一眼就知道买得起买不起,但这群人恰恰是有敏锐度的,我们认为他们是这个行业的专家。又比如对医疗行业了解的人,他在考虑医疗保险业务时,不仅会和人们医院看病的记录相关,也会考虑饮食数据,这些都是基于对该领域的了解。”C 大数据工程师的职业发展如何成为大数据工程师由于目前大数据人才匮乏,对于公司来说,很难招聘到合适的人才—既要有高学历,同时最好还有大规模数据处理经验。因此很多企业会通过内部挖掘。今年8月,阿里巴巴举办了一个大数据竞赛,把天猫平台上的数据拿出来,去除敏感问题后,放到云计算平台上交予7000多支队伍进行比赛,比赛分为内部赛和外部赛。“通过这个方式来激励内部员工,同时也发现外部人才,让各行业的大数据工程师涌现出来。”颜莉萍建议,目前长期从事数据库管理、挖掘、编程工作的人,包括传统的量化分析师、Hadoop方面的工程师,以及任何在工作中需要通过数据来进行判断决策的管理者,比如某些领域的运营经理等,都可以尝试该职位,而各个领域的达人只要学会运用数据,也可以成为大数据工程师。薪酬待遇作为IT类职业中的“大熊猫”,大数据工程师的收入待遇可以说达到了同类的顶级。根据颜莉萍的观察,国内IT、通讯、行业招聘中,有10%都是和大数据相关的,且比例还在上升。颜莉萍表示,“大数据时代的到来很突然,在国内发展势头激进,而人才却非常有限,现在完全是供不应求的状况。”在美国,大数据工程师平均每年薪酬高达17.5万美元,而据了解,在国内顶尖互联网类公司,同一个级别大数据工程师的薪酬可能要比其他职位高20%至30%,且颇受企业重视。职业发展路径由于大数据人才数量较少,因此大多数公司的数据部门一般都是扁平化的层级模式,大致分为数据分析师、资深研究员、部门总监3个级别。大公司可能按照应用领域的维度来划分不同团队,而在小公司则需要身兼数职。有些特别强调大数据战略的互联网公司则会另设最高职位—如阿里巴巴的首席数据官。“这个职位的大部分人会往研究方向发展,成为重要数据战略人才。”颜莉萍说。另一方面,大数据工程师对商业和产品的理解,并不亚于业务部门员工,因此也可转向产品部或市场部,乃至上升为公司的高级管理层。另外给你推荐一个不错的公众号,idacker 对于初学者还是有不少帮助。
约翰霍普金斯大学(Johns Hopkins University)和现在网络课程领头的网站Coursera(CEO是前耶鲁大学历史上tenure最久的校长)开了一个数据科学的系列课程,只针对R,一共九门课加一个结业项目:课程如下(有中文版课程,但建议上原版):1、The Data Scientist's Tool box2、R Programming3、Getting and Cleaning Data4、Exploratory Data Analysis5、Reproducible Research6、Statistical Inference7、Regression Models8、Practical Machine Learning9、Developing Data ProductsCapstone此课程系列上的人极多,放弃的人极多,真的完整拿下来的人很少。如果要考虑成为数据科学家data scientist而不是数据分析师data analyst,可以参考一下美国行业对senior level从业人员的入职要求(qualifications)。数据科学既广又精,是统计和CS的结合但又比两者都难,建议先把一门数据语言(如R),或一门scripting语言(如Python)学通透,再开始横向铺陈,完善统计、scripting、编程的数据科学家构造:1) Proficiency with at least one programming language, e.g., J2) Proficiency with at least one scripting language, e.g., P3) Proficiency with at least one data programming language, e.g., R/SAS;4) Proficiency with SQL (some as a plus, some as a requirement);5) B.S. in Applied math/CS/CompEngineering, with at least 5-7 years of professional experie Ms., 3-5 PhD, 0-3 years我刚走上这条康庄大坑,共勉
我是一家大数据网站的网络编辑,分享下我的经验。因为我所在的网站主要发布大数据相关的行业新闻和知识内容,所以我需要了解大数据的一些基本信息。我先在百度知道等提问性平台上,寻找大数据的一些最基本的回答,这些回答很简单,通俗易懂,比许多专业书籍的解释更好理解。我随后又查阅了大数据的百科资料,算是进一步了解。随后,我根据自己了解的大数据的基本资料,拓展出一些更深入的大数据知识:大数据分析、大数据分析工具、大数据挖掘、大数据政策等等,从而让自己心里建立了第一层大数据知识结构。在寻找大数据相关资料的同时,我慢慢地又发现了云计算、Hadoop、Spark等相关内容,随后我又更深入地了解这些信息,当然,我对这些内容的认识只存在最基本的概念或者应用的了解,不过通过这样一层一层的知识结构的完善,一个知识点一个知识点的了解,我对大数据还是有了自己的见解,虽然粗浅,但是,对于曾经还是门外汉的我,已经完全足够。
JHU好像有个数据科学家系列可以参考参考。唔,我个人是这样觉得的:复习一下统计,学学SAS和R的操作,你就可以做一些事情了。学学tableau或者高阶excel,你就可以说你懂得数据可视化了。再上几节SQL的课,你就算了解数据库的知识了。再学学JAVA或者Python,把SPSS过一下。这些都不怎么难。然后就可以上数据挖掘和算法了。在学这些的同时学学高阶统计,时序分析,用用 MapReduce/Hadoop等等。大概得花个小半年吧。大概的分析的活就能理解了。statistical method by Cochran & SnedecorSAS- the little SAS book
大数据往大的说是一种思维方式,也是一种哲学,基于这样的前提下,对应的现有的各个岗位的细分,可以得到如下几个有趣的样子,数据分析师(商业)对应的现在的行业咨询,数据开发工程师 对应的 现在的前端开发、后端开发,数据架构师(解决方案方向)对应的架构师等等,可以看到这种思路下任何职位加上数据都可以产生一种新的岗位,目前对于数据的认识只是在于开发,产品,数据统计或者挖掘这些可见工种,后续会发展为 数据运营工程师,建模算法工程师、数据产品经理、数据交互设计师、数据视觉设计师等等等,说了一大段都是跑题的,大数据如何入门呢,主要还是要看你的方向是那块,如果是开发,那java,hadoop等编程语言,如果是运营方向,可以是市场学,经济理论,sql、hive,如果是建模类的就涉及到算法,数据结构 如果是商业大数据分析师的话 就是 行业咨询理论+sas、hive等分析取数工具
已有帐号?
无法登录?
社交帐号登录

我要回帖

 

随机推荐