java大数据学习路线线那个最好

最近学习大数据,感觉不好入门,有没有IT达人给点建议,怎么才能快速入门啊。给个攻略,谢谢!自己找了个中文的书《大数据(Big_Data)专题研究报告大数据_大市场_大机遇.pdf》,其他用BIG DATA搜了几篇英文文献。还有好的入门方法没?
涂子沛先生。《大数据:正在到来的数据革命》通过讲述美国半个多世纪信息开放、技术创新的历史,以别开生面的经典案例——奥巴马建设“前所未有的开放政府”的雄心、公共财...
现在的一些书,有些必须要选择的去看,比如”旧制度与大革命“需要我们认真的看了后考虑,然后得出结论,分析当前社会的具体情况。
推荐你两款比较好的数据库软件。
优点: 1.支持5000万条记录的数据仓库
2.适应于所有的平台
3.是开源软件,版本更新较快
4.性能很出色。纯...
统计数据是可信的,但千万不能忘了统计中的"二元因素" 比如:
国家统计局近日公布,将在明年公布的全国平均工资水平中正式纳入民企职工的平均工资,什么概念呢? 就是...
你这问的太笼统了吧 老大 你是想问nosql啊 还是啥啊
答: 你的说法不合适,必须指出血清学这三项感染性指标都是阴性。所以不能省略,否则会引起误解。
答: 计算机网络这块太深了!谈看己法:
多媒体的体的发展离不开计算机网络,计算机网络也必将是向多媒体发展的趋势。从计算机网络功能来讲她主要抱括四种:能够进行数据通信、...
答: 到以下网站看一看,说不定有收获。
大家还关注
确定举报此问题
举报原因(必选):
广告或垃圾信息
激进时政或意识形态话题
不雅词句或人身攻击
侵犯他人隐私
其它违法和不良信息
报告,这不是个问题
报告原因(必选):
这不是个问题
这个问题分类似乎错了
这个不是我熟悉的地区
相关问答:123456789101112131415发送私信成功
满足所有需求,助您轻松工作
一言不合就学习:大数据学习路线&资源集合
11:17 && 浏览量(4520) &&
大数据最近几年很火,如果你去问读研的小伙伴,搞计算机的,我相信不是搞数据处理就是搞机器学习的,这都属于大数据的范畴。虽然大数据很火,但是网上的资源却比较少,主要是很零碎,不成体系。
当然,想要搞大数据,数学知识诸如:高等数学,线性代数,概率论,统计学……是必不可少的,我这里就不介绍这些相关资源了;当然也不整理算法啦、数据结构啦、具体的语言学习啦这些基础知识;那肯定更不会整理大数据相关的具体业务应用或者处理啦,毕竟这个是需要经验的。
我主要是想整理一些相对而言比较成体系的大数据教程,其次会分享一些相关的网站、文章和资源,希望对想学习大数据的小伙伴有所帮助~
一、大数据学习路线及脑图:
我比较认同在开始学习前摸清大概的方向,清楚自己想要往哪个方向发展,知道基本的背景知识以及基础知识,这样学习起来才不会迷茫,才有方向感。
一般比较常见的数据技术岗位有:算法挖掘、数据仓库、架构师、ETL研发和分析技术等相关的岗位,强烈建议想往大数据方向发展的小伙伴多去各大招聘网站看看关于大数据相关岗位的招聘要求,非常有助于了解到底应该学什么。
下面分享的前三张图片是大数据脑图,后面是一些关于大数据学习路线的文章。希望你看完这些后对于方向有个大概的把握,而不只是笼统的想要搞大数据。
1)大数据脑图:
2)大数据工程师 - 学习路径 - 实验楼:
3)png-BigData-by-StuQ
上面三张图片应该可以清楚的了解到大数据相关技术包含哪些,就是说想要搞大数据就离不开上面所说的各种技术,你就需要掌握上面的技能,当然具体该掌握哪些技能,就看自己的发展方向了。
下面是一些文章以及问答,也推荐看看:
· 问答网站Quora上精华帖
二、学习网站:
上面是基础知识、背景知识的了解,了解之后就需要学习啦,这里介绍几个可以学习大数据的网站。
coursera 上有个数据科学分类,进入就可以看到数据分析、机器学习,每个小分类里面有多门课程,可以选择自己感兴趣的进行学习,是比较系统的课程。
实验楼上关于大数据的教程,主要是hadoop、spark、Python的教程比较多,算是比较系统,R语言的教程也有,更有实践项目可以学习,重要的是拥有在线开发环境,这对于大数据的学习非常方便。
慕课网上关于大数据的教程呢,比较零碎,但是还是可以找到想了解的技术教程。
· 网易云课堂
云课堂上的教程质量参差不齐,开课者也是五花八门,上面关于大数据方面的教程呢,想学习是需要好好挑选一番的。
· CSDN-知识库
CSDN的这个大数据知识库呢,可以找到一些资源,不过也是比较零碎,资源的好坏需要自己筛选一番。
当然书籍也是需要看的,毕竟书籍系统、全面,嗯~我这里就不整理推荐的书籍资源了,该看什么书籍、想看什么书籍,我想每个人的需求都不同。
三、其他一些网站:
上面介绍的是学习网站,基本都是中文,下面分享一些其他关于大数据的网站,也能找到相应的资讯和教程。
:了解大数据相关资讯;
:可以学习大数据相关的文章和课程;
: 主要是架构设计方面;
:大数据相关论坛;
当然,除了上面推荐的网站,在其他一些你比较常逛的网站里,我相信也能找到大数据相关的文章或者资讯,自己有留意就好。
四、一些资源集合:
下面整理一些大数据相关的资源合集,里面都可以找到不错的资源。
· (英文)、()
· (英文)
· (英文)
五、关于大数据应用比较有趣的网站:
其实关于大数据的应用有很多,其中基于大数据方面的数据可视化比较有趣,因此这里分享几个有趣的大数据应用网站。
网站由防毒软件提供,卡巴斯基制作的 Cybermap ,这个作品能实时展现现在世界上有多少起服务器攻击事件。点进去之后,可以看到地球上纵横交错地飞舞着蓝色、绿色、红色线条,这些就是表示服务器攻击事件。
可以实时的展示出Apple的相关数据,比如卖了多少产品啊,有多少APP被下载啊……,比较有趣;
全世界各大网站的可视化,网站都用圆形表示,圆的大小表示网站的访问量。中国是黄色,美国是蓝色,日本是紫色,欧洲是红色。可以搜索相应的国家看到详细的情况,看到那个黄色的最大的圆圈没?那就是中国访问量最高的网站,百度。
百度预测里面的高考预测也是一个蛮有趣的大数据应用,可以看到每个学校的报考难易程度。
啊,一下子太多了,整理的头都痛了,先暂时这样,以后慢慢添加进来~
以上就是我整理的关于大数据学习相关的资源,相信对于初学者还是有一定的帮助,如果你有其他的相关资源,欢迎评论给我,我添加进来啊~
编辑推荐:
& 收藏(4) 收藏 +1 已收藏 取消
& 推荐上头条 推荐 +1 推荐上头条 已推荐
文章上传作者
youyouhou的热门文章
暂时没有热门文章噢~&
开发者交流群:
DevStore技术交流群2:
运营交流群:
产品交流群:
深圳尺子科技有限公司
深圳市南山区蛇口网谷万海大厦C栋504
Copyright (C) 2015 DevStore. All Rights Reserved
DevStore用户登录
还没有DevStore帐号?
快捷登录:大数据技术学习路线指南_图文-1
34 2 大数据技术学习路线指南 [一]大数据是什么大数据技术作为决策神器,日益在社会治理和企业管理中起到不容忽视的作用,美国,欧盟都已经将大数 据研究和使用列入...
意见反馈 下载客户端 新闻 网页 贴吧 知道 音乐 图片 视频 地图 百科文库| 搜...数据挖掘学习路线 5页 1下载券
大数据技术学习路线指南 5页 1下载券
新闻 网页 贴吧 知道 音乐 图片 视频 地图 百科文库 搜试试 3 帮助 全部 ...大数据技术学习路线指南 5页 免费
大数据学习第一周 暂无评价 11页 免费
大数据开发学习路线(图文... 暂无评价 9页 免费 北京大数据学习路线 暂无评价 4页 免费 大数据技术学习路线指南 暂无评价 3页 免费 2017大数据学习路线图―.....
大数据路线及学习资料有哪些?众所...几乎每所大学里都有计算机技术相关专业, 再加上 IT...数据可 视化工具包, 数据清洗, 序列化指南等等。 ...
网页 新闻 贴吧 知道 音乐 图片 视频 地图 文库 |...给入门者 大数据分析工具的十条学习路径_计算机软件...不同技术背景的 IT 专业人士整理了十条 大数据分析...
大数据分析培训机构学习路线_计算机软件及应用_IT/...网络编程 RPC 技术、多线程、线程 池 数据仓库基础...图片等比例/特殊设计的布局 - 等比缩放布局 - ...
大数据技术的初步认识_计算机软件及应用_IT/计算机_专业资料。这篇内容是对大数据的一个初步认识,对想学习大数据的人来说,是一篇很好的资料。...
大数据技术学习必须要掌握的技术_学习总结_总结/汇报_实用文档。 大数据技术学习必须要掌握的技术根据职位从开放到关闭时所经历的平均天数来衡量各个... 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
大数据经典学习路线
下载积分:2088
内容提示:大数据经典学习路线
文档格式:DOCX|
浏览次数:30|
上传日期: 22:00:42|
文档星级:
全文阅读已结束,如果下载本文需要使用
 2088 积分
下载此文档
该用户还上传了这些文档
大数据经典学习路线
关注微信公众号53844人阅读
技术学习路线(6)
1.Linux基础和分布式集群技术
学完此阶段可掌握的核心能力:
熟练使用Linux,熟练安装Linux上的软件,了解熟悉负载均衡、高可靠等集群相关概念,搭建互联网高并发、高可靠的服务架构;
学完此阶段可解决的现实问题:
搭建负载均衡、高可靠的服务器集群,可以增大网站的并发访问量,保证服务不间断地对外服务;
学完此阶段可拥有的市场价值:
具备初级程序员必要具备的Linux服务器运维能力。
1.内容介绍:
在大数据领域,使用最多的操作系统就是Linux系列,并且几乎都是分布式集群。该课程为大数据的基础课程,主要介绍Linux操作系统、Linux常用命令、Linux常用软件安装、Linux网络、防火墙、Shell编程等。
2.案例:搭建互联网高并发、高可靠的服务架构。
2.离线计算系统课程阶段
1. 离线计算系统课程阶段
HADOOP核心技术框架
学完此阶段可掌握的核心能力:
1、通过对大数据技术产生的背景和行业应用案例了解hadoop的作用;2、掌握hadoop底层分布式文件系统HDFS的原理、操作和应用开发;3、掌握MAPREDUCE分布式运算系统的工作原理和分布式分析应用开发;4、掌握HIVE数据仓库工具的工作原理及应用开发。
学完此阶段可解决的现实问题:
1、熟练搭建海量数据离线计算平台;2、根据具体业务场景设计、实现海量数据存储方案;3、根据具体数据分析需求实现基于mapreduce的分布式运算程序;
学完此阶段可拥有的市场价值:
具备企业数据部初级应用开发人员的能力
1.1 HADOOP快速入门
1.1.1 hadoop知识背景
什么是hadoop、hadoop产生背景、hadoop在大数据云计算中的位置和关系、国内hadoop的就业情况分析及课程大纲介绍
国内外hadoop应用案例介绍
分布式系统概述、hadoop生态圈及各组成部分的简介
1.1.2 HIVE快速入门
hive基本介绍、hive的使用、数据仓库基本知识
1.1.3 数据分析流程案例
web点击流日志数据挖掘的需求分析、数据来源、处理流程、数据分析结果导出、数据展现
1.1.4 hadoop数据分析系统集群搭建
集群简介、服务器介绍、网络环境设置、服务器系统环境设置、JDK环境安装、hadoop集群安装部署、集群启动、集群状态测试
HIVE的配置安装、HIVE启动、HIVE使用测试
1.2 HDFS详解
1.2.1 HDFS的概念和特性
什么是分布式文件系统、HDFS的设计目标、HDFS与其他分布式存储系统的优劣势比较、HDFS的适用场景
1.2.2 HDFS的shell操作
HDFS命令行客户端启动、HDFS命令行客户端的基本操作、命令行客户端支持的常用命令、常用参数介绍
1.2.3 HDFS的工作机制
HDFS系统的模块架构、HDFS写数据流程、HDFS读数据流程
NAMENODE工作机制、元数据存储机制、元数据手动查看、元数据checkpoint机制、NAMENODE故障恢复、DATANODE工作机制、DATANODE动态增减、全局数据负载均衡
1.2.4 HDFS的java应用开发
搭建开发环境、获取api中的客户端对象、HDFS的java客户端所具备的常用功能、HDFS客户端对文件的常用操作实现、利用HDFS的JAVA客户端开发数据采集和存储系统
1.3 MAPREDUCE详解
1.3.1 MAPREDUCE快速上手
为什么需要MAPREDUCE、MAPREDUCE程序运行演示、MAPREDUCE编程示例及编程规范、MAPREDUCE程序运行模式、MAPREDUCE程序调试debug的几种方式
1.3.2 MAPREDUCE程序的运行机制
MAPREDUCE程序运行流程解析、MAPTASK并发数的决定机制、MAPREDUCE中的combiner组件应用、MAPREDUCE中的序列化框架及应用、MAPREDUCE中的排序、MAPREDUCE中的自定义分区实现、MAPREDUCE的shuffle机制、MAPREDUCE利用数据压缩进行优化、MAPREDUCE程序与YARN之间的关系、MAPREDUCE参数优化
通过以上各组件的详解,深刻理解MAPREDUCE的核心运行机制,从而具备灵活应对各种复杂应用场景的能力
MAPREDUCE实战编程案例:通过一个实战案例来熟悉复杂MAPREDUCE程序的开发。该程序是从nginx服务器产生的访问服务器中计算出每个访客的访问次数及每次访问的时长。原始数据样例如下:
通过一系列的MAPREDUCE程序——清洗、过滤、访问次数及时间分析,最终计算出需求所要的结果,用于支撑页面展现:
1.4 HIVE增强
1.4.1 HIVE基本概念
HIVE应用场景、HIVE内部架构、HIVE与hadoop的关系、HIVE与传统数据库对比、HIVE的数据存储机制、HIVE的运算执行机制
1.4.2 HIVE基本操作
HIVE中的DDL操作、HIVE中的DML操作、在HIVE中如何实现高效的JOIN查询、HIVE的内置函数应用、HIVE shell的高级使用方式、HIVE常用参数配置、HIVE自定义函数和TRANSFORM的使用技巧、HIVE UDF开发实例
1.4.3 HIVE高级应用
HIVE执行过程分析及优化策略、HIVE在实战中的最佳实践案例、HIVE优化分类详解、HIVE实战案例--数据ETL、HIVE实战案例--用户访问时长统计
HIVE实战案例--级联求和报表实例:
离线数据挖掘系统
学完此阶段可掌握的核心能力:
1、通过对数据仓库知识的加强初步掌握数据仓库的核心概念和设计流程;2、通过对HADOOP生态圈关键辅助工具的学习掌握hadoop分析系统的整合能力;3、通过电商系统点击流日志数据挖掘系统实战项目,掌握hadoop离线数据挖掘系统从数据采集、入库、分析及报表展现的整套流程
学完此阶段可解决的现实问题:
1、可根据企业具体场景设计海量数据分析系统的通用架构2、根据具体场景的特点有针对性地调整数据分析各环节的技术选型;3、根据具体需求搭建起整套离线数据分析系统;4、简单数据仓库模型的设计和架构5、各环节具体功能模块的开发实现
学完此阶段可拥有的市场价值:
具备企业数据部中高级应用开发和初级架构师能力
2.1 数据仓库增强
2.1.1 数据仓库及数据模型入门
什么是数据仓库、数据仓库的意义、数据仓库核心概念、数据仓库的体系结构
2.1.2 数据仓库设计
建立数据仓库的步骤、数据的抽取、数据的转换、数据的加载、什么是数据模型、数据模型的常见类型、如何设计数据模型、如何选择数据建模的架构
典型数据模型——星型建模实例
2.1.3 数据仓库建模样例
业务建模、领域建模、逻辑建模、物理建模
web点击流日志分析系统数据仓库设计实战:
通过对数据特点和业务需求的分析,关系梳理,设计出一个主题明确、层次合理的数据模型
2.2 离线辅助系统
2.2.1 数据采集系统
数据采集概念介绍
FLUME日志采集框架介绍、FLUME工作机制、FLUME核心组件、FLUME参数配置说明、FLUME采集nginx日志实战案例
2.2.2 任务调度系统
任务调度系统概念介绍、常用任务调度工具比较、OOZIE介绍、OOZIE核心概念、OOZIE的配置说明、OOIZE实现mapreduce/hive等任务调度实战案例
2.2.3 数据导出
数据导出概念介绍、SQOOP基础知识、SQOOP原理及配置说明、SQOOP数据导入实战、SQOOP数据导出实战、SQOOP批量作业操作
2.3 web点击流日志分析系统实战项目
2.3.1 项目介绍
1. 在PC时代,营销的核心是购买,在移动互联网时代,其核心是如何实现用户个性化互动,对用户传播更为精准化的内容,而实现这一核心的基础就是对数据的管理和分析——数据驱动型商业模型。
2. 各类互联网服务产品(如网站、APP)都可以通过前端技术获取用户的详细行为数据(如访问的页面,点击的区域、登陆的频次、注册行为、购买的行为等),将这些点击流日志数据与后台商业数据综合起来,就可以挖掘对公司运营决策意义非凡的商业价值。
3. 本项目则是一个用大数据技术平台实现的点击流日志分析数据挖掘系统,项目内容涵盖一个典型数据挖掘系统中,包括需求分析、数据采集、数据存储管理、数据清洗、数据仓库设计、ETL、业务模型统计分析、数据可视化的全部流程。
2.3.2 需求分析
什么是点击流日志、点击流日志的商业价值、点击流日志分析需求
业务模型指标体系设计——流量分析、来源分析、受访分析、访客分析、转化率分析
2.3.3 系统设计及开发
1. 系统架构设计
2. 数据采集设计及开发——数据格式、数据内容分析、数据生成规律、采集系统技术选型解析、FLUME采集系统实现
3. 数据存储设计及开发——存储技术选型、存储业务流程解析、存储目录规划及文件命名规则、小文件合并实现
4. 数据统计设计及开发——数据预处理、数据加载、原始数据表的创建、数据入库、数据ETL
5. 报表统计设计——数据模型设计、事实表设计、维度表梳理
6. 业务指标设计及开发——PV统计(时间维度、终端维度、地域维度)、来访次数统计(时间维度、地域维度、终端维度)、独立访客统计(时间维度、终端维度、地域维度)、受访页面统计(时间维度、栏目维度)、页面热点图、转化率分析、来源关键词分析、来源搜索引擎分析、来源广告推广分析
2.3.4 任务调度系统设计实现
任务调度单元实现、各环节任务运行频次及依赖关系梳理、工作流设计及实现、工作流定义配置上传部署、工作流启动即状态监控
2.3.5 数据可视化——结果报表展现
1. hive分析结果使用sqoop导出到msyql数据库
2. 报表展现系统技术选型:
后台使用spingmvc + spring + mybatis
前端页面使用全静态异步刷新技术Jquery + Echarts
3. web展现程序架构搭建,使用maven构建项目工程
4. web展现程序页面设计开发:原型页面设计、js代码开发
5. 最终实现以下数据可视化效果:
(1)流量概况可视化效果:
(2)来源地域分析可视化效果:
(3)来源类型分析可视化效果:
3.Storm实时计算部分阶段
实时课程分为两个部分:流式计算核心技术和流式计算计算案例实战。
1.流式计算核心技术
流式计算核心技术主要分为两个核心技术点:Storm和Kafka,学完此阶段能够掌握Storm开发及底层原理、Kafka的开发及底层原理、Kafka与Storm集成使用。具备开发基于storm实时计算程序的技术能力。
学完此阶段可掌握的核心能力:
(1)、理解实时计算及应用场景
(2)、掌握Storm程序的开发及底层原理、掌握Kafka消息队列的开发及底层原理
(3)、具备Kafka与Storm集成使用的能力
学完此阶段可解决的现实问题:
具备开发基于storm的实时计算程序的能力
学完此阶段可拥有的市场价值:
具备实时计算开发的技术能力、但理解企业业务的能力不足
1.1、流式计算一般结构
2011年在海量数据处理领域,Hadoop是人们津津乐道的技术,Hadoop不仅可以用来存储海量数据,还以用来计算海量数据。因为其高吞吐、高可靠等特点,很多互联网公司都已经使用Hadoop来构建数据仓库,高频使用并促进了Hadoop生态圈的各项技术的发展。一般来讲,根据业务需求,数据的处理可以分为离线处理和实时处理,在离线处理方面Hadoop提供了很好的解决方案,但是针对海量数据的实时处理却一直没有比较好的解决方案。就在人们翘首以待的时间节点,storm横空出世,与生俱来的分布式、高可靠、高吞吐的特性,横扫市面上的一些流式计算框架,渐渐的成为了流式计算的首选框架。如果庞麦郎在的话,他一定会说,这就是我要的滑板鞋!
上图是流式分析的一般架构图,抽象出四个步骤就是数据采集、数据缓冲、数据处理、数据输出。一般情况下,我们采用Flume+kafka+Storm+Redis的结构来进行流式数据分析。实时部分的课程主要是针对Kafka、Storm进行学习
1.2、流式计算可以用来干什么
一淘-实时分析系统:实时分析用户的属性,并反馈给搜索引擎。最初,用户属性分析是通过每天在云梯上定时运行的MR job来完成的。为了满足实时性的要求,希望能够实时分析用户的行为日志,将最新的用户属性反馈给搜索引擎,能够为用户展现最贴近其当前需求的结果。
携程-网站性能监控:实时分析系统监控携程网的网站性能。利用HTML5提供的performance标准获得可用的指标,并记录日志。Storm集群实时分析日志和入库。使用DRPC聚合成报表,通过历史数据对比等判断规则,触发预警事件。
一个游戏新版本上线,有一个实时分析系统,收集游戏中的数据,运营或者开发者可以在上线后几秒钟得到持续不断更新的游戏监控报告和分析结果,然后马上针对游戏的参数和平衡性进行调整。这样就能够大大缩短游戏迭代周期,加强游戏的生命力。
实时计算在腾讯的运用:精准推荐(广点通广告推荐、新闻推荐、视频推荐、游戏道具推荐);实时分析(微信运营数据门户、效果统计、订单画像分析);实时监控(实时监控平台、游戏内接口调用)
为了更加精准投放广告,阿里妈妈后台计算引擎需要维护每个用户的兴趣点(理想状态是,你对什么感兴趣,就向你投放哪类广告)。用户兴趣主要基于用户的历史行为、用户的实时查询、用户的实时点击、用户的地理信息而得,其中实时查询、实时点击等用户行为都是实时数据。考虑到系统的实时性,阿里妈妈使用Storm维护用户兴趣数据,并在此基础上进行受众定向的广告投放。
1.3、Storm核心技术点
基础技术点
linux环境准备、zookeeper集群搭建、Storm集群搭建、Storm配置文件配置项讲解、集群搭建常见问题解决。
Storm练习案例
根据蚂蚁金服提供的最新数据,今年双十一的交易峰值为8.59万笔/秒,是去年3.85万笔/秒的2.23倍。这一数据也超过了6万笔/秒的预估。如何实时的计算订单金额,让公司领导层看到呢?
(图为双十一支付宝成交金额)
Storm基础及原理
Storm常用组件和编程API:Topology、 Spout、Bolt、Storm分组策略(stream groupings)、Storm项目maven环境搭建、使用Strom开发一个WordCount例子、Storm程序本地模式debug、Storm消息可靠性及容错原理、Storm任务提交流程、Strom消息容错机制。
(图为storm组件)
1.4、Kafka核心技术点
Storm结合消息队列Kafka:消息队列基本概念(Producer、Consumer、Topic、Broker等)、消息队列Kafka使用场景、Storm结合Kafka编程API、Kafka负载均衡、Kafka消息存储原理等。
(图为Kafka消息队列原理)
2.流式计算案例实战
实战案例部分主要有三个企业实战案列,分别是基于点击流的日志分析系统、基于系统日志的监控告警系统、基于订单系统的交易风控系统,三个案列是企业中的典型项目。学完此阶段能够独立根据企业的业务性质开发相关的storm程序。
学完此阶段可掌握的核心能力:
1、掌握企业核心业务需求
2、掌握实时系统常见的开发流程及运营经验
学完此阶段可解决的现实问题:
可以独立开发storm程序来满足业务需求
学完此阶段可拥有的市场价值:
熟练学习和掌握后,可满足企业开发的初级需求,根据市场反馈数据看,薪资普遍在&元/月。
2.1、案例:流量日志分析
流量日志分析之漏斗模型:大型电商网站,上亿规模的用户,千万级别的活跃用户,如何评估一个商品专题页面的效果好不好呢?比如:浏览次数、加入购物车次数、下单次数、支付次数、完成。
(图为日志分析漏斗模型-数据部必备)
流量日志分析之基础数据分析:电商网上商品数量在千万级别,店铺数量在百万级别,如何实时的计算一个每个商品页的访问数、用户数、来源信息等基础信息呢?如何实时的计算每个店铺的访问数、用户数、来源信息等基础数据呢?
(图为页面浏览分析-数据部必备)
2.2、案例:统一监控告警系统
随着公司业务发展,支撑公司业务的各种系统越来越多,为了保证公司的业务正常发展,急需要对这些线上系统的运行进行监控,做到问题的及时发现和处理,最大程度减少对业务的影响。不同业务的会有几十上百台服务器去支撑,大型企业可能是成千上万台服务器,那么每台服务器的硬件状态、业务应用状态如何实时的监控,做到及时发现,快速解决问题呢?
(图为企业产生日志的系统清单)
统一监控系统触发的短信告警
统一监控系统触发的邮件告警
2.3、案例:交易风控系统
电子商务是以互联网络为平台的贸易新模式,它的一个最大特点是强调参加交易的各方和所合作的伙伴都要通过Internet密切结合起来,共同从事在网络环境下的商业电子化应用。用户信息容易受到计算机病毒、黑客的攻击,商业信息和数据易于搭截侦听、口令试探和窃取,为了防止用户信息异常给商家和用户带来不必要的损失,企业期望针对用户的订单进行分析,对触发规则的订单进行风险预警,在必要情况下进行拦截及锁定订单。
(图为订单异常拦截)
4.Spark内存计算阶段
学完此阶段可掌握的核心能力:
1.掌握Scala函数式编程特性,熟练使用Scala开发程序,可以看懂其他用Scala编写源码。
2.搭建Spark集群、使用Scala编写Spark计算程序,熟练掌握Spark原理,可以阅读Spark源码。
3.理解DataFrame和RDD之间的关系,熟练使用DataFrame的API,熟练使用Spark SQL处理结构化数据,通过Spark SQL对接各种数据源,并将处理后结果写回到存储介质中。
4.理解Spark Streaming的核心DStream,掌握DStream的编程API并编写实时计算程序。
学完此阶段可解决的现实问题:
熟练使用Scala快速开发Spark大数据应用,通过计算分析大量数据,挖掘出其中有价值的数据,为企业提供决策依据。
学完此阶段可拥有的市场价值:
学习完spark并掌握其内容,将具备中级大数据工程师能力,薪水可以达到&20K~25K。
1.Scala函数式编程
介绍:Scala是一门集面向对象和函数式编程与一身的编程语言,其强大的表达能力、优雅的API、高效的性能等优点受到越来越多程序员的青睐。Spark底层就是用Scala语言编写,如果想彻底掌握Spark,就必须学好Scala。
案例:Scala编程实战,基于Akka框架,编写一个简单的分布式RPC通信框架
2.使用Spark处理离线数据
介绍:Spark是基于内存计算的大数据并行计算框架,具有高容错性和高可伸缩性,可以在大量廉价硬件之上部署大规模集群,在同等条件下要比Hadoop快10到100倍。
3.使用Spark SQL处理结构化数据
介绍:Spark SQL的前身是Shark,专门用来处理结构化的数据,类似Hive,是将SQL转换成一系列RDD任务提交到Spark集群中运行,由于是在内存中完成计算,要比hive的性能高很多,并且简化了开发Spark程序的难度同时提高了开发效率。
4.使用Spark Streaming完成实时计算
介绍:Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、window等进行运算。而结果也能保存在很多地方,如HDFS,数据库等。另外Spark Streaming也能和MLlib(机器学习)以及Graphx完美融合
5.Spark综合项目:
介绍:该项目使用了Spark SQL和Spark Streaming对游戏整个生命周期产生的数据进行了分析,从玩家第一次登录游戏到每天产生的游戏日志,通过大量的数据来分析该游戏的运营情况和玩家的各种行为:如活跃用户、用户留存、充值比例、游戏收人、外挂分析等。
通过玩家登录游戏产生的数据分析一天之内各个时间段进入游戏的情况
通过玩家登陆游戏产生的数据分析玩家在全国地区的分步情况,调整广告投放策略
用户留存指标可以分析游戏对玩家的吸引力,分析用户流失原因
用户等级信息可以分析玩家等等级分布情况、调整装备爆率和游戏难度
通过上面游戏各个数据指标的分析,可以让游戏运维者了解游戏的运维情况,为运维者提供各种个性化的调整策略,从而保证游戏健康、稳定的运营。
&&相关文章推荐
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
访问:404920次
积分:5218
积分:5218
排名:第5997名
原创:163篇
转载:155篇
评论:63条
文章:14篇
阅读:10888
文章:13篇
阅读:8964
文章:25篇
阅读:12421
阅读:3096
文章:23篇
阅读:18595
阅读:7211
文章:13篇
阅读:42881
文章:29篇
阅读:25354
文章:19篇
阅读:51230
(window.slotbydup = window.slotbydup || []).push({
id: '4740887',
container: s,
size: '250,250',
display: 'inlay-fix'

我要回帖

更多关于 大数据学习路线(完整详细版) 的文章

 

随机推荐