YARN 开源框架方面的学习资料哪里有?

微软开源大数据框架 REEF - 开源软件 - ITeye资讯
微软开发了一个名为REEF(Retainable Evaluator Execution Framework)的大数据框架,并计划在一个月左右将其开源。
8月12日上午,在芝加哥举行的Knowledge Mining and Data Discovery国际会议上,微软技术研究员兼信息服务CTO Raghu Ramakrishnan介绍了REEF框架和微软的开源计划。
REEF运行在YARN的上层。,通过YARN,用户可以运行和管理同一个物理集群机上的多种作业,例如MapReduce批处理和图形处理作业。这样不仅可以巩固一个组织管理的系统数目,而且可以对相同的数据进行不同类型的数据分析。某些情况下,整个数据流可以执行在同一个集群机上。
Ramakrishnan表示,对于某些类型的作业,例如机器学习,YARN并不是一个理想的框架,因为这些作业对于数据传输、任务监控和结果集迭代等方面有一些特殊的要求。
而REEF可以解决这些问题。REEF分为两个部分:Evaluator和Activity。Evaluator是YARN的容器,包括REEF服务和Activity(用户代码)都运行在Evaluator内。Ramakrishnan展示了一个工作流示例,YARN可以向上构建一个Evaluator,Activity代码会在Evaluator运行和完成,这时同一个Evaluator可以再次恢复初始状态运行起来,以便其他的Activity继续运行。
从理论上来说,REEF是一个有趣的技术,它试图去解决一些公司进行数据分析时的遗留问题。同时值得注意的是,REEF在某种程度上表明了微软拥抱Hadoop和开源的强烈意愿。几年前,微软只是。而现在,它也在推动Hadoop社区的工作并提高自身代码的开放度。
原文链接:
相关资源推荐Hadoop 2&0&YARN&HDFS&学习资料汇总
本文档整理了迄今为止Hadoop 2.0(包括YARN和HDFS2)相关的一些学习资料,包括文档、技术博客、Hadoop书籍等,欢迎大家补充,我将持续更新这个页面。
1. PDF资料
(1) ,YARN
leader Arun Murthy写的一本关于YARN的书籍,目前只有前两章试读(还在编写中,预定明年12月份出版),下载地址。
(2),由百度工程师编写,他的新浪微博:,邮箱:
,这个文档介绍是国内非常早的介绍YARN的资料,我也是从这份资料开始学习的。
(3),这份资料来自Hadoop jira,系统全面的介绍了MRv2/YARN的来源、架构和一些内部实现细节。
(4), Hadoop 2.0安全机制介绍文档,来自:
这些资料都给出了微盘下载链接,也欢迎大家关注我的新浪微博:。
2. Hadoop 2.0书籍
《Hadoop技术内幕:深入解析YARN架构设计与实现原理》,该书从基本原理到内部实现,全方位介绍了Hadoop 2.0中资源管理系统YARN。具体介绍可登陆官方宣传网站:。
3. 技术博客
(1)Hortonworks中关于YARN的几篇深入分析文章:
(2)HDFS2剖析方面相当不错的博客:
(3)我的博客,呵呵,主要专注于YARN以及YARN上的计算框架:
4. Hadoop jira
Hadoop jira是最好的学习资料,里面有大量的PDF文档、栩栩如生的对话和探讨,建议每天都读Hadoop jira,养成习惯,并参与讨论。
HDFS jira:
MapReduce jira:
YARN jira:
原创文章,转载请注明: 转载自
本文链接地址:
作者:,作者介绍:
本博客的文章集合:
Copyright (C) , All Rights Reserved.
版权所有 闽ICP备号
processed in 0.032 (s). 10 q(s)-------------
新增文件夹...
新增文件夹
(多个标签用逗号分隔)
Hadoop技术内幕:深入解析YARN架构设计与实现.pdf
本书从应用角度系统讲解了YARN的基本库和组件用法、应用程序设计方法、YARN上流行的各种计算框架(MapReduce、Tez、Storm、Spark),以及多个类YARN的开源资源管理系统(Corona和Mesos);从源代码角度深入分析YARN的设计理念与基本架构、各个组件的实现原理,以及各种计算框架的实现细节。全书共四部Lj:第一部分(&#章)主要介绍了如何获取、阅读和调试Hado
本书从应用角度系统讲解了YARN的基本库和组件用法、应用程序设计方法、YARN上流行的各种计算框架(MapReduce、Tez、Storm、Spark),以及多个类YARN的开源资源管理系统(Corona和Mesos);从源代码角度深入分析YARN的设计理念与基本架构、各个组件的实现原理,以及各种计算框架的实现细节。全书共四部分13章:第一部分(第1~2章)主要介绍了如何获取、阅读和调试Hadoop的源代码,以及YARN的设计思想、基本架构和工作流程;第二部分(第3~7章)结合源代码详细剖析和讲解了YARN的第三方开源库、底层通信库、服务库、事件库的基本使用和实现细节,详细讲解了YARN的应用程序设计方法,深入讲解和分析了ResourceManager、资源调度器、NodeManager等组件的实现细节;第三篇(第8~10章)则对离线计算框架MapReduce、DAG计算框架Tez、实时计算框架Storm和内存计算框架Spark进行了详细的讲解;第四部分(第11~13章)首先对FacebookCorona和ApacheMesos进行了深入讲解,然后对YARN的发展趋势进行了展望。附录部分收录了YARN安装指南、YARN配置参数以及HadoopShell命令等非常有用的资料。 &&
加载中...!
如果长时间没有加载,请点击
来安装或允许flash插件运行!
下载本文档需要登录,并付出相应积分()。
文件大小:7.19 MB
所需积分:& 10
相关资讯  — 
相关讨论话题  — 
浏览:7480次&& 下载:5次
收藏:10人
上传时间: 08:39:01
同类热门文档
0次浏览 &110次下载
24896次浏览 &58次下载
0次浏览 &39次下载
0次浏览 &31次下载
0次浏览 &24次下载
0次浏览 &19次下载
相关经验 -
& 0人评&150页
& 0人评&149页
& 4人评&92页
& 1人评&6页
& 2人评&87页
OPEN-OPEN, all rights reserved.YARN之上的大数据框架REEF:微软出品,是否值得期待?
发表于 11:23|
来源GigaOM|
作者Derrick Harris
摘要:微软即将开源大数据框架REEF,REEF运行于Hadoop新一代资源管理器YARN的上层。对于机器学习等在数据传输、任务监控和结果集迭代等方面有特殊要求的作业,YARN并不理想,REEF可以解决这些问题。
微软开发了一个名为REEF(Retainable Evaluator Execution
Framework)的大数据框架,并计划在一个月左右将其开源。,尤其适合构建机器学习的作业,REEF就运行在YARN的上层。8月12日上午,在芝加哥举行的Knowledge Mining and Data Discovery国际会议上,微软技术研究员兼信息服务CTO Raghu&Ramakrishnan介绍了REEF框架和微软的开源计划。YARN作为Apache Hadoop项目的一部分,是一个资源管理器,用户可以运行和管理同一个物理集群机上的多种作业,例如MapReduce批处理和图形处理作业。这样不仅可以巩固一个组织管理的系统数目,而且可以对相同的数据进行不同类型的数据分析。某些情况下,整个数据流可以执行在同一个集群机上。Ramakrishnan解释说,对于某些类型的作业,例如机器学习,YARN并不是一个理想的框架,因为这些作业对于数据传输、任务监控和结果集迭代等方面有一些特殊的要求。Ramakrishnan说REEF可以解决这些问题,REEF分为两个部分:Evaluator和Activity。Evaluator是YARN的容器,包括REEF服务和Activity(用户代码)都运行在Evaluator内。他展示了一个工作流示例,YARN可以向上构建一个Evaluator,Activity代码会在Evaluator运行和完成,这时同一个Evaluator可以再次恢复初始状态运行起来,以便其它的Activity继续运行。从理论上来说,REEF是一个有趣的技术,它试图去解决一些公司进行数据分析时的遗留问题。同时值得注意的是,REEF在某种程度上表明了微软拥抱Hadoop和开源的强烈意愿。几年前,微软只是。而现在,它也在推动Hadoop社区的工作并提高自身代码的开放度。(编译/周小璐 审校/仲浩)原文链接:
推荐阅读相关主题:
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号:CSDNnews
相关热门文章2015开源大数据框架迭代_614和他的日耳曼战车_新浪博客
2015开源大数据框架迭代
2015,开源大数据领域热闹非凡,在个大王牌开源框架不遗余力丰富各种特性和高稳定性与性能的同时,不少后起之秀更绞尽脑汁,奋起直追。
HDFS&YARN,Hadoop老当益壮
谈到开源大数据,Hadoop不得不提,当然时下大家可能更关HDFS和YARN。而就在过去这一年,HDFS和YARN也是不负重望发表了多个备受期待的特性。
单看HDFS,对异构存储的支持无疑是最受欢迎,现在HDFS以支持archive、disk、ss和ram_disk四种存储类型:archive是大家认识中的冷存储;disk是hdfs设计之处就支持的存储介质写入一份,这里可以对此比Tachyon,用户可以根据不同的workload,灵活地选着最合适的存储器策略。值得一提的是,HDFS纠删码技术在最近也得到了大幅提升。
至于YARN,终于也支持了对NodeManager打标签,用户可以按照不同的workload的需求去请求不同的标签资源,Yarn的另一个亮点是支持了长服务的调度。
而在HDFS和YARN之外,HBase在去年开始支持region级别也是HA,也就是说即使RegionEerver挂了,用户任然可通过备用region进行度操作。当然,结合之前的HDFS的介绍,把HBase的WAL写入SSD将会非常有宜于性能。
&&&&&步步紧逼,新贵Spark的席卷之势
&&&&&2015年,Spark以吹枯拉朽之势席卷了整个大数据圈。在去年,笔者曾撰写回顾Spark在2014年的发展,也也预测了其必将在2015年继续高歌猛进。然而从2015年的发展情况来看,Spark席卷整个工业界的进度任然被低估了。不得不说,2015年的开源大数据界属于Spark。
2015年Spark最重要的决定就是引入DataFrameAPI,DataFrame以更少的代码、更快的速度,迅速赢得工程师的青睐。当然说道这里就不得不提刚刚发布的Spark1.6,该版本中发布了被称作DataSet的API,几乎可以确定,DataSet将替代原生RDD,当然DataSet本身也在发展中,有兴趣的可以看一下Spark-9999这个issue。同时,值得注意的是,Spark在大多数据源连接方面做得越来越好,这对于Spark自身的生态系统是大有裨益的。在2015年,Spark另一个杀手锏是推出了吴丝计划(Project
Tungsten),这可能是受了Flink的刺激。Tungsten主要包括三个方面:内存管理与二进制处理、缓存友好的计算,以及代码生成。
在此之外,Spark其它组件也发展也发展迅速,譬如MLlib推出的ml
pipeline大幅度提升了机器学习工程师的开发效率,Spark
Streaming支持的流式机器学习算法可以近实时地对流进来的数据进行学习。Spark真正“可怕”的地方不仅在于其发展速度,而是其本身已经形成了自己的生态系统,并在以惊人的数度发展和丰富。
Dock&Kubernetes,
大数据生态中的一阵新风
2015年,伴随大数据一起发展的是容器生态,Docher及Kubernetes等的迅猛发展也给大数据领域带来了新的一阵新风,大大促进了SDN及调度等技术的发展。当下,Docker已经发展到了1.9,而Kubernetes在2015年也进入了1.x时代。现在大家比较一致的看法是“Docker是新进程,Kubernetes是新计算机”,而比较有趣的是,Kubernetes官网已经介绍完了如何在其上部署Spark、Storm及Cassandra等。时下国内外已经有大量公司在尝试Spark与容器的结合,并取得了不错的效果,其中也包括七牛,有理由相信2016年将是这个趋势爆发的一年。
大数据玩的一定是生态,这里更愿意看到百家争鸣的状态,譬如HDFS
vs。Tachyon、Spark
vs.Flink、HBase vs.
Cassandra、Kafka vs.
RabbitMQ、(J)Storm vs. Spark
Streaming、Solr
vs。ElasticSearch、Mesos
vsYARN等等。以上都是大名鼎鼎的框架,而且在去年一年得到显著发展,如Tachyon也专门成立商业公司Tachyon
Nexus为其保驾护航;作为在形态上最接近Spark的项目,Flink尽管没像Spark那么红透整个大数据界,但也吸引了足够多的眼球,相信以后也会发展的越来越好;ElasticSearch也继续发展着自己的生态,2015年下半年发布了2.0版本,性能得到了较大提升;Mesos现在野心不小,非常期待它接下来一年的发展。值得一提的是由eBay中国研发中心全华班工程师开发的Apache
Kylin也在OLAP领域占得了一席之地;同样由eBay贡献的Apache
Eagle也在Hadoop安全领域得到了越来越多的关注。当然也不能忘了Impala,这个曾经让我们眼前一亮的类Dremel工具。
614和他的日耳曼战车
博客等级:
博客积分:0
博客访问:148
关注人气:0
荣誉徽章:

我要回帖

 

随机推荐