你好阅读怎么刷!!偶然在百度刷到你的回答了qwq就是那个 百变小樱的日语字幕的视频可以给我一份嘛🐸

如果您想在正确的道路上学习Hadoop那么您已经找到了理想的地方。在这篇Hadoop教程文章中您将以一种非常简单和透明的方法从基础知识到高级Hadoop概念进行学习。优先地您还可鉯观看以下视频,其中我们的专家正在讨论Hadoop概念以及实际示例

在此Hadoop教程文章中,我们将涵盖以下主题:

在这篇Hadoop教程文章中介绍技术知识の前让我先介绍一个有趣的故事,有关Hadoop是如何诞生的为什么在行业时下如此受欢迎?

因此,这一切始于两个人迈克·卡法雷拉Mike Cafarella)道格·切特Doug Cutting),他们正在构建一个可以索引10亿页搜索引擎系统经过研究,他们估计这种系统的硬件成本约为50万美元每月的運行成本为30,000美元,这非常昂贵但是,他们很快意识到他们的体系结构将无法处理Web上数十亿个页面

他们偶然发现了一篇论文,发表于2003年所描述的架构称为GFS,这是正在生产的用于现在,关于这篇论文被证明是他们所寻找的东西很快,他们意识到它将解决存储作为Web爬网索引过程的一部分而生成的超大文件的所有问题

2004年下半年,Google又发表了一篇论文将推向了世界。最后这两篇论文导致了名为“  ” 的框架的建立。Doug引用了Google对Hadoop框架开发的贡献:

“ Google会在未来几年生存并向我们发送其余信息。

因此到目前为止,您已经意识到Hadoop的功能强大 现在,在进入Hadoop之前让我们从开始讨论,这导致了Hadoop的发展

获得行业级项目认证并快速追踪您的职业 看一看!

您是否曾经想过技术如何發展来满足新兴需求?

之前我们有座机但现在我们转向了智能手机。同样你们中有多少人还记得90年代广泛使用的软盘驱动器?这些软盤驱动器已被硬盘取代因为这些软盘驱动器的存储容量和传输速度非常低。

因此这使得软盘驱动器不足以处理我们今天要处理的数据量。实际上现在我们可以将数TB的数据存储在云中,而不必担心 大小限制

现在,让我们谈谈有助于数据生成的各种驱动程序 

物联网将您的物理设备连接到互联网,并使其变得更智能如今,我们拥有智能空调电视机等。您的智能空调会不断监视您的房间温度以及外部溫度并据此确定房间的温度。现在想象一下安装在成千上万个房屋中的智能空调一年将产生多少数据。借此您可以了解如何在大数據中占主要份额。

现在让我们讨论一下  大数据的最大贡献者,那就是社交媒体

社交媒体是大数据演进中最重要的因素之一,因为它提供了有关人们行为的信息您可以查看下图,了解每分钟生成多少数据:

图:Hadoop教程–社交媒体数据生成统计

除了生成数据的速率外第二個因素是这些数据集中缺乏适当的格式或结构,这给处理带来了挑战

让我们以一家餐厅为例,以了解与大数据相关的问题以及Hadoop如何解决該问题

鲍勃(Bob)是个开了小餐馆的商人。最初在他的餐厅里,他过去每小时会收到两份订单他的餐厅里有一位厨师和一个食物架子,足以应付所有订单 

图:Hadoop教程–传统餐厅场景

现在让我们比较哪里是越来越以稳定的速率和我们像传统的系统产生的数据的传统方案中餐厅示例是 有足够的能力来处理它,就像鲍勃的厨师在这里,您可以将数据存储与餐厅的食物架相关联并将传统处理单元与厨师相关聯,如上图所示

图:Hadoop教程–传统场景

几个月后,鲍勃(Bob)考虑扩大业务因此,他开始接受在线订单并在餐厅的菜单中添加了一些其怹菜式,以吸引更大的受众由于这种过渡,他们收到订单的速度提高到了每小时10个订单的惊人数字而且单个厨师很难应付当前的情况。意识到处理订单的情况后鲍勃开始考虑解决方案。 

图:Hadoop教程–分布式处理方案

同样在大数据场景中,由于引入了各种数据增长驱动程序(例如社交媒体智能手机等),数据开始以惊人的速度生成

现在,传统的系统就像鲍勃的餐厅里的厨师一样效率不足以应对这種突然的变化。因此需要一种不同类型的解决方案策略来解决这个问题。 

经过大量研究Bob提出了一个解决方案,他又雇用了4名厨师来应對收到的大量订单一切都进行得很好,但是这种解决方案导致了另一个问题由于四位厨师共享同一个食物架,因此食物架正成为整个過程的瓶颈因此,该解决方案并不像鲍勃认为的那样有效

图:Hadoop教程–分布式处理方案故障

同样,为解决处理海量数据集的问题安装叻多个处理单元以并行处理数据(就像鲍勃雇了4个厨师一样)。但是即使在这种情况下引入多个处理单元也不是一种有效的解决方案,洇为集中式存储单元已成为瓶颈

换句话说,整个系统的性能取决于中央存储单元的性能因此,当我们的中央存储出现故障时整个系統就会受到威胁。因此再次需要解决这一单点故障。 

图:Hadoop教程–餐厅问题的解决方案

鲍勃想出了另一种有效的解决方案他将所有的厨師分为两个层次,这是一个少年和一个主厨和分配的每个初级厨师与食品货架让我们假设这道菜是肉酱。现在按照鲍勃的计划,一名初级厨师将准备肉另一初级厨师将准备酱汁。继续前进他们将肉和酱都转移给主厨,主厨将两种成分混合后准备肉酱然后将其作为朂终订单交付。

Hadoop的功能类似于Bob的餐厅由于食品货架是在Bob的餐厅中分布的,因此类似地在Hadoop中,数据以复制的存储以提供容错能力。对於并行处理首先由从站处理数据,并在其中存储一些中间结果然后由主节点合并这些中间结果以发送最终结果。

现在您必须已经了解了为什么是一个问题陈述以及如何解决它。正如我们上面所讨论的大数据面临三个主要挑战:

  • 第一个问题是存储大量数据

在传统系统Φ无法存储大量数据。原因很明显存储将被限制在一个系统中,并且数据正在以惊人的速度增长

  • 第二个问题是存储异构数据

现在我们知道存储是一个问题,但是让我告诉您这只是问题的一部分数据不仅庞大,而且还以各种格式(即非结构化半结构化和结构化)存在。因此您需要确保您拥有一个系统来存储从各种来源生成的不同类型的数据。

  • 最后让我们关注第三个问题即处理速度 

现在,由于要处悝的数据太大因此处理大量数据所需的时间非常长。  


为了解决存储问题和处理问题在Hadoop中创建了两个核心组件  和。HDFS解决了存储问题因為它以分布式方式存储数据并且易于扩展。并且YARN通过大大减少处理时间来解决处理问题。继续前进让我们了解什么是Hadoop?

Hadoop是一个开源软件框架用于在大型商用硬件集群上以分布式方式存储和处理大数据。Hadoop已获得Apache v2许可证的许可

让我们了解Hadoop如何为迄今为止我们讨论的大数據问题提供解决方案。

  • 第一个问题是存储大量数据

如上图所示,HDFS提供了一种分布式大数据存储方式您的数据存储在DataNodes中的块中,并指定烸个块的大小假设您有512 MB的数据,并且已配置HDFS以便它将创建128 MB的数据块。现在HDFS将数据分为512/128 = 4的4个块,并将其存储在不同的DataNode中将这些数据塊存储到DataNode中时,数据块将复制到不同的DataNode上以提供容错能力

Hadoop遵循水平扩展而不是垂直扩展。在水平扩展中您可以 根据需要在运行时将新節点添加到HDFS群集,而不必增加每个节点中存在的硬件堆栈 

  • 下一个问题是存储各种数据

如上图所示在HDFS中,您可以存储各种数据无论昰结构化,半结构化还是非结构化在HDFS中,没有预转储架构验证 它还遵循一次编写和读取许多模型的操作。因此您可以一次写入任何類型的数据,也可以多次读取以查找见解

  • 第三个挑战是如何更快地处理数据

为了解决这个问题我们将处理单元移至数据,而不是将數据移至处理单元

那么,将计算单元移动到数据意味着什么呢

这意味着,不是将数据从不同的节点移动到单个主节点进行处理而是將处理逻辑发送到存储数据的节点,以便每个节点可以并行处理一部分数据最后,每个节点产生的所有中间输出都合并在一起最终响應被发送回客户端。

当机器作为一个单元工作时如果其中一台机器发生故障,则另一台机器将接管责任并以可靠容错的方式工作。Hadoop基础架构具有内置的容错功能因此Hadoop具有高度的可靠性。 

Hadoop使用商品硬件(例如您的PC笔记本电脑)。例如在小型,所有DataNode都可以具有常规配置例如8-16 GB RAM,5-10 TB硬盘和Xeon处理器

但是,如果出于相同的目的我将基于硬件的RAIDOracle一起使用,我最终的支出至少会增加5倍因此,基于Hadoop的项目嘚拥有成本得以最小化维护Hadoop环境更容易,也很经济此外,Hadoop是开源软件因此没有许可成本。

Hadoop具有与基于云的服务无缝集成的内置功能因此,如果您要在云上安装Hadoop则无需担心可伸缩性因素,因为您可以继续购买更多硬件并在需要时在几分钟内扩展设置。

Hadoop在处理各种數据的能力方面非常灵活我们在之前的博客中  讨论了“变量”,其中数据可以是任何类型Hadoop可以存储和处理所有数据,无论是结构化半结构化还是非结构化数据。

在设置Hadoop集群时您可以选择很多服务作为Hadoop平台的一部分,但是对于设置Hadoop来说始终必须有两项服务。一个是  HDFS(存储)  另一个是  YARN(处理)。HDFS代表  Hadoop分布式文件系统它是Hadoop的可扩展存储单元,而YARN用于处理数据即以分布式和并行方式存储在HDFS中。

  • 它是維护和管理数据节点(从节点)的主守护程序
  • 它记录集群中存储的所有块的元数据,例如存储的块的位置,文件的大小权限,层次結构等
  • 它记录了文件系统元数据发生的每一次更改
  • 如果在HDFS中删除了文件,则NameNode将立即将其记录在EditLog中
  • 它定期从集群中的所有数据节点接收心跳信号和阻止报告以确保数据节点处于活动状态
  • 它具有高可用性和联合功能,我将在中详细讨论
  • 它是在每个从属计算机上运行的从属守護程序
  • 实际的数据存储上的DataNodes
  • 它负责服务的读取写入请求从客户端
  • 它还负责根据NameNode的决定创建块删除块复制它们
  • 它会定期将心跳发送箌NameNode以报告HDFS的总体运行状况,默认情况下此频率设置为3秒

因此,这全是关于HDFS的概述现在,让我们进入Hadoop的第二个基本单元即YARN。

  • 它是集群級别的(每个集群一个)组件在主计算机上运行
  • 它管理资源计划在YARN上运行的应用程序
  • 调度程序负责将资源分配给各种正在运行的应用程序
  • ApplicationManager负责接受作业提交并协商用于执行应用程序的第一个容器
  • 它跟踪节点管理器的心跳
  • 它是节点级组件(每个节点一个),并在每个从属計算机上运行
  • 它负责管理容器监视每个容器中的资源利用率
  • 它还跟踪节点运行状况日志管理

到目前为止您可能已经知道Hadoop既不是编程語言也不是服务,它是解决大数据问题的平台或框架您可以将其视为一个套件,其中包含许多用于摄取存储和分析海量数据集的服务鉯及用于配置管理的工具。

我们已经在Hadoop生态中详细讨论了Hadoop生态系统及其组件现在,在本Hadoop教程中让我们知道Last.fm如何将Hadoop用作其解决方案策略嘚一部分

Last.FM是成立于2002年的互联网广播社区驱动音乐发现服务用户将信息传输到Last.FM服务器,以指示他们正在收听的歌曲接收到的数据经過处理和存储,以便用户可以以图表的形式访问它因此,Last.FM可以做出明智的选择并做出兼容的决策以生成推荐数据是从以下两个来源之┅获得的:

  • scrobble:当用户播放自己选择的曲目并将信息通过客户端应用程序发送到Last.FM时。

Last.FM应用程序允许用户喜欢跳过或禁止他们收听的每个曲目。该曲目监听数据也被传输到服务器

  • 每月有超过4000万的唯一身份访问者,页面浏览量达到5 亿
  • 每天超过4000万个涂鸦
  • 到目前为止已有超过750亿個涂鸦
    • 每月超过1000万次的处理时间
    • 每天超过40万个独立电台
  • 每个节点8个核心(双四核)
  • 8TB(4个磁盘,每个2TB)
  • Hive集成以运行优化的SQL查询进行分析

Last.FM2006年開始使用Hadoop原因是用户数从数千增加到了数百万。在Hadoop的帮助下他们每天,每月和每周处理数百项工作包括网站统计信息和指标,图表苼成(即曲目统计)元数据校正(例如艺术家的拼写错误),搜索索引合并/格式化建议数据,数据见解评估和报告。这帮助Last.FM取得了巨大的发展并根据他们的推荐音乐开始了解用户的口味。

我希望该博客能为您提供丰富的信息并为您的知识增添价值。在我们的下一個博客中我们将详细讨论Hadoop生态系统中存在的各种工具。

现在您已经了解了Hadoop及其功能请查看Edureka 的   ,该公司是一家受信任的在线学习公司其网络遍布全球,共有250,000多名满意的学习者Edureka大数据Hadoop认证培训课程使用零售,社交媒体航空,旅游金融领域的实时用例,帮助学习者成為HDFSYarn,MapReducePig,HiveHBase,OozieFlume和Sqoop的专家。

有问题要问我们吗请在评论部分中提及它,我们将尽快与您联系

我要回帖

更多关于 你好阅读怎么刷 的文章

 

随机推荐