Hadoop是什么?
当前位置:以往代写 > 其他教程 >Hadoop是什么?
2019-06-14

Hadoop是什么?

Hadoop是什么?


Hadoop是利用Java编写,答允漫衍在集群,利用简朴的编程模子的计较机大型数据集处理惩罚的Apache的开源框架。 Hadoop框架应用工程提供跨计较机集群的漫衍式存储和计较的情况。 Hadoop是专为从单一处事器到上千台呆板扩展,每个呆板都可以提供当地计较和存储。

Hadoop的架构

在其焦点,Hadoop主要有两个条理,即:

  • 加工/计较层(MapReduce),以及
  • 存储层(Hadoop漫衍式文件系统)。
  • Hadoop Architecture

    MapReduce

    MapReduce是一种并行编程模子,用于编写普通硬件的设计,谷歌对大量数据的高效处理惩罚(多TB数据集)的漫衍式应用在大型集群(数千个节点)以及靠得住的容错方法。 MapReduce措施可在Apache的开源框架Hadoop上运行。

    Hadoop漫衍式文件系统

    Hadoop漫衍式文件系统(HDFS)是基于谷歌文件系统(GFS),并提供了一个设计在普通硬件上运行的漫衍式文件系统。它与现有的漫衍式文件系统有很多相似之处。来自其他漫衍式文件系统的不同是显著。它高度容错并设计成陈设在低本钱的硬件。提供了高吞吐量的应用数据会见,而且合用于具有大数据集的应用措施。

    除了上面提到的两个焦点组件,Hadoop的框架还包罗以下两个模块:

  • Hadoop通用:这是Java库和其他Hadoop组件所需的实用东西。

  • Hadoop YARN :这是功课调治和集群资源打点的框架。

  • Hadoop如何事情?

    成立重设置,处理惩罚大局限处理惩罚处事器这是相当昂贵的,可是作为替代,可以接洽很多普通电脑回收单CPU在一起,作为一个单一成果的漫衍式系统,实际上,集群机可以平行读取数据集,并提供一个高得多的吞吐量。另外,这样自制不到一个高端处事器价值。因此利用Hadoop超过集群和低本钱的呆板上运行是一个不错不选择。

    Hadoop运行整个计较机集群代码。这个进程包罗以下焦点任务由 Hadoop 执行:

  • 数据最初分为目次和文件。文件分为128M和64M(128M最好)统一巨细块。
  • 然后这些文件被漫衍在差异的群集节点,以便进一步处理惩罚。
  • HDFS,当地文件系统的顶端﹑禁锢处理惩罚。
  • 块复制处理惩罚硬件妨碍。
  • 查抄代码已乐成执行。
  • 执行产生映射之间,淘汰阶段的排序。
  • 发送排序的数据到某一计较机。
  • 为每个功课编写的调试日志。
  • Hadoop的优势

  • Hadoop框架答允用户快速地编写和测试的漫衍式系统。有效并在整个呆板和反过来自动分派数据和事情,操作CPU内核的根基平行度。

  • Hadoop不依赖于硬件,以提供容错和高可用性(FTHA),而Hadoop库自己已被设计在应用层可以检测和处理惩罚妨碍。

  • 处事器可以添加或从集群动态删除,Hadoop可继承不间断地运行。

  • Hadoop的的另一大优势在于,除了是开源的,因为它是基于Java并兼容所有的平台。

    • 关键字:

    在线提交作业