Hadoop是什么？

Hadoop是利用Java编写，答允漫衍在集群，利用简朴的编程模子的计较机大型数据集处理惩罚的Apache的开源框架。 Hadoop框架应用工程提供跨计较机集群的漫衍式存储和计较的情况。 Hadoop是专为从单一处事器到上千台呆板扩展，每个呆板都可以提供当地计较和存储。

Hadoop的架构

在其焦点，Hadoop主要有两个条理，即：

加工/计较层(MapReduce)，以及

存储层(Hadoop漫衍式文件系统)。

Hadoop Architecture

MapReduce

MapReduce是一种并行编程模子，用于编写普通硬件的设计，谷歌对大量数据的高效处理惩罚(多TB数据集)的漫衍式应用在大型集群(数千个节点)以及靠得住的容错方法。 MapReduce措施可在Apache的开源框架Hadoop上运行。

Hadoop漫衍式文件系统

Hadoop漫衍式文件系统（HDFS）是基于谷歌文件系统（GFS），并提供了一个设计在普通硬件上运行的漫衍式文件系统。它与现有的漫衍式文件系统有很多相似之处。来自其他漫衍式文件系统的不同是显著。它高度容错并设计成陈设在低本钱的硬件。提供了高吞吐量的应用数据会见，而且合用于具有大数据集的应用措施。

除了上面提到的两个焦点组件，Hadoop的框架还包罗以下两个模块：

Hadoop通用：这是Java库和其他Hadoop组件所需的实用东西。

Hadoop YARN ：这是功课调治和集群资源打点的框架。

Hadoop如何事情？

成立重设置，处理惩罚大局限处理惩罚处事器这是相当昂贵的，可是作为替代，可以接洽很多普通电脑回收单CPU在一起，作为一个单一成果的漫衍式系统，实际上，集群机可以平行读取数据集，并提供一个高得多的吞吐量。另外，这样自制不到一个高端处事器价值。因此利用Hadoop超过集群和低本钱的呆板上运行是一个不错不选择。

Hadoop运行整个计较机集群代码。这个进程包罗以下焦点任务由 Hadoop 执行：

数据最初分为目次和文件。文件分为128M和64M（128M最好）统一巨细块。

然后这些文件被漫衍在差异的群集节点，以便进一步处理惩罚。

HDFS，当地文件系统的顶端﹑禁锢处理惩罚。

块复制处理惩罚硬件妨碍。

查抄代码已乐成执行。

执行产生映射之间，淘汰阶段的排序。

发送排序的数据到某一计较机。

为每个功课编写的调试日志。

Hadoop的优势

Hadoop框架答允用户快速地编写和测试的漫衍式系统。有效并在整个呆板和反过来自动分派数据和事情，操作CPU内核的根基平行度。

Hadoop不依赖于硬件，以提供容错和高可用性（FTHA），而Hadoop库自己已被设计在应用层可以检测和处理惩罚妨碍。

处事器可以添加或从集群动态删除，Hadoop可继承不间断地运行。

Hadoop的的另一大优势在于，除了是开源的，因为它是基于Java并兼容所有的平台。

当前位置：以往代写 > 其他教程 >Hadoop是什么？