大数据小白，hadoop生态圈

　　在前面的文章中已经是给大家进行讲解了什么是Hadoop，简单的来说有很多服务器存储了很多文件。想要从这些文件里面查找想要的内容，把任务描述清楚，它就把结果返回给你了，最简单的理解就是架构系统，其中有各式各样的组件。

　　再来看看hadoop生态圈的一个解释：

　　我们知道所谓的大数据本身是个很宽泛的概念，Hadoop生态圈（或者泛生态圈）实际上都是为了处理超过单机尺度的数据处理而诞生的。更加直白一点的理解就是：可以把它比作一个厨房所需要的各种工具。锅碗瓢盆，这些工具是各有各的一个用处，而互相之间又有重合。当然你可以用汤锅直接当碗吃饭喝汤，又或者你可以用小刀或者刨子去皮。你会发现每个工具有自己的特性，虽然组合在一起也是可以去工作，但未必是最佳的一个选择。

　　下图是一个hadoop生态圈的分布图：

大数据小白，hadoop生态圈_大数据_hadoop生态圈_数据库_课课家

　　1.Nutch，互联网数据及Nutch搜索引擎应用

　　2.HDFS,Hadoop的分布式文件系统

　　3.MapReduce,是一个分布式计算框架

　　4.Flume、Scribe，Chukwa是属于数据的收集，收集非结构化数据的一些工具。

　　5.Hiho、Sqoop,讲关系数据库中的数据导入HDFS的工具

　　6.Hive表示的是数据仓库，pig分析数据的工具

　　7.Oozie一个基于工作流引擎的开源框架。

　　8.Hue，Hadoop自己的监控管理工具

　　9.Avro是一个数据序列化工具

　　10.mahout数据挖掘工具，用于数据的深入挖掘。

　　11.Hbase是一个高可靠性、高性能、面向列、可伸缩分布式的面向列的开源数据库

　　Hadoop生态系统的主要的特点是什么？

　　（1）支持开放的源代码

　　（2）社区是比较活跃、参与者比较多

　　（3）涉及分布式存储和计算的方方面面

　　（4）它是已经得到企业界的一个验证

　　以上是带大家对hadoop生态圈简单的一个理解，我们在学习生物的时候就已经了解过生态系统的多样性的特点，在接下里的教程文章中，我们将继续对Hadoop生态系统的各组成部分进行详解，甘兴趣的朋友们可以关注一下。

当前位置：以往代写 > 大数据教程 >大数据小白，hadoop生态圈