大数据小白,hadoop生态圈
当前位置:以往代写 > 大数据教程 >大数据小白,hadoop生态圈
2019-06-14

大数据小白,hadoop生态圈

  在前面的文章中已经是给大家进行讲解了什么是Hadoop,简单的来说有很多服务器存储了很多文件。想要从这些文件里面查找想要的内容,把任务描述清楚,它就把结果返回给你了,最简单的理解就是架构系统,其中有各式各样的组件。

  再来看看hadoop生态圈的一个解释:

  我们知道所谓的大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)实际上都是为了处理超过单机尺度的数据处理而诞生的。更加直白一点的理解就是:可以把它比作一个厨房所需要的各种工具。锅碗瓢盆,这些工具是各有各的一个用处,而互相之间又有重合。当然你可以用汤锅直接当碗吃饭喝汤,又或者你可以用小刀或者刨子去皮。你会发现每个工具有自己的特性,虽然组合在一起也是可以去工作,但未必是最佳的一个选择。

  下图是一个hadoop生态圈的分布图:

大数据小白,hadoop生态圈_大数据_hadoop生态圈_数据库_课课家

  1.Nutch,互联网数据及Nutch搜索引擎应用

  2.HDFS,Hadoop的分布式文件系统

  3.MapReduce,是一个分布式计算框架

  4.Flume、Scribe,Chukwa是属于数据的收集,收集非结构化数据的一些工具。

  5.Hiho、Sqoop,讲关系数据库中的数据导入HDFS的工具

  6.Hive表示的是数据仓库,pig分析数据的工具

  7.Oozie一个基于工作流引擎的开源框架。

  8.Hue,Hadoop自己的监控管理工具

  9.Avro是一个数据序列化工具

  10.mahout数据挖掘工具,用于数据的深入挖掘。

  11.Hbase是一个高可靠性、高性能、面向列、可伸缩分布式的面向列的开源数据库

  Hadoop生态系统的主要的特点是什么?

  (1)支持开放的源代码

  (2)社区是比较活跃、参与者比较多

  (3)涉及分布式存储和计算的方方面面

  (4)它是已经得到企业界的一个验证

  以上是带大家对hadoop生态圈简单的一个理解,我们在学习生物的时候就已经了解过生态系统的多样性的特点,在接下里的教程文章中,我们将继续对Hadoop生态系统的各组成部分进行详解,甘兴趣的朋友们可以关注一下。

    关键字:

在线提交作业