大数据提速:Impala能否取代Hive的讲解
在众多学习中,文章也许不起眼,但是重要的下面我们就来讲解一下!!
近日,Cloudera发布Impala实时查询引擎Impala 1.0 beta版,并声称这项**性的技术能解决Hadoop批处理延迟问题(比原来基于MapReduce的HiveSQL查询速度提升3~30倍),开源的Impala还为Hadoop打开了通向关系型数据库和商业智能工具的大门。
Impala是运行于现有Hadoop基础设施上的实时互动SQL查询引擎,可以让Hdadoop DFS文件系统以及Apache数据库中的数据支持实时查询。这意味着Impala为Hadoop打开了通向关系型数据库和传统商业智能工具的大门(后两者基于SQL查询)。
此前,数据仓库架构Apache Hive能够让Hadoop某种程度上支持结构化数据访问,但是Hive采用的方法是将SQL查询转化成MapReduce任务,这导致Hive的性能很差。而且,Hive只能支持不到30%的SQL分析功能,而根据Cloudera的说法,Impala将比Hive出色得多。
oracle教程
“从长远看,Impala将取代Hive,但目前Hive的安装基数很大,关联的应用很多,所以Impala不会很快取代Hive,”Coudera首席执行官Mike Olson说道:“因为支持实时查询,Impala将会非常有吸引力。”
Impala实际上是两个产品。核心部分是Impala实时查询引擎,采用Apache开源授权方式,Hadoop用户可以单独使用这个引擎。同时,Impala项目也将以Cloudera EntERPrise RTQ(Real-Time Query)为名进入CDH发行版。可以部署到生产环境的版本将到2013年一季度就绪。Cloudera Enterprise RTQ将作为Cloudera 管理控制台的一部分,负责管理Impala服务器。从这个管理控制台中IT人员能够看到查询的运行情况、运行时间以及活跃用户数等。
借鉴Dremel
Impala可谓是Cloudera的秘密武器,在正式发布之前,Impala项目的开发高度保密,显然,Cloudera希望给大数据业界一个惊喜。Impala有望解决Hadoop系统的两个顽疾:批处理速度慢和数据可访问性差(无法支持分秒级的实时互动查询分析)。Cloudera在官方博客中透露Impala是在Dremel的启发下开发的。Impala不再使用缓慢的 Hive+MapReduce批处理,而是通过与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或者HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。其架构如下图所示。Oracle培训
趋势一:数据的资源化
何为资源化,是指大数据成为企业和社会关注的重要战略资源,并已成为大家争相抢夺的新焦点。因而,企业必须要提前制定大数据营销战略计划,抢占市场先机。
趋势二:与云计算的深度结合oracle视频教程
大数据离不开云处理,云处理为大数据提供了弹性可拓展的基础设备,是产生大数据的平台之一。自2013年开始,大数据技术已开始和云计算技术紧密结合,预计未来两者关系将更为密切。除此之外,物联网、移动互联网等新兴计算形态,也将一齐助力大数据革命,让大数据营销发挥出更大的影响力。
趋势三:科学理论的突破
随着大数据的快速发展,就像计算机和互联网一样,大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术,可能会改变数据世界里的很多算法和基础理论,实现科学技术上的突破。
趋势四:数据科学和数据联盟的成立
未来,数据科学将成为一门专门的学科,被越来越多的人所认知。各大高校将设立专门的数据科学类专业,也会催生一批与之相关的新的就业岗位。与此同时,基于数据这个基础平台,也将建立起跨领域的数据共享平台,之后,数据共享将扩展到企业层面,并且成为未来产业的核心一环。
趋势五:数据泄露泛滥
未来几年数据泄露事件的增长率也许会达到100%,除非数据在其源头就能够得到安全保障。可以说,在未来,每个财富500强企业都会面临数据攻击,无论他们是否已经做好安全防范。而所有企业,无论规模大小,都需要重新审视今天的安全定义。在财富500强企业中,超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据,所有数据在创建之初便需要获得安全保障,而并非在数据保存的最后一个环节,仅仅加强后者的安全措施已被证明于事无补。
趋势六:数据管理成为核心竞争力
数据管理成为核心竞争力,直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后,企业对于数据管理便有了更清晰的界定,将数据管理作为企业核心竞争力,持续发展,战略性规划与运用数据资产,成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外,对于具有互联网思维的企业而言,数据资产竞争力所占比重为36.8%,数据资产的管理效果将直接影响企业的财务表现。
#p#分页标题#e#
Impala的架构
商业智能厂商的福音,但不会取代传统数据仓库
Impala对于商业智能厂商来说也许是个福音。过去,商业智能厂商只能采用耗时的手动方式将数据从Hadoop系统中转移出来,或者忍受Hive的延迟和功能局限。在ad hoc查询分析模式下,Impala可以让BI工具直接访问Hadoop中的数据,但Olson表示,在生产环境,关键任务工作负载仍然将会由关系型数据库处理。“一些工作负载将会借Impala进入Hadoop系统,但是如果需要进行结构化数据的高速复杂分析,传统大型数据仓库依然无可替代。传统数据仓库运行的OLAP引擎有很多专用界面,支持数据汇总与聚合。这些都不是SQL语言和Impala能够处理的。(有趣的是,OLAP正受到内存计算技术的威胁,所以人们不禁会问,有朝一日OLAP是否也会被部署到Hadoop系统里)。
能否取代Hive,用户说了算
Cloudera还没有对Imala进行benchmark测试,但是Olson表示Impala未必能达到关系型数据库的性能,但可以肯定的一点是,速度将比Hive快3-30倍,这足以让用户抛弃Hive选择Impala。Cloudera的一些客户目前已经开始测试Impala,其中两家结果即将公布。其中一家公司Monsanto在全球范围内有大量研究科学家协作分析抗病-野草基因组,但是目前这些研究数据分散在很多数据孤岛中,Monsanto希望能够在Hadoop中整合所有数据,并用Impala提供高速SQL查询服务,Monsanto目前正在开发一个覆盖所有研究中心的协作时互动环境。
Cloudera另外一家客户——在线旅游预订网站Expedia使用Cloudera产品管理者超过4PB的数据,目前正在测试通过Implala了解用户的预定内容,谁在预订,哪些航班、租车公司、酒店更受欢迎(或者流失客户)。oracle数据库教程
Expedia全球商业智能和数据仓库总监Jeff Prather透露:“Impala让我们的Hadoop系统的延迟降低了50%,而且提供了很多前所谓有的业务分析功能。”
Olson鼓励Hadoop社区下载Cloudera Impala beta文档,(GitHub源码下载地址)因为越多人使用、测试,这项技术产品化的速度就会越快。
但是目前还清楚Impala是否能够比Hive更受欢迎,甚至取代Hive。Cloudera的竞争对手们,如Hortonworks和MapR也没有表态是否支持Impala。但是在最大的Hadoop发行商Cloudera的支持下,在如此众多的厂商和用户提高Hadoop的SQL查询速度的期待下,Impala的前景还是一片光明的。
更多视频课程文章的课程,可到课课家官网查看。我在等你哟!!!