千万不能把数据湖与数据仓库混在一起来理解
2014年年中,市场研究机构Gartner的两位分析师对于炒作越来越猛的数据湖(datalake)概念进行了一番尖锐的批评。
Gartner的研究主管NickHeudecker说:“数据湖方面的基本问题是,它对于信息使用者做了某些假设。”
“它假设使用者认识或了解关于采集如何数据的上下文偏见(contextualbias),假设他们知道如何合并和协调不同的数据源,而没有‘先验知识’;假设他们了解数据集的不完整性,不管是什么样的数据结构。”
一年半后,Gartner的担忧似乎并没有得到缓解。虽然确实有成功的项目,但是也有失败案例,而关键成功因素似乎是深入了解数据湖和数据仓库各自扮演的不同角色。
Heudecker表示,数据湖常常被厂商说成是应对大数据挑战的一种手段,它其实有助于你搞清楚针对你的数据提出的新问题,“前提是你得有相应技能。”
“如果这是你想要做的,我倒不太关心数据湖的具体实施。但是如果你的场景是把原先针对数据仓库的服务级别协议(SLA)重新实施于数据湖,风险就很高了。”
Heudecker表示,数据湖通常针对不同的使用场合、并发性和多租户水平进行优化。
“换句话说,别头脑发热将数据湖用于数据仓库。”
他表示,需要两者完全合情合理,因为各自针对不同的服务级别协议、用户和技能进行了优化。
笼统地说,数据湖是面向整个企业的平台,用于分析采用原生格式的不同数据源,以消除数据摄取的成本和数据转换复杂性。而这里就面临挑战:数据湖缺乏语义一致性和经过治理的元数据,因而将分析方面的许多责任推到熟练用户的身上。
Heudecker表示,大家的认识有所提高,但是数据湖炒作仍然很普遍。
由于实施数据湖的技术选择继续在迅速变化,这项技术的成熟度更难掌控。
Heudecker说:“比如说,Spark是一种流行的数据处理框架,它平均每隔43天就推出新版本。”
他表示,数据湖项目的成功因素归结为元数据管理、是否具备技能以及执行相应级别的治理机制。
“我接触过这样的公司:建立起了数据湖,往里面放入一堆数据,却根本找不到任何有价值的信息。另一些公司根本不知道哪些数据集不准确、哪些数据集高品质。与IT行业的其他领域一样,这方面同样没有妙方高招。”
他表示,数据湖是个架构概念,而不是一种特定的实施方法。
“就像任何新的概念或技术一样,总是会出现炒作期,然后是幻灭期,最后才成为一种广为人知的实践。
数据湖会继续是使用它们的数据科学家的真实反映。
这项技术可能会改变和改善,可能会充分发挥GPU或FPGA之类技术的优势,但总的目标是,发掘数据的新用途和新机会。”如果想了解得更多就加入课课家。