信息技术不断进步,全球数据量逐年递增。据IDC公布的调查数据显示,未来全球数据将维持50%左右的增长率,到2020年,全球数据总量将达到44ZB(十万亿亿字节),中国将达到8.6ZB,占全球的21%。在数据量快速增长的背景下,容易生出一个疑问:这么多的数据,究竟都被存放在何处?今天小编想跟大家分享一下存储这一块的变化。
从大数据中获得有价值的洞察是每个企业的愿望,但是无奈理想很丰满,现实很骨感,再加上大数据软件开发人员和IT操作缺乏企业的协调,这也使得从大数据中获得洞察变得更加困难。还有的企业在其支持的其它项目中可能采用了良好的DevOps策略,但是大数据项目往往因为各种原因没有采用。
接下来,本文将来探讨一下DevOps是什么、为什么大数据项目团队不使用DevOps方法、使用DevOps的好处以及将大数据迁移到DevOps模型时可能会面临的挑战。
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。[1] 麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
[4] 大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。[5] 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。[2] 随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。
分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
什么是DevOps?
首先我们先来了解一下DevOps是什么?为什么它会如此受欢迎?DevOps的主要目的是消除软件开发人员和IT基础架构管理员之间的孤岛,以确保每个人都可以专注于单一的目标。中间有一些交叉的训练可以会包含所有人都能理解的使用过程很多术语,但是一旦训练完成,双方又可以各自以清晰的方向继续改进。然后两个团队一起测试环境、调整生产基础架构组件以满足新的软件需求,并最终更快速地为终端用户提供软件修复和功能。
为什么大数据项目不喜欢采用DevOps
IT领导者放弃DevOps的主要原因是大数据科学(特别是大数据的分析科学部分)的复杂性。数据科学是一个比较新的领域,大部分的专家都是外国人,国内的数据专家很少,所以这也导致了分析师无法和大数据开发商协同合作。
为什么大数据需要DevOps
由于分析师和大数据开发商的分离,DevOps在解决其他效率低下的项目中遇到的瓶颈照样会出现在大数据项目中。由于某些大数据项目会比预期的难度更大,所以IT领导者迫于压力会越来越想要早点得到结果,同时这也迫使分析科学家不断改进他们的算法。而分析模型发生的变化往往会和最初的基础设施和资源需求有很大的出入,在这个改变的过程中,运营团队一直被排除在外,所以当基础设施更改需求给到开发人员的时候,你就会发现通信和资源的分配滞后会减缓进度,而且这种放缓会影响大数据分析的潜在竞争优势。这也就是为什么大数据需要DevOps的原因。
集成大数据和DevOps时的挑战
如果你决定把大数据项目迁移到DevOps模型,就一定要了解你将面临的哪些挑战。 例如,如何快速打造探索分析和深度分析的大数据平台。
#p#分页标题#e#
另外,大多数的专业分析人士都认为自己是社会工程师,而不是数据工程师,所以会有自己要学习的事情。如果在你的DevOps计划中速度是很关键的部分,那么资源协调是至关重要的。还有,大数据DevOps的高效运行还需要额外的人力资源,因为DevOps的价值并不是员工的减少,而是发掘应用程序的潜能。
大数据和DevOps集成的收益远远超过任何其他集成。效率和利益的协调有助于简化流程,加快实时分析变更的能力,从而更有效地利用所挖掘的数据。
不过,“大数据”在经济发展中的巨大意义并不代表其能取代一切对于社会问题的理性思考,科学发展的逻辑不能被湮没在海量数据中。著名经济学家路德维希·冯·米塞斯曾提醒过:“就今日言,有很多人忙碌于资料之无益累积,以致对问题之说明与解决,丧失了其对特殊的经济意义的了解。”这确实是需要警惕的。
在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。
为成千上万的快递车辆规划实时交通路线,躲避拥堵。3)分析所有SKU,以利润最大化为目标来定价和清理库存。4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。5)从大量客户中快速识别出金牌客户。6)使用点击流分析和数据挖掘来规避欺诈行为。
大数据概念应用到IT操作工具产生的数据中,大数据可以使IT管理软件供应商解决大广泛的业务决策。IT系统、应用和技术基础设施每天每秒都在产生数据。大数据非结构化或者结构数据都代表了‘所有用户的行为、服务级别、安全、风险、欺诈行为等更多操作’的绝对记录。大数据分析的产生旨在于IT管理,企业可以将实时数据流分析和历史相关数据相结合,然后大数据分析并发现它们所需的模型。
反过来,帮助预测和预防未来运行中断和性能问题。进一步来讲,他们可以利用大数据了解使用模型以及地理趋势,进而加深大数据对重要用户的洞察力。 他们也可以追踪和记录网络行为,大数据轻松地识别业务影响;随着对服务利用的深刻理解加快利润增长;同时跨多系统收集数据发展IT服务目录。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。还有更多详细内容,尽在课课家教育,我们期待您的咨询!