企业级大数据平台的整体演进——开源与商业混搭并举日趋成熟

 

  大数据作为一种重要的战略资产,已经不同程度地渗透到每个行业领域和部门,其深度应用不仅有助于企业经营活动,还有利于推动国民经济发展。因此企业必须对大数据有全面、深入的认识,才能充分发挥它的最大价值。赛迪顾问认为,企业级大数据平台建设可以从以下几个方面来开展。

  基于大数据平台咨询规划的成果,进行大数据的建设和实施。由于大数据技术的复杂性,因此企业级大数据平台的建设不是一蹴而就,需循序渐进,分步实施,是一个持续迭代的工程,需本着开放、平等、协作、分享的互联网精神,构建大数据平台生态圈,形成相互协同、相互促进的良好的态势。

  现在,已经有越来越多的行业和技术领域需求大数据分析系统,例如金融行业需要使用大数据系统结合或者机器学习方案进行信贷风控,零售、餐饮行业需要大数据系统实现辅助销售决策,各种IOT场景需要大数据系统持续聚合和分析时序数据,各大科技公司需要建立大数据分析中台等等。这些场景抽象来看,大多面临大致相同的技术挑战,比如:

  1、业务分析的数据范围横跨实时数据和历史数据,既需要低延迟的实时数据分析,也需要对PB级的历史数据进行探索性的数据分析;

  2、可靠性和可扩展性问题,龙8头号玩家用户可能会存储海量的历史数据,同时数据规模有持续增长的趋势,需要引入分布式存储系统来满足可靠性和可扩展性需求,同时保证成本可控;

  3、技术栈深,很多技术实现需要组合式组件拼凑、包括存储系统、计算单元等模块功能;

  所以,我们看到现在很多企业的大数据平台需要结合企业自身的产品规划、市场方向、开发实力、技术成熟度综合考虑,大数据平台大多采用了混搭架构,其EDW系统通常保留传统数据仓库来承载核心事务性关键应用,包括深度分析挖掘、自助分析类应用;而Hadoop系统则通常在实现分布式文件存储的基础上,引入NoSQL数据库来应对非结构化及半结构化的数据,当然也不乏其他开源技术栈工具集。

  大数据平台应具有弹性拓展、快速分析、稳定支撑的能力,构建由数据仓库平台、及Hadoop平台混搭构建的大数据平台架构,实现统一集中管理。各个平台具有不同的数据服务特征和SLA要求,对于中高级SLA应用目前仍需由高性能数据仓库支撑,比如日常报表、常规分析等。

搜索