阿里云林亮:传统数仓升级至云原生数据仓库让企业数智化先人一步

 

  成为数据驱动型企业是众多企业的目标。因为在日益激烈的市场竞争中,数据驱动能给企业带来明显竞争优势,比如,它可以帮助企业提高效率、改善产品和服务,可以创造差异化优势获得业务增长。根据Forrester的调研数据,16%处于数据驱动高级阶段的企业,营收增长20%以上,对比初级阶段的企业这一比例仅有3%。

  强大的数据仓库是实现数据驱动企业的重要基础,对此以金融、电信企业为代表的众多大中型企业都深有感触,多年来它们部署了不少数据仓库,这些数据仓库在其生产和经营活动中发挥了重要作用。随着云计算和大数据时代的到来,这些传统的数据仓库无论是成本、灵活性还是开放性等方面都显露出不足,越来越无法满足正处于数字化转型深水区企业的数据分析需求。而近年来兴起的新一代云数据仓库,它们以其敏捷性、云原生、安全开放和一站式全面的数据协同管理等优势迅速崛起,一场从传统数据仓库向云原生数据仓库迁移的变革正在悄悄发生。

  和数据库类似,我国数据仓库市场曾被Oracle、Teradata、IBM等国外公司的产品所垄断。不过,这种垄断局面正面临新一代云原生数据仓库的强力挑战。

  近些年,以Hadoop为代表的大数据平台兴起,以相对低的硬件成本和灵活处理多种类型数据等优势,对传统数据仓库构成了一定冲击,但无论是功能上还是易用性终究与传统数仓有不小差距,无法真正替代后者。直到以阿里云AnalyticDB、AWS Redshift、Snowflake等为代表的云原生数据仓库的出现,终于形成了对传统数据仓库的替代之势。

  作为数据仓库后起之秀的云原生数据仓库,相比传统数据仓库具有显著优势。云原生数据仓库依托资源池化采用存储分离的架构,不仅可以灵活扩展,还能让计算效率和资源利用效率都最大化,同时也有利于数据共享、打破业务数据壁垒。而在敏捷实时方面,数据仓库和大数据技术正在快速融合,云数据仓库正在走向湖仓一体,以提供离在线一体化的数据处理、分析计算能力。

  推动云原生数仓普及还有一个非常关键的因素是可以实现自主创新。与传统数据仓库被外国产品垄断不同,以阿里云AnalyticDB为代表的国产数据仓库在技术上已经和国外产品站在了同一起跑线。基于国产数据仓库完成与国产芯片、国产操作系统的适配,实现IT系统的全栈可控,这一点对金融、电信等关键核心领域非常有必要。

  调查显示,云数据仓库已经得到广泛认可。根据Forrester对中国金融和电信行业的调研,在金融行业有58%的受访者表示已经在使用云数据仓库,电信行业也有50%的受访者表示已经在使用云数据仓库。透过这些数据可以看出云数据仓库对传统数据仓库的替换已经在实实在在地发生。

  为了加速云数据仓库对传统数据仓库的替代,最大化数据资产的价值,2020年阿里云联合合作伙伴共同推出了数据仓库“升舱计划”,重点帮助金融、电信等行业客户从传统数据仓库全面迁移到云原生数据仓库,以构建下一代数据管理和分析系统。

  阿里巴巴集团副总裁、阿里云数据库事业部负责人李飞飞用飞机的升舱来类比使用两种不同数据仓库的体验。他说,从传统数仓换成云数仓就像到从飞机的“经济舱”升级到“头等舱”。

  “阿里云数据库重磅推出的AnalyticDB升舱解决方案是为加速企业数智化创新而生。它解决的核心问题是让业务避免被传统数仓的技术和产品捆绑,让业务在高速飞行时仍有时间思考。”李飞飞在日前举行的“阿里云数据库升舱计划实战峰会”主题演讲中表示。

  阿里巴巴集团副总裁、阿里云数据库事业部负责人、ACM和IEEE会士(Fellow)李飞飞

  “升舱解决方案”以云原生数据仓库AnalyticDB为核心。AnalyticDB是阿里云经过大规模验证的云原生数据仓库,曾在权威评测机构TPC组织的TPC-DS和TPC-H测试中获得性能和性价比全球第一的成绩。

  阿里巴巴集团研究员、阿里云数据库事业部OLAP产品部负责人林亮介绍,AnalyticDB分为MySQL版和PostgreSQL版,本次“升舱解决方案”主打的是PostgreSQL版,100%兼容Greenplum,高度兼容Oracle及Teradata,同时大幅度提升了计算性能及并发度。

  值得一提的是,AnalyticDB的诞生也正是源于传统数据仓库无法满足阿里集团的分析需求。此前,阿里集团是Oracle在亚洲最大的客户,其数据分析应用也部署在Oracle RAC之上,然而,随着阿里业务的快速发展带来了数据的高速增长,传统数据仓库根本没法满足,阿里才走上了自研之路,这才有了今天的云数据仓库AnalyticDB。

  阿里云AnalyticDB在PostgreSQL和Greenplum的基础上做了大量的技术创新,从而使AnalyticDB有着比这两者优异得多的表现。比如,AnalyticDB采用全自研的向量化执行引擎,对大数据量的读取和计算需求,在自研的向量化执行引擎对扫描、关联、聚集、排序、网络传输进行优化,相比PostgreSQL原生计算引擎有两倍以上的性能提升。还有,其多态的存储引擎对列存压缩表和行存堆表都进行了进一步增强,并支持高效的外部数据源联邦分析,以及实时物化视图的引入等,这些都大幅改善了实时能力。另外,AnalyticDB采用了存储、计算分离的架构,能够做到节点的无状态化,除了水平的扩缩容和垂直的升降配,还可在不需要使用时直接挂起计算资源。

  “由于各种创新技术的引入,客户如果部署升舱解决方案,成本能够降低一半,复杂查询性能从分钟级缩减至秒级。”林亮表示。

  这些技术创新的核心都是为客户带来业务价值。具体而言,“升舱”解决方案能为客户带来三大业务价值:

  第一,敏捷响应业务需求。当今企业对实时数据分析响应场景的诉求越来越迫切,例如证券行业的实时监察系统需要分钟级甚至秒级的数据采集和计算服务。AnalyticDB能够满足业务对数据处理时效性要求,做到百万TPS实时写入、实时查询、实时服务。

  第二,云原生提升资源效率。通过云资源池、存算分离等云原生技术,AnalyticDB实现了快速伸缩和低成本扩展,增加了IT投资回报比。

  第三,安全开放。AnalyticDB支持云计算+安全可信+隐私计算的下一代数据库安全可信体系,从机密性、完整性、可用性三个维度为业务保驾护航。同时,AnalyticDB还打破传统数据封闭的生态,能实现与大数据生态的互联互通。

  林亮介绍,从2020年阿里云数据库的“升舱计划”正式发布以来,已经成功服务了包括申万宏源证券、中国移动、中国再保险集团、郑州商品交易所等在内的30多家金融和电信运营商标杆客户,给这些客户带来了明显的效益。比如,申万宏源证券基于AnalyticDB实现了百TB级的数据仓库,成本下降了50%,整体性能提升了60%以上。而中国移动和郑州商品交易所等在数仓升级后实时性从以前的天级别提高到现在的秒级。

  AnalyticDB是阿里云升舱解决方案的基础,除了AnalyticDB外,解决方案中还包括数据传输服务DTS及数据库与应用迁移服务等周边工具,它们共同组成了从迁移可行性评估、数据集成、数据加工到数据建模的一站式传统数据仓库升级解决方案。

  这些工具可以为用户从传统数据仓库向云数据仓库的升级工作提供方便。另外,AnalyticDB是基于Greenplum内核技术演进和云原生架构升级,第三方生态工具兼容性好。

  不过,数据仓库的升级是一件非常有挑战的工作,用林亮的话说就是“数据仓库的升级就像是给飞行中的飞机换发动机”。正因为这个原因,与“升舱”解决方案配套,阿里云提供了 “五阶十步”方法论、原厂技术支持的专家服务,并联合合作伙伴组建了一个强大的升舱生态联盟来帮助实施落地。

  据悉,阿里云特别针对数据仓库领域成立的升舱生态联盟委员会将建立行业标准,形成定期沟通机制,通过产品和服务融合,打造标杆客户。另外,阿里云还提供了生态加速计划,通过集成认证和合作伙伴打造联合方案、领航计划构建能力中心、百城计划激励销售渠道、联合营销拓展商机。截至目前,阿里云已经与超过70家伙伴完成了产品的集成认证。

  基于这些充足的准备让阿里云对今年的升舱计划有了更大的期待。“我们2022年升舱计划的目标是:累计服务升舱客户100家,新落地升舱100套AnalyticDB;同时,实现天级别的部署,一个月完成交付,3个月完成上线。”林亮表示。

  对于这个目标的达成林亮很有信心。他说,一方面是通过过去一年多的“升舱”行动,阿里云感受到了市场对云数据仓库的强烈需求;另一方面是经过一年多的沉淀,“升舱”流程和方法论也已经日趋成熟,阿里云现在具有了规模化复制的能力。同时,还有越来越多合作伙伴的加盟,这些都让阿里云有充足的信心达成目标。

  在云时代就应该用云原生数据仓库。林亮表示,阿里云的“升舱”计划希望加速这个进程,推动更多金融、电信企业的数字化转型,为企业实现数智化创新加油。返回搜狐,查看更多龙8long8中国

搜索