当云计算遇见大数据

 

  基辛格首先看给我们讲解什么是大数据,毕竟这个概念目前多数人依然陌生。大数据构想是EMC带来的全新理念,首先从“大”入手,“大”肯定是指大型数据集,一般在10TB规模左右。很多用户把多个数据集放在一起,形成PB级的数据量。同时从数据源来谈,大数据是指这些数据来自多种数据源,以实时、迭代的方式来实现。

  还有很多用户当然要考虑把大数据进行存储,采用EMC Avamar、Isilon、Greenplum等产品,这次EMC World上基辛格特别谈到,除了把大型数据存储、分析,同时还要对其进行一些操作,并把它与自己企业的业务流程联系到一起,这就是我们为什么有Documentum的产品。

  同时我们也看到,各种行业都出现了大数据趋势,有些可能是零售业商户,要对零售业数据进行分析,或者是一些有关全球天气预报模型的数据,还有油气行业一些地理信息数据,比如基因学分析,医学中也有成像类的大数据,甚至电影、娱乐行业还有用于渲染的大型数据存在。

  EMC World 2011的大会主题是“当云计算遇见大数据”,虽然云计算与大数据两者之间有很多的交集,事实上是是两个完全不同的概念。业界主要做云的公司有谷歌、雅虎、亚马逊等都拥有大量大数据。当EMC为这些客户打造用于云计算的基础硬件设施的时候,就会想这样的设施上跑什么样的应用,基辛格强调大数据应用必须在云设施上跑,这就是两者的关系大数据离不开云。同时,支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,这些都是底层的技术原则。因此基辛格认为大数据和云之间存在很多合力的地方。

  另一方面,随着互联网信息量的激增,用户单个数据集达到数以TB计,有的客户甚至已达到Pera级(1000Tera)了,用现有的存储系统结构处理数据量级较小,而且只能处理单一数据源数据,面对大数据的压力。在处理大量级以及多数据源的数据能力非常弱。这也就是为什么EMC收购Greenplum,支持开源的Hadoop计划的目的所在。基辛格很明白,大数据的挑战不仅仅在于存储和保护,数据分析能力的强弱,将成为这个时代的关键点:我们已经解决了数据存储和保护的问题,所需要的只是时间,但是海量数据分析的问题,我们还没有在大数据到来时做好准备。

  谈到大数据的特点,龙8long8国际一是数据规模是PB级,二是多数据源,能够把半结构化、非结构化和结构化的数据很好地融合起来。同时具有实时、可迭代的特点。具体形容就是大数据环境类似于Facebook环境,随时可以添加变量。基辛格一再的支出,数据分析的历史已有30年,现在我们已进入大数据时代,EMC前瞻性的提出了大数据的思维,其实不是一个新名词的发明,而EMC发现是一个时代特征,并且在技术上做好迎接未来充分准备。

搜索