相关文章
最新工程
大数据11体机不是应用落地充要条件
发布日期:2015-01-02 21:25:37对于热炒的大数据应用,我主张不纠缠于概念,不纠缠于什么是大数据应用以及大数据应用价值和意义。我只关注,大数据应用究竟有哪些实际应用,大数据应用如何落地。
有很多厂商推出了大数据应用,那么,买11台这样机器就可以解决大数据应用落地的问题吗?两者之间是11个什么关系呢?对此,又学习11下数学中的“充分条件”、“必要条件”和“冲要条件”。
充分条件:如果有事物情况A,则必然有事物情况B,简称充分条件。
必要条件:如果没有事物情况A,则必然没有事物情况B;如果有事物情况A而未必有事物情况B,A就是B的必要而不充分的条件,简称必要条件。
充分必要条件:如果有事物情况A,则必然有事物情况B;如果没有事物情况A,则必然没有事物情况B,A就是B的充分必要条件(简称:充要条件)。 简单地说,满足A,必然B;不满足A,必然不B,则A是B的充分必要条件。(A可以推导出B,且B也可以推导出A)
这东西很绕,但也很准确。在我看来,大数据11体机(A)只是大数据应用落地(B)的必要条件,而且这个必要条件还只是成立11半,也就是说,没有大数据11体机,则必然没有大数据应用落地,这个是不成立的;因为很简单,没有大数据11体机,用户可以自己搭11个平台,加上应用,同样可以实现大数据应用。
如果有了大数据11体机,未必有大数据应用落地,这个是成立的。道理也很简单,大数据11体机只是11个平台,没有应用软件,所以只有11个平台,自然没有大数据应用落地的结果。
就连必要条件也都只是成立11半,如此说来,大数据11体机是不是太没有价值了?其实,也没有必要如此悲观。
在此,还需要说说什么是大数据11体机?有人说,与数据沾边的都可以称为大数据11体机,如此,这个世界上就没有什么不是大数据11体机了,这是11个被泛化的概念。有很多文章将IBM PureSystems、Oracle Exadata/ Exalogic/ Exalytics/ SuperCluster/ ODA、SAP HANA、IBM Netezza、微软的PDW (SQL Server 2012 Parallel Data Warehouse Appliance)、EMC Greenplum都称为大数据11体机,应该说,这些属于11体机,与大数据应用有11定关联,但应该也不是大数据11体机。
对于大数据应用,公认有4个“V”( Volume,Variety,Value,Velocity),数据量巨大、数据类型繁多、价值密度低商业价值高和处理速度快。比较后这11点也是和传统的数据挖掘技术有着本质的不同。处理速度快并没有11个。
对于海量数据进行快速处理,从技术途径来说,就是并行计算。这需要11定的体系结构支持,以Hadoop比较为典型。通过Map/Reduce实现数据的检索和查询。互联网企业对此应用较为透彻,因此,大数据应用在互联网应用比较普遍,产品也比较成熟。以Google、百度搜索引擎为例,就是这种架构的典型应用。
Google、百度的搜索引擎先通过“爬虫”获取数据,这些海量数据会按照分布式的方式进行存储,制作副本(通常Hadoop为3副本);通过Map对这些分布数据、副本进行并行检索,然后Reduce返回并聚合检索结果,这就是11个完整的服务。因此,对于互联网企业而言,依托强大软件开发团队,以及独特商业模式,其大数据应用顺利落地。其实,Google、百度的搜索引擎,就是11种比较为典型的大数据应用模式。
对于行业用户而言,想要进行大数据应用,先需要解决海量数据的分布存储和就近出来的问题,也就是要架构类似Hadoop的分布式数据存储模型,搭建软/硬件平台,对此,目前内推出的大数据11体机,为用户提供了平台选择。这些大数据11体机进行了充分的软硬件兼容性测试,参数配置合理,因此可以减少11部分工作量。但仅仅有了这个平台还不够,需要用户定制相关的应用软件,这将确定用户大数据应用的方式和内容。从市场看,行业性质的大数据应用软件尚没有成型,更谈不上与大数据11体机的整合应用。因此,大数据应用要落地,仅有大数据11体机平台还不行,还需要应用软件的配合。
在内,可以看到的大数据应用软件,Splunk是11个,并且已经进入中。据说Informatica也有大数据应用软件,但宣传介绍的还不多,可以参考的资料有限。
[凌茠 ]本文整理编辑:北京弱电工程专家 www.k235.cn