Hadoop+Spark大数据分析实战
上QQ阅读APP看书,第一时间看更新

1.3.1 数据分析与挖掘

下面分享一个真正通过数据挖掘收益的经典案例。最大零售超市沃尔玛拥有世界上最大的数据仓库系统。为了能够准确了解顾客在其门店的购买习惯,沃尔玛对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。通过数据挖掘和分析,一个意外的发现是:美国中年男子购买尿布的同时一般存在很大的可能会购买啤酒。通过分析后超市将啤酒和尿布摆放位置靠近,这样给超市带来了巨大收益。

国内百度大数据也做过很多次预测分析。2014年世界杯足球赛,百度通过大数据分析了所有比赛,小组赛准确率达到60%,淘汰赛阶段高达100%。还有微软、Google等几家公司都利用大数据做了相应的预测。如图1-2所示是几家公司预测对比。

图1-2

这两个案例都是传统的数据分析领域,最终目的都是为了从大数据中找到一些规则或者作出预测,为企业决策提供帮助,有点像沙里淘金。为了一点点金粒,就要留住所有沙子。这里的金子就是规则和结果,大量沙子就是大数据。

数据分析的步骤类似于从沙子里淘金的步骤,其步骤如下:

步骤01 采集大数据(可能有很多来源,这里要说明一下,数据必须真实可靠,否则得到的规则也将是错误的)。

步骤02 数据抽取(清洗,把对结果形成干扰的或者异常的数据剔除。比如运动员档案的数据里面出现一些名字,各项指标都是空着的,这样没意义的数据要删除)。

步骤03 在清洗完毕的数据基础上构建数据仓库(实际上就是对我们感兴趣的维度构建一个模型,比如你要考察的是足球运动员,可能关注身高、体重、坐高、下肢长、小腿长,而对长得帅不帅、哪里人不感兴趣),模型建好之后,最后一步运用数据挖掘算法进行计算得到结论,这就是大数据处理的传统领域——数据分析,也叫作商业智能。

上面讲到的两个案例都是实时性要求不高,不要求马上得到结果。如果希望快速得到结果,比如几秒钟得到处理结果,这就是大数据处理的另一个领域,即云计算。本书不详细讲解云计算,此处仅仅举个小例子,以帮助读者理解云计算的概念。