大数据

我们都知道现在地球上的信息太多,但是怎么多法,没有人知道。

IBM 负责超级计算机研发的 Dave Turek 给了我们一个答案,根据 IBM 的估算,自人类有史以来至今我们所产生的信息量为 5 艾字节(50亿 GB)。而据 Turek 的预测,到明年的时候,我们生成这样规模的信息量只需要 10 分钟!

这怎么可能?!数据为何滥生到了这种地步?这么说吧,每次你的手机发送其 GPS 位置,每次你在网上买东西,每次你点击社交网络上的“喜欢”,你就给数字信息的海洋奉献了一个水滴。现在这片海洋大部分已经为此类数据所覆盖。

短信、客户记录、ATM 交易、监控摄像……这条清单可以列得很长。我们有一个流行语总结这些东西:“大数据”,尽管这个词难以表述我们所创造的这个怪物的规模。

这是技术超出我们使用能力的一个最新例子。在这个例子里,我们还没能跟上自己捕捉信息的能力,所以这段时间管理大师总喜欢说未来属于能善用自己所收集数据的公司,尤其是具备实时利用能力者。

对于企业来说,能够解析自己客户的每一个数字化的蛛丝马迹者必将拥有领先优势,这种能力不仅仅在于能够了解过去几个小时里谁在哪里买了什么东西,而且还能够知悉他们是否对此发表了微博、有没有在社交网络上发过相关相片。

城市亦是如此。能够收集成千上万个传感器的数据,然后描绘出都市的数字化地图,并能够将城市生活的异常行为(如交通流量)变成科学的一定能够脱颖而出。

不奇怪的是,政治运动也已经开始这样的尝试,发疯地挖掘数据已经成为政客聚焦“纳米定位(nanotargeting)”选民策略的一部分,这样才能够精准地知道如何才能捞到选票。

寻求对零碎数据进行解释的狂热解释了 Google 上周为什么要开始销售一款名为 BigQuery 的产品,该软件可以在数秒钟之内扫描几 TB 的信息。也正因为此,数据分析初创公司 Splunk 上市首日的股价即飙升了 90%。

数据科学家的崛起

但是,哪怕你拥有最好的数据解密工具也不能保证就能拥有大智慧。很少有公司拥有专门受训的员工,缺乏评估堆积如山的数据(包括数百万社交网络页面、智能手机上的非结构数据)的能力,更不用说对此做些什么。

去年麦肯锡发布了一份报告,把“大数据”形容为“创新的下一个前沿阵地”,但该机构同时也预测说到 2018 年,美国公司在这方面将会出现严重的人才短缺,具备必要的分析技能的人才缺口多达 19 万之巨。同时还认为美国具备数据知识的经理的需求将会超过 150 万(中国呢?)。

尽管如此,并非所有人都相信大数据的魔力。沃顿商学院的 Peter Fader 教授并不认为数据越多越好。同时他也不认为企业应该竭尽所能去了解自己的客户。他认为现在对数据聚合的关注太多了,而实际上,只有围绕着真正的分析进行的数据收集,量才有意义。

信息超载?

尽管如此,并非所有人都相信大数据的魔力。沃顿商学院的 Peter Fader 教授并不认为数据越多越好。同时他也不认为企业应该竭尽所能去了解自己的客户。他认为现在对数据聚合的关注太多了,而实际上,只有围绕着真正的分析进行的数据收集,量才有意义。

Fader 最近在接受麻省理工《技术评论》采访时说:

即便对过去行为拥有无穷多的知识,我们也无法掌握足够的信息去预测未来。实际上,我们的得到数据越多,我们所累积的盲目信心就越多……重要的是理解我们自身的局限在哪里,然后用有可能的最好的科学去突破这种局限。数据再多也实现不了这个目标。