大数据的本质是消除不确定性

我是创始人李岩:很抱歉!给自己产品做个广告,点击进来看看。  

大数据的本质是消除不确定性

作者:桑文锋

题目的观点是我在吴军的某本书上看到的,当时内心咯噔了一下。我一直在思考到底什么是大数据,这句话直中要害。这么牛的观点,我一般不太相信是一个人直接领悟出来的,背后一定会有其它来源依据,今天终于被我找到了。在看《暗时间》时,里面讨论了一些信息论相关的内容,于是就尝试搜索信息论和不确定性的关系,结果发现香农说了这么一句话:“信息是用来消除不确定性的东西”。信息论的鼻祖果然比鼻祖,一句话解释了信息。

去年我在看《硅谷百年史》时,顺便研究了从二进制到计算机的演变过程,当时有一个问题:二进制都可以用电路来表示,那么怎么证明两者是等价的呢?结果我顺着这个问题发现香农的硕士论文就是写的这个东西。想想我自己的硕士论文,只能说人和人还是有差别的。

我本科和研究生都是计算机专业,并没有学过《信息论》,这门课应该是通信专业的必修课。我猜想信息和不确定性这个疑问,对通信专业的学生来说,根本就不是这个问题。当然,通信专业的学生可能也不能很好的理解大数据。有时间我会把这门课自学一下,来消除一下我对熵这种概念的恐惧,至少现在还没迈过这个坎。

什么是不确定性?比如来说,你不知道回家的路上是不是拥堵,这就是一种不确定性。如果通过打开百度地图查看实时路况,你就知道了结果。这样,百度地图就给你提供了信息,从而消除了这种不确定性。显然,大数据只是信息的一种,既然信息是用来消除不确定性的,大数据自然就是消除不确定性的了。我思考这个问题,还是为了搞清楚大数据本身的价值。我的职业生涯都是建立在其之上,可不想它本身是站不住脚的。

从消除不确定性的视角来解释大数据的价值,就直接很多。我把数据的价值归结为两点,一是驱动决策,比如产品怎么改进更好,运营活动开展的效果如何;二是驱动产品智能,比如个性化推荐、精准广告等,现在都统称为 AI,都是将准备好的数据套上一定的策略算法,将结果反馈到产品上,让产品具有学习能力,即智能。对于以上这两点,大数据分别消除了决策的不确定性,和针对个体提供服务的不确定性。

我之前的一篇文章《 从日志统计到大数据分析(九)–魏晋 – 知乎专栏 》中,讲解了大数据的“大”、“全”、“细”、“时”四个特点,以及什么是大数据思维,希望能够帮你更好的认识大数据。

作者:桑文锋,神策数据 创始人兼 CEO,前百度大数据部技术经理。

End.

转载请注明来自36大数据(36dsj.com): 36大数据 » 大数据的本质是消除不确定性

随意打赏

消除不确定性不确定性
提交建议
微信扫一扫,分享给好友吧。