当前位置: 100md首页 > 医学版 > 医学资料 > 资料下载2021
编号:3957
大数据时代:生活、工作与思维的大变革.pdf
http://www.100md.com 2020年3月23日
第1页
第5页
第14页
第22页
第44页
第207页

    参见附件(2604KB,220页)。

     大数据时代,这是一本非常不错的大数据籍,书中为读者深刻的指出大数据带来的影响,书中一共拥有三大部分,感兴趣的用户可以来!

    大数据时代内容提要

    《大数据时代》是国外大数据研究的先河之作,本书作者维克托.迈尔.舍恩伯格被誉为“大数据商业应用一人”,拥有在哈佛大学、牛津大学、耶鲁大学和新加坡国立大学等多个互联网研究重镇任教的经历,早在2010年就在《经济学人》上发布了长达14页对大数据应用的前瞻性研究。

    维克托.尔耶.舍恩伯格在本书中前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。

    维克托具洞见之处在于,他明确指出,大数据时代大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。

    《大数据时代》认为大数据的核心就是预测。大数据将为人类的生活创造的可量化的维度。大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。书中展示了谷歌、微软、IBM、苹果、facebook、twitter、VISA等大数据先锋们具价值的应用案例。

    大数据时代作者

    维克托.迈尔-舍恩伯格(Viktor Mayer-Sch·nberger)

    “大数据时代的预言家”,他是十余年潜心研究数据科学的技术,他是早洞见大数据时展趋势的数据科学家之一,也是受人尊敬的发言人之一。他曾先后任教于世界的几大互联网研究学府。现任牛津大学网络学院互联网治理与监管教授,曾任哈佛大学肯尼迪学院信息监管科研项目负责人,哈佛国家电子商务研究中网络监管项目负责人;曾任新加坡国立大学李光耀学院信息与创新策略研究中心主任。并担任耶鲁大学、芝加哥大学、弗吉尼亚大学、圣地亚哥大学、维也纳大学的客座教授。

    大数据时代目录

    第一部分 大数据时代的思维变革

    01更多:不是随机样本,而是全体数据

    02更杂:不是精确性,而是混杂性

    03更好:不是因果关系,而是相关关系

    第二部分 大数据时代的商业变革

    04数据化:一切皆可“量化”

    05价值:“取之不尽,用之不竭”的数据创新

    06角色定位:数据、技术与思维的三足鼎立

    第三部分 大数据时代的管理变革

    07风险:让数据主宰一切的隐忧

    08掌控:责任与自由并举的信息管理

    大数据时代:生活、工作与思维的大变革截图

    本书纸版由浙江人民出版社于2012年12月出版

    作者授权湛庐文化(Cheers Publishing)作中国大陆(地区)电子版发行

    (限简体中文)

    版权所有·侵权必究

    书名:大数据时代:生活、工作与思维的大变革

    著者:(英)维克托·迈尔-舍恩伯格,肯尼思·库克耶

    字数:215000

    电子书定价:24.99美元目录

    推荐序一 拥抱“大数据时代”

    推荐序二 实实在在大数据

    译者序 在路上·晃晃悠悠

    引言 一场生活、工作与思维的大变革

    大数据,变革公共卫生

    大数据,变革商业

    大数据,变革思维

    大数据,开启重大的时代转型

    预测,大数据的核心

    大数据,大挑战

    第一部分 大数据时代的思维变革

    01 更多:不是随机样本,而是全体数据

    让数据“发声”

    小数据时代的随机采样,最少的数据获得最多的信息

    全数据模式,样本=总体

    02 更杂:不是精确性,而是混杂性

    允许不精确

    大数据的简单算法比小数据的复杂算法更有效

    纷繁的数据越多越好

    混杂性,不是竭力避免,而是标准途径

    新的数据库设计的诞生

    03 更好:不是因果关系,而是相关关系

    关联物,预测的关键

    “是什么”,而不是“为什么”

    改变,从操作方式开始

    大数据,改变人类探索世界的方法第二部分 大数据时代的商业变革

    04 数据化:一切皆可“量化”

    数据,从最不可能的地方提取出来

    数据化,不是数字化

    量化一切,数据化的核心

    当文字变成数据

    当方位变成数据

    当沟通变成数据

    世间万物的数据化

    05 价值:“取之不尽,用之不竭”的数据创新

    数据创新1:数据的再利用

    数据创新2:重组数据

    数据创新3:可扩展数据

    数据创新4:数据的折旧值

    数据创新5:数据废气

    数据创新6:开放数据

    给数据估值

    06 角色定位:数据、技术与思维的三足鼎立

    大数据价值链的3大构成

    大数据掌控公司

    大数据技术公司

    大数据思维公司和个人

    全新的数据中间商

    专家的消亡与数据科学家的崛起

    大数据,决定企业竞争力

    第三部分 大数据时代的管理变革

    07 风险:让数据主宰一切的隐忧

    无处不在的“第三只眼”

    我们的隐私被二次利用了

    预测与惩罚,不是因为“所做”,而是因为“将做”数据独裁

    挣脱大数据的困境

    08 掌控:责任与自由并举的信息管理

    管理变革1:个人隐私保护,从个人许可到让数据使用者承担责任

    管理变革2:个人动因VS预测分析

    管理变革3:击碎黑盒子,大数据算法师的崛起

    管理变革4:反数据垄断大亨

    结语 正在发生的未来

    参考文献推荐序一 拥抱“大数据时代”

    宽带资本董事长 田溯宁

    从硅谷到北京,大数据的话题正在被传播。随着智能手机以及“可佩带”计算

    设备的出现,我们的行为、位置,甚至身体生理数据等每一点变化都成为了可被记

    录和分析的数据。以此为基础,“反馈经济”(feedback economy)等新经济、新

    商业模式也正在开始形成。维克托·迈尔-舍恩伯格教授这本《大数据时代》,是我看

    到的最好的大数据著作,不管对于产业实践者,还是对于政府和公众机构,都是非

    常具有价值的。

    如今,一个大规模生产、分享和应用数据的时代正在开启。正如维克托教授所

    说,大数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,绝

    大部分都隐藏在表面之下。而发掘数据价值、征服数据海洋的“动力”就是云计

    算。互联网时代,尤其是社交网络、电子商务与移动通信把人类社会带入了一个

    以“PB”(1024TB)为单位的结构与非结构数据信息的新时代。在云计算出现之

    前,传统的计算机是无法处理如此量大、并且不规则的“非结构数据”的。以云计

    算为基础的信息存储、分享和挖掘手段,可以便宜、有效地将这些大量、高速、多

    变化的终端数据存储下来,并随时进行分析与计算。大数据与云计算是一个问题的

    两面:一个是问题,一个是解决问题的方法。通过云计算对大数据进行分析、预

    测,会使得决策更为精准,释放出更多数据的隐藏价值。数据,这个21世纪人类探

    索的新边疆,正在被云计算发现、征服。

    《大数据时代》列举了众多在公共卫生、商业服务领域大数据变革的例子。一

    旦“不再追求精确度,不再追求因果关系,而是承认混杂性,探索相关关

    系”,“思维转变过来,数据就能被巧妙地用来激发新产品和新型服务”。数据正

    成为巨大的经济资产,成为新世纪的矿产与石油,将带来全新的创业方向、商业模

    式和投资机会。

    庞大的人群和应用市场,复杂性高、充满变化,使得中国成为世界上最复杂的大数据国家。解决这种由大规模数据引发的问题,探索以大数据为基础的解决方

    案,是中国产业升级、效率提高的重要手段。数据挖掘不仅能够成为公司竞争力的

    来源,也将成为国家竞争力的一部分。联系到我国现代化所面临的种种问题以及教

    育、交通、医疗保健等各方面挑战,通过大数据这种创新方式来解决问题,创建新

    的产业群,实现“中国制造到中国创造”的改变,意义就更大。

    “大数据”发展的障碍,在于数据的“流动性”和“可获取性”。美国政府创

    建了Data.gov网站,为大数据敞开了大门;英国、印度也有“数据公开”运动。中

    国要赶上这样一场大数据变革,各界应该首先开始尝试公开数据、方式与方法。如

    同工业革命要开放物质交易、流通一样,开放、流通的数据是时代趋势的要求。

    《大数据时代》一书也提到了数据拥有权、隐私性保护等问题,但相比较来看,新

    科技可能带来的改变要远远大于其存在的问题。

    本书的译者周涛教授是我国最年轻有为的大数据专家。这位27岁的天才型教

    授,数年来一直带领我国学术界在大数据研究上向国际一流看齐。更可贵的是,他

    不仅做研究,也关注着研究成果的商业化及传播。这部译著就是他这种努力的一个

    成果。

    现代历史上的历次技术革命,中国均是学习者。而在这次云计算与大数据的新

    变革中,中国与世界的距离最小,在很多领域甚至还有着创新与领先的可能。只要

    我们以开放的心态、创新的勇气拥抱“大数据时代”,就一定会抓住历史赋予中国

    创新的机会。推荐序二 实实在在大数据

    中国互联网发展的重要参与者,知名IT评论人 谢文

    因为我本身十分关注大数据,也写过若干关于大数据的文章,做过若干关于大

    数据的演讲,所以对有关这一主题的论文和书籍非常有兴趣。过去几年,在这方面

    我读过十几本书、上百篇论文和文章。相对而言,维克托·迈尔-舍恩伯格教授的《大

    数据时代》是迄今为止我读过的最好的一本专著,中英文都算上。

    此书的一大贡献就是在大数据方兴未艾、众说纷纭的时刻,进一步阐述和厘清

    了大数据的基本概念和特点,这对许多以为大数据就是“数据大”的人来说很有帮

    助。

    在人类历史长河中,即使是在现代社会日新月异的发展中,人们还主要是依赖

    抽样数据、局部数据和片面数据,甚至在无法获得实证数据的时候纯粹依赖经验、理论、假设和价值观去发现未知领域的规律。因此,人们对世界的认识往往是表面

    的、肤浅的、简单的、扭曲的或者是无知的。维克托指出,大数据时代的来临使人

    类第一次有机会和条件,在非常多的领域和非常深入的层次获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律,获取过去不可能获取的知识,得

    到过去无法企及的商机。

    大数据的出现,使得通过数据分析获得知识、商机和社会服务的能力从以往局

    限于少数象牙塔之中的学术精英圈子扩大到了普通的机构、企业和政府部门。门槛

    的降低直接导致了数据的容错率提高和成本的降低,但正如维克托所强调的,最重

    要的是人们可以在很大程度上从对于因果关系的追求中解脱出来,转而将注意力放

    在相关关系的发现和使用上。只要发现了两个现象之间存在的显著相关性,就可以

    创造巨大的经济或社会效益,而弄清二者为什么相关可以留待学者们慢慢研究。大

    数据之所以可能成为一个“时代”,在很大程度上是因为这是一个可以由社会各界

    广泛参与,八面出击,处处结果的社会运动,而不仅仅是少数专家学者的研究对

    象。大数据将逐渐成为现代社会基础设施的一部分,就像公路、铁路、港口、水电

    和通信网络一样不可或缺。但就其价值特性而言,大数据却和这些物理化的基础设

    施不同,不会因为人们的使用而折旧和贬值。例如,一组DNA可能会死亡或毁灭,但

    数据化的DNA却会永存。所以,维克托赞同许多物理学家的看法,世界的本质就是数

    据。因此,大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚

    至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。哲学

    史上争论不休的世界可知论和不可知论将会转变为实证科学中的具体问题。可知性

    是绝对的,无事无物不可知;不可知性是相对的,是尚未知道的意思。

    对于不从事网络业、IT业以及数据分析和使用的读者,本书的一大好处就是通

    俗易懂,通过具体实例说明问题,有助于人们的理解和联想。在时限上,作者概括

    了直到2012年7月大数据方向上的最新发展,避免了许多同类作品存在的例证过于陈

    旧、视野相对狭窄的毛病。

    作为一位生活在欧美现代社会的学者,维克托是把民主、开放和理性作为已知

    前提来讨论大数据革命的。这对生活在发展中国家,社会现代化程度尚且有限的读

    者来说,也许是个遗憾,因为书中描述的许多已经发生的事例可能更像是神话。没

    有市场经济制度和法治体系作为基础支撑,大数据很可能成为发达国家在下一轮全

    球化竞争中的利器,而发展中国家依然处于被动依附的状态之中。整个世界可能被

    割裂为大数据时代、小数据时代和无数据时代。

    处于发展中国家前列的中国,目前正面临着一个重大的历史抉择关口。应该

    说,在过去的三十余年时间里,中国在快速走向工业化、信息化、网络化方面交出

    了一份不错的成绩单。如今适逢世界走向数据化,迈入大数据时代的时刻,无论对

    个人、企业还是对社会和国家,都有认真理解、严肃决策的必要性和紧迫性。哪怕

    仅从这一点考虑,读一读这本书也是很值得的。译者序

    在路上·晃晃悠悠

    电子科技大学教授,互联网科学中心主任 周涛

    接下翻译这本《大数据时代》的任务时,我的目标是做到110%的好。因为作者

    维克托·迈尔-舍恩伯格毕竟不像我们每天在一线与数据厮杀搏斗,其爱其恨都更深

    刻。特别地,我们可以为中文的读者补充很多中国的例子和参考资料。很遗憾,我

    们最终只做到了90%,应该补充的一些材料还没有整理好,遣词造句也多有生硬疏忽

    之处。如果再给我一个月的时间,就可以达到我预想的110%甚至120%。

    为什么现在把这个版本呈现给诸位呢?一是因为我们的努力使得本书中译本的

    出版和英文原版完全同步,单从获取知识的角度讲,我们一点儿不比美国的读者

    慢!二是我相信作者在书中的一个重要观点,就是大数据时代,要允许一点点的错

    误和不完美,因为效率可能更加重要!留下一些可供提高的地方,也使得我们的每

    一次印刷,都能够与以前有所不同。亲,这不是建议你等到某个更好的版本才去购

    买,而是说,其实你应该每个版本都买一本:)

    《大数据时代》这本书是200%的好,因此90%的译本也绝对值得一读。首先,作者抛出了大数据时代处理数据理念上的三大转变:要全体不要抽样,要效率不要

    绝对精确,要相关不要因果;接着,从万事万物数据化和数据交叉复用的巨大价值

    两个方面,讲述驱动大数据战车在材质和智力方面向前滚动的最根本动力;最后,作者冷静描绘了大数据帝国前夜的脆弱和不安,包括产业生态环境、数据安全隐

    私、信息公正公开等问题。

    国内最近也出版了一些大数据方面的著作,可以和本书互为补充。郑毅的《证

    析》对于数据通过交叉复用体现的新价值、大数据战略在企业与政府执行层面的流

    程和大数据科学家这一新职位,以及围绕这个职位的能力和责任给出了最深刻、最

    具体的描述;子沛的《大数据》对于数据的公正性、公平性以及信息和数据管理等方面理念、政策和执行的变化,特别是美国在这方面的进展,给出了完整的介绍;

    苏萌、林森和我合著的《个性化:商业的未来》则对大数据时代最重要的技术——

    个性化技术,以及与之相关的新商业模式给出了从理念到技术细节的全景工笔。总

    的来说,这三本书都针对本书的某一局部给出了更深刻的介绍和洞见,也各有明显

    超出本书的优点,但三本之和也无法囊括本书的菁华,亦缺乏本书的宏大视野。

    简单地说,这本书好在三个地方:

    一是观点掷地有声,绝非主流媒体上若干讨论的简单汇总和平均,更不是一个

    宏大概念面前暧昧的叫好声。读者可能对其中一些观点并不认同,但是读完之后不

    可能一个都记不住。

    二是观念高屋建瓴,作者试图从很多实例和经验,包括历史事件中萃取出普适

    性的观念,而不仅仅是适用于几个特定情况的案例分析。

    三是例子丰富翔实,不长的篇幅包括了上百个学术和商业的实例。

    三点近乎完美地结合起来,体现了作者驾驭大问题的能力和丰富的知识,以

    及,可能更为重要地,作者渴求立言立说的野心!所以说,这本书绝对不是一堆枯

    燥的纲要,更不是一本巨厚的杂志。

    我在这里拼命叫好,是为了这本书卖得更多,但不代表作者的所有观点都是绝

    对真理。举个例子,我本人对于大数据时代“相关关系比因果关系更重要”这个观

    点就不认同。有了机器学习,特别是集成学习,我们解决问题的方式变成了训练所

    有可能的模型和拟合所有可能的参数——问题从一个端口进去,答案从另一个端口

    出来,中间则是一个黑匣子,因为没有人能够从成千上万的参数拟合值里面读

    到“科学”,我们读到的只是“计算机工程”。与其说大数据让我们重视相关胜于

    因果,不如说机器学习和以结果为导向的研究思路让我们变成这样。

    那么,大数据是不是都这样呢?其实很多时候恰恰相反。想想瑞士日内瓦的强

    子对撞机,我们在上面捕获了人类有史以来最大规模的单位时间数据。我们是希望

    找到或者验证某种相关关系吗?不是!我们试图回答的,正是人类所能问出的关于

    因果关系最伟大的问题:希格斯玻色子是否存在,我们的宇宙是否有可能用标准模型刻画。这个问题的最终答案,将打破人和神的界限!认为相关重于因果,是某些

    有代表性的大数据分析手段(譬如机器学习)里面内禀的实用主义的魅影,绝非大

    数据自身的诉求。从小处讲,作者试图避免的“数据的独裁”和“错误的前提导致

    错误的结论”,其解决之道恰在于挖掘因果逻辑而非相关性;从大处讲,放弃对因

    果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和

    堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之

    始。

    苏珊·朗格(Susan Langer)在《哲学新视野》一书中说:

    某些观念有时会以惊人的力量给知识状况带来巨大的冲击。由于这些观念能一

    下子解决许多问题,所以,它们似乎将有希望解决所有基本问题,澄清所有不明了

    的疑点。每个人都想迅速地抓住它们,作为进入某种新实证科学的法宝,作为可以

    用来建构一个综合分析体系的概念轴心。这种‘宏大概念’突然流行起来,一时间

    把几乎所有的东西都挤到了一边。

    这段话通常被认为是对当时“存在主义”和“精神分析法”这类万能概念的善

    意批评,而如今特别适合作为一盆冷水泼在那些没有任何深刻理解,却月月日日分

    分秒秒穿行于各种“大数据嘉年华”的投资人、媒体人和创业者身上。

    希望《大数据时代》给予各位的是一些实实在在的知识和思考,并且唤起各位

    安静思索相关问题的心境。大数据是一个很重要的概念,代表了很重要的趋势,但

    我不希望它成为一种放之四海皆准的万能概念——因为越是万能的,就越是空洞

    的!人类学家克利福德·吉尔兹(Clifford Geertz)在其著作《文化的解释》中曾

    给出了一个朴素而冷静的劝说:“努力在可以应用、可以拓展的地方,应用它、拓

    展它;在不能应用、不能拓展的地方,就停下来。”我想,这应该是所有人面对一

    个新领域或新概念时应有的态度。

    大数据的道路上没有戈多,我们已经在路上,晃晃悠悠。人类的自由意志和诸

    神之下的尊严,会在这条道路上异化甚至消逝吗?极目远眺,不知道世界的尽头,是否是一个冷酷的仙境!诸位为之奋斗吧,而我只想,做一个,麦田里的守望者。以为序。引言 一场生活、工作与思维的大变革

    大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜

    让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成

    为新发明和新服务的源泉,而更多的改变正蓄势待发……

    【大数据先锋】

    谷歌搜索与流感预测

    Farecast与飞机票价预测系统

    天文学,信息爆炸的起源大数据,变革公共卫生

    2009年出现了一种新的流感病毒。这种甲型H1N1流感结合了导致禽流感和猪流

    感的病毒的特点,在短短几周之内迅速传播开来。全球的公共卫生机构都担心一场

    致命的流行病即将来袭。有的评论家甚至警告说,可能会爆发大规模流感,类似于

    1918年在西班牙爆发的影响了5亿人口并夺走了数千万人性命的大规模流感。更糟糕

    的是,我们还没有研发出对抗这种新型流感病毒的疫苗。公共卫生专家能做的只是

    减慢它传播的速度。但要做到这一点,他们必须先知道这种流感出现在哪里。

    美国,和所有其他国家一样,都要求医生在发现新型流感病例时告知疾病控制

    与预防中心。但由于人们可能患病多日实在受不了了才会去医院,同时这个信息传

    达回疾控中心也需要时间,因此,通告新流感病例时往往会有一两周的延迟。而

    且,疾控中心每周只进行一次数据汇总。然而,对于一种飞速传播的疾病,信息滞

    后两周的后果将是致命的。这种滞后导致公共卫生机构在疫情爆发的关键时期反而

    无所适从。

    在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂

    志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震

    惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而

    且可以具体到特定的地区和州。谷歌通过观察人们在网上的搜索记录来完成这个预

    测,而这种方法以前一直是被忽略的。谷歌保存了多年来所有的搜索记录,而且每

    天都会收到来自全球超过30亿条的搜索指令,如此庞大的数据资源足以支撑和帮助

    它完成这项工作。

    谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008

    年间季节性流感传播时期的数据进行了比较。他们希望通过分析人们的搜索记录来

    判断这些人是否患上了流感,其他公司也曾试图确定这些相关的词条,但是他们缺

    乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。

    虽然谷歌公司的员工猜测,特定的检索词条是为了在网络上得到关于流感的信息,如“哪些是治疗咳嗽和发热的药物”,但是找出这些词条并不是重点,他们也

    不知道哪些词条更重要。更关键的是,他们建立的系统并不依赖于这样的语义理

    解。他们设立的这个系统唯一关注的就是特定检索词条的使用频率与流感在时间和

    空间上的传播之间的联系。谷歌公司为了测试这些检索词条,总共处理了4.5亿个不

    同的数学模型。在将得出的预测与2007年、2008年美国疾控中心记录的实际流感病

    例进行对比后,谷歌公司发现,他们的软件发现了45条检索词条的组合,将它们用

    于一个特定的数学模型后,他们的预测与官方数据的相关性高达97%。和疾控中心一

    样,他们也能判断出流感是从哪里传播出来的,而且判断非常及时,不会像疾控中

    心一样要在流感爆发一两周之后才可以做到。

    所以,2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌

    成为了一个更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数

    据信息。惊人的是,谷歌公司的方法甚至不需要分发口腔试纸和联系医生——它是

    建立在大数据的基础之上的。这是当今社会所独有的一种新型能力:以一种前所未

    有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞

    见。基于这样的技术理念和数据储备,下一次流感来袭的时候,世界将会拥有一种

    更好的预测工具,以预防流感的传播。大数据,变革商业

    大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌。购

    买飞机票就是一个很好的例子。

    2003年,奥伦·埃齐奥尼(Oren Etzioni)准备乘坐从西雅图到洛杉矶的飞机

    去参加弟弟的婚礼。他知道飞机票越早预订越便宜,于是他在这个大喜日子来临之

    前的几个月,就在网上预订了一张去洛杉矶的机票。在飞机上,埃齐奥尼好奇地问

    邻座的乘客花了多少钱购买机票。当得知虽然那个人的机票比他买得更晚,但是票

    价却比他便宜得多时,他感到非常气愤。于是,他又询问了另外几个乘客,结果发

    现大家买的票居然都比他的便宜。

    对大多数人来说,这种被敲竹杠的感觉也许会随着他们走下飞机而消失。然

    而,埃齐奥尼是美国最有名的计算机专家之一,从他担任华盛顿大学人工智能项目

    的负责人开始,他创立了许多在今天看来非常典型的大数据公司,而那时候还没有

    人提出“大数据”这个概念。

    1994年,埃齐奥尼帮助创建了最早的互联网搜索引擎MetaCrawler,该引擎后

    来被InfoSpace公司收购。他联合创立了第一个大型比价网站Netbot,后来把它卖

    给了Excite公司。他创立的从文本中挖掘信息的公司ClearForest则被路透社收购

    了。在他眼中,世界就是一系列的大数据问题,而且他认为自己有能力解决这些问

    题。作为哈佛大学首届计算机科学专业的本科毕业生,自1986年毕业以来,他也一

    直致力于解决这些问题。

    飞机着陆之后,埃齐奥尼下定决心要帮助人们开发一个系统,用来推测当前网

    页上的机票价格是否合理。作为一种商品,同一架飞机上每个座位的价格本来不应

    该有差别。但实际上,价格却千差万别,其中缘由只有航空公司自己清楚。

    埃齐奥尼表示,他不需要去解开机票价格差异的奥秘。他要做的仅仅是预测当

    前的机票价格在未来一段时间内会上涨还是下降。这个想法是可行的,但操作起来

    并不是那么简单。这个系统需要分析所有特定航线机票的销售价格并确定票价与提前购买天数的关系。

    如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明

    智选择。反过来,如果一张机票的平均价格呈上涨趋势,系统就会提醒用户立刻购

    买该机票。换言之,这是埃齐奥尼针对9000米高空开发的一个加强版的信息预测系

    统。这确实是一个浩大的计算机科学项目。不过,这个项目是可行的。于是,埃齐

    奥尼开始着手启动这个项目。

    埃齐奥尼创立了一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系

    统建立在41天之内的12000个价格样本基础之上,而这些数据都是从一个旅游网站

    上爬取过来的。这个预测系统并不能说明原因,只能推测会发生什么。也就是说,它不知道是哪些因素导致了机票价格的波动。机票降价是因为有很多没卖掉的座

    位、季节性原因,还是所谓的“周六晚上不出门”,它都不知道。这个系统只知道

    利用其他航班的数据来预测未来机票价格的走势。“买还是不买,这是一个问

    题。”埃齐奥尼沉思着。他给这个研究项目取了一个非常贴切的名字,叫“哈姆雷

    特”。

    这个小项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司,名为

    Farecast。通过预测机票价格的走势以及增降幅度,Farecast票价预测工具能帮助

    消费者抓住最佳购买时机,而在此之前还没有其他网站能让消费者获得这些信息。

    这个系统为了保障自身的透明度,会把对机票价格走势预测的可信度标示出

    来,供消费者参考。系统的运转需要海量数据的支持。为了提高预测的准确性,埃

    齐奥尼找到了一个行业机票预订数据库。而系统的预测结果是根据美国商业航空产

    业中,每一条航线上每一架飞机内的每一个座位一年内的综合票价记录而得出的。

    如今,Farecast已经拥有惊人的约2000亿条飞行数据记录。利用这种方法,Farecast为消费者节省了一大笔钱。[1]

    棕色的头发,露齿的笑容,无邪的面孔,这就是奥伦·埃齐奥尼。他看上去完全

    不像是一个会让航空业损失数百万潜在收入的人。但事实上,他的目光放得更长

    远。2008年,埃齐奥尼计划将这项技术应用到其他领域,比如宾馆预订、二手车购

    买等。只要这些领域内的产品差异不大,同时存在大幅度的价格差和大量可运用的数据,就都可以应用这项技术。但是在他实现计划之前,微软公司找上了他并以1.1

    亿美元的价格收购了Farecast公司。而后,这个系统被并入必应搜索引擎。

    大数据的力量

    到2012年为止,Farecast系统用了将近十万亿条价格记录来帮助预测美国国内

    航班的票价。Farecast票价预测的准确度已经高达75%,使用Farecast票价预测

    工具购买机票的旅客,平均每张机票可节省50美元。

    Farecast是大数据公司的一个缩影,也代表了当今世界发展的趋势。五年或者

    十年之前,奥伦·埃齐奥尼是无法成立这样的公司的。他说:“这是不可能的。”那

    时候他所需要的计算机处理能力和存储能力太昂贵了!虽说技术上的突破是这一切

    得以发生的主要原因,但也有一些细微而重要的改变正在发生,特别是人们关于如

    何使用数据的理念。

    [1] 有趣的是,这些飞行记录和谷歌的搜索记录一样,也可以用来预测和评估

    疾病的流行。有兴趣的读者可以参考2010年第12期《科学通报》上名为“H1N1甲型

    流感全球航空传播与早期预警研究”的研究论文以及2011年Bajardi等人在PLoS

    ONE上发表的名为“Human Mobility Networks,Travel Restrictions,and

    the Global Spread of 2009 H1N1 Pandemic”的研究论文。——译者注大数据,变革思维

    人们不再认为数据是静止和陈旧的。但在以前,一旦完成了收集数据的目的之

    后,数据就会被认为已经没有用处了。比方说,在飞机降落之后,票价数据就没有

    用了(对谷歌而言,则是一个检索命令完成之后)。[1]

    大数据洞察

    如今,数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经

    济利益。事实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服

    务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。

    信息社会所带来的好处是显而易见的:每个人口袋里都揣有一部手机,每台办

    公桌上都放有一台电脑,每间办公室内都拥有一个大型局域网。但是,信息本身的

    用处却并没有如此引人注目。半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多

    的信息,而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——

    量变引发了质变。最先经历信息爆炸的学科,如天文学和基因学,创造出了“大数

    据”这个概念[2]。如今,这个概念几乎应用到了所有人类致力于发展的领域中。

    大数据并非一个确切的概念。最初,这个概念是指需要处理的信息量过大,已

    经超出了一般电脑在处理数据时所能使用的内存量,因此工程师们必须改进处理数

    据的工具。这导致了新的处理技术的诞生,例如谷歌的MapReduce和开源Hadoop平

    台(最初源于雅虎)。这些技术使得人们可以处理的数据量大大增加。更重要的

    是,这些数据不再需要用传统的数据库表格来整齐地排列——一些可以消除僵化的

    层次结构和一致性[3]的技术也出现了。同时,因为互联网公司可以收集大量有价值

    的数据,而且有利用这些数据的强烈的利益驱动力,所以互联网公司顺理成章地成

    为了最新处理技术的领头实践者。它们甚至超过了很多有几十年经验的线下公司,成为新技术的领衔使用者。

    今天,一种可能的方式是,亦是本书采取的方式,认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。

    大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织机

    构,以及政府与公民关系的方法。

    大数据洞察

    这仅仅只是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提

    出了挑战。最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关

    系。也就是说只需要知道是什么,而不需要知道为什么。这就推翻了自古以来的惯

    例,而我们做决定和理解现实的最基本方式也将受到挑战。

    [1] 设计人员如果没有大数据的理念,就会丢失掉很多有价值的数据。譬如中

    国某城市的公交车因为价格不依赖于起点和终点,所以能够反映重要通勤信息的数

    据被工作人员“自作主张”地丢弃了。——译者注

    [2] 有兴趣的读者可以参考2008年9月4日《自然》推出的名为“大数据”的专

    刊。——译者注

    [3] 这些都是传统数据库结构化查询语言(SQL)的要求,非关系型数据库

    (NoSQL)不再有这些要求。——译者注大数据,开启重大的时代转型

    大数据开启了一次重大的时代转型。与其他新技术一样,大数据也必然要经历

    硅谷臭名昭著的技术成熟度曲线[1]:经过新闻媒体和学术会议的大肆宣传之后,新

    技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危。当然,不管是过热期

    还是幻想破灭期,都非常不利于我们正确理解正在发生的变革的重要性。

    就像望远镜能够让我们感受宇宙,显微镜能够让我们观测微生物,这种能够收

    集和分析海量数据的新技术将帮助我们更好地理解世界——这种理解世界的新方法

    我们现在才意识到。本书旨在如实表达出大数据的内涵,而不会过分热捧它。当

    然,真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。

    大数据先锋

    天文学,信息爆炸的起源

    只有考虑到社会各个方面的变化趋势,我们才能真正意识到信息爆炸已经到

    来。我们的数字世界一直在扩张。以天文学为例,2000年斯隆数字巡天(Sloan

    Digital Sky Survey)项目启动的时候,位于新墨西哥州的望远镜在短短几周内

    收集到的数据,已经比天文学历史上总共收集的数据还要多。到了2010年,信息档

    案已经高达1.4×242字节。不过,预计2016年在智利投入使用的大型视场全景巡天

    望远镜(Large Synoptic Survey Telescope)能在五天之内就获得同样多的信

    息。

    天文学领域的变化在各个领域都在发生。2003年,人类第一次破译人体基因密

    码的时候,辛苦工作了十年才完成了三十亿对碱基对的排序。大约十年之后,世界

    范围内的基因仪每15分钟就可以完成同样的工作。在金融领域,美国股市每天的成

    交量高达70亿股,而其中三分之二的交易都是由建立在数学模型和算法之上的计算

    机程序自动完成的。这些程序运用海量数据来预测利益和降低风险。

    互联网公司更是要被数据淹没了。谷歌公司每天要处理超过24拍字节[2]的数据,这意味着其每天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的

    上千倍。Facebook这个创立时间不足十年的公司,每天更新的照片量超过1000万

    张,每天人们在网站上?批评者说了什么,或者是顾客的点击意味着什么?从字面上来讲,这是一场人与鼠标的战争。

    林登做了一个关于评论家所创造的销售业绩和计算机生成内容所产生的销售业

    绩的对比测试,结果他发现两者之间的业绩相差甚远。他解释说,通过数据推荐产

    品所增加的销售远远超过书评家的贡献。计算机可能不知道为什么喜欢海明威作品

    的客户会购买菲茨杰拉德的书。但是这似乎并不重要,重要的是销量。最后,编辑

    们看到了销售额分析,亚马逊也不得不放弃每次的在线评论,最终书评组被解散

    了。林登回忆说:“书评团队被打败、被解散,我感到非常难过。但是,数据没有

    说谎,人工评论的成本是非常高的。”

    如今,据说亚马逊销售额的三分之一都是来自于它的个性化推荐系统。有了

    它,亚马逊不仅使很多大型书店和音乐唱片商店歇业,而且当地数百个自认为有自

    己风格的书商也难免受转型之风的影响。事实上,林登的工作彻底改变了电子商

    务,现在几乎每个人都在使用电子商务。

    奈飞公司是一个在线电影租赁公司,它四分之三的新订单都来自推荐系统。在

    亚马逊的带领下,成千上万的网站可以推荐产品、内容和朋友以及很多相关的信

    息,但并不知道为什么人们会对这些信息感兴趣。

    知道人们为什么对这些信息感兴趣可能是有用的,但这个问题目前并不是很重

    要。但是,知道“是什么”可以创造点击率,这种洞察力足以重塑很多行业,不仅

    仅只是电子商务。所有行业中的销售人员早就被告知,他们需要了解是什么让客户

    做出了选择,要把握客户做决定背后的真正原因,因此专业技能和多年的经验受到

    高度重视。大数据却显示,还有另外一个在某些方面更有用的方法。亚马逊的推荐

    系统梳理出了有趣的相关关系,但不知道背后的原因。知道是什么就够了,没必要

    知道为什么。

    关联物,预测的关键

    在小数据世界中,相关关系也是有用的,但在大数据的背景下,相关关系大放

    异彩。通过应用相关关系,我们可以比以前更容易、更快捷、更清楚地分析事物。大数据洞察

    相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数

    据值增加时,另一个数据值很有可能也会随之增加。我们已经看到过这种很强的相

    关关系,比如谷歌流感趋势:在一个特定的地理位置,越多的人通过谷歌搜索特定

    的词条,该地区就有更多的人患了流感。

    相反,相关关系弱就意味着当一个数据值增加时,另一个数据值几乎不会发生

    变化。[2]例如,我们可以寻找关于个人的鞋码和幸福的相关关系,但会发现它们几

    乎扯不上什么关系。

    相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其

    内部的运作机制。当然,即使是很强的相关关系也不一定能解释每一种情况,比如

    两个事物看上去行为相似,但很有可能只是巧合。如实证学家纳西姆·尼古拉斯·塔勒

    布(Nassim Nicholas Taleb)所言,我们可能只是“被随机性所愚弄”而已。相

    关关系没有绝对,只有可能性。也就是说,不是亚马逊推荐的每本书都是顾客想买

    的书。但是,如果相关关系强,一个相关链接成功的概率是很高的。这一点很多人

    可以证明,他们的书架上有很多书都是因为亚马逊推荐而购买的。

    通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和

    预测未来。如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发

    生了。这有助于我们捕捉可能和A一起发生的事情,即使我们不能直接测量或观察到

    A。更重要的是,它还可以帮助我们预测未来可能发生什么。当然,相关关系是无法

    预知未来的,他们只能预测可能发生的事情。但是,这已经极其珍贵了。

    大数据先锋

    沃尔玛,请把蛋挞与飓风用品摆在一起

    沃尔玛是世界上最大的零售商,拥有超过200万的员工,销售额约4500亿美

    元,比大多数国家的国内生产总值还多。在网络带来巨多数据之前,沃尔玛在美国

    企业中拥有的数据资源应该是最多的。[3]在20世纪90年代,零售链通过把每一个产品记录为数据而彻底改变了零售行

    业。沃尔玛可以让供应商监控销售速率、数量以及存货的情况。沃尔玛通过打造透

    明度来迫使供应商照顾好自己的物流。在许多情况下,沃尔玛不接受产品的“所有

    权”,除非产品已经开始销售,这样就避免了存货的风险也降低了成本。实际上,沃尔玛运用这些数据使其成为了世界上最大的“寄售店”。

    倘若得到正确分析,历史数据能够解释什么呢?零售商与天睿资讯

    (Teradata)[4]专业的数字统计员一起研究发现了有趣的相关关系。2004年,沃

    尔玛对历史交易记录这个庞大的数据库进行了观察,这个数据库记录的不仅包括每

    一个顾客的购物清单以及消费额,还包括购物篮中的物品、具体购买时间,甚至购

    买当日的天气。

    沃尔玛公司注意到,每当在季节性飓风来临之前,不仅手电筒销售量增加了,而且POP-Tarts蛋挞(美式含糖早餐零食)的销量也增加了。因此,当季节性风暴

    来临时,沃尔玛会把库存的蛋挞放在靠近飓风用品的位置,以方便行色匆匆的顾客

    从而增加销量。

    过去,总部的人员们需要先有了想法,然后才能收集数据来测试这个想法的可

    行性。如今,我们有了如此之多的数据和更好的工具,所以要找到相关系变得更

    快、更容易了。这就意味着我们必须关注:当数据点以数量级方式增长的时候,我

    们会观察到许多似是而非的相关关系。毕竟我们还处于考察相关关系的初期,所以

    这一点需要我们高度重视。

    在大数据时代来临前很久,相关关系就已经被证明大有用途。这个观点是1888

    年查尔斯·达尔文的表弟弗朗西斯·高尔顿爵士(Francis Galton)提出的,因为他

    注意到人的身高和前臂的长度有关系。相关关系背后的数学计算是直接而又有活力

    的,这是相关关系的本质特征,也是让相关关系成为最广泛应用的统计计量方法的

    原因。但是在大数据时代之前,相关关系的应用很少。因为数据很少而且收集数据

    很费时费力,所以统计学家们喜欢找到一个关联物,然后收集与之相关的数据进行

    相关关系分析来评测这个关联物的优劣。那么,如何寻找这个关联物呢?

    除了仅仅依靠相关关系,专家们还会使用一些建立在理论基础上的假想来指导自己选择适当的关联物。这些理论就是一些抽象的观点,关于事物是怎样运作的。

    然后收集与关联物相关的数据来进行相关关系分析,以证明这个关联物是否真的合

    适。如果不合适,人们通常会固执地再次尝试,因为担心可能是数据收集的错误,而最终却不得不承认一开始的假想甚至假想建立的基础都是有缺陷和必须修改的。

    这种对假想的反复试验促进了学科的发展。但是这种发展非常缓慢,因为个人以及

    团体的偏见会蒙蔽我们的双眼,导致我们在设立假想、应用假想和选择关联物的过

    程中犯错误。总之,这是一个烦琐的过程,只适用于小数据时代。

    在大数据时代,通过建立在人的偏见基础上的关联物监测法已经不再可行,因

    为数据库太大而且需要考虑的领域太复杂。幸运的是,许多迫使我们选择假想分析

    法的限制条件也逐渐消失了。我们现在拥有如此多的数据,这么好的机器计算能

    力,因而不再需要人工选择一个关联物或者一小部分相似数据来逐一分析了。复杂

    的机器分析能为我们辨认出谁是最好的代理,就像在谷歌流感趋势中,计算机把检

    索词条在5亿个数学模型上进行测试之后,准确地找出了哪些是与流感传播最相关的

    词条。

    我们理解世界不再需要建立在假设的基础上,这个假设是指针对现象建立的有

    关其产生机制和内在机理的假设。因此,我们也不需要建立这样一个假设,关于哪

    些词条可以表示流感在何时何地传播;我们不需要了解航空公司怎样给机票定价;

    我们不需要知道沃尔玛的顾客的烹饪喜好。取而代之的是,我们可以对大数据进行

    相关关系分析,从而知道哪些检索词条是最能显示流感的传播的,飞机票的价格是

    否会飞涨,哪些食物是飓风期间待在家里的人最想吃的。我们用数据驱动的关于大

    数据的相关关系分析法,取代了基于假想的易出错的方法。大数据的相关关系分析

    法更准确、更快,而且不易受偏见的影响。

    建立在相关关系分析法基础上的预测是大数据的核心。这种预测发生的频率非

    常高,以至于我们经常忽略了它的创新性。当然,它的应用会越来越多。

    大数据先锋

    FICO,“我们知道你明天会做什么”一个人的信用常被用来预测他她的个人行为。美国个人消费信用评估公司,也

    被称为FICO,在20世纪50年代发明了信用分。2011年,FICO提出了“遵从医嘱评

    分”——它分析一系列的变量来确定这个人是否会按时吃药,包括一些看起来有点

    怪异的变量。比方说,一个人在某地居住了多久,这个人结婚了没有,他多久换一

    个工作以及他是否有私家车。这个评分会帮助医疗机构节省开支,因为它们会知道

    哪些人需要得到它们的用药提醒。有私家车和使用抗生素并没有因果关系,这只是

    一种相关关系。但是这就足够激发FICO的首席执行官扬言,“我们知道你明天会做

    什么。”这是他在2011年的投资人大会上说的。

    另一个征信机构,益百利(Experian)有一种服务,可以根据个人的信用卡交

    易记录预测个人的收入情况。通过分析公司拥有的信用卡历史记录数据库和美国国

    税局的匿名税收数据,益百利能够得出评分结果。

    大数据的力量

    证明一个人的收入状况要花费10美元左右,但是益百利的预测结果售价不足1美

    元。

    所以有时候,通过代理取得数据信息比自己去操作烦琐的程序要便宜得多。同

    时还有另一个征信机构出售“支付能力指数”和“可支配支出指数”,这些指数是

    用来预测一个人的支付能力的。

    相关关系的运用更加广泛了。中英人寿保险有限公司(Aviva)是一家大型保险

    公司,他们想利用信用报告和顾客市场分析数据来作为部分申请人的血液和尿液分

    析的关联物。这些分析结果被用来找出更有可能患高血压、糖尿病和抑郁症的人。

    其中用来分析的数据包括好几百种生活方式的数据,比如爱好、常浏览的网站、常

    看的节目、收入估计等。

    Aviva的预测模型是由德勤咨询公司发明的,公司觉得这可以用来发现健康隐

    患。其他保险公司如英国保诚保险有限公司(Prudentia)和美国国际集团(AIG)

    都承认它们也在考虑类似的方法。好处就是,申请者不再需要提供血液和尿液样本

    了,因为大家都不太喜欢做这个事情。大数据的力量

    通过利用相关关系,保险公司可以在每人身上节省125美元,然而这个纯数据分

    析法只需要花费5美元。

    有些人可能会觉得这种方法听起来很恐怖,这些公司似乎可以利用任何网络上

    的信息。这会让人们下次登陆极限运动网站和坐到电视机前观看幽默情景剧前三思

    而后行,因为不想因此支付更多的保险费用。让我们在接触任何信息的时候(同时

    也产生可能被分析的数据)都胆战心惊是一件非常糟糕的事情。但另一方面,这个

    系统有助于更多的人得到保险,这对于社会和保险公司都是有好处的。

    大数据先锋

    美国折扣零售商塔吉特与怀孕预测

    大数据相关关系分析的极致,非美国折扣零售商塔吉特(Target)莫属了。该

    公司使用大数据的相关关系分析已经有多年。《纽约时报》的记者查尔斯·杜西格

    (Charles Duhigg)就在一份报道中阐述了塔吉特公司怎样在完全不和准妈妈对话

    的前提下预测一个女性会在什么时候怀孕。基本上来说,就是收集一个人可以收集

    到的所有数据,然后通过相关关系分析得出事情的真实状况。

    对于零售商来说,知道一个顾客是否怀孕是非常重要的。因为这是一对夫妻改

    变消费观念的开始,也是一对夫妻生活的分水岭。他们会开始光顾以前不会去的商

    店,渐渐对新的品牌建立忠诚。塔吉特公司的市场专员们向分析部求助,看是否有

    什么办法能够通过一个人的购物方式发现她是否怀孕。

    公司的分析团队首先查看了签署婴儿礼物登记簿的女性的消费记录。塔吉特公

    司注意到,登记簿上的妇女会在怀孕大概第三个月的时候买很多无香乳液。几个月

    之后,她们会买一些营养品,比如镁、钙、锌。公司最终找出了大概20多种关联

    物,这些关联物可以给顾客进行“怀孕趋势”评分。这些相关关系甚至使得零售商

    能够比较准确地预测预产期,这样就能够在孕期的每个阶段给客户寄送相应的优惠

    券,这才是塔吉特公司的目的。杜西格在《习惯的力量》(The Power of Habit)一书中讲到了接下来发生

    的事情。一天,一个男人冲进了一家位于明尼阿波利斯市郊的塔吉特商店,要求经

    理出来见他。他气愤地说:“我女儿还是高中生,你们却给她邮寄婴儿服和婴儿床

    的优惠券,你们是在鼓励她怀孕吗?”而当几天后,经理打电话向这个男人致歉

    时,这个男人的语气变得平和起来。他说:“我跟我的女儿谈过了,她的预产期是8

    月份,是我完全没有意识到这个事情的发生,应该说抱歉的人是我。”

    在社会环境下寻找关联物只是大数据分析法采取的一种方式。同样有用的一种

    方法是,通过找出新种类数据之间的相互联系来解决日常需要。比方说,一种称为

    预测分析法的方法就被广泛地应用于商业领域,它可以预测事件的发生。这可以指

    一个能发现可能的流行歌曲的算法系统——音乐界广泛采用这种方法来确保它们看

    好的歌曲真的会流行;也可以指那些用来防止机器失效和建筑倒塌的方法。现在,在机器、发动机和桥梁等基础设施上放置传感器变得越来越平常了,这些传感器被

    用来记录散发的热量、振幅、承压和发出的声音等。

    一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。通过收集所有的数

    据,我们可以预先捕捉到事物要出故障的信号,比方说发动机的嗡嗡声、引擎过热

    都说明它们可能要出故障了。系统把这些异常情况与正常情况进行对比,就会知道

    什么地方出了毛病。通过尽早地发现异常,系统可以提醒我们在故障之前更换零件

    或者修复问题。通过找出一个关联物并监控它,我们就能预测未来。

    大数据先锋

    UPS与汽车修理预测

    UPS国际快递公司从2000年就开始使用预测性分析来监测自己全美60000辆车规

    模的车队,这样就能及时地进行防御性的修理。如果车在路上抛锚损失会非常大,因为那样就需要再派一辆车,会造成延误和再装载的负担,并消耗大量的人力物

    力,所以以前UPS每两三年就会对车辆的零件进行定时更换。但这种方法不太有效,因为有的零件并没有什么毛病就被换掉了。通过监测车辆的各个部位,UPS如今只需

    要更换需要更换的零件,从而节省了好几百万美元。有一次,监测系统甚至帮助UPS

    发现了一个新车的一个零件有问题,因此免除了可能会造成的困扰。无独有偶,桥梁和建筑物上也被安装了传感器来监测磨损程度。大型化工厂和

    提炼厂也安装了传感器,因为一旦设备的某一个零件有问题,就只有在更换了零件

    之后生产才能继续进行。收集和分析数据的花费比出现停产的损失小得多。预测性

    分析并不能解释故障可能会发生的原因,只会告诉你存在什么问题,也就说它并不

    能告诉你引擎过热是因为什么,磨损的风扇皮带?没拧紧的螺帽?没有答案。

    同样的方法也可以运用在人身上。医院使用医疗设备在病人身上装上各种管线

    同时得到大量的数据。心电图每秒钟就能产生1000个读数。但是只有部分的数据是

    被保存使用的,大部分都束之高阁了,即使这些数据都能在一定程度上表现出病人

    的情况。当与其他病人的数据一起考虑的时候,它们就能显现出哪些治疗方法是有

    效的。

    当收集、存储和分析数据的成本比较高的时候,应该适当地丢弃一些数据。安

    大略理工大学的卡罗琳·麦格雷戈(Carolyn McGregor)博士和一支研究队伍与IBM

    一起和很多医院合作,用一个软件来监测处理即时的病人信息,然后把它用于早产

    儿的病情诊断。系统会监控16个不同地方的数据,比如心率、呼吸、体温、血压和

    血氧含量,这些数据可以达到每秒钟1260个数据点之多。

    在明显感染症状出现的24小时之前,系统就能监测到早产儿细微的身体变化发

    出的感染信号。麦格雷戈博士说:“你无法用肉眼看到,但计算机可以看到。”这

    个系统依赖的是相关关系,而不是因果关系。它告诉你的是会发生什么,而不是为

    什么发生。这正是这个系统的价值!提早知道病情,医生就能够提早治疗,也能更

    早地知道某种疗法是否有效,这一切都有利于病人的康复。所以,未来这个系统估

    计会应用到所有病人身上。这个系统可能不会自己做决定,但是它已经做到了机器

    能做到的最好,那就是帮助人类做到最好。

    惊人的是,麦格雷戈博士的大数据分析法能发现一些与医生的传统看法相违背

    的相关关系。比如说她发现,稳定的生命体征表明病人发生了严重的感染。这很奇

    怪,因为医生一般认为恶化的疼痛才是全面感染的征兆。你可以想象,以前医生都

    是下班的时候看看婴儿床旁边的记录本,觉得病情稳定了,也就下班回家了。只有

    半夜护士的紧急电话才让他们知道大事不好了,他们的直觉犯了大错误。数据表

    明,早产儿的稳定不但不是病情好转的标志,反而是暴风雨前的宁静,就像是身体要它的器官做好抵抗困难的准备。但是我们也不太确定,我们不知道具体原因,只

    是看到了相关关系。这需要海量的数据并且找出隐含的相关性才能发现。但是,大

    数据挽救了很多生命,这是毫无疑问的。

    “是什么”,而不是“为什么”

    在小数据时代,相关关系分析和因果分析都不容易,都耗费巨大,都要从建立

    假设开始。然后我们会进行实验——这个假设要么被证实要么被推翻。但由于两者

    都始于假设,这些分析就都有受偏见影响的可能,而且极易导致错误。与此同时,用来做相关关系分析的数据很难得到,收集这些数据时也耗资巨大。现今,可用的

    数据如此之多,也就不存在这些难题了。

    当然,还有一种不同的情况也逐渐受到了人们的重视。在小数据时代,由于计

    算机能力的不足,大部分相关关系分析仅限于寻求线性关系。这个情况随着数据的

    增加肯定会发生改变。事实上,实际情况远比我们所想象的要复杂。经过复杂的分

    析,我们能够发现数据的“非线性关系”。

    大数据先锋

    幸福的非线性关系

    多年来,经济学家和政治家一直错误地认为收入水平和幸福感是成正比的。我

    们从数据图表上可以看到,虽然统计工具呈现的是一种线性关系,但事实上,它们

    之间存在一种更复杂的动态关系:对于收入水平在1万美元以下的人来说,一旦收入

    增加,幸福感会随之提升;但对于收入水平在1万美元以上的人来说,幸福感并不会

    随着收入水平提高而提升。如果能发现这层关系,我们看到的就应该是一条曲线,而不是统计工具分析出来的直线。

    这个发现对决策者来说非常重要。如果只看到线性关系的话,那么政策重心应

    完全放在增加收入上,因为这样才能增加全民的幸福感。而一旦察觉到这种非线性

    关系,策略的重心就会变成提高低收入人群的收入水平,因为这样明显更划算。当相关关系变得更复杂时,一切就更混乱了。比如,各地麻疹疫苗接种率的差

    别与人们在医疗保健上的花费似乎有关联。但是,最近哈佛与麻省理工的联合研究

    小组发现,这种关联不是简单的线性关系,而是一个复杂的曲线图。和预期相同的

    是,随着人们在医疗上花费的增多,麻疹疫苗接种率的差别会变小;但令人惊讶的

    是,当增加到一定程度时,这种差别又会变大。发现这种关系对公共卫生官员来说

    非常重要,但是普通的线性关系分析师是无法捕捉到这个重要信息的。

    如今,专家们正在研发能发现并对比分析非线性关系的必要技术工具[5]。一系

    列飞速发展的新技术和新软件也从多方面提高了相关关系分析工具发现非因果关系

    的能力,这就好比立体派画家同时从多个角度来表现女性脸庞的手法。

    网络分析行业的出现就是一个最明显的例子。多亏了它,让描绘、测量、计算

    各节点之间的关系变成了可能,我们可以从Facebook上认识更多的朋友,还可以知

    道法庭上的一些判决的先例,以及谁给谁打了电话。总之,这些工具为回答非因果

    关系及经验性的问题提供了新的途径。

    在大数据时代,这些新的分析工具和思路为我们提供了一系列新的视野和有用

    的预测,我们看到了很多以前不曾注意到的联系,还掌握了以前无法理解的复杂技

    术和社会动态。但最重要的是,通过去探求“是什么”而不是“为什么”,相关关

    系帮助我们更好地了解了这个世界。

    这听起来似乎有点违背常理。毕竟,人们都希望通过因果关系来了解这个世

    界。我们也相信,只要仔细观察,就会发现万事万物皆有因缘。了解事情的起因难

    道不是我们最大的愿望吗?

    在哲学界,关于因果关系是否存在的争论已经持续了几个世纪。毕竟,如果凡

    事皆有因果的话,那么我们就没有决定任何事的自由了。如果说我们做的每一个决

    定或者每一个想法都是其他事情的结果,而这个结果又是由其他原因导致的,以此

    循环往复,那么就不存在人的自由意志这一说了——所有的生命轨迹都只是受因果

    关系的控制了。因此,对于因果关系在世间所扮演的角色,哲学家们争论不休,有

    时他们认为,这是与自由意志相对立的。当然,关于理论的争辩并不是我们要研究

    的重点。大数据洞察

    当我们说人类是通过因果关系了解世界时,我们指的是我们在理解和解释世界

    各种现象时使用的两种基本方法:一种是通过快速、虚幻的因果关系,还有一种就

    是通过缓慢、有条不紊的因果关系。大数据会改变这两种基本方法在我们认识世界

    时所扮演的角色。

    首先,我们的直接愿望就是了解因果关系。即使无因果联系存在,我们也还是

    会假定其存在。研究证明,这只是我们的认知方式,与每个人的文化背景、生长环

    境以及教育水平是无关的。当我们看到两件事情接连发生的时候,我们会习惯性地

    从因果关系的角度来看待它们。看看下面的三句话:“弗雷德的父母迟到了;供应

    商快到了;弗雷德生气了。”

    我们读到这里时,可能立马就会想到弗雷德生气并不是因为供应商快到了,而

    是他父母迟到了的缘故。实际上,我们也不知道到底是什么情况。即便如此,我们

    还是不禁认为这些假设的因果关系是成立的。

    普林斯顿大学心理学专家,同时也是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼

    (Daniel Kahneman)就是用这个例子证明了人有两种思维模式。第一种是不费力

    的快速思维,通过这种思维方式几秒钟就能得出结果;另一种是比较费力的慢性思

    维,对于特定的问题,就是需要考虑到位。

    快速思维模式使人们偏向用因果联系来看待周围的一切,即使这种关系并不存

    在。这是我们对已有的知识和信仰的执著。在古代,这种快速思维模式是很有用

    的,它能帮助我们在信息量缺乏却必须快速做出决定的危险情况下化险为夷。但

    是,通常这种因果关系都是并不存在的。

    卡尼曼指出,平时生活中,由于惰性,我们很少慢条斯理地思考问题。所以快

    速思维模式就占据了上风。因此,我们会经常臆想出一些因果关系,最终导致了对

    世界的错误理解。

    父母经常告诉孩子,天冷时不戴帽子和手套就会感冒。然而,事实上,感冒和

    穿戴之间却没有直接的联系。有时,我们在某个餐馆用餐后生病了的话,我们就会自然而然地觉得这是餐馆食物的问题,以后可能就不再去这家餐馆了。事实上,我

    们肚子痛也许是因为其他的传染途径,比如和患者握过手之类的。然而,我们的快

    速思维模式使我们直接将其归于任何我们能在第一时间想起来的因果关系,因此,这经常导致我们做出错误的决定。

    与常识相反,经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的

    理解。很多时候,这种认知捷径只是给了我们一种自己已经理解的错觉,但实际

    上,我们因此完全陷入了理解误区之中。就像采样是我们无法处理全部数据时的捷

    径一样,这种找因果关系的方法也是我们大脑用来避免辛苦思考的捷径。

    在小数据时代,很难证明由直觉而来的因果联系是错误的。现在,情况不一样

    了。将来,大数据之间的相关关系,将经常会用来证明直觉的因果联系是错误的。

    最终也能表明,统计关系也不蕴含多少真实的因果关系。总之,我们的快速思维模

    式将会遭受各种各样的现实考验。

    令人欣喜的是,为了更好地了解世界,我们会因此更加努力地思考。但是,即

    使是我们用来发现因果关系的第二种思维方式——慢性思维,也将因为大数据之间

    的相关关系迎来大的改变。

    日常生活中,我们习惯性地用因果关系来考虑事情,所以会认为,因果联系是

    浅显易寻的。但事实却并非如此。与相关关系不一样,即使用数学这种比较直接的

    方式,因果联系也很难被轻易证明。我们也不能用标准的等式将因果关系表达清

    楚。因此,即使我们慢慢思考,想要发现因果关系也是很困难的。因为我们已经习

    惯了信息的匮乏,故此亦习惯了在少量数据的基础上进行推理思考,即使大部分时

    候很多因素都会削弱特定的因果关系。

    就拿狂犬疫苗这个例子来说,1885年7月6日,法国化学家路易·巴斯德(Louis

    Pasteur)接诊了一个9岁的小 ......

您现在查看是摘要介绍页, 详见PDF附件(2604KB,220页)