作品介绍

数据之巅


作者:涂子沛◎     整理日期:2014-05-02 09:52:19

数据,自古就有,人口普查、农业统计、军事战争、政治计算……数据虽小,却有助于治国安邦。美国之所以繁荣鼎盛,数据文化根基牢不可破概是主因之一。
  信息爆炸、互联互通、智慧城市时代,大数据,更以排山倒海之势席卷全球,政府施政、企业掘金,大众要公平与正义,大数据被赋予了新的历史使命。
  在这本书中,从小数据时代到大数据的崛起,作者以宏大的历史观、文化观、大数据观,给我们描绘了一幅数据科学、智慧文化的全景图。全书从美国建国之基讲起,通过阐述初数时代、内战时代、镀金时代、进步时代、抽样时代、大数据时代的特征,系统梳理了美国数据文化的形成,阐述了其数据治国之道,论述了中国数据文化的薄弱之处,展望了未来数据世界的远景。
  “尊重事实,用数据说话”,“推崇知识和理性,用数据创新”,作者不仅意在传承黄仁宇“数目字”管理的薪火,还试图把数据这个科技符号在中国转变为文化符号,形成一种文化话语体系。大数据正在撬动中国的制度创新、科技创新。阅读此书,历史与现实相互融合,知识与激情相互交织,思想与观念相互碰撞,未来与前景必定豁然开朗。
  作者简介:
  涂子沛,江西吉安人,现居美国硅谷。2012年其著作《大数据》在中国社会开大数据之先河,引发了大数据战略、数据治国和开放数据的讨论,历史学家许倬云先生盛赞其“为华文世界开创了一个重要话题”。本书为作者第二本著作,全书对大数据追根溯源,提出当前信息技术的发展,已经让中国获得了后发优势,中国要在大数据时代的全球竞争中胜出,必须把大数据从科技符号提升成为文化符号,在全社会倡导数据文化。
  作者本科毕业于华中科技大学计算机系,研究生毕业于中山大学和卡内基梅隆大学,获公共管理硕士和信息科学硕士学位。
  目录:
  目录:
  推荐序一进入一个重要的现代文化园地/许倬云//XV
推荐序二一部精彩纷呈的时代杰作/郭为//XIX
推荐序三大数据可以创造未来/王巍//XXIII
  第一部分小数据之历史
第一章初数时代:奠基共和
克服民主的劣势:用数据分权//004
制度创新:变对抗为合作的魔法棒//010
两党之争:无法精确分割的权力//013
亚拉巴马悖论:没有完美的方案//021
有数初成:共和政治反哺数据文化//027
中国往事:第一次现代意义上的人口普查//035
第二章内战时代:终结奴隶制的灯塔
  目录:
  
  推荐序一进入一个重要的现代文化园地/许倬云//XV
  推荐序二一部精彩纷呈的时代杰作/郭为//XIX
  推荐序三大数据可以创造未来/王巍//XXIII
  第一部分小数据之历史
  第一章初数时代:奠基共和
  克服民主的劣势:用数据分权//004
  制度创新:变对抗为合作的魔法棒//010
  两党之争:无法精确分割的权力//013
  亚拉巴马悖论:没有完美的方案//021
  有数初成:共和政治反哺数据文化//027
  中国往事:第一次现代意义上的人口普查//035
  第二章内战时代:终结奴隶制的灯塔
  人口普查:南方最大的敌人//040
  用数据辩论:南北战争的序幕//046
  用数据远征:向大海进军//053
  政治计算:解放黑奴的真正原因//069
  兵家和数据:中国历史上的吉光片羽//074
  第三章爆发:镀金时代的三重崛起
  用数据预测:转变思维方式//083
  总统之死:专业化的悲情序曲//089
  世纪巅峰:大数据驱动的创新//102
  和政治分家:劳工统计的异军突起//110
  姑娘、棉花和数据:究竟谁在推动历史//116
  尘封的瑰宝:中国的数据可视化先驱//122
  第四章量化:进步时代的数据大潮
  用数据决策:水利工程中的数据竞争//138
  冲击量化的极限:给生命定价//146
  “平托”风波:福特公司的道德危机//151
  用数据来审判:理性的必然选择//159
  代理人需要监督:成本收益分析方法的未来//163
  思考中国话题:民族复兴能否量化?//172
  第五章抽样时代:统计革命的福祉
  从选票到电影票:和《乱世佳人》共舞//178
  用数据跨界:质量大师是怎样炼成的//188
  旋转质量的飞轮:日本崛起//193
  世纪之问:日本行,为什么我们不行?//203
  第二部分大数据的崛起
  第六章开放时代:内开放的历程
  内开放1.0:数据承载知情权//217
  内开放2.0:用数据制衡//219
  悲剧现场的第一个问题:普查局的数据之痛//224
  LEHD项目:开放数据的使用权//229
  内开放3.0:用数据推动创新//244
  2012年:来自中国的组织创新//250
  第七章大数据时代:通往计算型的智能社会
  世上本没有数:正解大数据//255
  改变世界的三股力量:大数据的成因//259
  有数据,还要有计算:计算型社会的兴起//270
  普适计算:即将到来的超级数据爆炸//278
  数据和计算:第三次工业革命的CPU//280
  数据之巅:通向智能型社会的挑战//288
  第八章智慧城市:正在拍打世界的浪潮
  西方和东方:聪明和智慧//303
  目标锁定“城市平台”:神州数码对话录//309
  众包、众智和众创:让大众解决大众的问题//315
  云、隐私和未来:中国和美国的不同挑战//325
  结语把握后发优势:把科技符号变成文化符号//335
  后记蝴蝶振翅//341涂子沛先生开启了一道大门,我相信,后面会有更多的发展,让大家进入这一个重要的现代文化园地。
——许倬云著名历史学家、美国匹兹堡大学历史系荣誉讲座教授
在《数据之巅》这本书中,涂先生跳到了哲学思考的层面,以统计学的社会应用为切入点,解构数据文化在美国政治、经济乃至军事发展上起到的关键作用,一环扣一环,构思精巧,故事生动,逻辑清晰,读起来实在“解渴”。感谢涂先生的智慧,为时代贡献了一部杰作!
——郭为神州数码控股有限公司董事局主席
涂子沛先生的《数据之巅》通过追溯梳理美国的数据历史、展望人类的数据未来,给中国社会提出了一个数据时代的新命题——如何构建数据文化?本书引人入胜、发人深思,是不可不读的好书。
——马蔚华招商银行前行长
数据表示的是过去,但表达的是未来,所以观察数据需要有历史观。涂子沛先生的这本新作《数据之巅》以大历史、大数据、大社会、大进步的格局,通过数据将遥远拉近,将涂子沛先生开启了一道大门,我相信,后面会有更多的发展,让大家进入这一个重要的现代文化园地。
  ——许倬云著名历史学家、美国匹兹堡大学历史系荣誉讲座教授
  在《数据之巅》这本书中,涂先生跳到了哲学思考的层面,以统计学的社会应用为切入点,解构数据文化在美国政治、经济乃至军事发展上起到的关键作用,一环扣一环,构思精巧,故事生动,逻辑清晰,读起来实在“解渴”。感谢涂先生的智慧,为时代贡献了一部杰作!
  ——郭为神州数码控股有限公司董事局主席
  涂子沛先生的《数据之巅》通过追溯梳理美国的数据历史、展望人类的数据未来,给中国社会提出了一个数据时代的新命题——如何构建数据文化?本书引人入胜、发人深思,是不可不读的好书。
  ——马蔚华招商银行前行长
  数据表示的是过去,但表达的是未来,所以观察数据需要有历史观。涂子沛先生的这本新作《数据之巅》以大历史、大数据、大社会、大进步的格局,通过数据将遥远拉近,将悠久缩短,将巨大归聚,将过程简直。无论你从事何业或研究何题,都值得认真阅读这部巅峰之作。
  ——朱小黄中信银行行长、中信集团监事长
  大数据是互联网金融的基础支柱。互联网金融是云计算、大数据、社交网络这个移动互联大时代里的小时代。时代潮流,浩浩荡荡!涂子沛先生的大数据系列著作,带您观时代大潮!
  ——肖风通联数据董事长、万向信托董事长
  涂子沛先生《数据之巅》一书的历史高度和现实意义,超出了他的《大数据》。如果说他上部书开启了中国人对大数据的认识,此书则从历史的角度来说明,对数据的理解和掌握是人类文明进步的标志。
  ——田溯宁中国宽带资本董事长
  涂先生深思熟虑,用语殷殷,穿行在中美两国的历史中,努力发掘各个大数据改变观念,改造社会,改革制度的故事,无论人与事件,都是栩栩如生,发人深省。这本书让我们有目标有信心,也给我们创新的无限空间。
  ——王巍中国金融博物馆理事长
  大数据的江湖有两派,国家治理派和产业升级派。涂子沛先生无疑是国家治理派的宗师,这本书在美国200多年的政界商海、刀光剑影中勾勒出雄浑的数据思维、文化、价值观和方法论。
  ——吴甘沙英特尔中国研究院院长
  涂子沛先生已经成为中国大数据和数据分析领域最前沿的思想者和专家,如果您想了解大数据的历史、现实和未来,这本书将是您的必读书目。
  ——托马斯H达文波特巴布森学院教授,麻省理工学院数字商务中心研究员
  ZipeiTuhasbecometheforemostthinkerandexpertonbigdataandanalytics
  inChina.Ifyouwanttoknowthepast,present,andfutureofbigdatainthatcountry,youmustreadthisbook.
  ThomasH.Davenport
  DistinguishedProfessor,BabsonCollege
  Fellow,MITCenterforDigitalBusiness
  涂子沛先生不仅在写书,还在用书来传递他的炽热激情:大数据时代是上帝恩赐给中国人的,国人切切不可错过这个经济发展和社会进步的时代机遇。如其书中所言,在这个新的时代,我们不仅要用数据来说话,还要用数据来创新。
  ——刘鹰清华大学社会科学学院教授
  在全球化、信息化和市场化的今天,国际竞争本质上是软实力的竞争,即制度和文化的竞争。涂子沛先生倡导的客观、精确、理性和逻辑的“数据文化”理念,不仅是挖掘中国传统优秀文化、吸纳西方文明,重塑中华文化的新范式,也是推进国家治理体系和治理能力现代化的利器。
  ——周超中山大学公共政策研究中心主任、教授
  《数据之巅》以数据为轴线洞察人类社会的发展规律,描绘未来的趋势和走向,力透纸背的还有作者严谨的治学风格及其赤子情怀。涂子沛老师的这本新书就是一座桥梁,实现了中西方之间、历史与现实之间、政治与商业之间的贯通融合,深入研读,可以帮助我们进入通达无碍的智慧境界!
  ——付伟中国银联支付学院院长
  身处国内喧嚣浮华的互联网金融蜃景,此书恰似拨云见日,涂子沛先生跨洋而来的目光深邃地看清了中华文明与西方文明在虚与实上的认知鸿沟。民主的细节在于数据,金融的血液中流淌的也是数据,《数据之巅》,众心向往!
  ——郭宇航点融网创始人、首席执行官
  作为《大数据》最早的一批读者,我曾于2012年10月专程前往美国拜会涂子沛先生。涂先生的格局和视野、勤奋和雅静以及时代的责任感令我印象深刻。这本新书立意高远、数往知来,把数据从科技符号演进到文化符号,在今天这样一个尤其需要高瞻远瞩的大变革时代,相信《数据之巅》会再次成为热点话题,推动中国数据文化的普及。
  ——陈登坤金蝶集团执行董事、高级副总裁、金蝶医疗软件公司总经理
  涂子沛先生的新作《数据之巅》揭示了在人类近、现代文明进程中,在民主和共和体制的创立演化中那无形的数据之手。国内鲜有类似的作品。把数据与人类社会的进步、民主体制的演化联系起来,这是真正的人文关怀。当下的中国,从不缺“民主自由”的口号,但口号建不起先进的人类文明,数据才能。
  ——赵嘉敏译言网联合创始人、首席执行官
  通过《数据之巅》,涂子沛先生再次深入美国历史中的细节,以真正治学之人的责任与良心,发掘“数据”所凝聚的可以再生的思想文化资源。数据文化是一个全新的视角,非常值得教育工作者探索和思考。在智能型社会、人机共生的时代敲响鼓点、加速到来的时刻,本书的阅读,也是一场自我启蒙之旅,将为我们推开那扇未来世界之门。
  ——潘江雪上海真爱梦想基金会理事长
  数据自古存在。本书截取历史长卷中的数据剖面,或古今中外,或政经产学,案例生动,立意高远,令人心生钦敬。
  ——赵国栋中关村大数据产业联盟秘书长第七章大数据时代:通往计算型的智能社会
  大数据是人类文明新的土壤,在这片土壤之上,人类将开始建设一个智能社会。
  —本书作者,2014年
  世上本没有数:正解大数据
  传统意义上的“数据”,是指“有根据的数字”,数字之所以产生,是因为人类在实践中发现,仅仅用语言、文字和图形来描述这个世界是不精确的,也是远远不够的。例如,有人问“姚明有多高”,如果回答说“很高”、“非常高”、“最高”,别人听了,只能得到一个抽象的印象,因为每个人对“很”、“非常”有不同的理解,“最”也是相对的,但如果回答说“2.26米”,就一清二楚。除了描述世界,数据还是我们改造世界的重要工具。人类的一切生产、交换活动,可以说都是以数据为基础展开的,例如度量衡、货币的背后都是数据,它们的发明和出现,都极大地推动了人类文明的进步。
  数据最早来源于测量,所谓“有根据的数字”,是指数据是对客观世界测量结果的记录,而不是随意产生的。测量是从古至今科学研究最主要的手段,可以说,没有测量,就没有科学;也可以说,一切科学的本质都是测量。就此而言,数据之于科学的重要性,就像语言之于文学、音符之于音乐、形色之于美术一样,离开数据,就没有科学可言。
  除了测量,新数据还可以由老数据经计算衍生而来。测量和计算都是人为的,也就是说,世上本没有数,一切数据都是人为的产物。我们说的“原始数据”,并不是“原始森林”这个意义上的“原始”,原始森林是指天然就存在的,而原始数据仅仅是指第一手的、没有经过人为修改的数据。
  传统意义上的数据,和信息、知识也是完全不同的概念:数据是信息的载体,信息是有背景的数据,而知识是经过人类的归纳和整理,最终呈现规律的信息。
  图7–1传统意义上的数据和信息的区别
  但进入信息时代之后,“数据”二字的内涵开始扩大:不仅指代“有根据的数字”,还统指一切保存在电脑中的信息,包括文本、图片、视频等。其中的原因是,20世纪60年代软件科学取得了巨大进步、发明了数据库,此后,数字、文本、图片都不加区分地保存在电脑的数据库中,数据也逐渐成为“数字、文本、图片、视频”等的统称,也即“信息”的代名词。
  文本、音频、视频本身就已经是信息,而且其来源也不是对世界的测量,而是对世界的一种记录,所以信息时代的数据又多了一个来源:记录。
  图7–2数据的三大来源
  图7–3现代意义上的“数据”:范畴比信息还要大
  注:进入信息时代之后,数据成为信息的代名词,两者可以交替使用。一封邮件虽然包含很多条信息,但从技术的角度出发,可能还是“一个数据”,就此而言,现代意义上的数据的范畴,其实比信息还大。
  除了内涵的扩大,数据库发明之后,还出现了另外一个重要现象,那就是数据的总量在不断增加,而且增加的速度不断加快。
  20世纪80年代,美国就有人提出了“大数据”的概念。这个时候,其实还没有进入数据大爆炸的时代,但有人预见到,随着信息技术的进步,软件的重要性将下降,数据的重要性将上升,因此提出“大数据”的概念。这时候的“大”,如“大人物”和“大转折”之“大”,主要指价值上的重要性;到了21世纪前10年,尤其是2004年社交媒体产生之后,数据开始爆炸,大数据的提法又重新进入大众的视野并获得了更大的关注。这个时候的“大”,含义也更加丰富了:一是指容量大,二是指价值大。
  从这个角度出发,大数据可以首先理解为传统的小数据加上现代的“大记录”,这种大记录的主要表现形式是文本、图片、音频、视频等,和传统的测量完全是两回事。而且大数据之所以“大”,主要是“大记录”的增长,基于信息技术的进步,人类记录的范围在不断扩大:
  大数据=传统的小数据+现代的大记录
  (源于测量)(源于记录)
  但到底多大才算大呢?针对这一问题,十多年来争议颇多。这首先涉及衡量数据大小的单位,2000年的时候,一般认为,“太”(T)级别的数据就是大数据了,当时拥有“太”级别数据的企业并不多,但自此之后,互联网企业开始崛起,这些企业拥有各种各样的数据,其中大部分都是文本、图片和视频,其数据量之大,传统企业根本无法望其项背。
  理解几个主要的存储单位
  一首音乐≈4兆(M)
  一部电影≈1吉(G,1吉=1024兆,相当于250首歌曲的大小)
  一个普通图书馆的藏书≈1太(T,1太=1024吉,相当于1024部电影的大小)
  我认为,不仅仅是互联网行业,其实各行各业的数据都在爆炸,只是规模不同。如果仅仅把大数据的标准限定在互联网企业,认为只有互联网企业才拥有大数据,那就严重窄化了大数据的意义。毕竟容量只是表象,价值才是本质,而且大容量并不一定代表大价值,大数据的真正意义还在于大价值,价值主要是通过数据的整合、分析和开放而获得。大数据是指人类有前所未有的能力来使用海量的数据,在其中发现新知识、创造新价值,从而为社会带来“大知识”、“大科技”、“大利润”和“大智能”等发展机遇。
  以上论述,是从概念上分析“数据”和“大数据”的区别,而掌握一个概念最好的方法,还是从动态上了解其成因。大数据的成因,还是人类信息技术的进步,而且是信息技术领域不同时期多个进步交互作用的结果,其中最重要的原因,当数摩尔定律。
  改变世界的三股力量:大数据的成因
  1965年,英特尔的创始人之一戈登?摩尔(GordonMoore)在考察了计算机硬件的发展规律之后,提出了著名的摩尔定律。该定律认为,同一面积芯片上可容纳的晶体管数量,一到两年将增加一倍。1
  要理解这种增加的意义,并不简单。摩尔的本意是,由于单位面积芯片上晶体管的密度增加了,计算机硬件的处理速度、存储能力,即其主要性能一到两年将提升一倍。本来性能提升了,价格也应该上升才对,但现实却很诡异:半个多世纪以来,硬件的性能不断提高,价格却持续下降。之所以这样,竟然还是因为晶体管越做越小,这种体积的缩小也导致其成本下降,再加上人类对晶体管的需求越来越大,大规模的生产也导致价格不断下降。
  回顾这半个多世纪的历史,硬件的发展基本符合摩尔定律。以物理存储器为例,其性能确实不断上升,与此同时,价格不断下降。1955年,IBM推出了第一款商用硬盘存储器,一兆字节的存储量需要6000多美元,此后,其价格不断下降:1960年,一兆字节下降到3600美元;1993年,下降到大概1美元;2000年,再降至1美分左右;到2010年,每兆价格约为0.005美分。半个多世纪,存储器的价格下降了1亿多倍,这种变化的速度既巨大又剧烈,令人瞠目结舌。事实上,考察人类全部的历史,没有其他任何一种产品的价格下降空间能够如此巨大!
  图7–41971~2011年中央处理器上的晶体管数量和摩尔定律
  注:纵坐标为晶体管数量,横坐标为年份。该曲线表明,在1971~2011年,大概每两年相同面积的中央处理器集成电路上的晶体管数量就增加1倍。需要注意的是,纵坐标从2300到10000再到
  100000,其实不成比例,如果严格按比例作图,这将是一条非常陡峭的曲线,页面将无法容纳。(资料来源:维基百科)
  晶体管的产量多过全世界的大米颗粒
  晶体管由硅构成,相当于一个开关,通电的时候表示“1”,不通电时候表示“0”,是电子产品最小的组织单元。一部手提电脑大概有400亿个晶体管,一部智能手机约有10亿个晶体管。晶体管行业(即半导体行业)堪称人类历史上最高产的行业。现在一年生产的晶体管比全球一年消耗的大米颗粒还要多:2002年,人类生产的晶体管数量大概是大米颗粒的40倍,买1粒米的钱可以购买100个晶体管2;2009年,晶体管的产量上升到大米颗粒的250倍,1粒大米的价钱可以购买10万个晶体管3。
  摩尔定律发展到今天,一根头发尖大小的地方,就能放上万个晶体管。当然,晶体管不可能无限缩小,所以十几年来,业界曾围绕以下问题展开激烈争论:摩尔定律所揭示的现象还会不会持续,即单位面积上的晶体管还能不能继续增加甚至翻倍?如果能,又能持续多久?
  作为摩尔定律的发现者,2003年,戈登?摩尔也被问到这个问题。他认为:“创新无止境,下一个10年摩尔定律可能还将有效。”
  事实证明,摩尔是对的。2011年,英特尔公司宣布发明了22纳米的3D(三维)晶体管,这使争论暂时画上了句号。此前的晶体管为31纳米,22纳米的晶体管小了大约1/3,因为小,新的晶体管比现在更便宜、更节能。2012年,英特尔又宣布将投资50亿美元在美国亚利桑那州建厂,计划2014年投产14纳米的晶体管,这比21纳米的尺寸又将缩小1/3。
  英特尔的发明使大部分科学家相信,摩尔定律的生命将延续到2020年。预计到2020年,1太硬盘的价格将下降到3美元,这相当于一杯咖啡的价格。前面我们提到,美国的国会图书馆是全世界最大的图书馆,其印刷品馆藏量约为15太;一所普通大学的图书馆,其馆藏量可能也就一两个太。也就是说,到2020年,只需花上一杯咖啡的钱,就可以把一个图书馆的全部信息拷进一个小小的硬盘。信息保存的过程如此方便、成本如此低廉,历史上从来没有过。
  图7–51太容量的硬盘价格变化
  注:1太容量的硬盘价格正在持续下降,已经从2012年11月的94.99美元下降到2014年3月的49.99美元。以上数据是作者在亚马逊网站上跟踪的希捷硬盘在不同时段的报价。
  摩尔定律已经成为描述一切呈指数级增长事物的代名词,它给人类社会带来的影响非常深远。正是因为存储器的价格在半个世纪之内经历了空前绝后的下降,人类才可能以非常低廉的成本保存海量的数据,这为大数据时代的到来铺平了硬件道路。这相当于物质基础,没有它,大数据无异于水中月、镜中花。
  摩尔定律促使硬件成为大众消费品
  摩尔定律导致的硬件价格大幅下降,最终使曾经昂贵的硬件成为大众消费品,原来“高大上”的产品,如激光打印机、服务器、智能手机,已经逐渐从科研机构、大型企业进入普通家庭。由于这些设备的普及,美国的一些公司甚至出现了一种新趋势:鼓励员工自己带设备来上班(BYOD),公司只提供网络和办公场地,成为“轻”公司。
  除了便宜、功能强大,摩尔定律也导致各种计算设备变得越来越小。这个现象在1988年被美国科学家马克?韦泽(MarkWeiser)概括为“普适计算”。普适计算理论认为,计算机发明以后,将经历三个主要阶段:一是主机型阶段,指的是很多人共享一台大型机,一台机器就占据半个房间;二是个人电脑阶段,计算机变小,人手一机,韦泽当时就处于这个时代,这似乎已经是很理想的状态,但韦泽天才般地预见到,人手一机不是时代的终结;在第三个阶段,计算机将变得很小,小得将从人们的视线中消失,人们可以在日常环境中广泛部署各种各样微小的计算设备,在任何时间、地点都能获取并处理数据,计算最终将和环境融为一体,这个阶段,被称为普适计算阶段。
  今天,第三股浪潮正向我们奔涌而来,小小的智能手机,其功能已经毫不逊色于一台计算机,各种传感器正越做越小,RFID(射频识别)标签方兴未艾,可穿戴式设备又向我们走来。
  RFID标签已经在零售、医疗、动物饲养等领域得到了广泛应用。近两年,美国费城等城市在垃圾桶内安装RFID传感器,垃圾装满或者因为腐烂而散发异味时,传感器就会发出信号,这可以优化垃圾车的巡回路线,减少城市管理人员收集垃圾的次数。
  可穿戴式设备是指可以穿戴在身上、不影响个人活动的微型电子设备,这些设备可以记录佩戴者的物理位置、热量消耗、体温、心跳、睡眠模式、步伐多少以及健身目标等数据。2013年,德国霍芬海姆足球俱乐部(TSG1899Hoffenheim)已经把传感器装到了足球和每个球员的护膝或衣服上。这些传感器可以实时记录运动员的活动轨迹、奔跑速度、加速过程、控球时间,一场比赛打下来,系统可以收集6000万条记录,球员、教练都可以对这些数据做出分析,并借此提高训练质量、制定最佳组合、减少运动员受伤的概率。
  除了足球,传感器还进入了网球场。法国的运动器材制造商Babolat把传感器安装在了网球拍的手柄上,它可以记录球员击球时的状态,例如正反拍、击球点、击球的力量、球速、球的旋转方向等参数。这些数据以几乎实时的速度传到现场的智能手机和平板电脑上,运动员和教练可以随时查看。2014年在澳网封后的中国网球一姐李娜,用的就是这个品牌的球拍。为了配合这种球拍的使用,2013年,国际网球联合会(InternationalTennisFederation,ITF)已经修改了章程,从2014年1月起,允许运动员在国际比赛中使用带有传感器的球拍,以记录、分析自己的数据。在未来的比赛中,如果运动员同意,这些数据甚至可以实时出现在比赛场地的大屏幕上,供观众分析参考。
  除了足球、网球,传感器也在快速进入棒球、橄榄球等领域。美国的一些研究机构认为,美国运动产业的营收,近年内会有大幅增长,主要原因就是,基于传感器的数据收集和分析技术将改写整个领域的生态。
  除了运动,可穿戴式设备还有很多。2014年2月,日本东京大学的研究人员发明了一种比羽毛还轻的传感器,把它放置在纸尿片内,纸尿片一湿就会发出信号,看护就会知道并及时更换。这种传感器的成本只有几美分,不仅适用于婴儿,还适用于老人、病人。此外,作为可穿戴式设备最经典的产品,风靡一时的谷歌眼镜也在娱乐之外得到了更广泛的应用:美国纽约市的警察准备在日常巡逻中佩戴谷歌眼镜,以快速记录事故现场的情形,并通过网络和同事共享数据。
  普适计算的根本,是在人类生活的物理环境中广泛部署微小的计算设备,实现无处不在的数据自动采集,这意味着人类数据收集能力的增强。在此之前,电子化的数据主要由各种信息系统产生,这些信息系统记录的主要是商业过程的数据,而传感器的出现及其技术的成熟,使人类开始有能力大规模记录物理世界的状态,这种进步推动了大数据时代的到来。
  但人类数据的真正爆炸发生在社交媒体时代。
  从2004年起,以脸谱网(Facebook)、推特(Twitter)为代表的社交媒体相继问世,这拉开了一个互联网的崭新时代—Web2.0。在此之前,互联网的主要作用是信息的传播和分享,其最主要的组织形式是建立网站,但网站是静态的;进入Web2.0时代之后,互联网开始成为人们实时互动、交流协同的载体。2011年8月23日,美国弗吉尼亚州发生5.9级地震,纽约市居民首先在推特上看到这个消息,几秒钟之后,才感觉到地震波从震中传过来的震感,社交媒体把人类信息传播的速度,带到了比地震波还快的时代!
  除了把交流和协同的功能推到了一个登峰造极的高度,社交媒体的另外一层重要意义就是,给全世界无数的网民提供了一个平台,使其随时随地都可以记录自己的行为、想法,这种记录其实就是贡献数据。我们谈到过,所有的数据都是人为产生的,所有的数据都是对世界的测量和记录。从1946年人类发明第一台计算机并进入信息时代算起,到社交媒体产生之前,主要是信息系统、传感器在产生和收集数据,但由于社交媒体的横空出世,人类自己也开始在互联网上生产数据,例如发推特、微博和微信,记录各自的活动和行为,这部分数据也因此被称为“行为数据”。
  图7–6各种数据类型和大小
  注:数据是对人类生活和客观世界的测量和记录。过去,是我们选择什么东西需要记录,才对它进行记录;在大数据时代,是选择什么东西不需要记录,才取消对它的记录。随着记录范围的不断扩大,可以肯定,人类的数据总量还将呈滚雪球式扩大。
  由于社交媒体的出现,全世界的网民都开始成为数据的生产者,每个网民都犹如一个信息系统、一个传感器,不断地制造数据,这引发了人类历史上迄今为止最庞大的数据爆炸。除了数据总量骤然增加,社交媒体还使人类的数据世界更为复杂:在大家发的微博中,你的带图片、他的带视频,大小、结构完全不一样。因为没有严整的结构,在社交媒体上产生的数据,也被称为非结构化数据。这部分数据的处理,远比结构严整的数据困难。2012年,乔治敦大学的教授李塔鲁(KalevLeetaru)考察了推特上产生的数据量,他做出估算说,过去50年,《纽约时报》总共产生了30亿个单词的信息量,现在仅仅一天,推特上就产生了80亿个单词的信息量。也就是说,如今一天产生的数据总量相当于《纽约时报》100多年产生的数据总量。
  在这种前所未有的数据生产速度下,社交媒体的出现虽然还不到10年,目前全世界的数据大约75%都是非结构化数据。今天回头看,社交媒体的出现,才是让大数据一锤定音的力量。基于以上分析,我们也可以这样认为:
  大数据=结构化数据+非结构化数据
  但我们前面谈到,大数据之大,不仅在于其大容量,更在于其大价值。价值在于使用,如同埋在地底下的石油,远古即已有之,人类进入石油时代,是因为掌握了开采、冶炼石油的技术,现在进入大数据时代,最根本的原因,也是人类使用数据的能力取得了重大突破和进展。
  这种突破集中表现在数据挖掘上,数据挖掘是指通过特定的算法对大量的数据进行自动分析,从而揭示数据当中隐藏的规律和趋势,即在大量的数据当中发现新知识,为决策者提供参考。数据挖掘进步的根本原因是人类能够不断设计出更强大的模式识别算法4,这其实是软件的进步,其中最重要的里程碑,是1989年美国计算机协会(ACM)下属的数据挖掘及知识发现专委会(SIGKDD)举办了第一届数据挖掘学术年会,出版了专门期刊,此后数据挖掘得到了如火如荼的
  发展。
  正是通过数据挖掘,近几十年来,各大商家谱写了不少点“数”成金的传奇故事,例如沃尔玛通过捆绑“啤酒和尿布”提高销量。又如,奈飞公司利用客户的网上点击记录,预测其喜欢观看的内容,实现精准营销。再如,阿里巴巴等互联网公司凭借长期以来积累的用户资金流水记录,涉足金融领域,在几分钟之内就能判断用户的信用资质,决定是否为其发放贷款……
  近年来,数据挖掘在企业的应用还在不断推陈出新,有望到达一个新高度。例如,2014年1月,美国的电子零售巨头亚马逊宣布了一项新的专利:“预判发货”(AnticipatoryShipping),即在网购时,顾客还没有下单,亚马逊就将包裹寄出。这种顾客未动、包裹先行的做法听起来有些不可思议,中国的新闻媒体甚至惊呼:“亚马逊这是要逆天吗?”5
  在商言商,亚马逊当然不会做赔本生意,预判发货的核心技术还是数据挖掘。其本质是,通过预测,把发货这个过程“外包”给算法,让算法自动发货,实现智能化!亚马逊解释说,发货的根据是顾客以前的消费记录、搜索记录以及顾客的心愿单,甚至包括用户的鼠标在某个商品页面上停留的时间。根据这些数据,亚马逊如果判断某位顾客对一件新商品有购买意愿,就会直接将商品寄给他,或者将该商品发送到离他最近的仓库,顾客一旦下单,那收货时间就将以“小时”计,而不是以“天”计。亚马逊认为,正是从下单到收货之间的物流延迟,导致人们购买意愿降低,如果能够缩短物流时间,将极大地改善客户体验。
  亚马逊还提到,并不是所有的商品都会采用预判发货的形式,这种形式比较适合在上市之初就容易吸引大量买家的商品,例如畅销书。为了降低预判发货的风险,亚马逊还有一些配套技巧,例如模糊填写用户的收货地址,只将商品配送到离他最近的仓库,如果在配送过程中收到订单,再将地址信息补充完整,在这个等待的过程中,亚马逊还会向这位潜在顾客推送信息,以提升这笔交易成功的可能性。
  但这些都不是其算法的关键,预判发货这种模式之所以有商业价值,是因为亚马逊会锁定其适用的群体,例如年收入较高的家庭,他们对某些消费有固定的预算;又如某一领域的狂热粉丝,他们愿意为最新的时尚一掷千金。这批高端用户更注重购物体验,如果把发货流程外包给算法,顾客就不用操心自己想买什么,这相当于节省了他的时间;流行物品在第一时间就送上门,这是急顾客之所急。可以想象,当这些家庭拆开邮包时,更多的可能是欣喜,这种欣喜将强化顾客的忠诚度。当然,假如顾客真的坚持退货,亚马逊还有解决办法:一是打折销售,二是作为礼物免费赠送,这也有利于亚马逊在高端客户中提升口碑。
  亚马逊有1亿客户,这些人的消费记录日积月累,可以说是海量数据,但数据虽然多,却没有人会直接将自己的收入高低和兴趣爱好告诉亚马逊,所有的预判,亚马逊都必须靠数据挖掘来完成。
  2013年5月,加拿大蒙特利尔交通局(SociétédeTransportdeMontréal,STM)宣布,将利用SAP(思爱普)公司的大数据处理平台,对所有顾客的消费历史和个人信息进行分析,然后按照其偏好、习惯和需要,为每位顾客定制专门的消费计划和个性化票价。蒙特利尔交通局共有120万名顾客,这意味着这120万人都将得到不同的票价,其目的是优化公共交通的运营,提高顾客的忠诚度。
  蒙特利尔交通局之所以能够这么做,还是因为其掌握了大量顾客的数据。在信息时代之前,受限于记录手段,商家对于自己产品及服务的销售和流向,只有一个粗略的记录,但现在的信息技术已经可以把一件产品的流向、每位消费者的情况都记录下来,再通过数据挖掘,为客户量身定制,把消费和服务推向一个高度个性化的时代。
  数据挖掘技术的不断成熟也在挑战现有的统计体系。在第五章我们谈到,20世纪30年代,由于抽样技术的出现,统计科学发生了一场革命,即社会调查可以通过选取有代表性的样本来完成,而不必像人口普查一样,把全社会的人都问一遍。但前文也谈到,即使是抽样技术,也有其缺陷。1948年,杜鲁门和杜威竞选,盖洛普通过抽样调查预测杜威将当选,但结果让所有人都大跌眼镜。其失败的原因在于,抽样调查需要经过问卷设计、信息收集、数据分析等多个步骤,这导致它掌握的数据滞后于真实的情况,在最后两周里,盖洛普不得不停止调查,而杜鲁门恰恰在最后的关头扭转了乾坤。在大数据时代,对谁将当选总统的预测已经出现了新方法:在投票前后,对社交媒体上的数据进行观点的挖掘,可以较为准确地预测出谁能当选。最近两次美国总统的选举,都有人通过挖掘推特、脸谱网上的数据,准确预测到奥巴马的当选。
  这种基于网络数据的挖掘,不需要制定问卷,也不需要逐一调查,成本低廉。更重要的是,这种分析是实时的,没有滞后性,所以有越来越多的科学家相信,因为大数据的出现,统计科学将再次发生革命,进入统计2.0时代。在这个新的时代,数据挖掘将成为越来越重要的分析预测工具,抽样技术将下降为辅助工具。
  表7–1数据挖掘和统计抽样的区别
  数据样本
  数据来源
  数据时效
  数据成本
  数据挖掘
  用的是已经存在的大数据,样本偏差可能很大,但如果数据量足够大,偏差又可能缩小
  多个源头
  实时
  基本免费
  统计抽样
  根据设计好的问卷,收集自己需要的数据,如果设计科学,那样本会比较均匀、偏差小
  比较单一
  滞后
  比较昂贵
  注:数据挖掘的优越性,也集中反映了大数据“量大、多源、实时”等三个特点。
  虽然数据挖掘正如日中天,但在一定程度上,数据挖掘已经不是大数据的前沿和热点,取而代之的是机器学习。当下兴起的机器学习凭借的也是计算机算法,但和数据挖掘相比,其算法并不是固定的,而是带有自调适参数的,也就是说,它能够随着计算、挖掘次数的增多,不断自动调整自己算法的参数,使挖掘和预测的结果更为准确,即通过给机器“喂取”大量的数据,让机器可以像人一样通过学习逐步自我改善、提高,这也是该技术被命名为“机器学习”的原因。
  除了数据挖掘和机器学习,数据的分析、使用技术已经非常成熟,并且形成了一个谱系,例如数据仓库、多维联机分析外理(MultidimensionOLAP)、数据可视化、内存分析(In-memoryAnalytics)都是其体系的重要组成部分,在人类数据技术的进步过程中,都扮演过重要的角色。6
  回顾半个多世纪人类信息社会的历史,正是因为1966年提出的摩尔定律,晶体管越做越小、成本越来越低,才形成了大数据现象的物理基础,这相当于铸器,人类有能力制造巨鼎盛载海量的数据;1989年兴起的数据挖掘,则相当于把原油炼成石油的技术,是让大数据产生“大价值”的关键,因为如果没有技术,石油再多,我们也只能“望油兴叹”;2004年出现的社交媒体,则把全世界每个人都变成了潜在的数据生成器,向摩尔定律铸成的巨鼎当中贡献数据,这是“大容量”形成的主要原因。
  图7–7大数据的三大成因
  分析了大数据的静态概念和动态成因,我们更清楚地理解了大数据的特点,现在可以从以下角度来理解、定义大数据:
  图7–8大数据的概念和维度
  注:正如前文讨论的,当前人类的数据约75%都是非结构化数据,大记录的表现形式主要就是非结构化数据,而大记录、非结构化数据要体现出价值,当前主要的处理方法,还是把它们转化为有严整结构的数据,即传统的小数据,因此我认为,大数据的价值维度主要体现在传统的小数据和结构化数据之上,而大数据的容量维度主要体现在现代的大记录和非结构化数据两个方面。
  大数据产生之后,全世界的科学家都在预测和展望。这股由信息技术掀起的新浪潮将对人类社会产生何种影响,将带领我们的世界走向何方?我认为,有更多的数据,就必定会有更多的使用,而使用数据最根本的方法就是计算,大数据时代就是大计算的时代,无处不在的计算标志着一个计算型社会的兴起。
  有数据,还要有计算:计算型社会的兴起
  前文谈到,进入信息时代之后,“数据”这个概念的内涵扩大了,它不仅仅指代传统的数字,还包括文字、图片甚至音频、视频等。
  由于数据的内涵扩大,可以想象,计算的内涵也应该发生相应的变化。计算是以数据为基础的,其本质是对输入的数据,经过一定规则的处理后,例如加、减、乘、除,输出一个新数据,从这个意义上说,计算就是对数据进行有规则的转换。
  传统的计算自然以传统的“数字”为基础,例如:8×8=64,而在大数据时代,文本是数据,视频是数据,这些数据是否也能计算?例如,输入一段文本,经过一定规则的处理,得出另外一段文本或者一张图片,甚至一个视频,那是不是也应该算作“计算”?
  这个新型的数据转换过程,其实就是我们熟悉的搜索和数据挖掘。
  按照我们对计算的定义:计算是按照一定的规则对数据进行转换的过程,而文本、图片、音频和视频都是大数据时代的数据,那以上的过程就应该是计算。换句话说,在大数据时代,计算的内涵也扩大了,搜索就是计算,数据挖掘也是计算!它们依照的规则,并不是简单的加、减、乘、除,而是特定的、更为复杂的算法。
  我们的世界主要由物理环境、人和社会构成,如果按此划分,人类的计算也可以分为两大类:物理环境的计算、人和社会的计算。社会领域的计算主要是研究个人和群体的行为,包括过去和现在的行为,也包括有组织的群体行为和无组织的群体行为,传统学科如经济学、政治学、社会学、历史学等都属于这个范畴;物理环境领域的计算主要研究人类生活环境的状态,传统学科如物理、化学、天文学、地理学、动物学、植物学等都属于这个范畴。
  在大数据时代,人和社会、物理环境这两大领域的计算都将蓬勃兴起。物理环境领域的计算由来已久,大数据时代最大的亮点就是人和社会的计算,越来越多的社会问题都将通过计算得到解决。换句话说,由于大数据的出现,社会正逐渐变得可以计算!
  可以计算的原因是,个人在真实世界的活动和社会状态被前所未有地记录,这种记录的粒度很高,频度也在不断增加,为社会领域的计算提供了极为丰富的数据。
  2011年10月,美国佛罗里达州劳德代尔堡市(FortLauderdale)发生了一起恶性交通事故,事故原因是一名退休警察超速行驶。佛罗里达州《太阳哨兵报》的记者克斯汀(SallyKestin)在查阅历年的数据后发现:从2004年起,整个佛罗里达州发生过320起警察超速导致的交通事故,并且导致19人丧生,而最后的结果,只有一名警察入狱服刑。克斯汀意识到,这可能是一个非常值得关注的社会问题,她甚至怀疑这个数据只是冰山一角,类似的警察很多,开快车可能是其经常性的行为。
  但怀疑只能是怀疑,克斯汀知道,要证明它,无异于要证明警察这个群体知法犯法、凌驾于法律之上,这是个很大的挑战,最大的困难就在于取证。
  为了取证,克斯汀尝试过跟踪警车,获取其超速的第一手记录。她抱着测速雷达,一连几天守在高速公路边,一看见有超速的黑点,就驱车直追,但她很快发现,这无异于守株待兔,难度太大:一是路上车辆太多,难以确定目标,追来追去,常常发现不是警车,一到晚上,目标更是难以辨认;二是就算运气好、碰上的恰好就是警车,克斯汀也无权截停,仅仅通过照片或录像,证据还是不够充分,事后也无法服人。
  克斯汀最后想出的办法,是根据美国内开放1.0时代制定的《信息自由法》,向当地的交通管理部门申请数据开放,因为警车是公务用车,公民有权了解其使用状态,她因此获得了110万条当地警车通过不同高速路口收费站的原始记录。在专业数据分析人员的帮助下,克斯汀用了3个月的时间对这些记录进行了整合和分析。
  克斯汀的分析方法是:她选取两个特定的收费站并测算两点之间的距离,再在110万条记录中找到每一辆警车通过这两个不同收费站的时间点,两点之间的距离除以其时间差,即为该警车在这段路程中的平均行驶速度。
  克斯汀的分析得到了令人震惊的结果。她发现,在13个月期间,当地的
  3900辆警车一共发生了5100宗超速事件,也就是说,警车超速的行为几乎每天都在发生;96%的超速在144公里/小时至176公里/小时之间,当地1/5的警车都有时速超过144公里的“劣迹”,而且,时间记录表明,绝大部分超速行为发生在上下班时间和上下班的途中。这意味着,他们开快车并不是为了执行公务。
  克斯汀的怀疑终于得到了证实,2012年2月,她利用这些数据分析的结果,在《太阳哨兵报》上发表了一系列报道,头篇报道的标题为“他们凌驾法律之上?”7。在大量数据和调查访谈的基础上,克斯汀得出结论说,因为工作需要和警察身份的特权意识,开快车成了警察群体的普遍习惯,即使下班之后身着便服,其驾驶速度也没能降下来,而路上值勤的警察也警警相护,互相理解并纵容这种行为。
  铁数如山。可以想象,克斯汀的报道一见报,舆论一片哗然。接下来一个月,《太阳哨兵报》的电话响个不停。全国各地的读者纷纷打来电话,有的表示感谢,有的要来取经。当地警务部门则发生了一场“大地震”,5100宗超速案件涉及12个部门近800名警察,一些被“坐实”的警察陆续受到处理:48名州高速公路巡警被处以警告处分或者被勒令纪律反省;44名地方刑警被剥夺开车上下班的权利并回炉参加安全驾驶培训;迈阿密市的38名警察被处理,其中1名开除、10名停发工资;各地还有33名基层警察也受到警告、剥夺驾驶权利等不同程度的处罚。
  故事到这里,还没有完。警务部门的整顿是否有效呢?2012年12月,克斯汀又向交通管理部门申请开放了最新的原始数据。她对新的数据又做了分析,并和2011年的同期数据进行了对比。数据表明,从2012年2月到10月,警察超速的个案已经从2011年同期的3179宗下降为495宗,下降幅度高达84%。克斯汀又在《太阳哨兵报》上发表了一篇新报道—《警察猛踩刹车!》8。在这篇报道中,她甚至把数据分解到了各个警务部门,详细地列出了每一个部门的改进水平。
  图7–9哪些部门的警察还在开快车?(2012年2月至10月与2011年的同期对比)
  《太阳哨兵报》只是美国一个县的地方报纸,总发行量不足23万份,但因为克斯汀的报道,该报名声大振,并于2013年4月获得了2013年度的普利策新闻奖,其获奖理由是:“克斯汀的报道以无可辩驳的技术调查,记录了警察在非公务期间开快车、危及市民生命的事实,这种致命的威胁在报道引发的讨论和整顿中得到消减。”
  可以想象,如果不是通过使用数据,如果没有上百万条充沛的数据记录以及成熟的数据分析手段,类似于“警察群体普遍开快车”的社会问题,人类可能永远都无法在法庭上得到证实,这种知法犯法的特权行为,也永远得不到有效的治理和纠正。
  通过计算来解决社会问题,正变得越来越普遍。2013年,美国肯塔基大学利用大数据平台,对学生的各种行为数据进行整合,例如各门课程的成绩、出勤率、在线学习平台的活跃度、使用图书馆等各种设施的记录,再通过数据挖掘,快速确认可能存在问题的学生,对他们开展专门的辅导,以减少学生流失。其实,国内也有类似的应用。2013年7月,有报道称,华东师范大学的一位女生收到校方的短信:“同学你好,发现你上个月餐饮消费较少,不知是否有经济困难?”9这条温暖的短信也要归功于数据挖掘:校方通过挖掘校园饭卡的消费数据,发现其每顿的餐费都偏低,于是发出了关心的询问,但随后发现这是一个美丽的错误——该女生其实是在减肥。可以想象,误会之所以发生,还是因为数据不够大,大数据的特点除了“量大”,还有“多源”,如果除了饭卡,还有其他来源的数据作为辅助,判断就可能更加准确。
  社会领域的计算,也被很多学者称为“社会计算”(socialcomputing),这个概念的提出已经有20多年的历史。20世纪90年代,美国的学者最早提出这个概念之时,是从“社会软件”(socialsoftware)这个角度出发的,最早的社会软件是指支持群体交流的软件,如MSN(微软网络服务)、QQ(腾讯公司的一款即时通信软件)等。社会软件也是相对于“商业软件”的一个概念,两种软件的目的不同:传统的信息系统降低的是商业交易的费用,但社会软件降低的主要是人际交往的成本,使大规模的合作成为可能。
  2004年,社交媒体产生之后,社会软件的功能被发挥得淋漓尽致,个人的行为和思想通过脸谱网、推特、微博等工具被广泛记录,有学者进一步明确主张,将基于社交媒体的行为分析称作“社会计算”。近年来,随着大数据的崛起,越来越多的学者认为,关于人和社会本身的数据现在已经极为丰富,而且这类数据还在快速增长,未来一切的社会现象、社会过程和社会问题,都可以而且应该通过以计算为特点的定量方法分析解决,这样更加精确、更加科学。
  虽然关于“社会计算”的定义正在演进当中,国际共识也还未形成,但这并不妨碍相关研究的开展。近年来,美国的国家人文研究基金会(NationalEndowmentfortheHumanities,NEH)甚至还大力鼓励利用基于历史的大数据来研究、解决社会问题。2012年,美国的乔治梅森大学联合英国的两所大学,将英国伦敦市240年的罪犯庭审记录输入电脑,然后对这些数据加以分析和挖掘,以研究各种案件的发展趋势、触发原因以及和社会背景的关系。另外一个研究更有意思,1918年,美国曾经发生一起大流感,死亡上百万人,历史学家认为,大部分死亡其实都可以避免,但问题究竟出在哪里呢?美国弗吉尼亚技术大学的一个课题组着手收集了当年各个地区的死亡人数,并将这个时期全国各地所有的新闻报道都电子化,他们试图研究信息传播的时序、路线和死亡人数的关系,例如,什么样的报道方式、新闻措词最有效,什么样的传播渠道最有可能减少死亡人数。
  又如,文艺复兴期间,欧洲的思想界群星璀璨,出现了一大批思想先驱,但历史研究的一个困难在于,某一特定新思想的首倡者往往难以确定。随着新证据的出现,早年历史学家认定的事实,常常被发现是张冠李戴。美国大学的一个课题组提供了一个新的方法和思路:他们把文艺复兴时期几千封名人之间的通信电子化,然后进行文本挖掘和分析,追踪确定一个新思想、新概念的首倡者,同时研究这些新思想和新概念又是怎样在人们的交流和互动中发展成形的。
  就此而言,通过社会计算,一些精细的、微妙的、在人类历史上曾经难以捕捉的关系和知识,现在都可以捕捉到,并被上升为显性知识。对此,麻省理工学院的教授布林约尔松(ErikBrynjolfsson)比喻说,大数据的影响,就像4个世纪之前人类发明的显微镜一样:显微镜把人类对物理环境的观察和测量水平推进到了“细胞”的级别,为人类社会带来了历史性的进步和革命,而大数据,将成为我们下一个观察人类自身行为以及社会行为的“显微镜”。
  当然,社会领域的计算、对类似知识和关系的捕捉,不仅能够有效推动社会治理,还能产生商业价值。
  2012年6月欧洲杯足球赛期间,中国国内出现了多篇《男人一看球,女人就网购》的相关报道10。报道称,根据淘宝网的销售数据,欧洲杯开赛以来,女性网购的成交量明显上升,而且“网购的高峰期延时两个小时,变成了23点到24点”,此外,在“凌晨1点45分第一场球结束到凌晨2点45分第二场球开始前”,出现了一个新的网购高峰,这个新的高峰和赛前的同时段相比,成交量“增长超过260%”。
  这个现象背后的逻辑不难理解。球赛期间,男性沉迷于球赛,冷落了妻子(女朋友)和孩子,女性,特别是已婚女性会觉得沮丧、恼火、失落。每天晚上球赛开始的时候,在个体层面,每位女性都有很多选择,她可以做家务、辅导孩子、跟闺蜜聊天、和母亲通电话以及逛街购物,也就是说,其行为具有不确定性,她究竟会做什么,难以预测。但是,当我们把几个电子商务平台的交易数据一汇总、一分析,就会发现,群体的行为有规可循。随着球赛的开始,女性在网上购物的成交量就开始增加,其中的高档物品也较平时明显增多,也就是说,平时舍不得买的东西,这时候终于出手了。在小数据时代,“男人一看球,女人就网购”永远是一个猜测,无法得到证实,但在大数据时代,很容易就能证实,甚至连成交的商品有什么特点,都可以进行分析。等到明年球赛再开始的时候,商家的广告就可以更有的放矢,不仅可以把广告对象瞄得更准,推广的商品也会更有针对性,猜测上升为知识,知识将创造利润。
  关于个人行为和社会状态的数据已经无处不在,这些数据是多源的、即时的、分散的、多形式的、碎片化的,同时又是海量的。高明的商家通过大数据的整合和挖掘,可以从这些海量的、零散的数据中找到规律,发现大众行为背后的心理机制。这些心理机制,在个人层面,可能是隐性的需要、无意识的诉求或者无法言说的欲望,但通过整理大量的数据,商家就可以理清大众生活中这些无意识的原型,掌握消费者背后真正的心理动机,从而提供创造性、突破性的产品和服务,获得更多的消费者和更大的市场份额。事实上,这也正是大数据用于精准营销的最高境界。为什么当年沃尔玛啤酒和尿布的故事能让全世界津津乐道几十年?原因就在于,即使是在购买尿布时喜欢顺便购买啤酒来犒劳自己的年轻父亲,可能也不清楚这个行为背后的心理动机,但沃尔玛通过数据,捕捉到了这个无意识的原型,并通过数据分析的验证,将其提升为知识。
  普适计算:即将到来的超级数据爆炸
  除了社会领域的计算正在兴起,物理环境领域的计算也在面临一场革命,其中的原因,就是上文中提到的普适计算。传感器、可穿戴式设备等微小的计算设备将进一步普及,装备到全世界的各种物体之上,包括机器、电器、人体、动物、植物等需要监测的目标,真正形成“万物皆联网、无处不计算”的状态。
  随着这场革命的到来,人类的数据总量还要爆炸,这场爆炸将达到史无前例的规模。
  其中,机器将是第一梯队。人类在进入机器大生产的时代之初,机器的效率在不断提高,但到达一个临界点之后,机器的效率就很难再优化了。当机器和机器相联、形成一个系统的时候,其效率问题就显得更为显著,一台机器的效率可能成为系统的瓶颈,一台机器的故障可能导致整个系统瘫痪,系统的复杂性使工程师常常顾此失彼,难以优化系统的效率。如果能通过传感器监测机器的运行状态,通过计算确认各类设备的良好程度,算准时间进行设备优化和维修更新,就能控制生产过程中的不确定性,减少意外情况带来的损失。
  全球最大的工业制造商通用电气将这种运营效率的提高总结为“1%现象”。该公司经过估算指出,如果全世界的飞机引擎维护效率提升1%,每年全世界就可以节省2.5亿美元;能源行业的发电设备每提高1%的效率,就可为全球经济贡献40亿美元;医疗器械的效率如果提升1%,则可以帮助全球医疗行业节约630亿美元。也就是说,所有机器只要提高1%的效率,就能为全世界带来非常可观的收入。
  目前,全世界现在大概有300万个重要的、巨大的、日夜运行的机器,这些机器都在一定的温度、湿度、压力、振动、旋转状态下工作,这些参数都是重要的监测指标。此外,全世界还有上百亿台带有微处理器的机器或者电器,未来都可以装上传感器,全球人口共有60多亿,当社交媒体被发明的时候,每个网民都成了一个数据生成器,就已经引起了一次数据大爆炸,而机器远比人多,而且日夜不停地旋转、工作,可以想象,这次即将到来的数据爆炸,远非上次可比,将是超级大爆炸。
  通用电气公司为此发布了专门的研究报告、制订了相应的规划,并且计划在旗下大至飞机、小至激光手术刀等数万种产品上都安装传感器,通过网络将设备运行状态数据实时传至平台,并将该计划称为“工业互联网”。2012年7月,通用电气公司投资1.7亿美元在纽约州斯克内克塔迪市(Schenectdy)开设了一家电池工厂,1.6万平方米的厂房内安装了1万个传感器。这些传感器分布在各条生产线上,监控、记录生产过程中的温度、气压、湿度、生产配料、能源消耗等数据,工厂的管理人员则通过随身携带的iPad(苹果平板电脑)获取这些数据,以便在第一时间发现问题,对生产进行监督和调整。
  通过传感器监测生产过程,还只是通用电气工业互联网计划的一部分,通用电气的目标是“让每件产品产生记忆”:未来,产品在出厂前就被植入了传感器,记录了它的生产过程,在产品抵达顾客、进入服务状态之后,传感器将每时每刻都记录产品的运行情况,一旦出现问题和故障,通用电气可以快速地整合生产记录、销售记录、产品运行记录这三种数据进行分析。
  除了通用电气高调突进的工业互联网,还有生活物联网,即生活电器入网。2014年1月,谷歌以32亿美元的现金收购了智能家居设备商Nest。业界纷纷认为,生活物联网的脚步越来越临近,我们即将迈进一个智能家居的时代:你坐在办公室里,就可以调节家里电冰箱的温度;你在下班的路上,就可以控制电饭煲的开关,并关上窗户、打开空调。
  但智能家居的作用可能还远远不止自动化这么简单。例如,大部分美国家庭都有自己的车库,每个车库都有一个电动卷帘门,电动门利用一个小感应器来监测电动门伸缩期间的震动情况。现在有人提出来,北美大地上有几百万个这样的车库门,传感器都是现成的,如果把它们全部连接到互联网上,房主可以监控自家的大门不说,美国大地上每平方米的面积上震动一下,互联网上都知道,这种网络对地震监测是不是有辅助作用?这启发人们思考,机器、电器入网可能在功能上还会有外部性,起到意想不到的作用,因为世界的万事万物都是普遍联系、高度相关的。
  物理环境领域的计算的崛起将给全世界带来巨大的机遇。新一代的机器是能够记录自己行为以及与其他机器的交换数据的智能机器,在机器“出生”的时候,传感器就已经和机器一体化了。面对机器产生的海量数据,各行各业都需要制定很多数据标准,使同一类别的机器、同一品牌的机器产生的数据能够自由整合、对比和分析。我们还需要新的分析平台和工具,同时,因为生产过程中机器工作过程中实时数据的获得,我们需要制定新的生产流程和商业规范,以提高各种决策的效率,在这个过程中,全世界会需要一大批数字机械工程师、软件工程师、数据科学家和人机交互界面专家。
  此外,因为这种超级大爆炸,全世界的数据中心将大量增加,这将拉动硬件产业的发展。通用电气公司估计,数据中心的需求将每两年翻一倍。2015年,对数据中心的投资将增长到1000亿美元;到2020年,数据中心的数量会增长40倍;到2025年,这一数字将达到2000亿美元。数据中心是耗电大户,据统计,美国所有数据中心每年的耗电量是整个纽约城居民用电量的两倍。建设清洁、高效、具有弹性的数据中心将是未来的一个重大挑战。此外,数据中心的增加还将推动宽带网、光纤网的建设,使各种数据中心能够跨地区、跨产业相联。
  数据和计算:第三次工业革命的CPU
  2012年以来,第三次工业革命、新工业革命、数字工业革命等各种工业革命论的提法频频在全球激起讨论、见诸报端,虽然这些提法各异,但其中心思想是一致的,即全球的制造业正在面临一场挑战和变革,未来的工业制造将呈现数字化、智能化、定制化、互联化以及绿色化等特点。而且,无论哪种提法,都离不开对3D打印机的关注和讨论。学界的共识是,3D打印已经成为第三次工业革命当中最活跃的因素之一,它将终结人类大规模工业生产的历史,引发商业组织和管理形态的重大变革。
  前文我们谈到物理环境领域的计算即将爆炸,讨论了工业互联网如何引导未来的工业制造进入一个智能化、互联化的时代,而3D打印将实现的是生产制造过程的数字化和定制化。随着下文讨论的展开,我们将看到,3D打印对未来设计、生产、流通和消费等各个环节产生的影响,离不开数据的驱动和协同。也就是说,第三次工业革命离不开数据!
  3D打印是一种加式制造
  3D打印是一种以数字文件为基础,运用粉末状金属或塑料等可黏合材料,通过逐层打印的方式来构造物体的技术。传统的制造方式是“减式制造”,即通过模具,利用机器外力对原始材料进行“压、切、割、冲”等机械加工,将原材料转化成产品,在这个过程中,原材料缩减了,因此叫作减式制造。而3D打印是通过逐层叠加、不断增加材料的方式,一次性完成生产过程,所以被称为“加式制造”。
  首先,3D打印是以“数据包”为基础的生产,只要这个数据包在打印机上运行,并且具备打印的原材料,生产就可以完成。2013年5月,美国有人把制造枪支各种零部件的数据包上传到了互联网上,在美国政府做出反应、发布禁令之前,该数据包被下载了数十万次,民间就有人利用这些数据包打印出了可以发射子弹的塑料手枪。半年后,美国的科技工程公司SolidConcepts公司又用3D打印机打印了一支真正的金属手枪,并试射了几十发子弹。除枪支这种高危管控物品外,近一两年以来,在世界各国科学家的努力下,可以打印的物品种类迅速增多,大到飞机的零部件、房子的建筑材料,小到下颚骨、心脏瓣膜、电路板等,不断刷新人们的想象力。可以肯定,随着数字化生产的扩大,未来任何可见的物理实体的背后都会有一个数据包与其对应存在。从这个意义上来看,3D打印为大数据时代贡献了一种新的数据种类:物理实体数据。
  图7–10数字工业革命将丰富大数据时代的数据类型
  除了可以打印的物品越来越多,更重要的改变是,由于摩尔定律的持续作用,3D打印机的价格也在不断下降。目前,不少3D打印机只需要一两千美元,可以预计,就像其他曾经“高大上”的硬件设备一样,3D打印机也将快速走进普通家庭。
  3D打印机的普及对人类的意义非同小可。在全面畅想其对未来社会带来的冲击和改变之前,我们还必须了解一个重要的概念:众包。
  “众包”是美国的两位记者在2005年发明的新词,意思是利用互联网将工作打包分配出去,其关键在于,分包时并不知道接包人是谁,这正是“众包”区别于“外包”的地方。更有意思的是,接包人的目的可能并不是为了报酬,而是为了公益、兴趣,或者寻求一种帮助他人的满足感,甚至在一些情况下,连接包人自己也没意识到,就在不知不觉中帮助发包人把任务完成了。
  众包最经典的例子是维基百科。这个人类社会最大的知识分享网站、最重要的“百科全书”成立于2001年,目前仅仅英文词条就有近450万个,全部由志愿者完成。2011年3月11日下午2点46分,日本发生了有观测记录以来规模最大的地震,其后引发了大海啸,导致了核泄漏和火灾,日本东北部分地区因此遭受到毁灭性的破坏。地震发生后的半小时不到,3点18分,维基百科上就建立了相应的词条“2011Tōhokuearthquakeandtsunami”(2011年日本东北地区近海地震),这之后,该英文词条经过了全世界2122人共计6781次的修改和完善,如今已经形成了一个图文并茂、带有352条引用、两万多字、非常复杂和完善的词条,在英文词条的基础上,还衍生出近80种不同语言的翻译和补充11。
  图7–11“2011年日本东北地区近海地震”英文词条的变化
  注:左上为该词条在2011年3月11日日本时间下午3点18分建立时的历史记录,只有短短一句话;右下为该词条在2014年2月的截屏,词条已经分为十几个部分,有两万多字的介绍。(图片来源:网络截屏)
  对于众包当中蕴藏的巨大社会能量,我也有亲身体会。2012年的一个下午,我决定为华人历史学家许倬云先生在维基百科建立一个英文词条。为了证明资料的真实性,维基百科规定新建的词条必须至少有三个引用。词条建好之后,系统提示我还缺一个引用,我于是回头去找资料。仅仅一分钟之后,我一刷屏,发现第三个引用竟然已经被人加上了!我的心头如过电般涌起一股惊讶和欣喜之情:在世界的另一个角落,竟有人在协同我的工作!短短几十秒的时间,在这个广袤的大千世界,就有人看到了我在互联网上搭建的这个新页面,而且,他和我一样关心许先生的词条,并且帮助我补充了最后需要的一个引用。
  除了基于兴趣和公益的志愿贡献,众包也已经成为一种可以创造价值和利润的商业模式,验证码(CAPTCHA)的应用就是另外一个经典例子。2002年,卡内基梅隆大学的博士生路易斯(LuisvonAhn)发明了我们熟悉的验证码,即用一排人为扭曲、奇形怪状的字符来判断当下程序的使用者是“人”还是“机器”。因为机器无法自动识别这些变形的字符,所以验证码可以用来防止互联网上广泛存在的恶意机器注册。恰恰在这个时候,《纽约时报》正面临一个令人头痛的任务:他们试图把100多年的历史报纸全部电子化,当时最可行的方法就是通过扫描进行光学字符识别(OCR),但因为旧报纸上油墨的痕迹、折叠的印记和发黄变色,加上几十年前的字体与现在的也不一样,因此识别率很低。当然,还有一个最笨的方法就是逐字敲打,再找人校对,但这样不仅速度慢,效果也不好。这时候,路易斯想到了一个天才的办法:全世界每一天都有几亿个验证码在被校验,他把《纽约时报》的文章切成小片,把它当作验证码发给全世界的人,这些人在使用验证码的时候,在不知不觉中就帮助《纽约时报》完成了输入和校对。对于难以识别的字符,系统可以发给多个校验者,当几个人返回的结果一致的时候,就说明识别的结果是正确的,然后再把这个结果返回系统进行整合。2007年,路易斯成立了验证码公司reCAPTCHA,该公司利用这个办法把《纽约时报》几十年的报纸都电子化了。2009年,该公司被谷歌收购。
  类似的例子还有很多,例如Airbnb网站,通过它,个人可以将多余的房间临时出租给旅游者;又如将翻译任务打包发给其他国家的外语学习者作为练习素材,以较低的成本,甚至免费的形式就可以完成大量翻译;再如中国的知乎、大众点评网等问答型网站,都成功地应用了众包这种商务模式。说到底,众包是通过互联网,在全球范围内利用、整合分散的、闲置的、廉价的劳动力、技能和兴趣等资源,为软件业和服务业提供一种新的劳动力组织方式。
  随着3D打印机的普及,众包这种新的商业模式,将从服务业进入制造业,改变整个社会的生产制造方式。
  今天的制造是以大规模的减式制造为基础的,对每种产品而言,制造商只能就若干款式,对流水线进行定制,然后进行大规模生产。例如,今年的女式高跟鞋可能流行立体的鞋面花饰,制造商在市场调研的基础上,认为牡丹花和山茶花的花形可能最受欢迎,于是就生产这两种花形的鞋子,而玫瑰花、百合花、菊花等其他花形,因为市场需求过小,生产商限于成本,就无法生产。
  事实上,一双鞋子的样式可以千变万化。类似于立体花形的改变还有很多,例如鞋跟的形状、鞋面的花纹、纹理的线形等。每个顾客都可能有不同的喜好和需求,这些需求之间可能就是一个微小的区别,所以需求的种类虽多,但每一种需求的消费者群体都不大。也正因如此,制造商如果投产,将无利可图。这部分需求被形象地称为长尾需求,对于长尾需求,制造商无法一一满足,即传统制造业无法满足所有消费者的要求。
  图7–12传统的制造商无法满足市场上的长尾需求
  注:此图为消费市场上的长尾现象,在短头区,代表着为数不多的大规模需求;在长尾区,有很多不同的需求,但每种需求的消费者群体都不多,如果投产,制造商将无法获得利润。
  但以数据包为基础的3D打印将有能力解决这个难题。数字化制造不需要在流水线上定制,只需要找到数据包,对其中的代码和数据进行修改,一个花形、线形的区别,可能只是几个参数值的大小不同,在对它们做出修改和调整之后,在3D打印机上再运行一次,一款新的鞋子就生产出来了。
  图7–13个性化的需求可以通过修改数据包来实现
  3D打印技术为满足消费者个性化的长尾需求提供了契机,将开启一个制造业的新时代。在这个新时代,因为3D打印机正在走进家庭,生产活动可能在工厂之外的地方进行。更复杂的情况是,每款3D打印机的打印范围可能不同,你的能打印鞋子、我的能打印杯子、他的能打印玩具……为了找到合适的3D打印机,必须进行搜索。
  不妨假设一位女性消费者心仪的高跟鞋是这个样子:玫瑰花的立体花形;5.5厘米的高跟,后跟为圆形,圆形面积为0.8平方厘米;鞋面有细条纹,条纹间隔为1.5厘米……其要求可能无比细致且千奇百怪,传统制造业绝对无法实现,但在3D打印时代,“想法即产品”,一个完整的设计、生产、消费流程在很短的时间内就能完成:首先上网搜索类似产品的数据包,或者搜索懂得修改这个数据包的设计师,再委托他按照新的要求进行修改,一个有经验的设计师可能在几分钟之内就能够完成修改;这之后,进入生产环节,消费者要寻找愿意给她提供打印服务的3D打印机,这又需要搜索,当然,她最后可能就在自己居住的小区附近找到了合适的打印机,双方达成协议之后,就可以委托生产。
  这个搜索的过程,就是计算。我们前面谈到过,搜索就是一种计算,而且是一种典型的基于大数据的计算。在这里,通过搜索,社会需求和生产资料将实现动态的、实时的、最经济的对接;搜索完成之后,委托、授权对方进行设计、生产的过程就是众包。
  当然,未来可能出现一个互联网平台,拥有3D打印机的生产方也可以在这个平台上通过搜索主动寻找其潜在客户,提前感知并且响应用户的个性化需求。这个平台将不仅仅是现在的“电商”平台,还将是“互联网制造”的平台!生产方和消费方在平台上通过搜索对接,完成整个设计、生产和消费流程。也就是说,通过搜索和计算,全社会的生产需求和社会资源将在最短的时间内,以最经济的方式实现对接,数据和计算,将是未来生产制造的CPU(中央处理器)!
  2012年,中国科学院的研究员王飞跃先生率队考察了美国的加式制造产业。他认为,这场新的产业革命已经触手可及,未来的新型制造模式可以称为“社会制造”。所谓社会制造,“就是利用3D打印、网络技术和社会媒体,通过众包等方式让社会民众充分参与产品的全生命制造过程,实现个性化、实时化、经济化的生产和消费模式。在社会制造的环境中,大批3D打印机形成制造网络,并与互联网、物联网和物流网无缝连接,形成复杂的社会制造网络系统,实时地满足人们的各种需求”。12
  图7–14大数据:社会制造的CPU
  对于社会制造这种新的生产模式,虽然还有诸多细节有待想象和商榷,但可以肯定的是,人类社会对个性化产品的需求,犹如隐藏在海底的冰山,非常巨大,只不过受制于上百年传统减式制造的局限,它一直被静静地抑在海水之下。随着3D打印机的普及,个性化消费的需求将会大规模爆发。未来的任何一件产品,在传统减式制造和现代加式制造之间,都可能存在一个“平衡点”,对生产的规划,就是要通过计算找到这个平衡点,即确定哪些款式仍然是大规模的短头需求,哪些需求是长尾需求。前者因为量大,在工厂的流水线上生产仍然可以获得大规模的经济效应;而后者无法形成规模效应,必须留给社会上的3D打印机去生产制造。每种产品的平衡点当然都各不相同,而且随着制造能力的变迁,这个点还会移动。
  图7–15未来的生产制造:首先通过计算,确定两种制造模式之间的平衡点
  美国政府对3D打印、社会制造非常重视。2011年以来,美国总统科技顾问委员会(PCAST)连续发布两份报告13,向总统和国会提出建议,必须确保美国在这场制造业革命当中的领导地位。在最近两年的国情咨文中,奥巴马都专门提出要把3D打印作为创新重点,强调通过这种社会化的制造,使制造业回归美国。奥巴马还在2012年前后相继成立了白宫高级制造办公室(OMP)、高级制造联合委员会(AMP),并批准投资10亿美元,在全国成立15个加式制造创新中心。截至2013年年底,已经投建了5个。2013年7月,奥巴马又要求国会追加拨款,将建设15个加式制造创新中心的计划扩大到45个。
  数据之巅:通向智能型社会的挑战
  2012年8月,谷歌宣布,其旗下十多辆无人驾驶汽车已经完成了50多万公里的安全行车测试。在整个过程中,车队只发生过两起轻微的交通事故,事后的判定还证明,责任并不在无人驾驶汽车。
  无人驾驶,是指汽车自动行驶、完全不需要人的干预,其本质是把驾驶的任务“外包”给算法。一个好的算法固然重要,但对谷歌无人驾驶汽车而言,其价值最为昂贵的部分却不是算法,而是其全身上下装备的激光雷达、摄像头、红外相机、GPS(全球定位系统)和一系列传感器等感应设备,仅仅激光雷达一项就7万美元,约占其全部装备价值的一半。正是通过这些感应设备,无人驾驶汽车不断地收集路面的情况、汽车的地理位置、前后车辆精确的相对距离、车流的移动速度、道路两旁出现的交通标识和前方的交通信号等数据。
  可以想象,这些实时收集的数据就相当于人类的眼睛,对无人驾驶汽车非常重要,但这还远远不够。在汽车上路之前,谷歌必须派出大量工程师亲自驾车在所有的道路上行驶,以收集各个路段的物理特点数据,然后把这些数据添加到一个高度详尽的立体地图上。当无人驾驶汽车在路上行驶时,它通过从传感器和摄像头上收集来的数据,首先与系统已有的数据进行对比和分析,以快速识别自己的方位和环境。这种对比分析,每秒钟进行上百万次。根据这些分析结果,算法在极短的时间内,判断是应该减速、加速、换道还是拐弯。例如,系统在对两种数据进行对比之后,会提示汽车前方一公里处有一个交通灯,准备识别信号的颜色;如果没有这种提示,临近现场时才开始识别,难度就会大大增加。又如,通过和原来收集的数据对比,无人驾驶汽车才能识别路边的物体是原来就有的路灯杆还是其他障碍物,或者是正在移动的行人。
  可见,无人驾驶汽车完全是个大数据项目,而且其成功的关键,首先在于数据的收集,就此而言,谷歌也还不是完全的胜者,无人驾驶汽车目前最大的技术瓶颈还是数据。例如,道路、地形等原始数据的收集工作可能是在天气良好的情况下进行的,如果天降大雨或者路面被积雪覆盖,整个世界的面貌发生了改变,和原来收集的数据进行对比可能就不管用了,无人驾驶汽车就无法精确地确定方位,大数据的自动导航也就宣告失败。而且,没有事先收集数据的地方,无人驾驶汽车根本就不能去。例如,中、印、韩等国不允许谷歌在自己国家为其地图收集数据,这也就意味着,谷歌的无人驾驶汽车未来根本不可能进入这些国家,因为没有数据!
  全世界的汽车巨头,如通用、丰田、奥迪、福特都在加大对无人驾驶汽车的研发和测试,各大汽车公司都同意,其中最重要的任务,就是大数据的采集。为了解决这个问题,欧洲的汽车巨头沃尔沃甚至提出了一个“公路列车”的新理论:公路上的车队犹如一辆辆汽车组成的一列火车,火车只需要车头的正确带领,整个车厢就都可以前进,如果公路上的汽车也有个“头车”,大部分车辆就能跟着走。换句话说,大数据的实时分析和处理只需要头车做好就行了,其他车可以跟着头车走,这意味着,未来的无人驾驶汽车并不是辆辆都要具备大数据的实时导航处理功能,只要能在公路上找到头车就行。按照这种设计思想,2012年5月,沃尔沃组织了一个5辆车的车队,只有头车有人驾驶,这5辆车在西班牙巴塞罗那的公路上顺利完成了200公里的测试。2013年12月,沃尔沃公司宣布,它们已经取得了瑞典国家交通管理部门的同意,将于2017年在瑞典的第二大城市哥德堡投放100辆无人驾驶汽车,由普通的市民自由陪驾测试。
  无人驾驶汽车将引起一系列社会变化
  无人驾驶汽车对人类社会将要产生的影响,并不仅仅局限于汽车行业。随着人类从驾驶中解放出来,未来的汽车不仅是个交通工具,还是个移动的娱乐中心、工作间和休息室。因为是由软件控制,没有人驾驶,无人驾驶汽车将减少一批传统汽车必须装备的操控设备,例如油门踏板、刹车踏板和方向盘,这意味着车重减轻、耗油量下降,将为全世界节省不少能源。此外,研究表明,90%的交通事故都是人为原因造成的,例如情绪不佳、酒后驾车、疲劳驾驶等,但把驾驶的任务交给算法,算法没有情绪,也永远不会疲劳,据保守估计,人为原因导致的交通事故将下降80%,这不仅能够减少社会损失、提高人类的生命安全,也将重构未来的保险行业。
  谷歌和沃尔沃的努力,无疑将推动无人驾驶汽车的市场化,至于何时才能市场化,这也是全世界都在讨论的话题。汽车是工业时代兴起的标志,大数据是信息时代半个多世纪结出的硕果,通过无人驾驶汽车,两者正在融合对接。这种融合对接标志着人类正在进入一个全新的时代:智能化时代。
  而且,和谷歌无人驾驶汽车一样,这个智能时代也是由数据驱动的。
  这是因为,无论是信息、知识,还是机器智能,在大数据时代,都是以数据为载体存在的。数据是对客观世界的记录,当我们赋予数据背景时,它就成为信息;信息是知识的来源,当把信息提炼出规律的时候,它就上升为知识;知识是智能的基础,当电脑、网络、机器能够利用某种知识进行自动判别并采取行动为人类服务的时候,机器智能就产生了。
  大数据的出现,是人类大量记录世界的结果。大数据可以推进科学研究、改善社会治理、提高企业的运营效率和赢利能力,但归根结底,相比于小数据,大数据新的效用可以概括为两个方面:一是通过大规模的数据整合和挖掘,发现新知识,实现“1+1>2”的数据增值效果;二是通过大量的数据训练机器学习,实现自动化,这相当于赋予机器智能,使机器自动完成曾经种种必须由人类亲力亲为的工作,推动人类向智能型社会迈进,而这堪称人类使用数据的巅峰状态。
  图7–16数据之巅:用数据训练机器,使机器获得智能,为人类提供自动化的服务
  类似于无人驾驶汽车,由大数据驱动的智能化的例子正在大量涌现。
  也是在2012年,一种新型的智能学习平台在美国兴起,成为高科技领域创新和投资的重点,其中不少公司已经获得了初步成功。这种智能平台可以实现全球几十万人同步学习,在同一时间听取同一位老师授课,做同样的作业、接受同样的评分标准和考试。这意味着你即使身处非洲,也能和哈佛大学的学生一起学习、听哈佛的教授讲课。更关键的是,这是一个智能平台,可以对学习者的学习行为进行自动提示、引导和评价,从而弥补没有老师面对面交流指导的不足。
  和谷歌汽车一样,平台的智能来自于大量数据。单个个体学习行为的数据似乎是杂乱无章的,但当数据累积到一定程度时,群体行为就会在数据上呈现一种秩序和规律。通过收集、分析大量数据,就能总结出这种秩序和规律,然后把这种规律变成不同的算法,和新的学习者的学习行为进行对比,为他们达成最佳的学习效果进行提示和导航,每个学习者都可能得到个性化、有针对性的辅导。
  可见,数据还是关键。为了收集更多的数据,各个公司、大学的在线学习平台几乎都向全世界免费开放。有更多的学习者,才能收集更多的数据;有了数据,它们才能研究世界各国男女老少等不同学习者的行为模式,进而打造更好的智能学习算法。
  就此而言,大数据就是大智能。数据好比人类的新土壤,正是依托这片土壤,智能型的文明才得以滋生繁衍,土壤越广袤,其孕育的新文明才更有生机和活力。
  对于数据的重要性,谷歌的首席科学家诺维格(PeterNorvig)曾感叹说:“我们没有更好的算法,谷歌有的,只是更多的数据。”14这种说法虽然略有夸张,但却揭示出信息技术的一个发展方向:数据正逐渐成为当下竞争的关键、发展的瓶颈。
  由于摩尔定律催生的硬件技术飞速进步,存储能力、计算速度已经不是信息技术发展的瓶颈,硬件算得再快、变得再小,我们人类可能已经感觉不到,这是因为,计算机的能力并不仅仅取决于计算的速度和存储器的容量,两者完全不成正比。就像在公路上,一辆车能开多快并不仅仅取决于这辆车的马力,还有车流的速度、公路的质量、红绿灯的多少,这些因素都限制了车速,它们才是真实世界中车速提高的瓶颈。对计算机而言,瓶颈在不断发生转移,曾经从硬件转到软件、算法,但现在正在向数据转移。
  硬件的发展不是当下技术的瓶颈
  英特尔22纳米的晶体管已经于2012年4月下线,该公司占据了全世界80%以上的个人电脑芯片市场,2013年,它还宣布要进军智能手机市场。随着晶体管的变小,可以预计,手机的功能还将增强,同时体积将变小。强大的计算能力意味着更多的云端计算可以转往本地,速度会更快。但即使转往本地,我们作为终端用户,很多时候已经感觉不到这种计算速度的提高了。而且,正是因为计算能力太过强大,机身的散热和继电问题成为手机制造过程中的新挑战。
  因为机器学习的长足进步,现在算法的好坏也和数据紧密相关。算法是运用数学和统计学的方法和技巧,解决某一类问题的特定步骤,其核心是建立模型。但建模首先需要的就是数据,在过去很长一段时间内,由于数据不足,人类只能设计一些小的模型或者浅的模型。十几年来,由于数据逐渐变得充沛,可以构建更大、更深度的模型。前文还提到,通过向计算机“喂取”数据,算法可以自动调适自己的参数,喂的数据越多,算法就可能更好、更完善。换句话说,当拥有了更多数据,算法就可能更强大,软件的性能就可能更好。
  图7–17软件:从包含数据到被数据包围
  注:在信息时代的早期,信息系统(即软件)是收集数据的主要手段。那个时候,数据可以说是被软件包含;在今天的大数据时代,数据无处不在,软件可以说已经被数据包围了。这种被包围的态势,也推动了软件的升级。
  图7–18人类信息技术瓶颈的转移过程
  智能时代的到来,还表现在人机交互的形式上。
  人机交互,即人类如何控制电脑,如何与电脑交流。第一次人机交互革命发生在1984年,苹果电脑的操作系统采用了简称为WIMP的图形界面,而在此之前,人类必须通过代码和计算机交流,这就意味着,只有通过专业的培训才能操控计算机,非常不方便。WIMP的图形界面,就是我们非常熟悉的、今天还在使用的视窗系统,即以窗口(Window)、图标(Icon)、菜单(Menu)以及鼠标(Pointer)这四大要素为组件的图形化界面。通过这个界面,用户可以借助鼠标的点击完成电脑操作,达到“所见即所得”的目的。它因美观、友好、快捷而大受欢迎,事实上,作为第一次人机交互革命的成果,图形化界面是促使计算机成为大众消费品的重要原因之一。
  而当前,我们正在见证人机交互的界面再次发生深刻的革命,这一次,将把图形变为声音,即通过声音控制电脑,实现智能交互,最终把“人机交流”变得像“人人交流”一样简单、直接。
  图7–19人类和计算机交互方式的变迁
  由于智能手机的普及,手机将成为全世界最中心的计算设备。屏幕变得越来越小,即使图形再简洁,也不方便我们用手点击。智能交互势在必行!
  智能交互的形式也已经出现,例如谷歌提供的语音搜索、苹果手机提供的智能语音助手Siri等。苹果的Siri已经可以理解用户的生活语言,帮助用户完成一些简单的日常事务,例如发送信息、安排会议、拨打电话等。未来,类似的“个人助理”可以完成更多事务。不过,它的成功也取决于数据:“个人助理”必须收集大量的用户行为数据,在分析这些数据的基础上,才能为个人提供智能服务。例如,你想写封邮件,可以和手机展开以下对话:
  你:我想发封邮件给韩寒。
  计算机:你想跟他说什么?
  你:2015年1月1日,我们在北京见面。
  计算机:你在1月1日上午已经有一个约会了。
  你:那就安排在下午两点。
  计算机:是上海的那个韩寒吗?(你的联系人当中可能还有一个叫“韩涵”的同音的名字。)
  你:对。
  计算机:邮件准备好了,是保存还是发送?
  ……
  统计语言模型
  下一代人机交互界面的核心技术是自然语言处理、语音识别、声音合成等,即实现文本和声音这两种数据之间的转换,使计算机不仅听得懂人类的语言,还可以开口说话。人类的语言其实极为复杂,计算机并不是真的像人一样聪明,可以理解人类,而是通过大量数据建立语言模式,进而“理解”人究竟说的是什么,这种技术被称为“统计语言模型”(StatisticalLanguageModels,SLM)。
  未来的这种人机交流,在一定程度上,甚至比人人交流还要简单,因为面对机器,你不用说“请”、“对不起”,可以省去人际交往中的一切繁文缛节。人机交互的这种革命将改变我们对计算机的认识和态度甚至感情,人类将更加仰仗计算机,进入一种更为亲密的人机共生状态。这种以声音为载体的人机交互形式,也将拉动下一轮的软件创新和增长,蕴藏着无尽的商机。
  通过人机交互,我们也可以更好地理解何为智能时代以及这个时代和以前的区别。在前智能时代,是人努力向机器靠拢,通过掌握使用机器的技能,让机器为自己服务;在智能时代,是机器开始向人靠拢,主动理解人、为人服务。
  前智能时代:人通过学习,掌握机器的使用方法,本质是人去适应机器
  智能时代:机器通过“理解”人的语言来适应人、为人服务
  除了用声音和机器交流,大部分科学家都相信,未来人类将可以用眼睛和脑电波直接与计算机交流,事实上,这些技术的雏形都已经出现。
  机器向人靠拢,主动理解人、适应人,其终极形式莫过于机器人。近几年,在大数据的驱动下,机器人产业也有了巨大发展,IBM设计的机器人“沃森”就是其中的突出代表。之所以命名为“沃森”,正是为了纪念我们前文提到的IBM创始人托马斯?沃森。2011年2月,“沃森”参加美国的电视综艺节目《危险边缘》(Jeopardy!)。该节目采取智力竞赛的形式,由主持人自由提问,两边是节目当中海选出来的两位堪称全美最博学的人,中间是机器人“沃森”,问题可以是天文地理,也可以是明星八卦。“沃森”在接收到问题之后,会同时运用不同的算法,在两亿个文档中计算答案。如果由不同的算法找到了相同的答案,就证明答案的正确率很高,“沃森”就会按下抢答器,再用语音合成技术读出答案。“沃森”在和人类打了两轮平手之后,最终在第三轮胜出,赢得了100万美元的奖金。唯一不足的是,受限于我们上文讨论的人机交互界面,“沃森”是以文本的形式接收问题,而不是声音。
  图7–20《危险边缘》的节目现场:“沃森”和其他两位参赛者
  注:中间位置上的标志代表“沃森”,当时“沃森”的体积其实很大,可以占小半个房间,因此放在幕后。2014年1月,IBM把“沃森”的体积缩小到3个比萨盒一般的大小,人可以提着走,这再次证明了人类硬件技术的快速进步。沃森每秒可处理500吉的数据,相当于100万本书。在比赛时,为了提高运算速度,IBM还把所有的数据放置在内存而不是硬盘里,即我们前文提到的“内存分析”技术。(图片来源:电视截屏)
  在20世纪90年代,也有一台机器因为具有智能而名噪一时,它就是“深蓝”。“深蓝”在象棋比赛中击败了世界冠军卡斯帕罗夫。当年的“深蓝”,可以说是算法驱动的,随着算法的完善,卡斯帕罗夫其实是必输无疑,原因我们在上文也提过:人是有情绪的,情绪的波动就可能导致错误,而机器永远在冷酷地计算,只要有了完备的算法,就不会出现任何失手;但和“沃森”相比,“深蓝”只会做一件事—下棋。今天的“沃森”是大数据驱动的,你无论问它什么,它都可能回答得比人还要准确、还要快。2013年2月,参加过比赛的“沃森”又找到了新工作:在纽约的一所癌症专科医院“坐诊”,辅助医生诊断病人。
  未来已经来到我们中间,只是还没有均匀地分布到生活的各个角落!从无人驾驶汽车、智能学习平台、个人语音助理以及机器人领域取得的进步中,我们可以看到这个智能型社会的种种端倪。这将是一个由数据驱动、由算法定义的世界,自动化将接管越来越多的工作。毫无疑问,这是人类的福祉,人类将从中获得更大的解放,但同时,这个新的社会形态也将给人类带来空前的挑战。
  2012年9月,美国重思机器人公司(RethinkRobotics)推出了一款名为“Baxter”的商用机器人,这款机器人具有基本的“学习”能力,通过一小时的培训,它就可以在流水线上独立完成装货卸货、打包拆箱、检查和装配零件等重复性的工作,一台Baxter的售价仅为22000美元,这远远低于一名普通美国工人的年薪。更重要的是,机器人不需要公司购买医疗保险、不会请假、不会抱怨、不会要求涨工资,可以保持同样的工作状态5年、10年甚至几十年!
  图7–21商用机器人Baxter的外观
  图片来源:网络
  这款机器人的出现,引起了美国社会的热烈讨论。大部分科学家、经济学家都相信,随着智能时代的到来,那些重复性的、日常性的工作将逐渐被机器人接手。在这些岗位上,计算机甚至比人还可靠,它们能把工作做得更好。2013年9月,英国牛津大学马丁学院的科研人员研究了自动化对人类就业市场的影响,他们在报告中总结说,在未来20年内,今天美国社会45%的工作,都可能被自动化和机器人接手15。
  45%!这是任何社会都无法承受的失业率。
  2014年1月,在达沃斯世界经济论坛上,谷歌的董事局主席施密特(EricSchmidt)也表达了类似的忧虑。他讲到,由于信息技术的进步,越来越多的工作将从人类的手中流失,失业将引发各种严重的社会危机,发达国家现在就必须思考如何应对这些挑战。
  有经济学家甚至支招说,开征计算机税,使用计算机和自动化越多的公司,必须缴纳更多的税收,国家可以用这部分钱来补贴失业群体。
  这种情况会不会出现,我们首先可以以史为鉴。今天美国社会的转型,和100多年前从农业社会向工业社会的转型颇有相似的地方。当时,工作机会从农业大规模地向工业转移。100年前,每3个美国人当中就有1个农民,而今天的美国,只有2%左右的农民,即每50个人中有1个农民,但生产的粮食不仅能够自给,美国还是世界上最大的农产品出口国,也就是说,其产量远比100年前还多。当时,机器广泛地代替了人力,失业问题也曾令当时的建设者困扰万分。1884年,当赖特成为美国第一任劳工统计局局长时,他在全国反复调查统计的一个问题就是:机器的出现到底是增加了还是减少了就业机会?赖特最后的发现是,机器虽然取代了人力,但机器的出现还是增加了就业机会。其中的原因是,工业产品极大地刺激了全社会的需求,最终,工作机会的蛋糕变大了,而且变得很大,和它相比,机器对人力的取代只是很小的一部分。
  但向智能社会转型的挑战又有不同的地方,形势更为严峻。首先问题是,我们的蛋糕是不是还会变大?
  Instagram,一款基于互联网的照片分享应用程序,拥有3000多万用户,直到2012年4月被脸谱网用10亿美元的高价收购时,整个公司只有13个人。WhatsApp,一个基于智能手机的社交媒体软件,在全球拥有4亿用户,在2014年2月被脸谱网用190亿美元的天价收购时,整个公司只有53个人。而脸谱网本身,在全世界拥有10多亿用户,全公司不足2000人。相比之下,几乎在全世界都拥有用户的推特公司更小,只有300余人。但在2013年被数字化技术击垮、宣布破产的柯达公司,其雇员最多时高达15万人,堪称工业时代的行业巨人。今天的企业,首先在基因上就完全不同于工业时代的劳动力密集型企业。未来智能社会的主流企业,一定是知识密集型企业,就企业的大小而言,它将变小,而绝不是变大。此外,无人驾驶汽车、智能学习平台的出现,都会消减原来存在的工作机会,例如,随着无人驾驶汽车的普及,司机这个行业可能会彻底消失。前文在介绍普适计算时提到,美国费城把RFID标签安装在垃圾桶里,以优化垃圾收集的路线和频度,这个措施导致当地垃圾收集人员的队伍缩减了1/3。除了自动化,新的商业模式也会消减工作机会,前面在介绍众包时提到的Airbnb住房分享网站,通过它可以把个人的余房出租给有需要的游客,这毫无疑问也将冲击一些低端的酒店,其工作人员就极有可能失业。
  诸如美国之类的发达国家将首先遭遇这些挑战,但这场智能化的革命,将像旋风一样,逐步席卷整个世界。中国也将面临这些挑战,这仅仅是个时间问题。
  可以肯定,由于各国文化以及应对战略的差异,信息技术的进步将给每个国家带来不同的影响。但在全球化大背景下的今天,向智能型社会的迈进其实也是一场世界范围内的竞争,中国政府如何应对,值得认真思考,特别是在变化发生的早期阶段,有效的战略部署将对未来的发展起到决定性的作用。
  摆在中国政府面前的选择有很多,个中头绪可谓千丝万缕。但我相信,有一点一定是关键,这就是教育:通过教育提高全民素质,让民众具备应对这种转型和挑战的技能,适应新时代的需求。回望工业革命时的情景,欧美等国家和地区都建立了大量学校,用来培养产业工人。今天,我们需要学校培养更多的知识工作者,例如软件工程师和数据科学家,这将显著提高中国在这场全球转型中的竞争力。
  这是工作机会的大规模转移,对教育的需求也是海量的、多样的。中国做得好,还可以在世界范围内输出人才、输出知识,帮助其他国家和地区应对这些挑战。但依靠现有的教育系统,每一个国家,包括美国,都不可能完成这个挑战。前路何在?回到我们刚刚讨论过的智能学习平台,只要有根网线,就可以使用世界一流的教育资源,一名老师可以同步为几十万人授课,这将为无数的普通人提供免费学习、终生学习和随时随地学习的机会。这种智能学习平台的推广和普及,可能是全世界应对向智能型社会转型最有效的工具。
  正所谓,技术的发展给我们带来了难题,同时又给我们开出了处方。大数据给人类带来了挑战,也带来了新时代的曙光。人类终将受益于技术的发展和进步,在即将到来的智能时代获得更大的自由和解放。
  





上一本:朱光潜精品集 下一本:百鬼夜行全图鉴

作家文集

下载说明
数据之巅的作者是涂子沛◎,全书语言优美,行文流畅,内容丰富生动引人入胜。为表示对作者的支持,建议在阅读电子书的同时,购买纸质书。

更多好书