不知不觉中,人们进入了一个数据为王的时代。大数据的字眼以一种迅雷不及掩耳之势进入人们的视野,更加强调了数据在这个时代的重要性。不管人们愿意或者不愿意,都在诚惶诚恐地拥抱着这个所谓的大数据时代。大数据的火热也带火了另外一个看上去有点神秘、有点距离感的学科:统计学。 为什么编写本书 笔者作为一个在校园里学了11年统计学的资深学院派,深深地被这门学科打动:它有着数学的美感,充满了哲学的智慧,并且透露出思辨的洞察力。你可以把它看作一种工具,或者一种武器。有了它,你可以事半功倍地直击事物本质的规律。 笔者很想把这门学科分享给有兴趣的人。这就是编写这本书的初衷。 统计学本身就是大数据时代的一门重要学科。随着大数据逐渐走进公众的视野,统计学也必然会迎来更多的关注。这就意味着,越来越多的非统计学专业人士会了解统计学、应用统计学。人们也必然需要更多的统计学读物。 据笔者观察,市场统计学的教材大多像教科书,充斥着枯燥的公式和深奥的理论。当然,也有一些幽默风趣、深入浅出的入门书籍,如查尔斯?韦兰的《赤裸裸的统计学》(Naked Statistics),但也因为是外国作品编译的问题,在语言和写作方式上很难符合东方人的阅读习惯。 这本书讨论大数据,讨论统计学,更讨论二者之间千丝万缕的联系。大数据时代将迎来技术的变革,以及工作方式和思维模式的变革。大数据时代也挑战着传统统计学的思维和研究模式。统计学这门学科是将要面临江河日下的被取代的危机,还是迎来一个破茧而出的春天?本书试着抛砖引玉地给出一部分答案。 大数据时代,对于统计学来说,是最好的时代,也是最坏的时代。统计学,必须与时俱进,勇敢地接受大数据时代的挑战和变革,才会走得更长远。而大数据,没有了统计学思维的辅助、修正和补充,当热潮退去,也只能在这个浮躁的时代中渐渐被人们遗忘。 本书特点 本书从当下热门话题大数据切入,引入与之息息相关的统计学。深入浅出地讲述了在“数据为王”的时代下,统计学作为分析、解读数据的学科,如何为商业、社会、生活等领域提供决策支持。 热门性——业界和学术界热议的词“大数据”对大多数人来说仍是“犹抱琵琶半遮面”。 经典性——久经时间考验的统计学理论仍是实践中数据处理的重要依据。 洞察性——站在统计学哲学的思想高度对时下热门话题进行分析思考。 前瞻性——下一个时代是数据的时代。无论什么行业,未来都是数据生意。 本书和市面上很多书籍相比,有两点最具特色: 本书将统计学和大数据结合在一起,探讨两者的差异和相关性。 本书行文按照【案例】+【知识点】+【分析】的结构,清晰明了。应用的案例也都和人们的生活息息相关,更符合国人阅读习惯,更具代入感和认同感。 本书内容 本书共分为8章,各章内容如下。 第1章 大数据时代下的统计学,讲解了统计学的基本原理、应用领域及数据的获取方法。 第2章 样本魅影,重点介绍了统计学最核心的思想,即用样本信息推论总体,并和大数据的推论思想进行比较,强调二者在实践中结合使用的重要性。 第3章 描述数据,告诉读者面临大量数据的时候,如何迅速提炼出有用信息,以一种直接、感性的方式勾勒出隐藏在冷冰冰的数据背后的内涵。 第4章 正态女神,隆重推出了统计学最经典、最重要、最具代表性的一个分布——正态分布,详细介绍了关于正态分布的理论、应用和相关的知识点。 第5章 统计推断,讲述了统计推断是用样本来估计总体的,是一种具有科学依据的合理猜测,尽管它不可能百分百准确,却对人们认知事物有着不可估量的作用。 第6章 变量间的关系,从大数据思维的其中一个角度切入,即强调事物的相关关系而非因果关系,重点讲述了究竟什么是相关关系,它的统计学内涵、方法及应用。 第7章 统计杂谈,以一种漫谈的方式,深入浅出地讲解了统计学一些热门应用的理论。特别强调了这些理论在实践中的误用,并告诉读者正确的使用方法和解读方法。 第8章 大数据,在水一方,探讨了大数据巨大的商业价值,除此之外还强调如何从大数据中获取洞察力和决策力。 关于作者 本书由杨轶莘主笔编写,其中第6章由王辉撰写。 杨轶莘:瑞典厄勒布鲁大学商学院统计学博士毕业,北京诺贝伦思教育咨询有限公司高级咨询师,旗下商学院CN网站联合创始人和网站知识分享类微信节目《杨博夜话》制作人和主持人。 王辉:北京大学汇丰商学院金融学(数量金融方向)研究生。善于统计综合评价方法的应用、金融计量学、经济计量分析领域的研究。2013—2014年,主持项目《社区养老现状和需求研究》,获第四届全国大学生市场调查分析大赛一等奖和第三届海峡两岸市场调查分析大赛二等奖。2014—2015年,参与朱喜安教授的国家社科基金课题《综合评价方法的优良标准研究》。 作者简介 杨轶莘:瑞典厄勒布鲁大学商学院统计学博士毕业,北京诺贝伦思教育咨询有限公司高级咨询师,旗下商学院CN网站联合创始人和网站知识分享类微信节目《杨博夜话》制作人和主持人。 王辉:北京大学汇丰商学院金融学(数量金融方向)研究生。善于统计综合评价方法的应用、金融计量学、经济计量分析领域的研究。2013—2014年,主持项目《社区养老现状和需求研究》,获第四届全国大学生市场调查分析大赛一等奖和第三届海峡两岸市场调查分析大赛二等奖。2014—2015年,参与朱喜安教授的国家社科基金课题《综合评价方法的优良标准研究》。
目录: 第1章 大数据时代下的统计学1 1.1 统计学——天使还是恶魔1 【知识点】统计学的定义1 1.2 概率——上帝的指引3 【案例1】硬币的指引3 【案例2】赌徒的错觉3 【知识点1】随机性4 【知识点2】概率4 1.3 小概率事件必然不会发生的事件6 【案例】挑战者号航天飞机(STS Challenger)失事6 【知识点】“必然会发生”和“必然不会发生”的事件6 1.4 你真的了解数据吗7 【案例】淘宝的客户评价体系8 【知识点】数据的类型8 1.5 数据来自哪里10 【案例】大数据,大偏差——谷歌的流感预测模型真的靠谱吗10 【知识点1】二手数据11 【知识点2】相关关系和因果关系11 第2章 样本魅影14 2.1 样本——窥一斑而见全豹,观滴水而知沧海15 【案例1】客户满意度调查15 【案例2】救护车垄断业务调查16 【知识点】随机样本,方便样本和自愿回应样本17 2.2 抽样——尝一勺锅里的靓汤18 【案例1】红豆和绿豆18 【案例2】“捉放法”估算鱼苗成活率19 【案例3】被解雇的市场调研部员工20 【知识点1】简单随机抽样21 【知识点2】抽样中存在的错误风险22 【知识点3】访问员23 2.3 不回应误差——沉默不是金24 【案例】不回应的影响有多大24 【知识点1】不回应(Nonresponse)24 【知识点2】如何降低不回应率25 2.4 措辞的艺术——僧推/敲月下门26 【案例1】娱乐圈话题:锋菲恋26 【案例2】几字之差对于民众支持率的影响27 【案例3】双重否定的疑惑28 【知识点1】响应误差(Response Error)29 【知识点2】有效性(Validity)和可靠性(Reliability)29 2.5 大数据时代,当“样本”已成往事31 【案例】Farecast,美国创业梦31 【知识点】大数据的4V特征32 第3章 描述数据34 3.1 均值——可能会说谎的天平34 【案例1】中关村创业者平均39岁34 【案例2】令人啼笑皆非的统计局数据35 【知识点】均值计算36 3.2 寻找中位数——排序,数到中间37 【案例1】腾讯笔试题:大数据量寻找中位数37 【案例2】淘宝卖家评分体系38 【知识点1】求取中位数39 【知识点2】四分位数40 3.3 标准差、标准误,傻傻分不清楚42 【案例1】均值-方差证券资产组合理论42 【案例2】语文成绩调研42 【知识点1】标准差(Standard Deviation)43 【知识点2】标准误(Standard Error)43 3.4 图形替数据说话——“剩女”和相亲市场46 【案例】“剩女”和潜力巨大的相亲市场46 【知识点1】饼状图(Pie Chart)48 【知识点2】条状图(Bar Chart)49 【知识点3】散点图(Scatter Plot)50 3.5 数据可视化——“云想衣裳花想容”51 【案例】谁在开网店51 【知识点1】什么是数据可视化54 【知识点2】数据可视化主要应用领域55 【知识点3】数据可视化的工具55 第4章 正态女神57 4.1 期望——量化你的预期58 【案例1】掷骰子和伯努利试验58 【案例2】赌场就是概率场59 【知识点1】概率分布60 【知识点2】期望(Expectation)61 【知识点3】方差62 4.2 大数定律——为什么十赌九输63 【案例1】澳门风云63 【案例2】谁会是被骗的大傻瓜64 【知识点】大数定律65 4.3 正态分布——大道至简,大美天成65 【案例1】高尔顿钉板65 【案例2】女博士嫁人难,谁之过67 【知识点】正态分布68 4.4 中心极限定理70 【案例】肯家和麦家的博弈70 【知识点】中心极限定理70 第5章 统计推断74 5.1 点估计——统计学家比间谍干得漂亮75 【案例1】二战中的德军坦克数75 【案例2】首家新鲜咖啡速递服务企业76 【知识点1】样本统计量和总体参数77 【知识点2】点估计77 5.2 置信区间——责善切戒尽言79 【案例】美国盖洛普公司的民意调查79 【知识点1】置信水平79 【知识点2】置信区间80 5.3 两类错误:有罪被判无罪和无罪被判有罪哪个更严重81 【案例1】法律中的人文精神81 【案例2】抗击埃博拉要避免两类错误82 【知识点1】零假设和备择假设84 【知识点2】两类错误84 5.4 假设检验——“凑巧”可以拒绝吗85 【案例1】奶茶情缘85 【案例2】咖啡新鲜吗87 【知识点1】显著性水平88 【知识点2】p值88 【知识点3】统计显著88 【知识点4】统计显著 vs. 实际显著89 【知识点5】假设检验 vs. 置信区间89 【知识点6】单侧检验 vs. 双侧检验90 5.5 p值——打开潘多拉魔盒的钥匙92 【案例】金榜题名无望、少年得志梦断92 【知识点1】p值的历史和思想93 【知识点2】p值误用94 第6章 变量间的关系96 6.1 卡方分析——细腻的眼神里岂容得半粒沙97 【案例1】仙道迟到事件发生率分析97 【案例2】性别和文化程度是相互独立的吗98 【知识点1】卡方分布99 【知识点2】卡方检验100 6.2 相关性分析——早起的鸟儿有虫吃102 【案例1】早起的鸟儿有虫吃102 【案例2】化妆品销售额与广告费的关系分析103 【知识点1】相关关系104 【知识点2】相关分析105 【知识点3】相关表、相关图和相关系数106 【知识点4】相关系数t统计量107 6.3 ANOVA——地域,我们没有什么不同107 【案例】地域歧视问题107 【知识点1】方差分析108 【知识点2】方差分析统计模型109 【知识点3】离差平方和及其分解110 【知识点4】均方111 【知识点5】AMOVA F统计量112 【知识点6】方差分析表113 6.4 回归分析——对不起,其实我也想长高117 【案例1】子女身高遗传学的发现117 【案例2】身高地区差异分析117 【知识点1】回归分析119 【知识点2】随机误差项119 【知识点3】最小二乘法120 【知识点4】回归分析T检验121 【知识点5】回归分析F检验122 【知识点6】拟合优度R2123 第7章 统计杂谈124 7.1 为什么对回归情有独钟124 【回归和电影】126 【回归和手游】128 7.2 调查问卷中的分类变量132 【疼痛】133 【Rank-Invariant】134 【Svensson Method】135 【工作环境和员工满意度】136 7.3 条件概率和更多的信息138 【生男生女的问题】139 【门后的世界:到底是谁错了】140 7.4 极大似然估计——看起来最像142 【白狐,iphone 6 plus和房价】143 7.5 R you happy145 【名门闺秀SAS】145 【国民初恋SPSS】146 【小家碧玉Stata、Minitab、Excel】147 【清新萝莉R】148 7.6 贝叶斯149 【起源】150 【定义】150 【自拍杆和蓝牙耳机】152 7.7 来自星星的统计陷阱155 【被黑的统计机构】155 【统计局的无奈】157 【王老吉状告加多宝】158 第8章 大数据,在水一方161 8.1 洛阳纸贵——大数据思维161 【案例1】罩杯和败家程度166 【案例2】外滩踩踏悲剧167 【案例3】大数据和途牛网169 8.2 大数据驱动运营171 【案例】DataEye,数据驱动手游运营175 8.3 商业智能——决策者的锦囊177 【案例】广告业的商业智能178 8.4 市场智能——商业智能的衍生智慧179 8.5 消费智能——当数据成为一种服务182
|