本书面向实际,从实例入手,阐明社会科学统计方法,致力于实例和统计软件的一体化。主要内容包括抽样和测量、描述统计、概率分布、统计推断:估计、统计推断:显著性检验、两组比较、分类变量之间的关联分析、线性回归和相关、多元关系概述、多元回归分析和相关分析、多组比较:方差分析(ANOVA)、组合回归分析和方差分析:定量和分类预测变量、构建多元回归模型、逻辑斯蒂回归:构建分类响应变量、高级统计方法概述。本版增加了许多新练习,强调实际数据的应用。每章后包括配套课后习题及拓展综合练习,便于读者对统计方法的学习和掌握。 目录: 第1章引言 1.1统计方法论介绍 为什么要学习统计 数据 什么是统计学 1.2描述统计和推断统计 总体和样本 参数和统计量 定义总体:实际总体和概念总体 1.3计算机在统计中的作用 统计软件 数据文件 统计软件的使用和误用 1.4本章概要 思考题第1章引言 1.1统计方法论介绍 为什么要学习统计 数据 什么是统计学 1.2描述统计和推断统计 总体和样本 参数和统计量 定义总体:实际总体和概念总体 1.3计算机在统计中的作用 统计软件 数据文件 统计软件的使用和误用 1.4本章概要 思考题 第2章抽样和测量 2.1变量及其测度 变量 定量(数量)变量和分类变量 名义、有序和间隔测度尺度 有序数据的数量 离散型变量和连续型变量 2.2随机化 简单随机抽样 如何去选择一个简单随机样本 用抽样调查收集数据 用实验收集数据 用观察研究收集数据 2.3抽样变异性和潜在偏差 抽样误差 抽样偏差:非概率抽样 响应偏差 无响应偏差:缺失数据 偏差类型总结 2.4其他概率抽样方法* 系统随机抽样(SystematicRandom Sampling) 分层随机抽样(StratifiedRandom Sampling) 整群抽样(ClusterSampling) 多阶抽样(MultstageSampling) 2.5本章概要 思考题 第3章描述统计 3.1用表和图描述数据 相对频数(relativefrequency): 分类数据 频数分布和条形图:分类数据 频数分布:定量数据 直方图(histogram) 茎叶图(stem-and-leafplot) 比较组 总体分布和样本数据分布 分布的形状 3.2数据分布的中心描述 均值(mean) 均值的性质 中位数(median) 中位数性质 中位数与均值的比较 众数(mode) 众数的性质 3.3数据分布的变异性描述 极差(range) 标准差(standarddeviation) 标准差的性质 解释标准差的大小 3.4位置量度 四分位数和其他百分比 测定变异性:四分位数间距 箱图:绘制位置的5个数字概括 图形 异常值(outlier) 离开均值多少个标准差?z分数 3.5二元描述统计 响应变量(responsevariable)和解释 变量(explanatoryvariable)之间 的关联 比较两组是二元分析 二元定量数据 两个以上变量的分析 3.6样本统计和总体参数 3.7本章概要 表、图小结 中心量度的小结 变异性量度的小结 二元描述统计的小结 思考题 第4章概率分布 4.1概率介绍 概率可视为长期(long-run)相对 频数 基本概率规则 4.2离散型和连续型变量的概率分布 离散型变量的概率分布 连续型变量的概率分布 参数描述概率分布 4.3正态概率分布 正态尾部概率表 正态概率和经验法则 求某个尾部概率的z值 z分数是离开均值的标准差数 标准正态分布 4.4抽样分布描述了统计量如何变化 模拟估计过程 用抽样分布表示抽样变异 重复抽样的抽样分布说明 4.5样本均值的抽样分布 的抽样分布的均值和标准误 样本量对抽样分布和估计精度的 影响 样本均值的抽样分布近似正态 4.6小结:总体、样本数据以及抽样 分布 在样本数据分布和抽样分布上 样本量的影响 在统计推断中抽样分布的关键作用 4.7本章概要 思考题 第5章统计推断:估计 5.1点估计和区间估计 参数的点估计 无偏和有效点估计 均值、标准差和比例的估计量 极大似然估计方法* 置信区间等于点估计±误差边际 (marginoferror) 5.2比例的置信区间 样本比例和其标准误 大样本比例的置信区间 控制置信水平 大样本量给出狭窄的区间 错误概率=1-置信水平 置信水平是长期正确的比例 方法的有效性需要大样本量 5.3均值的置信区间 估计误差边际的标准误 t分布 t分布的性质 均值置信区间里的t分数 置信水平和样本量的作用 关于正态总体假定违反的稳健性 标准正态是df=无限时的t分布 对使用软件的忠告 5.4样本量的选择 估计比例的样本量 估计比例时的样本量公式 估计均值时的样本量 在确定样本量中其他要考虑的 因素 只有一个小样本该怎么办 5.5中位数和其他参数的置信区间 样本中位数对正态数据的 低效率 大样本时中位数的置信区间 自举法(bootstrap) 5.6本章概要 思考题 第6章统计推断:显著性检验 6.1显著性检验的五个部分 假定 假设 检验统计量 P值 结论 6.2关于一个均值的显著性检验 关于一个均值的显著性检验的 五个部分 双侧检验与置信区间之间的对应 关系 单侧显著性检验 单侧H隐含单侧H0 单侧检验与双侧检验的选择 水平:使用P值做决策 违反正态假定的稳健性 6.3一个比例的显著性检验 对一个比例显著性检验的五个 部分 从不“接受H0” 样本量对P值的影响 6.4在检验中的决策和错误类型 对决策的第一类型和第二类型 错误 拒绝域 水平是第一类型错误的概率 当P(第一类型错误)下降时, P(第二类型错误)上升 置信区间和检验决策之间的等价 关系 对报告的P值做一个决策 6.5显著性检验的局限性 统计显著与实际显著 显著性检验并不比置信区间有用 对显著性检验和P值的曲解 6.6计算P(第二类型错误)* 检验使用的越小P(第二类型 错误)越大 检验的功效(势)(power) 6.7关于一个比例的小样本检验—— 二项分布* 二项分布 二项分布的比例 二项式检验 6.8本章概要 思考题 第7章两组比较 7.1比较两组的预备知识 有响应变量和解释变量时的 双变量(二元)分析 相依样本和独立样本 估计的差异及其标准误 参数的比率 7.2分类数据:比较两组比例 关于比例差异的置信区间 解释一个置信区间比较比例 关于2-1的显著性检验 列联表和条件概率 7.3定量数据:比较两个均值 2-1的置信区间 解释一个置信区间比较均值 关于2-1的显著性检验 在置信区间和检验之间的对应 关系 7.4比较相依样本的均值 适用于匹配样本的配对差异得分 使用配对差异推断比较均值 独立样本与相依样本 7.5比较均值的其他方法* 在假定等方差时比较均值 完全随机设计与随机区组设计 根据软件给出的报表进行推断 效应量 适用于均值的一个模型 7.6比较比例的其他方法* 比较相依比例 比较相依比例的麦克尼马尔检验 相依比例差异的置信区间 比较比例的费歇精确检验 比较两个比例的小样本估计 7.7比较两组的非参数统计量* 威尔科克森-曼-惠特尼检验 效应量:对一个组更好响应的 比例 处理有序变量为定量变量 7.8本章概要 思考题 第8章分类变量之间的关联分析 8.1列联表 百分比比较 构建列联表的原则 独立和相依 8.2独立性的卡方检验 对应于独立的期望频数 卡方检验统计量 卡方分布 需要的样本量 用软件进行卡方检验 自由度的解释 卡方检验和类别处理 8.3残差:检测关联模式 残差分析 卡方和2×2(四格)表的比例 差异 2×2表的标准化残差 大于2×2的表需要用卡方 8.4列联表中关联的量度 关联的量度 比例差异 卡方不是对关联的测量 优势比(比数比) 优势比的性质 r×c列联表的优势比* 概述r×c表关联的量度 8.5两个有序变量之间的关联* 一致和不一致 (gamma) 是两个有序比例的差异 有序量度的公共特性 8.6对有序关联的推断 关联量度的置信区间 使用的独立性检验 有序检验与皮尔逊卡方检验 对其他有序量度的相似推断方法 混合的有序——名义列联表 8.7本章概要 思考题 第9章线性回归和相关 9.1线性关系 线性函数(linearfunction) 解释y的截距和斜率 模型是对实际的简单近似 9.2最小平方预测方程 散点图描绘数据 预测方程 异常值对预测方程的影响 预测误差被称为残差 预测方程有最小平方性质 9.3线性回归模型 线性回归函数 描述回归直线的变异 均方误(差):估计条件变异 条件变异往往小于边缘变异 9.4量度线性关联:相关 斜率和关联强度 相关 相关的性质 相关暗示向均值回归 r2:预测误差减少的比例 r2的性质 平方和描述条件变异和边缘变异 9.5对斜率和相关系数的推断 对统计推断的假定 独立性检验 斜率的置信区间 读懂计算机打印输出结果 对相关的推断* 缺失值(missingdata) 9.6模型的假定及违背 哪一个假定是重要的 外推是危险的 有影响的观测值 影响相关的因素 有误差项的回归模型* 模型和现实 9.7本章概要 思考题 第10章多元关系概述 10.1关联关系和因果关系 10.2对其他变量的控制 社会学研究中的统计控制 统计控制的关联类型 警惕隐变量的存在 10.3多变量关系的类型 伪关联(spuriousassociation) 链关系(chainrelationship) 多个因果关系 抑制变量(suppressorvariable) 统计的交互作用 多变量关系小结 混杂作用使得效应难以评估 10.4统计控制中的推断问题 分表分析中小样本的影响 控制变量的类别影响 对照比较和合并的测度 10.5本章概要 思考题 第11章多元回归分析和相关分析 11.1多元回归模型 多元回归函数 回归系数的解释 预测方程和残差 11.2多元回归分析计算机输出实例 描述双变量关系的散点图 对偏相关绘制偏相关图 计算机输出结果样例 11.3复相关和R2 复相关 R2:多元决定系数 R和R2的性质 多个解释变量的多重共线性 11.4多元回归系数的统计推断 检验解释变量的整体影响 F分布 回归系数的统计推断 方差分析表中的变差和均方差* F统计量是均方误差之比 F统计量与t统计量之间的关系 11.5预测变量间的交互作用 交叉乘积项 检验交互作用项 中心化解释变量* 扩展与限制* 11.6回归模型的比较 全模型和简化模型 用残差平方和SSE或决定系数 R2值进行模型比较 11.7偏相关* 对偏相关系数的解释 对偏相关系数平方的解释 高阶偏相关系数 偏相关系数的统计推断 11.8标准化回归系数 标准化回归系数的方法 标准化回归系数的性质 预测方程的标准化形式* 谨慎比较标准化回归系数 11.9本章概要 思考题 第12章多组比较:方差分析 (ANOVA) 12.1多个均值的比较:方差分析 F检验 对均值比较的F检验的假定 组间变异和组内变异 F检验统计量是两个方差估计 之比 F检验统计量的公式是 组内方差估计* 组间方差估计 方差分析表中的平方和* F检验与多个t检验 12.2均值的多重比较 置信区间比较均值 大量置信区间的错误率 均值多重比较Bonferroni法 均值多重比较Tukey法 12.3用回归模型进行方差分析 回归中的虚拟变量 回归中用方差分析检验比较 均值 为什么使用回归分析来做方差 分析呢 12.4双因素方差分析 双因素方差分析中的主效应 假设 主效应的F检验 双因素方差分析的交互效应 H0:没有交互效应的F检验 12.5双因素方差分析和回归分析 假定没有交互效应的回归模型 有交互效应的回归模型 偏平方和 双因素方差分析的多重比较 析因方差分析 12.6重复测量的方差分析* 有重复测量的单因素方差分析 球形假定和复合对称性 相依样本的置信区间比较 固定效应和随机效应 12.7一个因素是重复测量的双因素 方差分析* 在两个固定效应之一上进行 重复测量 在上面分析的基础上构造置信 区间 治疗方法的Bonferroni多重比较 更复杂的重复测量分析 两次以上的重复测量 12.8违背方差分析假定的影响 F检验的稳健性 Kruskal-Wallis检验:非参数 检验方法 12.9本章概要 思考题 第13章组合回归分析和方差分析: 定量和分类预测变量 13.1均值比较和回归直线比较 比较回归直线 控制x,比较y的均值 13.2有定量和分类预测变量的回归 定量和虚拟解释变量 对参数的解释:没有交互效应 的模型 13.3定量预测变量和分类预测变量 之间允许交互作用 对不同模型的R或R2的比较 多个分类和定量预测变量的回归 分析 13.4用定量和分类预测变量进行回归 的统计推断 没有交互效应的检验 控制x,检验分类变量的效应 用方差分析结果进行比较 控制分类变量,检验x的效应 13.5修正均值* 控制协变量,修正响应变量的 均值 比较修正均值 图示解释说明修正均值 修正均值的多重比较 谨慎使用假设的修正均值 13.6本章概要 思考题 第14章构建多元回归模型 14.1模型选择过程 为模型选择解释变量 向后剔除过程 向前选择和逐步回归过程 自动选择过程的局限性和弊端 探索研究与解释性(理论驱动) 研究 选择模型的指标:调整R2、预测 的残差平方和Cp 14.2回归诊断 检验残差 绘制残差与解释变量图 时间序列数据 检测有影响的观测值:杠杆值 检测有影响的观测值:DFFIT和 DFBETA 14.3多重共线性的影响 多重共线性扩大了标准误 VIF和其他多重共线性指标 存在多重共线性的补救措施 14.4广义线性模型 非正态分布的响应变量 广义线性模型的连接函数 响应变量为正态分布的广义 线性模型 响应变量服从γ分布的广义 线性模型 14.5非线性关系:多项式回归 二次回归模型 二次回归模型的说明与拟合 非线性效应的描述和推断 谨慎使用多项式模型 非参数回归* 14.6指数回归和对数转换* 对指数回归模型的解释 转换预测变量以获取线性 14.7本章概要 思考题 第15章逻辑斯蒂回归:构建分类 响应变量模型 15.1逻辑斯蒂回归 线性概率模型 二分响应变量的逻辑斯蒂回归 模型 概率的逻辑斯蒂回归方程 对逻辑斯蒂回归模型的解释 使用几率和优势比解释 15.2多元逻辑斯蒂回归 几率的效应 概率的效应 15.3逻辑斯蒂回归模型的统计推断 Wald检验和似然比独立性检验 多元逻辑斯蒂回归的推断 用似然比检验比较逻辑斯蒂回归 模型 15.4定序响应变量的逻辑斯蒂回归模型 累积概率和累积概率的logit 定序响应变量的累积logit模型 对定序响应变量效应的推断 响应变量类别选择的恒定性 多元模型的扩展 逻辑斯蒂回归模型中的定序 预测变量 15.5名义响应变量的逻辑斯蒂模型* 基准类别的Logit 15.6分类变量的对数线性模型* 三个变量的分层对数线性模型 对数线性模型优势比的解释 15.7对列联表构建的模型进行拟合 优度检验* 卡方拟合优度统计量 标准化残差 对数线性模型的拟合优度 通过比较G2值来比较模型 逻辑斯蒂模型和对数线性模型 之间的联系 逻辑斯蒂模型和对数线性模型 之间的区别 15.8本章概要 思考题 第16章高级统计方法概述 16.1纵向数据分析* MANOVA:多因变量方差分析 带有随机效应的混合效应模型 使用随机效应的一维重复测量 方差分析 16.2多层(分层)模型* 为两个层上的观测值构建模型 16.3事件历史模型* 截尾数据和时变协变量 事件的发生率 比例风险模型 16.4路径分析* 路径图 路径系数 直接效应和间接效应 路径分解 对因果模型的一个告诫 16.5因子分析* 因子分析模型 拟合因子分析模型 分类响应变量的潜在分类模型 起源和争议 16.6结构方程模型* 计量模型 结构方程模型 协方差结构模型中的特例 拟合协方差结构模型 检验模型拟合 16.7马尔可夫链* 转移概率 思考题 附录ASPSS和SAS统计分析 附录B奇数练习答案 附录C统计检验临界值表 参考文献
|