描述
开 本: 大16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787302332961
第1章 多元统计分析的理论基础
1.1 多元分布
1.1.1 随机向量
1.1.2 多元分布函数与密度函数
1.1.3 随机向量的数字特征
1.2 多元正态分布
1.2.1 多元正态分布的定义和性质
1.2.2 多元正态分布均值向量和协方差阵的估计
1.3 多元正态分布均值向量和协方差阵的检验
1.3.1 单总体均值向量的检验
1.3.2 多总体均值向量的检验
1.3.3 协方差阵的检验
1.3.4 多元正态分布均值向量和协方差阵检验的上机实现
习题
第2章 多元数据图
2.1 矩阵散点图
2.2 多维箱线图
2.3 雷达图
2.4 星形图
2.5 脸谱图
习题
第3章 数据预处理
3.1 数据集成与数据审核
3.1.1 数据集成
3.1.2 数据审核
3.2 数据清理
3.2.1 缺失值数据
3.2.2 异常值数据
3.3 数据转换
3.3.1 数据标准化
3.3.2 数据的代数运算
3.3.3 数据的离散化
习题
第4章 因子分析
4.1 因子分析的基本理论
4.1.1 主成分分析的基本思想与模型
4.1.2 因子分析的基本思想与模型
4.1.3 因子分析的主要步骤
4.1.4 因子分析与主成分分析的区别与联系
4.2 因子分析的上机实现
4.2.1 因子分析的适用性检验
4.2.2 主因子个数的确定
4.2.3 因子旋转
4.2.4 因子得分
4.3 因子分析的案例分析
4.3.1 我国各地区社会发展状况的因子分析
4.3.2 我国制造业产业竞争力的因子分析
习题
第5章 聚类分析
5.1 聚类分析的基本理论
5.1.1 聚类分析的概念和基本思想
5.1.2 点与点之间的相似性度量方法
5.1.3 类与类的相似性度量方法
5.1.4 聚类的方法
5.2 聚类分析的上机实现
5.2.1 系统聚类方法
5.2.2 K均值聚类
……
第6章 判别分析
第7章 对应分析
第8章 典型相关分析
第9章 回归分析
第10章 logistic回归
参考文献
2)人工填补
人工填补法是利用某个固定的值对一个变量或多个变量下的缺失值进行插补。这种方法依赖于统计人员对问题的先验认识,当数据中某个变量的缺失数据较少时该方法是可行的,与直接删除法相比它可以避免数据资源的浪费,但当缺失数据较多时也会造成分析结果出现偏差。
3)利用均值插补
均值插补法是指用研究变量无缺失数据的全体样本均值作为缺失数据的填补值,这种插补法又分为总体均值插补和分类别总体均值插补。总体均值插补就是指当数据中无论存在或不存在类别数据时都用所有数据的均值对缺失数据插补,而分类别总体均值插补指当数据中存在分类别数据时用各类别的均值插补各类别中的缺失值,比如某车间生产零件时测量零件的直径,车间内共有5台设备,当第一台设备生产的零件的直径在测量时出现确缺失数据时,更适合用第一台设备生产的所有零件的直径的均值插补缺失值。利用均值插补还可以根据变量特征在加权算术平均数、中位数、众数中选用合适的平均数,其目的是尽量使替代值更接近缺失值,减少误差,均值差补法有利于增加替代值的稳定性,从而减小估计量方差。
均值插补的方法简便易行,节省成本,且当数据中的缺失数据不少时,其效果要好于人工填补的方法。但均值插补法也存在不足,当数据的某变量存在较多的缺失值时,如果都是用均值进行插补,会导致大量数据在均值点上形成尖峰,造成数据分布的扭曲。
4)加权调整
加权调整方法的基本思想是,利用调整因子来调整包含缺失数据所进行的总体推断,如将调查设计中赋予缺失数据的权数分摊到已获取数据身上,加权的方法主要有均值的加权类估计、倾向性加权以及利用加权的广义估计方程进行加权等。该方法的前提是缺失数据在可忽略机制下产生,即已获得数据与缺失数据之间没有显著差异,主要用于单位数据缺失情况下的调整。
5)用最可能的值插补
用最可能的值插补指的是借助相关的统计模型找出或计算出最可能的值对缺失数据进行插补。常用的几种方法有成数推导值法、回归法、近似值法和多重插补法,这些方法较以上4种方法相比要更复杂,但其得到的插补值包含了现存数据的大量信息,因此更准确。
成数推导值法是指利用某变量下数据的加权值对缺失数据进行插补。这种方法适合同一属性的记录值只有少量几种的情况,这时就可以计算各观测值在该属性中所占的比例,并对该属性中的缺失值同比例随机赋值,但该方法较适合缺失属性为是非标志的情况,比如某调查中只有城镇居民与农村居民,且其比例为1:2,则可按此比例对该属性进行插补。
回归法的基本思想是通过建立y关于控制变量(Xl,X2,…,X。)的回归方程来填补y的缺失值。当控制变量是定性变量时,可以采用虚拟变量的处理方法。回归法通过模型得到的估计量往往更接近真值,但其过程较复杂且当变量不是线性相关或预测变量高度相关时会导致有偏差的估计,因此该方法更适合存在高相关性辅助变量时对缺失值进行插补。
近似值方法又常被称为热平台(Hot-dec)法或就近补齐法。该方法的思想是利用已有完整数据中与缺失数据最“相似”的数据作为插补值,这种方法被美国普查局广泛使用,这种方法的优点是简单易懂且成本很低,且又能保持原始数据类型,但这种“相似”却很难界定。
多重插补是由Rubin在1978年首先提出的,主要思想是指由包含m个插补值的向量代替每一个缺失值的过程,要求m≥2。m个完整数据集合能从插补向量中创建;由该向量的第一个元素代替每一个缺失值从而创建了第一个完整的数据集合,由它的向量中的第二个元素代替每一个缺失值从而创建了第二个完整数据的集合,以此类推,再利用这m个插补值估计缺失值。常用的多重插补法有随机回归填补法、趋势得分法和马尔科夫链的蒙特卡洛模拟法。多重填补的缺点是需要做大量的工作来创建插补集并进行结果分析。
……
评论
还没有评论。