描述
开 本: 16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787111549406丛书名: 数据科学与工程技术丛书
内容简介
从海量的数据中收集、分析、提取有价值的信息需要功能强大的分析工具,本书结合R软件详细介绍了数据挖掘和数据分析的实用方法,主要内容包括处理信息和获取数据、标准线性回归、局部多项式回归、统计建模中简约的重要性、Logistic回归、贝叶斯分析、多项式Logistic回归、决策树、聚类、购物篮分析、降维和网络数据等。书后配有练习并且书中所有例子涉及的数据集和R代码可以从本书配套网站获取。
目 录
目录译者序前言致谢第1章引言参考文献第2章处理信息与认识数据21例1:2006年出生数据22例2:校友捐赠23例3:橘子汁参考文献第3章标准线性回归31用R函数估算线性回归模型32例1:汽车燃油效率33例2:丰田二手车价格附录3A模型过度拟合对回归预测均方误差的影响参考文献第4章局部多项式回归的非参数回归方法41模型的选择42密度估计和直方图平滑化的应用43多重回归模型的拓展44例题和软件441例1:老忠实喷泉442例2:NOx排放物参考文献第5章简约在统计建模中的重要性51怎样防止低假阳率参考文献第6章多参数回归模型中基于惩罚算法的变量选择61例1:前列腺癌62例2:橙汁参考文献第7章Logistic回归71对二分类响应数据建立线性模型72Logistic回归模型中回归系数的解释73统计推断74对新样例的分类75用R语言估计76例1:死刑数据761二分类Logistic回归:Minitab程序输出762R语言输出结果的解释与分析77例2:延误的航班78例3:贷款验收79例4:德国信贷数据参考文献第8章二元分类、概率和分类性能的评价81二元分类82使用概率作决策83灵敏度和特异度84例子:德国信贷数据第9章近邻分析分类91k近邻算法92例1:玻璃碎片的法医分析93例2:德国信贷数据参考文献第10章朴素贝叶斯分析:一种由以分类为主的变量对分类响应变量预测的模型101例:航班延误参考文献第11章多项式Logistic回归111计算软件112例1:玻璃碎片的法医分析113例2:重温玻璃碎片的法医分析附录11A简单三重矩阵的详述参考文献第12章分类和判别分析的深入探讨121Fisher线性判别函数122例1:德国信用卡数据123例2:Fisher鸢尾花数据124例3:玻璃碎片的法医分析数据125例4:MBA申请数据参考文献第13章决策树131例1:前列腺癌132例2:摩托车加速度133例3:回顾Fisher鸢尾花数据集第14章回归、分类树、计算软件及其他实用分类方法的深入探讨141有关树结构的R程序包142卡方自动交互检验143集成方法:Bagging算法、Boosting算法和随机森林144支持向量机145神经网络146R程序包:关于数据挖掘的一个有用的图形用户界面参考文献第15章聚类151k均值聚类152另眼看聚类:将期望化算法应用于混合正态分布1521E步1522M步153层次聚类过程参考文献第16章购物篮分析:关联规则和提升度161例1:在线广播162例2:收入预测参考文献第17章降维:因子模型和主成分分析171例1:欧洲蛋白质的摄入数据172例2:月度失业率数据第18章带多重共线性输入的降维回归:主成分回归和偏小二乘法181三个例子1811例1:模拟数据1812例2:基于50个州的历史失业率预测某州下个月的失业率1813例3:预测下月失业率:比较不同方法样本外预测效果参考文献第19章文本数据:文本挖掘和情感分析191逆多项式Logistic回归192例1:餐馆评论193例2:政治主张附录19.A Gentzkow/Shapiro关于“slant”的估计和偏小二乘的关系参考文献第20章网络数据201例1:15世纪佛罗伦萨的婚姻与权力202例2:友谊网络的连接参考文献附录A练习附录B参考文献
前 言
前言这是一本有关数据挖掘和商务分析的实用方法的图书,适用于迫切需要使用这些方法来了解运营状况并解决经营问题的读者。写作本书的目的是对获得公众口碑的数据挖掘工具进行全面讨论,而不仅仅局限于传统的黑箱式描述,展现这些方法的工作机理。 数据挖掘需要一套功能强大、计算精准、兼容良好的计算工具,在这方面微软的Excel难以胜任。尽管我们也多次获得许多供应商专门提供的卓越的数据挖掘商务软件,但通常来说这些软件价格昂贵。书中我们所使用的R统计软件功能强大而且免费。不过要想正常使用R需要一些学习代价,它需要用户写指令,而大多数电子表格用户对程序指令的编写并不熟悉,这也是我在书中和与本书相关的网页上提供R示例代码的原因。这些示例代码应该可以顺利地迁移到当下通用的、强大的计算机环境中,并有助于小化R的学习成本。 本书采用了将软件与数据挖掘的统计基础相融合的写作风格,同时也推广了工具的应用。虽然市面上不乏深入阐述这些方法的教材,也不缺乏对R计算的详尽完整的说明手册。但是本书力图权衡理论与实践,定位于对定量方法感兴趣的MBA学生的认知层次。本书适用于MBA的数据挖掘课程,以及高年级本科生和研究生的分析与解释大数据集的课程。从事商学、社会学、自然科学、医学以及工科的学生都可以从本书受益。本书所涉大部分主题可以安排在一个学期的课程中,但是包括的主题并不适用于每一个读者。可能有些读者会认为其中一些主题内容太深或者太浅。建议主讲老师略去或适当扩展某些主题。从这个角度来看,本书可以适用于很多不同的读者。 数据挖掘的应用常常需要花大力气收集相关信息。在这种情况下,数据的准备工作比终建立模型需要花费更多的时间。在另外一些应用中,数据收集的工作量并非大问题,工作的重点是大容量信息的存取(即数据仓库)。尽管如何获取、存储、合并和整理信息在数据分析全过程来说必不可少,但书中对这些技术细节并未做深入探讨,本书重点介绍数据挖掘的建模。 本书所述全部例子的数据集和R代码都可以在配套网页(http://www.bizuiowaedu/faculty/jledolter/DataMining)上找到。也可以通过在booksupportwileycom上输入ISBN 9781118447147获取本书的附加材料。读者可以将书中的代码复制粘贴到自己的R会话中,从而得到分析结果。也可以在软件中修改或添加一些代码来做数据实验,以及用我们给的R模板程序对自己的数据集进行分析。附录给出了练习和几个大的练习数据集。练习有助于老师布置课后作业,也为读者提供了一个实践书中所讨论技巧的机会。如何使用这些数据集的相关说明请参见附录A。 这是本书第1版,尽管在表述和例证数据集的分析上我们很小心谨慎,但不得不承认其中有很多地方还值得推敲。如果在阅读本书的过程中有任何反馈,我们将不胜感激,期待你将你的建议通过johannes[email protected]邮箱写信给我。相关的勘误和评论我将在本书的网页上随时更新。 致谢2011年我访问芝加哥大学布斯商学院时,忽然为一篇MBA方面有关数据挖掘的文章中的素材产生了兴趣。芝加哥大学著名教授Matt Taddy的数据挖掘(BUS41201)课件为本书的撰写提供了灵感,在表述上我同样受到Taddy教授课件中的案例和R模板的影响。第19章中关于文本数据的分析也大量引用了他近期的研究成果,由衷感谢Taddy教授对本书的贡献。 著书是一项耗时的工作。如果没有妻子Lea Vandervelde的持续支持和鼓励,无法想象我的这项工作可以画上句号。她是艾奥瓦大学从事密苏里州奴隶自由史研究的教授,同时她的亲身体验告诉我,从文本数据的挖掘中构建数据集是一项多么重要和艰难的工作。
评论
还没有评论。