描述
开 本: 16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787111407003
Data Mining with R:Learning with Case Studies
数据挖掘正在改变着企业和其他大型组织与客户的互动方式,同时也改变着它们管理复杂过程的方式。大量的数据正在很好地用于预测客户行为和结果。在软件方面,R以其强大的功能和诱人的价格(免费)正在改变着定量分析的“生态系统”。
本书的目的是引领读者迅速地进入这两个世界。本书以实际案例的方式介绍数据挖掘和R软件,这样读者就可以在真实情境中进行学习,而不会迷失在统计理论的细节讨论或者计算机科学的基础概念中。本书中用到的工具全部是免费的:MySQL数据库(用于数据库操作)和R软件(用于分析)。因此,本书教给你的是如何动手的知识。通过学习本书,你将体验到数据挖掘和R的强大功能。如果你能安装这些工具,并通过应用这些工具来详细地学习书中的案例研究,你将收获颇丰。本书逐步地通过案例研究来介绍R的概念,如果你还不熟悉R或者MySQL,你可以按章节顺序来学习这些案例。
本书的原作者Luís
Torgo,根据他在葡萄牙波尔图大学丰富的教学经验、在其他国家讲授数据挖掘课程的经验,以及聚集了世界各地专业人士的Statistics?com在线课程中的教学经验,精心地写作了本书。
2012年12月17日
Statistics?com在线课程网站总裁Peter Bruce
中 文 版 序
Data Mining with R:Learning with Case Studies
目前,数据挖掘和R是学术界及工业界中的两个关键技术。丰富的传感器机制使得自动收集数据成为可能后,产生了非常大的数据集,这需要自动化的机制来将这些数据转化为有用的信息,以供决策者使用和参考。R是一个开发这些自动化机制的很好选择。R提供的大量算法和方法,以及它的自由和开放源码特性,使得R成为数据挖掘的**选择之一。本书的目的是向读者介绍数据挖掘和R的知识。本书的写作思路是给读者介绍一系列有代表性的研究案例,通过这些案例,读者不仅从中学到主流的数据挖掘方法,同时也可以学习本书所提供的R代码,并*终把这些代码应用到他们自己的数据挖掘项目中。
随着中文版的出版,我希望我能说服更多的人认识R和数据挖掘的优势。得知我的书得到世界各地读者的关注,对我而言是一项伟大的荣誉。我相信本书中文版的发行将有助于中国的R社区。对所有的中国读者,我真诚地希望,在读完本书后,你们发现它不仅有助于你们的工作,同时你们将和我自己一样增加了对数据挖掘和R的热情。
Luís Torgo
2012年12月16日于葡萄牙,波尔多
译者序
Data Mining with R:Learning with Case Studies
本书是2011年查普曼和霍尔公司(Chapman & Hall/CRC)出版的《Data
Mining with R:Learning with Case
Studies》一书的中文版。英文版从出版后就在亚马逊美国网站上得到了极高的评价,是2011年亚马逊网站上数据挖掘类书籍销量*好的一本。机械工业出版社以极快的速度引进这本书的中文版,使国内读者在原版出版一年左右的时间里读到本书,不得不赞扬他们独到的眼光。本书翻译完稿的时候(2012年10月),其英文版的销量还是排在专业书籍的前列,原作者为本书维护了一个网站,读者可以访问该网站查看这些信息。
本书的作者Luís
Torgo是一位数据挖掘专家,同时也是一位R开发者。本书给出了四个数据挖掘的实际案例,它们分别是藻类频率的预测、证券趋势预测和交易系统仿真、交易欺诈预测,以及微阵列数据分类。这四个案例基本覆盖了常见的数据挖掘技术,从无监督的数据挖掘技术、有监督的数据挖掘技术到半监督的数据挖掘技术。同时这四个案例从数据量、分析目标和数据类型方面引出了各种各样的挑战性问题,本书给出了克服这些挑战的方法和技巧。阅读本书不需要具备R和数据挖掘的基础知识。为了便于读者阅读,本书第1章给出了R软件的基础知识(安装、R数据结构、R编程、R的输入和输出等)。全书以实际问题、解决方案和对解决方案的讨论为主线来组织内容。读者既可以把本书作为学习如何应用R的一本优秀教材,也可以作为数据挖掘的工具书。读者可以根据自己的需要参考书中的某些具体方法,找到自己实际问题的解决方案。
R本身是一款十分优秀的统计分析和数据挖掘软件,有关R的书籍和文档也是相当多的。但是系统地讲解用R进行数据挖掘的书籍目前还没有。本书以四个案例研究的形式组织内容,脉络清晰,并且各章自成体系。读者可以从头逐章学习,也可以根据自己的需要进行学习。不管是R初学者,还是熟练的R用户都能从书中找到对自己有用的内容。
本人在2011年年初学习作者Luís
Torgo在Statistics?com上的在线课程,深感本书的内容极具实用价值,萌生了把本书翻译为中文的念头。2011年年末,恰逢机械工业出版社华章公司引进了本书的版权,在王春华编辑的支持下,我承担了本书的翻译工作。由于英文的习惯和汉语有较大的不同,对于一些特别长的句式,译者按照原文的意思进行了分解处理。关于书中的术语,译者尽量采用中文已有的对应术语,如果中文没有对应术语,译者尽力采用贴切的名称来反映原文中的术语。
本书的翻译工作由李洪成、陈道轮和吴立明共同完成。另外,许金玮、朱振兴、陈冰、汤静文、瞿秋霞、张潇予等也对本书的部分翻译提供了帮助。在本书的翻译过程中,原作者Torgo博士多次就译者提出的问题进行耐心而细致的解答。这里对他的帮助表示由衷的谢意。另外,感谢美国统计教育学院Peter
Bruce为本书中文版写的推荐序。由于水平所限,书中可能会有翻译不当之处,希望读者多加指正。
李洪成
本书首先简要介绍了R软件的基础知识(安装、R数据结构、R编程、R的输入和输出等)。然后通过四个数据挖掘的实际案例(藻类频率的预测、证券趋势预测和交易系统仿真、交易欺诈预测、微阵列数据分类)介绍数据挖掘技术。这四个案例基本覆盖了常见的数据挖掘技术,从无监督的数据挖掘技术、有监督的数据挖掘技术到半监督的数据挖掘技术。全书以实际问题、解决方案和对解决方案的讨论为主线来组织内容,脉络清晰,并且各章自成体系。读者可以从头至尾逐章学习,也可以根据自己的需要进行学习,找到自己实际问题的解决方案。
本书不需要读者具备R和数据挖掘的基础知识。不管是R初学者,还是熟练的R用户都能从书中找到对自己有用的内容。读者既可以把本书作为学习如何应用R的一本优秀教材,也可以作为数据挖掘的工具书。
Data Mining with R:Learning with Case Studies by Luís Torgo(ISBN
978?1?4398?1018?7).
Copyright ?2011 by Taylor and Francis Group, LLC.
Authorized translation from the English language edition published
by CRC Press, part of Taylor & Francis Group LLC; All rights
reserved.
China Machine Press is authorized to publish and
distribute exclusively the Chinese (Simplified Characters) language
edition?This edition is authorized for sale in the People?s
Republic of China only (excluding Hong Kong, Macao SAR and
Taiwan).No part of this publication may be reproduced or
distributed in any form or by any means, or stored in a database or
retrieval system, without the prior written permission of the
publisher.
Copies of this book sold without a Taylor & Francis sticker on
the cover are unauthorized and illegal.
出版者的话
推荐序
中文版序
译者序
前言
致谢
第1章 简介
1.1如何阅读本书
1.2R简介
1.2.1R起步
1.2.2R对象
1.2.3向量
1.2.4向量化
1.2.5因子
1.2.6生成序列
1.2.7数据子集
1.2.8矩阵和数组
1.2.9列表
1.2.10数据框
1.2.11构建新函数
1.2.12对象、类和方法
1.2.13管理R会话
1.3MySQL简介
第2章 预测海藻数量
2.1问题描述与目标
2.2数据说明
2.3数据加载到R
2.4数据可视化和摘要
2.5数据缺失
2.5.1将缺失部分剔除
2.5.2用频率值来填补缺失值
2.5.3通过变量的相关关系来填补缺失值
2.5.4通过探索案例之间的相似性来填补缺失值
2.6获取预测模型
2.6.1多元线性回归
2.6.2回归树
2.7模型的评价和选择
2.8预测7类海藻的频率
2.9小结
第3章 预测股票市场收益
3.1问题描述与目标
3.2可用的数据
3.2.1在R中处理与时间有关的数据
3.2.2从CSV文件读取数据
3.2.3从网站上获取数据
3.2.4从MySQL数据库读取数据
3.3定义预测任务
3.3.1预测什么
3.3.2预测变量是什么
3.3.3预测任务
3.3.4模型评价准则
3.4预测模型
3.4.1如何应用训练集数据来建模
3.4.2建模工具
3.5从预测到实践
3.5.1如何应用预测模型
3.5.2与交易相关的评价准则
3.5.3模型集成:仿真交易
3.6模型评价和选择
3.6.1蒙特卡罗估计
3.6.2实验比较
3.6.3结果分析
3.7交易系统
3.7.1评估终测试数据
3.7.2在线交易系统
3.8小结
第4章 侦测欺诈交易
4.1问题描述与目标
4.2可用的数据
4.2.1加载数据至R
4.2.2探索数据集
4.2.3数据问题
4.3定义数据挖掘任务
4.3.1问题的不同解决方法
4.3.2评价准则
4.3.3实验方法
4.4计算离群值的排序
4.4.1无监督方法
4.4.2有监督方法
4.4.3半监督方法
4.5小结
第5章 微阵列样本分类
5.1问题描述与目标
5.1.1微阵列实验背景简介
5.1.2数据集ALL
5.2可用的数据
5.3基因(特征)选择
5.3.1基于分布特征的简单过滤方法
5.3.2ANOVA过滤
5.3.3用随机森林进行过滤
5.3.4用特征聚类的组合进行过滤
5.4遗传学异常的预测
5.4.1定义预测任务
5.4.2模型评价标准
5.4.3实验过程
5.4.4建模技术
5.4.5模型比较
5.5小结
参考文献
主题索引
数据挖掘术语索引
R函数索引
Data Mining with R:Learning with Case Studies
本书的主要目的是向读者介绍如何用R进行数据挖掘。R是一个可以自由下载的语言,它提供统计计算和绘图环境,其功能和大量的添加包使它成为一款优秀的、多个已有(昂贵)数据挖掘工具的替代软件。
?下载网址:http://www?r?project?org。 ?
数据挖掘的一个关键问题是数据量。典型的数据挖掘问题包括一个大的数据库,需要从中提取有用的信息。在本书中,我们用MySQL作为核心数据库管理系统。对多个计算机平台,MySQL也是免费的。这意味着,我们可以不用付任何费用就可以进行“重要的”数据挖掘任务。同时,我们希望说明解决方案质量上并没有任何损失。昂贵的工具并不意味着一定更好!只要你愿意花时间来学习如何应用它们,R和MySQL就是一对很难超越的工具。我们认为这是值得的,希望在读完本书之后,你也相信这点。
? 下载网址:http://www?mysql?com。 ?
本书的目的不是介绍数据挖掘的各个方面。许多已有的书籍覆盖了数据挖掘领域。我们用几个案例来向读者介绍R的数据挖掘能力。显然,这几个案例不能代表我们在现实世界中碰到的所有数据挖掘问题。同时,我们给出的解决方案也不是完全的方案。我们的目的是通过这些实际案例向读者介绍如何用R进行数据挖掘。因此,我们案例分析的目的是展示用R进行信息提取的例子,而不是提供数据挖掘案例的完整分析报告。它们可以作为任何数据挖掘项目的可能思路,或者作为开发数据挖掘项目解决方案的基础。尽管如此,我们尽力尝试覆盖多方面的问题,展示数据大小、不同数据类型、分析目标和进行分析所必需的工具所带来的挑战。然而,这里的实践方式也是有代价的。实际上,作为具体案例研究的一种形式,为了让读者在自己的计算机上执行我们所描述的步骤,我们也做了某些妥协。也就是说,我们不能处理太大的问题,这些问题要求的计算机资源不是每个人都具备的。尽管这样,我们认为本书涵盖的问题也不算小,并对不同的数据类型和维度给出了解决方案。
这里并不要求读者具有R的先验知识。没有学过R和数据挖掘的读者应该可以学习书中的案例。书中的各个案例相互独立,读者可以从书中任何一个案例开始。在个简单案例中,给出了一些基本的R知识。这意味着,如果你没有学过R,至少应该从个案例开始学习。而且,第1章给出了R和MySQL的简介,它可以帮助你理解后面的章节。我们也没有假设你熟悉数据挖掘和统计技术。在每个案例的必要地方,都对不同的数据挖掘技术进行了介绍。本书的目的不是向读者介绍这些技术的理论细节和全面知识,我们对这些工具的描述包括了它们的基本性质、缺点和分析目标。如果需要进一步了解技术细节,可以参考其他书籍。在某些节的末尾,我们提供了“参考资料”,如果需要,可以参考它们。总之,本书的读者应该是数据分析工具的用户,而不是研究人员或者开发人员。同时,我们希望后者把本书作为进入R和数据挖掘“世界”的一种方式,从而发现本书的用途。
本书有一个免费的R代码集,可以从本书网站下载。其中含有案例研究中的所有代码,这可以帮助你的实践学习。我们强烈建议读者在阅读本书时安装R并实验书中的代码。而且,我们创建了一个名为DMwR的R添加包,它包含本书用到的多个函数和以R格式保存的案例数据集。你应该按照本书的指示,安装并加载该添加包(第1章给出了细节)。
? 下载网址:http://www?liaad?up?pt/~ltorgo/DataMiningWithR/。 ?
致谢
Data Mining with R:Learning with Case Studies
首先要感谢我的家人给我的所有支持。没有他们的帮助和支持,我是无法完成本书的。他们的支持、关怀和爱给我足够的安慰,使我可以克服写作本书过程中的困难。同样,我的朋友也给了我同样的安慰,他们在需要时总是和我共同畅饮和交流,带给了我轻松愉悦的写作心情。谢谢我的家人和朋友!谢谢你们!现在,我希望有更多的时间和你们一起分享。
这里我也要感谢我的所有同事和LIAAD/INESC Porto
LA研究所对我的支持。同时,我也要感谢波尔多大学对我研究的支持。写作本书的部分资助来自于葡萄牙自然科学基金(资助号:SFRH/BSAB/739/2007)。
后,感谢所有帮助阅读本书草稿的同事和学生。
Luís Torgo
葡萄牙,波尔多
评论
还没有评论。