描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787111598886
编辑推荐
本书探索了一系列广泛应用的机器学习技术,用实际例子揭示常见数据中隐藏的处理技巧。虽然机器学习是高度理论性的,但是本书提供了一种令人耳目一新的实操方法,同时也没有忽略底层原理。
本书涵盖当前领先的数据科学语言(如Python和R)、被低估但非常强大的Julia,以及一系列大数据平台(包括Spark、Hadoop和Mahout等)。实用的机器学习技术是现代数据科学家掌握机器学习应用的重要资源。
本书还探讨了机器学习的前沿进展,提供了一些关于深度学习和强化学习的范例和指导原则,完美演绎实操过程及算法原理。
通过阅读本书,你将学到:
?实现多种算法或技术,用于处理复杂数据。
?掌握数据科学相关的颇具威力的语言,如R、Python、Julia等。
?掌握Spark、Mahout与Hadoop的协同使用,成功解决数据管理、处理中的各种问题
?如何采用适当的机器学习技术解决现实问题。
?了解深度学习及机器学习前沿领域是如何使用人工神经网络的。
?探索新一代机器学习技术,深入了解如混合持久化、语义数据等技术。
本书的目标读者是那些想了解机器学习实践及通过机器学习技术解决现实应用的数据科学家。如果你想立即着手练习,需具备基本的编程(Python和R)功底和数学知识。
内容简介
本书探索了一系列广泛应用的机器学习技术,用实际例子揭示了常见数据中隐藏的处理技巧和窍门。本书还探讨了机器学习的前沿进展,提供了一些关于深度学习和强化学习的范例和指导原则,完美演绎了实操过程及算法原理。本书的目标读者为那些想了解机器学习实践通过机器学习技术解决现实应用的数据科学家。
目 录
目录
推荐序
推荐序二
译者序
前言
关于作者
关于审校者
第1章机器学习简介
1.1机器学习
1.1.1定义
1.1.2核心概念与术语
1.1.3什么是学习
1.1.4机器学习中的数据不一致性
1.1.5机器学习实践范例
1.1.6机器学习问题类型
1.2性能度量
1.3机器学习的相关领域
1.3.1数据挖掘
1.3.2人工智能
1.3.3统计学习
1.3.4数据科学
1.4机器学习处理流程及解决方案架构
1.5机器学习算法
1.5.1基于决策树的算法
1.5.2基于贝叶斯的算法
1.5.3基于核方法的算法
1.5.4聚类算法
1.5.5人工神经网络
1.5.6降维方法
1.5.7集成方法
1.5.8基于实例的算法
1.5.9基于回归分析的算法
1.5.10基于关联规则的算法
1.6机器学习工具与框架
1.7小结
第2章机器学习和大规模数据集
2.1大数据和大规模机器学习
2.1.1功能与架构:方法论的失配
2.1.2机器学习的可扩展性和性能
2.1.3模型选择过程
2.1.4大规模机器学习的潜在问题
2.2算法和并发
2.3垂直扩展的机器学习技术方案
2.3.1MapReduce编程架构
2.3.2利用消息传递接口进行高性能计算
2.3.3LINQ框架
2.3.4使用LINQ操作数据集
2.3.5GPU
2.3.6FPGA
2.3.7多核或多处理器系统
2.4小结
第3章Hadoop架构和生态系统简介
3.1Apache Hadoop简介
3.1.1Hadoop的演化
3.1.2Hadoop及其核心要素
3.2基于Hadoop的大数据机器学习解决方案架构
3.2.1数据源层
3.2.2数据摄入层
3.2.3Hadoop数据存储层
3.2.4Hadoop基础设施层
3.2.5Hadoop平台/处理层
3.2.6分析层
3.2.7数据消费层
3.2.8MapReduce
3.3Hadoop 2.x
3.3.1Hadoop生态系统组件
3.3.2Hadoop安装和配置
3.3.3Hadoop发行版和供应商
3.4小结
第4章机器学习工具、库及框架
4.1机器学习工具概览
4.2Apache Mahout
4.2.1Mahout如何工作
4.2.2安装和设置Apache Mahout
4.2.3Mahout软件包详解
4.2.4Mahout中的vector实现
4.3R
4.3.1安装和设置R
4.3.2R与Apache Hadoop集成
4.4Julia
4.4.1安装和设置Julia
4.4.2在命令行中执行Julia程序
4.4.3例解Julia
4.4.4变量与赋值
4.4.5使用Julia的好处
4.4.6Julia与Hadoop集成
4.5Python
4.5.1Python中工具包的选择
4.5.2例解Python
4.6Apache Spark
4.6.1Scala
4.6.2RDD编程
4.7Spring XD
4.8小结
第5章基于决策树的学习
5.1决策树
5.1.1术语
5.1.2目标与用途
5.1.3构造决策树
5.1.4特殊的决策树
5.2实现决策树
5.3小结
第6章基于实例和核方法的学习
6.1基于实例的学习
6.1.1近邻
6.1.2实现kNN
6.2基于核方法的学习
6.2.1核函数
6.2.2支持向量机
6.2.3实现SVM
6.3小结
第7章关联规则学习
7.1关联规则学习
7.1.1关联规则的定义
7.1.2Apriori算法
7.1.3FPgrowth算法
7.1.4Apriori与FPgrowth
7.2实现Apriori及FPgrowth算法
7.3小结
第8章聚类学习
8.1聚类学习
8.2聚类的类型
8.2.1层次聚类
8.2.2划分式聚类
8.3kmeans聚类算法
8.3.1kmeans算法的收敛性
8.3.2kmeans算法的优点
8.3.3kmeans算法的缺点
8.3.4距离度量
8.3.5复杂度度量
8.4实现kmeans聚类
8.5小结
第9章贝叶斯学习
9.1贝叶斯学习
9.1.1统计学家的视角
9.1.2贝叶斯定理
9.1.3朴素贝叶斯分类器
9.2实现朴素贝叶斯算法
9.3小结
第10章基于回归的学习
10.1回归分析
10.1.1重温统计学
10.1.2混杂
10.1.3效应修饰
10.2回归方法
10.2.1简单线性回归
10.2.2多元线性回归
10.2.3多项式回归
10.2.4广义线性模型
10.2.5逻辑回归(logit连接)
10.2.6泊松回归
10.3实现线性回归和逻辑回归
10.4小结
第11章深度学习
11.1背景知识
11.1.1人类大脑结构
11.1.2神经网络
11.1.3反向传播算法
11.1.4Softmax回归算法
11.2深度学习类型
11.2.1卷积神经网络
11.2.2循环神经网络
11.2.3受限玻尔兹曼机
11.2.4深度玻尔兹曼机
11.2.5自动编码器
11.3实现ANN和深度学习方法
11.4小结
第12章强化学习
12.1强化学习
12.1.1强化学习的背景知识
12.1.2强化学习的主要特点
12.2强化学习算法
12.2.1动态规划
12.2.2蒙特卡罗方法
12.2.3时序差分学习
12.2.4Qlearning(异策略TD)
12.2.5actorcritic方法(同策略)
12.2.6Rlearning(异策略)
12.3实现强化学习方法
12.4小结
第13章集成学习
13.1集成学习方法
13.1.1群体智慧
13.1.2经典应用
13.1.3集成方法
13.2实现集成学习方法
13.3小结
第14章下一代机器学习数据架构
14.1数据架构的演进
14.2机器学习的现代数据架构
14.2.1语义数据架构
14.2.2多模型数据库架构/混合持久化
14.2.3Lambda架构
14.3小结
推荐序
推荐序二
译者序
前言
关于作者
关于审校者
第1章机器学习简介
1.1机器学习
1.1.1定义
1.1.2核心概念与术语
1.1.3什么是学习
1.1.4机器学习中的数据不一致性
1.1.5机器学习实践范例
1.1.6机器学习问题类型
1.2性能度量
1.3机器学习的相关领域
1.3.1数据挖掘
1.3.2人工智能
1.3.3统计学习
1.3.4数据科学
1.4机器学习处理流程及解决方案架构
1.5机器学习算法
1.5.1基于决策树的算法
1.5.2基于贝叶斯的算法
1.5.3基于核方法的算法
1.5.4聚类算法
1.5.5人工神经网络
1.5.6降维方法
1.5.7集成方法
1.5.8基于实例的算法
1.5.9基于回归分析的算法
1.5.10基于关联规则的算法
1.6机器学习工具与框架
1.7小结
第2章机器学习和大规模数据集
2.1大数据和大规模机器学习
2.1.1功能与架构:方法论的失配
2.1.2机器学习的可扩展性和性能
2.1.3模型选择过程
2.1.4大规模机器学习的潜在问题
2.2算法和并发
2.3垂直扩展的机器学习技术方案
2.3.1MapReduce编程架构
2.3.2利用消息传递接口进行高性能计算
2.3.3LINQ框架
2.3.4使用LINQ操作数据集
2.3.5GPU
2.3.6FPGA
2.3.7多核或多处理器系统
2.4小结
第3章Hadoop架构和生态系统简介
3.1Apache Hadoop简介
3.1.1Hadoop的演化
3.1.2Hadoop及其核心要素
3.2基于Hadoop的大数据机器学习解决方案架构
3.2.1数据源层
3.2.2数据摄入层
3.2.3Hadoop数据存储层
3.2.4Hadoop基础设施层
3.2.5Hadoop平台/处理层
3.2.6分析层
3.2.7数据消费层
3.2.8MapReduce
3.3Hadoop 2.x
3.3.1Hadoop生态系统组件
3.3.2Hadoop安装和配置
3.3.3Hadoop发行版和供应商
3.4小结
第4章机器学习工具、库及框架
4.1机器学习工具概览
4.2Apache Mahout
4.2.1Mahout如何工作
4.2.2安装和设置Apache Mahout
4.2.3Mahout软件包详解
4.2.4Mahout中的vector实现
4.3R
4.3.1安装和设置R
4.3.2R与Apache Hadoop集成
4.4Julia
4.4.1安装和设置Julia
4.4.2在命令行中执行Julia程序
4.4.3例解Julia
4.4.4变量与赋值
4.4.5使用Julia的好处
4.4.6Julia与Hadoop集成
4.5Python
4.5.1Python中工具包的选择
4.5.2例解Python
4.6Apache Spark
4.6.1Scala
4.6.2RDD编程
4.7Spring XD
4.8小结
第5章基于决策树的学习
5.1决策树
5.1.1术语
5.1.2目标与用途
5.1.3构造决策树
5.1.4特殊的决策树
5.2实现决策树
5.3小结
第6章基于实例和核方法的学习
6.1基于实例的学习
6.1.1近邻
6.1.2实现kNN
6.2基于核方法的学习
6.2.1核函数
6.2.2支持向量机
6.2.3实现SVM
6.3小结
第7章关联规则学习
7.1关联规则学习
7.1.1关联规则的定义
7.1.2Apriori算法
7.1.3FPgrowth算法
7.1.4Apriori与FPgrowth
7.2实现Apriori及FPgrowth算法
7.3小结
第8章聚类学习
8.1聚类学习
8.2聚类的类型
8.2.1层次聚类
8.2.2划分式聚类
8.3kmeans聚类算法
8.3.1kmeans算法的收敛性
8.3.2kmeans算法的优点
8.3.3kmeans算法的缺点
8.3.4距离度量
8.3.5复杂度度量
8.4实现kmeans聚类
8.5小结
第9章贝叶斯学习
9.1贝叶斯学习
9.1.1统计学家的视角
9.1.2贝叶斯定理
9.1.3朴素贝叶斯分类器
9.2实现朴素贝叶斯算法
9.3小结
第10章基于回归的学习
10.1回归分析
10.1.1重温统计学
10.1.2混杂
10.1.3效应修饰
10.2回归方法
10.2.1简单线性回归
10.2.2多元线性回归
10.2.3多项式回归
10.2.4广义线性模型
10.2.5逻辑回归(logit连接)
10.2.6泊松回归
10.3实现线性回归和逻辑回归
10.4小结
第11章深度学习
11.1背景知识
11.1.1人类大脑结构
11.1.2神经网络
11.1.3反向传播算法
11.1.4Softmax回归算法
11.2深度学习类型
11.2.1卷积神经网络
11.2.2循环神经网络
11.2.3受限玻尔兹曼机
11.2.4深度玻尔兹曼机
11.2.5自动编码器
11.3实现ANN和深度学习方法
11.4小结
第12章强化学习
12.1强化学习
12.1.1强化学习的背景知识
12.1.2强化学习的主要特点
12.2强化学习算法
12.2.1动态规划
12.2.2蒙特卡罗方法
12.2.3时序差分学习
12.2.4Qlearning(异策略TD)
12.2.5actorcritic方法(同策略)
12.2.6Rlearning(异策略)
12.3实现强化学习方法
12.4小结
第13章集成学习
13.1集成学习方法
13.1.1群体智慧
13.1.2经典应用
13.1.3集成方法
13.2实现集成学习方法
13.3小结
第14章下一代机器学习数据架构
14.1数据架构的演进
14.2机器学习的现代数据架构
14.2.1语义数据架构
14.2.2多模型数据库架构/混合持久化
14.2.3Lambda架构
14.3小结
前 言
前言从结构复杂的海量数据集中探索数据蕴含的意义,是日益增长的现实需求。机器学习与预测分析技术是进行此类探索的重要工具。机器学习利用历史数据集,提取其中蕴含的模式,在不断的迭代中提升预测效果。机器学习能发现数据中隐含的动态趋势、模式及关系,这对业务增长非常重要。
在本书中,读者不仅仅能学到机器学习的基本知识,同时也能了解到现实世界的数据复杂性,然后使用Hadoop及其生态系统软件来处理和管理结构化及非结构化数据。
主要内容第1章介绍机器学习的基本概念及其常见语义。通过一些简单的术语来定义机器学习。本章是其余章节的基础。
第2章探索大规模数据集,包括其公共特性、数据重复问题、数据量快速增长的原因,以及如何处理大数据。
第3章介绍Hadoop,从Hadoop核心框架开始,然后扩展到其生态系统。学完本章,读者将掌握Hadoop的配置、部分功能的运行,同时也能了解到某些Hadoop生态系统组件。读者将能够运行和管理Hadoop环境及理解命令行工具的使用。
第4章介绍一些开源的机器学习工具,包括安装、算法在特定工具或平台中的实现,以及这些库、工具及框架的运行,这些工具或库包括Apache Mahout、Python、R、Julia以及Apache Spark中的MLlib。值得强调的是,本章中也会着重介绍这些库、工具或框架与Hadoop的集成。
第5章介绍一种有监督学习技术,称为决策树,它既可解决分类问题也可以解决回归问题。本章内容覆盖从特征选择到决策树分裂、剪枝等多个环节。重点介绍几类决策树算法,如CART、C45、随机森林以及一些高级的决策树。
第6章介绍两种机器学习方法——基于实例和基于核方法的学习,并讨论它们是如何解决分类与预测问题的。在基于实例的方法中,会详细介绍近邻算法。而在基于核方法的机器学习算法中,会重点介绍如何使用支持向量机解决现实问题。
第7章探讨关联规则学习相关算法:Apriori及FPgrowth。借助一个常见的例子,手把手教读者通过Apriori及FPgrowth算法进行频繁模式挖掘。
第8章讨论聚类学习方法,聚类是一种无监督学习方法。本章将深入介绍kmeans聚类,同时利用Mahout、R、Python、Julia、Spark等工具演示如何实现kmeans聚类。
第9章介绍贝叶斯学习。此外,介绍一些核心的统计学概念,从基本术语到各种分布模型。后会深入介绍贝叶斯定理,以及如何利用它解决现实问题。
第10章介绍基于回归分析的机器学习,重点介绍如何利用Mahout、R、Python、Julia、Spark等工具实现线性回归和逻辑回归。另外,也会介绍相关统计概念,如方差、协方差、ANOVA等。后会利用案例深入介绍如何使用回归模型解决现实问题。
第11章首先介绍生物学中的神经元模型、人工神经网络的功能以及与它的关联。读者将会学到人工神经网络的核心概念、全连接神经网络的结构。本章也会探究某些关键的激活函数,它们用到了矩阵乘法。
第12章介绍一种新的机器学习技术,称为强化学习。读者将会了解到它与传统的有监督和无监督机器学习技术的区别。本章也会介绍MDP基础,以及相关的案例。
第13章讨论机器学习中的集成学习方法,带领读者通过真实案例掌握某些有监督集成学习技术。后,本章将以源代码形式介绍如何利用R、Python(scikitlearn)、Julia、Spark、Mahout等工具演示梯度提升算法。
第14章介绍机器学习的实现。读者需要深刻理解传统分析平台的局限,以及为什么它们不能适应现代数据需求。读者也应该了解新的数据架构范式,如Lambda架构混合持久化(多模型数据库架构);本章也会介绍语义架构,它帮助使用者进行无缝数据集成。
阅读准备欲演示本书中的范例,需预先安装下列软件:
●R(2151)●Apache Mahout (09)●Python(scikitlearn)●Julia(034)●Apache Spark(Scala 2104)目标读者本书的目标读者是那些想了解机器学习实践及通过机器学习技术解决现实应用的数据科学家。本书能指导读者了解机器学习和预测分析的基本原理及进展,了解大数据革命的方方面面,这是任何致力于解决当前大数据问题的人员的资源。如果你想立即着手练习,需具备基本的编程(Python和R)功底和数学知识。
范例源码及彩图下载本书提供了源代码供读者下载,网址为https://githubcom/PacktCode/PracticalMachineLearning。
为了帮助读者更好地理解书中的内容,本书提供了彩图的PDF文件供读者下载:http://wwwpacktpubcom/sites/default/files/downloads/Practical_Machine_Learning_ColorImagespdf。
在本书中,读者不仅仅能学到机器学习的基本知识,同时也能了解到现实世界的数据复杂性,然后使用Hadoop及其生态系统软件来处理和管理结构化及非结构化数据。
主要内容第1章介绍机器学习的基本概念及其常见语义。通过一些简单的术语来定义机器学习。本章是其余章节的基础。
第2章探索大规模数据集,包括其公共特性、数据重复问题、数据量快速增长的原因,以及如何处理大数据。
第3章介绍Hadoop,从Hadoop核心框架开始,然后扩展到其生态系统。学完本章,读者将掌握Hadoop的配置、部分功能的运行,同时也能了解到某些Hadoop生态系统组件。读者将能够运行和管理Hadoop环境及理解命令行工具的使用。
第4章介绍一些开源的机器学习工具,包括安装、算法在特定工具或平台中的实现,以及这些库、工具及框架的运行,这些工具或库包括Apache Mahout、Python、R、Julia以及Apache Spark中的MLlib。值得强调的是,本章中也会着重介绍这些库、工具或框架与Hadoop的集成。
第5章介绍一种有监督学习技术,称为决策树,它既可解决分类问题也可以解决回归问题。本章内容覆盖从特征选择到决策树分裂、剪枝等多个环节。重点介绍几类决策树算法,如CART、C45、随机森林以及一些高级的决策树。
第6章介绍两种机器学习方法——基于实例和基于核方法的学习,并讨论它们是如何解决分类与预测问题的。在基于实例的方法中,会详细介绍近邻算法。而在基于核方法的机器学习算法中,会重点介绍如何使用支持向量机解决现实问题。
第7章探讨关联规则学习相关算法:Apriori及FPgrowth。借助一个常见的例子,手把手教读者通过Apriori及FPgrowth算法进行频繁模式挖掘。
第8章讨论聚类学习方法,聚类是一种无监督学习方法。本章将深入介绍kmeans聚类,同时利用Mahout、R、Python、Julia、Spark等工具演示如何实现kmeans聚类。
第9章介绍贝叶斯学习。此外,介绍一些核心的统计学概念,从基本术语到各种分布模型。后会深入介绍贝叶斯定理,以及如何利用它解决现实问题。
第10章介绍基于回归分析的机器学习,重点介绍如何利用Mahout、R、Python、Julia、Spark等工具实现线性回归和逻辑回归。另外,也会介绍相关统计概念,如方差、协方差、ANOVA等。后会利用案例深入介绍如何使用回归模型解决现实问题。
第11章首先介绍生物学中的神经元模型、人工神经网络的功能以及与它的关联。读者将会学到人工神经网络的核心概念、全连接神经网络的结构。本章也会探究某些关键的激活函数,它们用到了矩阵乘法。
第12章介绍一种新的机器学习技术,称为强化学习。读者将会了解到它与传统的有监督和无监督机器学习技术的区别。本章也会介绍MDP基础,以及相关的案例。
第13章讨论机器学习中的集成学习方法,带领读者通过真实案例掌握某些有监督集成学习技术。后,本章将以源代码形式介绍如何利用R、Python(scikitlearn)、Julia、Spark、Mahout等工具演示梯度提升算法。
第14章介绍机器学习的实现。读者需要深刻理解传统分析平台的局限,以及为什么它们不能适应现代数据需求。读者也应该了解新的数据架构范式,如Lambda架构混合持久化(多模型数据库架构);本章也会介绍语义架构,它帮助使用者进行无缝数据集成。
阅读准备欲演示本书中的范例,需预先安装下列软件:
●R(2151)●Apache Mahout (09)●Python(scikitlearn)●Julia(034)●Apache Spark(Scala 2104)目标读者本书的目标读者是那些想了解机器学习实践及通过机器学习技术解决现实应用的数据科学家。本书能指导读者了解机器学习和预测分析的基本原理及进展,了解大数据革命的方方面面,这是任何致力于解决当前大数据问题的人员的资源。如果你想立即着手练习,需具备基本的编程(Python和R)功底和数学知识。
范例源码及彩图下载本书提供了源代码供读者下载,网址为https://githubcom/PacktCode/PracticalMachineLearning。
为了帮助读者更好地理解书中的内容,本书提供了彩图的PDF文件供读者下载:http://wwwpacktpubcom/sites/default/files/downloads/Practical_Machine_Learning_ColorImagespdf。
评论
还没有评论。