描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787121315732
本书适合人群:
- 互联网行业数据分析人员:通过阅读本书,可以把学到的知识直接运用到生产实践中。
- 互联网产品运营人员:通过阅读本书,可以了解数据分析团队一般是如何支持产品运营人员的,以及数据分析团队能帮助产品运营人员干什么,产品运营人员将来可以更好地给数据分析团队提出分析需求。
- 统计专业高校生:本书可以作为行业实践案例教材,在学习书本知识的同时更好地了解实际情况,亲自动手进行实践,提高实战能力。
- 其他行业数据分析人员:可以了解互联网行业是如何进行数据分析和模型开发的,相互交流和学习。
- 致力于数据分析工作的爱好者:本书可以作为数据分析从业人员相互交流、沟通的桥梁。
- R语言爱好者:R语言的应用渗透到生产实践的方方面面,本书既讲解互联网电商实际项目,又是R语言交流的平台。
2009 年,当我走出校园的时候,整个世界在我的眼睛里都是“灰色”的。就在几个月前,由于英语成绩差一分没能考上研究生,正好又赶上金融危机和工作找的晚,能有一家公司接纳我已实属庆幸。刚出校园的我并不知道该做什么事情,应用数学——这个什么都能做、什么又都做不了的专业让我头痛不已,浑浑噩噩工作了一年,并没有学到什么有用的东西。有一天傍晚,独自走在街边,无意间听到了歌曲《初的梦想》:“初的梦想紧握在手上,想要去的地方,怎么能在半路就返航……”当天晚上,这首歌在我的脑海中不停地回荡,一直到深夜。生活不应该是这样,曾经的理想远没到绝望的地步。理想,这个已快被遗忘的东西重新回到了我的脑海中:我要做一名优秀的数据分析师。之后的一段时间,我拿起了统计学图书,每天晚上在华师大田家炳教育学院的教室中学习到很晚,统计学精妙的思想和优美的公式宛如一个气质典雅的妙龄女子,越品越有深意,越看越觉动人。渐渐的,我的生活也发生了改变,现有的工作已经不能实现我的理想,于是我开始寻找更高的平台。
可是现实并不是自己想象的那样美好。有一次去张江某个科技公司面试,面试官看到简历后问我是哪里毕业的,后很蔑视地把简历退给了我。回家的路上,我心如刀绞,心情久久不能平静。要让别人看得起你的方式就是你足够优秀。之后很长一段时间,学习、实践成为了我的全部。在整个学习过程中,我发现无论是现有图书还是网上资料,大部分都是理论介绍,真正应用层面的资料很少,就算有也只是轻描淡写地飘过,前因后果和真正值得注意的地方都不会写得很详细。于是,在学习和钻研的同时,我做了大量的整理和记录。这些宝贵的资料成为了我之后工作中重要的“武器”,也是本书灵感、技术的源泉。一年之后,在一家公司面试时很巧合地又遇见了那位曾经退我简历的面试官,这次我以初试名的成绩进入了面试,在谈话的后,我看着她的眼睛郑重地跟她说:我本科就读于东华大学,一所普通的 211 大学,但不妨碍我成为一名优秀的数据分析师,请把我的简历还给我。若干年后,我认识到了当年的举动纯属年少轻狂,但并不后悔,正是有了这次经历才让我知道一个人是可以通过努力改变人生轨迹的。
本书特色
上述经历只是想告诉阅读本书的读者,数据分析工作并不是一座高不可攀的山峰,对于大部分普通人来说,只要刻苦钻研和动手实践,一定能够感受到数据分析带来的快乐和成就感。钻研和实践离不开书籍,目前市场上的数据分析图书对理论部分的介绍比较多,真正实际应用的内容比较少,即便是实际应用,其核心内容也只是寥寥几句,如逻辑回归,简单的数据处理后直接进行模型拟合。在实际应用过程中,现实往往复杂得多,仅有上述简单粗暴的说明在实际工作中面对具体项目时往往达不到需要的效果。笔者后来读在职研究生时,记得华东师范大学的王静龙教授曾经说过:数据分析工作怕的就是不管三七二十一,拿到数据后直接套模型。这就要求我们在学习时搞清楚模型方法背后的理论,在实际工作中判别模型运用的条件。本书正是想填补市场上这一方面的空缺,以互联网电商为背景,把一些普遍遇到的问题拿出来,以项目的形式呈现并提出具体的解决方案。相信读者看完本书后,对互联网电商及数据分析实际应用会有不同的感受。
2014 年,经过一番思想斗争后,我终选择学习 R 语言。 R 语言语法简捷、资源众多、开源免费等优点在互联网企业中应用广泛。也许很多读者会把 R 语言与 Python 做比较,在我看来,数据分析师主要的工作是快速实现算法,因此 R 语言是数据分析师好的选择。本书给出了所有实例的 R 语言源代码,共 33 个自定义函数和数千行 R 语言代码,每个自定义函数都实现了一个统计分析模块,读者可以直接使用或者根据自己的业务模型修改后使用。
如何阅读本书
本书第 1 章介绍互联网行业统计分析及全书的架构和说明。第 2 章详细介绍 R 语言入门的基础知识,如果读者对 R 语言的基础知识已经很熟悉了,可以跳过此章。后面几章都围绕着具体项目展开,其形式分为 3 部分:项目背景、目标和方案,项目技术理论简介,项目实践。项目背景、目标和方案为整章的导引,介绍整个项目的前后缘由及需要解决的问题。项目技术理论简介部分又分为两个部分,第 1 部分为该项目涉及到的统计学理论,方便读者回顾知识点;第 2 部分为涉及到的统计学理论的 R 语言实现方法。项目实践部分具体阐述项目解决的整个过程,包括详细的 R 语言源代码。
本书适合人群
●互联网行业数据分析人员:通过阅读本书,可以把学到的知识直接运用到生产实践中。
●互联网产品运营人员:通过阅读本书,可以了解数据分析团队一般是如何支持产品运营人员的,以及数据分析团队能帮助产品运营人员干什么,产品运营人员将来可以更好地给数据分析团队提出分析需求。
●统计专业高校生:本书可以作为行业实践案例教材,在学习书本知识的同时更好地了解实际情况,亲自动手进行实践,提高实战能力。
●其他行业数据分析人员:可以了解互联网行业是如何进行数据分析和模型开发的,相互交流和学习。
●致力于数据分析工作的爱好者:本书可以作为数据分析从业人员相互交流、沟通的桥梁。
●R 语言爱好者: R 语言的应用渗透到生产实践的方方面面,本书既讲解互联网电商实际项目,又是 R 语言交流的平台。
勘误和联系
由于时间仓促及水平有限,本书难免有错误和不准确的地方,恳请读者批评指正。具体联系方式如下。
(1)微信: roger_luo 121
(2)邮箱: [email protected]
此外,本书的勘误将会在我的个人博客(http://blog.sina.com.cn/u/1984071801)上发布。
致谢
感谢中国统计网的赵良和电子工业出版社的张慧敏老师,没有他们的介绍和指导,这本书就不会有创作的机会。
感谢我的妻子、女儿和岳母,正是你们的鼓励和支持,我才会走到今天。尤其是我的妻子,一直以来对我的学业和事业都无条件支持,你的鼓励和陪伴永远是我前行的动力。
感谢蒋庆、何丽丽在本书创作过程中给予的帮助。尤其是蒋庆,本书各个章节都有他的建议和校验,正是有了他的帮助,才使得本书写作顺畅地完成。
感谢东华大学和华东师范大学的老师和同学,从你们身上学到的东西让我终身受用。
后,特别要感谢的是我的爸爸和已故的妈妈。 11 年的快乐童年是那样的短暂,对我的一生更是显得弥足珍贵。此后,在父亲和家人细心呵护、竭力培养下才有了我的今天。妈妈生命的后时刻,跟我说的后一句话是让我听话和好好读书,谨以此书献给天上的您,希望您在天堂开心、快乐。
罗荣锦
2017 年 4 月
4.1 项目背景、目标及方案
4.1.1 项目背景
还记得第3 章中那个运营团队负责人吗?在数据分析团队花了几周时间制定运营指标体
系,并且制作了趋势线指标及用户价值和活跃度之后,一天上午他又气呼呼地跑到数据分析总
监的办公室抱怨:每天查看运营分析报告简直是一件令人头疼的事情,指标太多了,并且一时
间难以有效察觉问题;另外,他想知道未来可能的情况,以便可以提前做准备。数据分析总监
听后找来了数据分析经理,把需求阐述了一遍。数据分析经理领命后又一次陷入沉思,线上指
标数量庞大,每天通过肉眼一个一个地跟踪确实耗费大量的人力成本和精力,效率极其低下,
若可以针对重要指标制定一套自动报警机制,把每天有异常的指标自动输出,则可以有效降低
人力成本。另外,运营团队负责人需要对未来的情况有一个了解,这就需要通过历史数据对未
来进行预测。于是,数据分析经理制定了项目目标。
4.1.2 项目目标
针对重要指标建立预测模型,通过预测模型的95%预测上下限建立监控范围。这样就可以
一举两得,预测模型可以对未来进行预估,另外95%上下限建立的范围可以用于监控,若当天
数值超出当天预测值的监控范围,则报警。后,通过可视化工具前端展示整个需求就可以了。
4.1.3 项目方案
目标制定后,需要找出一套有效的技术手段来实施,经过团队讨论和调研,终选择使用
时间序列模型对指标进行预测,并且确定了监控系统技术流程,如图4.1 所示。
4.2 项目技术理论简介
本节主要是对项目方案中涉及到的统计学理论进行简单介绍,在项目实践中每一步的处理
过程都是基于这些理论展开的,故在做项目之前,有必要对其背后的理论进行大致的了解。
4.2.1 时间序列基本统计量
1.时间序列均值和方差
(1)均值
设时间序列{Xt ,t ∈T},任何时刻的序列值都是一个随机变量,并且都有它自己的概率分布,
记Xt的分布函数为Ft (x),若∞ xdFt (x)
∫−∞ < ∞,则该时间序列均值为μt EXt ∞ xdFt (t)
= ∫−∞ 。
当t取遍所有的观察时刻时,就得到一个均值序列{μt ,t ∈T}。
(2)方差
当2
x dFt (x) ∞
∫−∞ < ∞时,方差为:
E( )2 ( )2 ( ) DXt Xt μt x μt xdFt x ∞
= − = ∫−∞ −
当t取遍所有的观察时刻时,就得到一个方差序列{DXt ,t ∈T}。
2.自协方差函数和自相关函数
对于时间序列{Xt ,t ∈T},任取t,s∈T。
第4 章 指标监控系统
自协方差函数为:
γ t,s = Cov(Xt , Xs )
其中,Cov(Xt , Xs )=E[(Xt -μt )(Xs -μs )] = E(Xt Xs ) −μtμs。
自相关函数为:
ρt,s = Corr(Xt , Xs )
其中,
,
, ,
Corr( , ) Cov( t , s ) t s
t s
t s ttss
X X X X
DX DX
γ
γ γ
= =
×
4.2.2 数据观测与描述性统计
1.折线图
折线图作为时间序列数据直观的统计图形,能很好地反映整个趋势的走向和周期性,通
过观察折线图可以为下一步的分析提供指引性的先验知识。
2.平稳性
(1)严平稳
设时间序列{Xt ,t ∈T},对任意正整数m,任取t1,t2 ,…,tm ∈T ,对任意整数τ ,可得:
1, 2 ,…, ( 1, 2 ,…, ) 1 , 2 ,…, ( 1, 2 ,…, ) Ft t tm X X Xm Ft r t r tm r X X Xm =
则称时间序列{Xt ,t ∈T}为严平稳的。
简单点说,严平稳是一种条件比较苛刻的平稳性定义,只有当序列所有的统计性质都不会
随着时间的推移而发生变化时,该序列才能被认为平稳。
(2)宽平稳
给定二阶矩过程(二阶矩存在){ } , T t X t ∈ ,如果t X 的均值函数t
μ 是常数,对∀t ,s∈T,
h > 0有γ t,s =γ t μ s μ ,即相关函数只与时间间隔有关,则称为宽平稳过程。
简单地说,宽平稳是使用序列的特征统计量来定义的一种平稳性,它认为序列的统计性质
主要由它的低阶矩决定,所以只要保证序列低阶矩平稳(二阶),就能保证序列的主要性质近似
稳定。
(3)一般关系
严平稳条件比宽平稳条件苛刻,通常情况下,低阶矩存在的严平稳能推出宽平稳成立,而
宽平稳序列不能反推严平稳成立。
注意:不存在低阶矩的严平稳序列不满足宽平稳条件,例如,服从柯西分布的严平稳序列
就不是宽平稳序列。当序列服从多元正态分布时,宽平稳可以推出严平稳。
(4)检验方法
a.正态性检验
如果一个序列是正态分布的,那么它一定平稳,所以平稳性检验也是正态性检验。注意,
原假设是数据服从正态分布。
b.自相关图
平稳序列通常具有短期相关性。判断序列是否平稳,可以从自相关系数的衰减来判断,即
自相关系数是否随着延迟期数的增加而迅速衰减至零。
c.单位根检验
d 阶单整:如果一个非平稳序列在d 次差分后成为平稳序列,则称其为d 阶单整的。
检验方法:对序列进行单位根检验,即检验序列的特征方程是否存在单位根,如果存在单
位根,则说明序列非平稳,如表4.1 所示。
(5)非平稳序列平稳化
若上述平稳化检验不通过,那么通常情况下需要经过一些变化使得变化后的序列满足平稳
性要求。平稳化步骤如下。
a.差分变换。
b.对数变换:取自然对数等。适合数量级较高、偏态较大的指标。
c.进行Box-Cox 变换:
评论
还没有评论。