描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302482697
目录
第1章如何从海量数据中筛选你需要的数据
——数据的收集
1.1从柏拉图摘麦穗说起
1.1.1如何摘到的麦穗
1.1.2样本点和样本的区别
1.1.337%法则
1.2新生婴儿性别比例总是趋于稳定吗
1.2.1近似相等与相等的重要区别
1.2.2从婴儿性别比例推广到火柴燃烧时间
1.2.3大数定理在保险行业的应用
1.3为什么一小部分人的意见就能代表全体人
1.3.1100个人的收入能代表10000个人的
收入吗
1.3.2确定抽样人均收入与真实人均收入间
的误差
1.3.3考虑样本的大小
1.4一份标准试卷是怎么设计出来的
1.4.1抽样时真的能做到完全随机吗
1.4.2确保高考试卷的公平性
1.4.3抽样调查的一些补充要点
生活中的统计学
目录
第2章小小统计量中的大奥妙
——描述性统计分析
2.1你知道年龄属于哪一类数据吗
2.1.1如何用数字表示求职者的学历
2.1.2统计调查中专用的数据类型有哪些
2.1.3新浪微博属于哪类数据
2.2平均薪资的陷阱和真相
2.2.1是谁拉高了平均薪资
2.2.2如何计算加权平均薪资
2.2.3用四分位数估计薪资区间
2.3得分高就是好球员吗
2.3.1用极差、四分位差和平均差衡量球员的
水平
2.3.2方差和标准差的关系
2.3.3消除了量纲的统计量
2.4常见的社会经济统计量
2.4.1国内生产总值到底是怎么核算出来的
2.4.2根据国内生产总值衍生出的其他统计量
2.4.3基尼系数和恩格尔系数
第3章使用色彩和图形传递信息
——绘制统计图表
3.1为什么条形图比折线图更好
3.1.1基本的3种图形
3.1.2条形图优于折线图的两个理由
3.1.3直方图和条形图的区别
3.2离散型变量适合绘制的图形
3.2.1什么样的数据适合画饼图
3.2.2有时候表格比图形更重要
3.2.3马赛克图和茎叶图也是图形的一分子
3.3为高维变量绘图
3.3.1三维图一定比二维图美观吗
3.3.2按照变量绘制高维图形
3.3.3按照样本点绘制高维图形
3.4好图形的3个标准
3.4.1常见的几种绘图错误
3.4.2一些优秀图表案例
第4章用概率的眼光看世界
——常用的几种概率分布
4.1买彩票真的能发家致富吗
4.1.1由福彩6 1的中奖概率导出二项分布
4.1.2计算福彩6 1的获奖期望
4.1.3超几何分布和人寿保险问题
4.2几点出门才不会迟到
4.2.1用二项分布逼近泊松分布
4.2.2一个简单的公共汽车客流案例
4.2.3如何判断一个分布是否为泊松分布
4.3捕捞到金鱼的概率有多大
4.3.1从水缸里捞金鱼谈到几何概率
4.3.2一维均匀分布和二维均匀分布
4.3.3利用均匀分布进行模拟估计
4.4智商多少才是正常水平
4.4.1高尔顿板实验和正态分布的联系
4.4.2一元正态分布的主要性质
4.4.3计算正态分布的概率
4.5手提电脑的寿命到底有多长
4.5.1电器寿命和指数分布的关系
4.5.2从泊松过程中推导指数分布
第5章用概率分布解决实际问题
——参数估计和非参数估计
5.1根据月账单明细估计消费水平
5.1.1估计湖中的鱼苗数目
5.1.2选择账单明细的方差估计量
5.1.3点估计量的其他性质
5.2进一步估计消费区间
5.2.1估计变量是否服从正态分布
5.2.2估计消费账单的区间
5.3直方图估计VS核密度估计
5.3.1用直方图估计花萼宽度数据的分布
5.3.2使用核函数使密度函数变得平滑
5.3.3K近邻估计和聚类分析
第6章判断估计结果的合理性——假设检验
6.1如何得知袋装面包有没有偷工减料
6.1.1确定面包重量的分布
6.1.2双侧假设检验
6.1.3单侧假设检验
6.2投放广告能增加销售额吗
6.2.1检验两个正态分布的均值
6.2.2检验两个正态分布的方差
6.2.3有关假设检验的补充知识
6.3由遛狗结果求解后验概率
6.3.1轮盘赌和遛狗的条件概率
6.3.2儿童智商问题与参数的区间估计
6.3.3根据后验概率比进行假设检验
6.4补习班真的能提高小孩成绩吗
6.4.1参数检验和非参数检验的区别
6.4.2利用样本的秩判断两组成绩数据是否
有差别
6.4.3从另一种角度检验补习班问题
6.5检验离散型的顺序变量和因子变量
6.5.1卡方分布就是正态分布的平方和
6.5.2检验历年战争次数是否服从泊松分布
6.5.3检验年龄和投票结果是否相互影响
第7章从稻田试验发展出的学科——方差分析
7.1从F分布推出方差分析的基本原理
7.1.1从卡方分布导出F分布
7.1.2方差分析的一些基本知识
7.2去哪家餐厅吃饭更合算
7.2.1餐厅得分的组内差异和组间差异
7.2.2使用F分布检验餐厅得分是否有所不同
7.2.3方差分析的多重比较问题
7.3餐厅的地理位置会影响菜肴的美味程度吗
7.3.1在餐厅问题中引入餐厅地理位置因素
7.3.2考虑地理位置与餐厅的交互作用
7.3.3从两因素方差分析推广到其他的方差
分析
7.4中药和西药哪个对糖尿病更有效
7.4.1配对比较实验设计问题
7.4.2随机化区组实验设计问题
第8章统计学界的明珠——相关与回归问题
8.1花瓣数据和花萼数据的关系
8.1.1比较4种花朵数据的相关性
8.1.2消除其他变量对相关系数的影响
8.1.3计算离散型数据的相关系数
8.2姚明的儿子会比姚明还高吗
8.2.1父亲身高与儿子身高的相关性
8.2.2使用小二乘估计回归参数
8.2.3在回归分析中引入母亲身高
8.2.4使用逐步回归筛选自变量
8.3收入和支出呈线性关系吗
8.3.1高收入人群与低收入人群的消费模式
8.3.2多项式回归和R2
8.3.3广义线性回归模型和非线性回归模型
8.4如何计算花朵的种类
8.4.1将婚姻状态处理为哑变量
8.4.2花朵种类计算结果与S分布
8.4.3逻辑回归中的优势比
8.5回归分析常见谬误
8.5.1使用残差项检验异常值问题
8.5.2DW检验和自相关问题
8.5.3多重共线性和异方差问题
〖=(〗122457791113131517191921232526262829313133353838414244444648515252565962626567696972767979848990909394969799101102103105109111111114117121121124127128128130132133133137139140142146149150150153154157157160162165165167169170170172174177177179181185186186188191191193194196197199201202202204207208208211212214215217219221224224228231232232234237238238241243〖=〗
前言:就这样爱上统计学
统计学是一门与实际生活十分贴近的学科,它起源于研究社会经济问题,早在古希腊时期,亚里士多德就发明了以记录各希腊城邦的历史、行政、科学、艺术、人口、经济等数据的城邦纪要,除去这些日常记录外,统计学也很早就被应用在卫生监察和健康等方面。
约翰医生平息霍乱是一个著名的统计学例子。霍乱是19世纪令人害怕的流行疾病,它在伦敦曾肆虐多次,夺走了数千万人的生命。约翰·斯诺统计了一些霍乱死者的生活情况,发现霍乱的发生与水源有明显关联,凡是在百老大街的水泵取水的伦敦居民,发病率明显要高很多。由此,约翰医生证明水源是霍乱传播的一大途径,提出了实用的几种预防措施,有效降低了霍乱的致死率。
另一个类似的例子发生于克里米亚战争期间。1845—1856年,南丁格尔为克里米亚交战双方的伤兵服务,将后方医院的死亡率由42.7%下降至2.2%,以人道、慈善之心挽救了许多人的生命。同时,她还是英国皇家统计学会的名女性会员,她发明了极区图,反映了不同时间段内战斗死亡的士兵人数与受伤而缺乏治疗死亡的士兵人数,清晰地说明前者的数量少于后者,从而使英国当局意识到改善伤兵医疗工作的必要性。
在现代社会,统计学逐渐推广到社会科学、自然科学和工程技术科学等越来越多的领域,应用例子更是多如繁星、数不胜数。美国零售巨头沃尔玛归纳分析了消费者的购物小票,发现年轻爸爸们在购买尿布时,常常会搭两瓶啤酒,好在晚上看电视时过过酒瘾。于是,沃尔玛将两者放在一起销售,使尿布和啤酒的销量均大幅增加,这就是著名的“啤酒与尿布”案例。
生活中的统计学
前言:就这样爱上统计学
而1936年美国总统大选则是一个统计学家津津乐道的反面案例。著名的《文学摘要》杂志社按照电话簿目录和汽车俱乐部成员名单向外派发了1 000万份调查问卷,调查结果显示兰登将获胜,但实际结果恰好与调查结果相反。
这是由于当时电话和汽车十分昂贵,几乎是中产阶级的代名词,《文学摘要》忽略了这点,它的调查结果只能说明中产阶级更支持兰登,而实际上人数更多的贫困阶级则是罗斯福的忠实拥护者。这一疏忽直接导致《文学摘要》威信扫地,关门停刊。
在亚里士多德之后,英国的威廉·配弟使用数字、重量和尺度将社会经济现象数量化,并于1672年出版《政治算数》一书,这是近代统计学成立的标志。从此,统计方法与数学计算和推理方法开始结合。
统计学的两个核心理论是大数定理和中心极限定理,前者证明了一小部分样本即可代表全体,后者解释了样本量和结果可靠性之间的联系。这两个定理共同保证了抽样分析的合理性。本书开篇便介绍了这两个定理,以及如何挑选样本,确保分析结果的可靠性。
抽取出样本数据后,探索性分析是不能跳过的一个分析步骤。本书的第2章介绍了各种探索性分析方法,第3章则用图表的形式来表现分析结果。这两个章节的意义在于初步了解样本数据的特点。
概率分布是现代统计学的理论基础。从15世纪开始,数学家就对赌博问题产生了浓厚的兴趣,知名的赌博问题有分赌注问题和三门问题等。传统的赌博问题引出的是离散概率,由离散概率进一步研究,又得到连续概率。本书第4章讨论了几种常用的概率分布。
在学习统计学的理论基础后,一个自然而然的想法是使用样本中的信息去估计总体中的信息。例如,灯泡厂抽样检查时,抽取的灯泡寿命和全部灯泡的寿命是什么关系?参数估计和非参数估计所关心的就是这样的问题。第4章详细地讨论了这些内容,即如何用样本中的信息来表达总体中的信息。
有了对总体的估计后,我们还关心这个估计是否可靠。同样的估计方法在不同情况下的可靠性是不同的,第5章总结了如何判断估计值的可靠性,即假设检验的内容。第6章的主题是方差分析,它是假设检验的进一步延伸。方差分析与实验设计紧密相关,它早用于解决农业问题,即改变各个培养条件,通过观察产量找出的麦子种植方法。
第5、6、7三章的内容彼此相关,第8章则较为独立。它研究了一些变量是如何决定另一些变量的,相关分析和回归分析是统计学中十分重要的部分,也是实际生活中应用广的两种分析方法。
总之,统计学是一门发展时间较长、较成熟的学科。随着大数据的崛起,统计学也被注入了新的元素。越来越多的人激发了对统计学的兴趣。本书较全面地介绍了常见的统计学分析方法,包括描述性统计分析、参数估计、非参数估计、相关分析和回归分析等部分。此外,本书还注重与实际案例的结合,生活中的许多常见现象都可以在本书中找到踪影。在写作本书过程中,我们也注意坚持以下特色。
本书特色
1. 案例贴近生活,语言生动有趣,实用性强
统计学出现在生活中的方方面面,一些大家常见的生活现象背后蕴含着深刻的统计学原理。本书通过讨论这些活生生的案例,使用生动活泼的语言,形象地讲解了10余种统计分析方法,这些案例能帮助读者较容易地领略统计分析背后的原理,而这些方法反过来又可以解决许多生活中的实际问题。通过阅读本书,读者能够深切地体会到统计学在生活中的各种用处。
2. 内容深入浅出,层层递进,适合各个层次的读者
本书从简单的描述性统计分析入手,由易到难,依次讲解了统计图表绘制、概率分布等基础知识,以及参数估计、方差分析、相关分析和回归分析等分析方法。而在每一章节中,作者也精心安排知识点分布,以达到层层递进的效果。本书内容深入浅出,读者既可以按照顺序依次阅读,也可根据自己的实际水平,单独阅读每一章节。
3.文章脉络清晰,构建出一个完整的数据分析知识体系
统计学分析的各个分析方法之间存在递进关系,如方差分析是在假设检验的基础上发展得来的,而假设检验又是对参数估计的拓展与延伸。本书按照各个知识点的关系合理地组织了文章结构,各个章节间彼此关联,构建出一个完整的数据分析知识体系,可帮助读者对统计分析形成一个全面的认识。
本书体系结构
本书共由8章构成,每一章都有一个独立的主题,分别为数据的收集、描述性统计分析、绘制统计图表、常用的几种概率分布、参数估计和非参数估计、假设检验、方差分析、相关与回归问题。这8个章节又进一步可分为两大部分。
部分为前4章。其中第1章讨论了大数定律、中心极限定理和几种常用的抽样方法,解释了统计分析中样本数据通常是从何而来,以及统计分析方法为何有效。第2章讨论了一些常见的统计量,如均值、方差、四分位差等,并从统计学角度严格地阐述了它们的不同,以及它们的特点,这一章节有助于读者初步构建统计思想,从统计学的角度理解问题。第3章的主题是绘制图表,这一章与第2章节前后呼应,向读者展示了统计学的一个基本职能,即将分析结果简洁明了地表达出来。第4章则是有关概率分布的基本知识,这是比较抽象而难以理解的一章,通过阅读这一章节,读者将正式踏入统计学的大门。
第二部分为后4章。在学习基础知识后,读者将开始接触更高深的统计学分析方法。第5章包含两个主题,即参数估计和非参数估计,它们研究的是如何用样本中的信息去估计总体中的信息。第6章讨论了样本对总体的估计是否可靠。而第7章则是对第6章的拓展,将两个样本的情况拓展到多个样本中去。
第5、6、7章的内容环环相扣、相辅相成,第8章则较为独立。但相关分析和回归分析是统计学中十分重要的部分,也是实际生活中应用广的两种分析方法。第8章仅简要讨论了几种常见的回归方法,还有一些内容并未列出,如泊松回归分析等。
以上划分方法仅为一个参考,本书的8个章节互相联系又彼此独立,读者可按照上述顺序阅读本书,也可优先阅读某些章节,如在读完前4章后,可直接阅读第8章。
本书读者对象
·
想要学习统计学的数据分析从业人员
·
统计学、金融学、计算机技术与科学等专业的学生
·
想要提高统计分析能力的数据分析师
·
希望系统学习统计分析方法的从业人员
·
其他对统计学有兴趣爱好的各类人员
编者
2017年7月
本书是为对统计学充满兴趣的读者专门撰写的一本入门书籍,书中内容充实,言之有物,讨论了描述性统计分析、概率分布、参数估计、非参数估计和回归问题等常用的统计分析方法,基本涵盖了统计学的主要内容。读完本书,读者将理解生活中许多常见现象背后的统计原理。
本书注重分析方法与实际案例的结合,每一种统计方法都有相对应的实际问题。能很好地指引读者如何在生活中应用这些统计学方法,并帮助读者深入思考和理解统计学,是一本十分有用的参考书籍。
统计学是一门较难入门的学科,本书使用朴素的语言简单明了的阐述了统计方法的核心原理,以及统计分析的基本思想。通过阅读本书,读者能领略统计学的魅力,并迅速提高统计分析水平。
我*欣赏本书中有关绘制图表的部分。统计学能应用到社会的方方面面,统计图表能简洁有力地向大众阐述分析结果。本书在这方面给出了上佳的例子,强烈推荐奋斗在*线的数据分析师们读一读本书,这能促进你们对分析结果的理解。
1.1从柏拉图摘麦穗说起在不回头而且只能摘一次麦穗的要求下,有没有可能摘到的麦穗?怎样才能保证摘到麦穗的概率?而策略又会在什么情况下失效?简单的哲学问题中蕴含了有趣的统计学知识,这正是本小节要讨论的内容。1.1.1如何摘到的麦穗有一个流传很广的故事是这样说的:
有一天,柏拉图问他的老师苏格拉底什么是爱情,苏格拉底回答说:“你去麦田里,随便选一条小径,顺着向前走,从路两旁摘一棵你觉得金黄的麦穗,但是你只能摘一次,而且也不能回头。”柏拉图两手空空地走出麦田,苏格拉底问他为什么摘不到,他回答说:“因为只能摘一次,又不能走回头路,其间即使见到一棵又大又金黄的,因为不知前面是否有更好,所以没有摘;走到前面时,又发觉总不及之前见到的好,原来麦田里金黄的麦穗,早就错过了;于是,我什么也没摘到。”
苏格拉底说:“这就是爱情。”哲学家看到这个故事,心里会无限唏嘘,啊,原来这就是爱情,爱情就是给人回忆和经历的东西,然后还能散发联想到“我从哪里来”“要到哪里去”之类的其他事情。数学家却不这样想,怎么可能会摘不到金黄的麦穗呢?即便摘不到好的,也一定存在某种方法能够摘到比较好的麦穗。大部分田中小径都是笔直的,因此当柏拉图站在小径一端时,应该是能目测出小径的长度的。同时,麦田中的麦子排列得往往都十分整齐,柏拉图只需稍微看一眼,便能估算出麦子间的间隔有多大,小径两旁种了多少行麦子。不妨假设这条小径长100米,种了200行麦子,那么,柏拉图能够摘到的就是路两侧的400棵麦穗。那么,怎么才能从这400棵麦穗中选出好的一棵呢?评价一棵麦穗好不好时,一方面要看它大不大,一方面要看它黄不黄。麦穗的大小可以用麦穗从顶到底的长度来表示,麦穗的颜色可以用色度来表示。我们称一棵麦穗就是一个样本,“麦穗从顶到底的长度”“麦穗的色度”就是两个指标,并且称全部的400棵麦穗为一个总体。显然,在我们假想出的这个总体里包含400个样本,每一个样本包含两个指标。如果将这些数据记录在Excel里边,就能得到一个400行、2列的表格。我们的任务就是从这400个样本里选出指标值的那个样本。回到摘麦穗问题上。如果能够回头,这个问题是很好解决的,柏拉图只需从小径一头走到另一头,记下好的麦穗是哪棵,再回头把它摘下来就可以了。用抽象的数学语言表达,就是概览一遍总体中的数据,再选出的样本点。但是由于柏拉图不能回头,因此就不能根据位于他前方的麦穗的好坏来决定摘哪棵麦穗,只能根据位于他后方的麦穗的好坏来下决定。当柏拉图站在起始位置时,他对于麦田中的麦穗是一无所知的,当他踏出步,见到棵麦穗后,就对麦田中的麦穗有了一点儿了解,随着他见过的麦穗越来越多,他对麦田整体的认识也就越来越全面。那么,如何根据已经见过的麦穗来决定摘取哪一棵麦穗呢?1.1.2样本点和样本的区别假设你的老师也要求你去麦田中摘麦穗,你已经走过一半的路途,恰好站在小径的正中间。回首你走过的那半边麦田,你心想,我已经见过了一半的麦穗,这些麦穗中长的有××厘米那么长,在接下来的一半路程中,如果我再见到比它长的麦穗,那我就摘下来。这种做法非常明智,它也符合大多数人的常识。既然麦田里的麦子长得都差不多,那我见过的200个麦穗和我没见过的200个麦穗也就长得差不多。只关注前200个麦穗时,也能找到一个长的麦穗,并且,即便是在全部的400个麦穗里,这个麦穗也属于比较长的那一部分。那么,在接下来的后半段路程中,只要我再看到一个优于它的麦穗,就可以认为这就是好的麦穗,起码,是处于水平的麦穗。这种做法就是统计学中所说的“从样本推断总体”,将位于前半段小径的200棵麦穗看作一个整体,并根据这个整体来推断总体的情况。这个整体也称为一个样本,这个样本中包含了200棵独立的样本,即200棵麦穗。为了区分一个麦穗所代表的一个样本和由200棵麦穗组成的样本,我们也称一个麦穗为一个样本点或一个数据,反映在Excel里,就是一行数据即为一个样本点,一部分样本点组成一个样本。根据前一半麦穗的情况推断后一半麦穗的情况是很聪明的做法,但这种做法也有缺陷。,我们不知道麦田里的麦穗是不是随机分布的,如果麦田里的麦穗按照从小到大的顺序整整齐齐地排列着,那这种做法就完全不起作用。第二,的那棵麦穗可能位于小径前半段,也可能位于小径后半段。如果它位于小径前半段,那么我们在小径后半段就看不到比它还大的麦穗,只能两手空空地走出麦田。个缺陷比较好解决,站在小径尽头眺望一下,便能知道麦田里的麦穗是不是随机分布的。第二个缺陷却不太容易避免,在麦穗服从随机分布的情况下,如果我们把一半的麦穗都当作样本,那么做100次摘麦穗实验,的麦穗会有50次出现在前半段小径,导致我们与麦穗擦身而过,摘不到麦穗。
评论
还没有评论。