描述
开 本: 16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787121264696
为什么出口产品被退运?
如何运用已有的销售数据来确定未来进货,进设备,扩充门面?
鸡兔同笼问题原来还可以这样解决?
假设某家工厂生产某系列3种型号的产品。这3种产品的使用原材料相同,但材料消耗量和产品市场销售价格有所不同,那么如何安排生产能使利润更大化?
某产品如何选择5种原有原料进行配比可以使得产品满足质量要求的情况下成本更小?
如何测算投资更大收益化?
如何做一个精明的老板,如何决定各种产品生产的数量以获取更大的利润?
如何根据今年的销售确定明年进货才能使利润更大化?
公司如何搬家又省力又省钱,还能照顾所有人情绪?
吃海参能让人变聪明吗?
用户调查当中如何知道支出与收入有什么关系?
如何配比各种原料使产品的用户体验更佳?
咖啡商如何添加辅料,既可以改善口感,又可以降低咖啡因含量?
如何选择适合自己的早餐?
海拔是否影响血压?
哪些熊猫已足够强壮到可以适应野外生活?
如何找男友?
本书不仅介绍Excel而且介绍使用其他工具软件进行数据分析,可用来拓展互联网公司、传统企业、电商企业、管理咨询公司等各行各业从事数据分析工作的分析师和管理者对数据分析的认知,也适合初中级数据分析师或者想进入数据分析行业的有志之士参考阅读。
1.1 预测从世界杯开始
1.2 手机绑定消费的秘密
1.3 笔记本电脑出国冒险记
1.4 慧眼识分布
1.5 分布72变
1.6 做秀的面包店长
第2章 运筹帷幄,决胜千里——效益化
2.1 换个思路来数鸡
2.2 做一个精明的农场主
2.3 见识LINGO与Crystal Ball的威力
第3章 图个明白,精彩展现——JMP精彩图表
3.1 图个明白——常用图形
3.2 图个明白——树图
3.3 图个明白—— SPC图 214第4章 抽丝剥茧,明察秋毫——相关分析
4.1 假设检验——大胆假设,小心求证
4.1.1 小心求证—均值检验
4.1.2 小心求证—比例检验
4.1.3 小心求证—非参数检验
4.2 相关与回归分析
4.2.1 相关性与第三方变量
4.2.2 收入与支出关系—简单线性回归
4.2.3 口感食品配方—多元线性回归
4.2.4 咖啡好喝,不能多喝—非线性回归
4.2.5 预防心血管疾病从减肥开始—二值Logistic回归分析
4.3 人以类聚,物以群分——聚类分析
4.3.1 美好一天从早餐开始—观测值聚类分析
4.3.2 海拔是否影响血压—变量聚类分析
4.3.3 为熊猫分类—K均值聚类分析
第5章 要里子,也要面子——数据展现的艺术
5.1 哪种水果更好卖
5.2 书店利润化
5.3 非诚勿扰——男友模型
笔者自2008年的一个偶然机会第1次接触“数据挖掘”(Data Mining)这个新名词以来,在数据挖掘应用相关领域度过了6年。笔者的专业是化工,整天应该与塔、釜、换热器、化学反应和物料守恒等打交道。开始接触这个专业的目的是为了利用数据分析的一些功能来优化生产运营,让企业以更高的效率、更低的成本和更好的质量运营,为此需要数据积累、数据分析和数据模型。
2008年,国内企业在数据挖掘应用中摸索起步,远不如现在大数据火热。如今大数据火的商业应用主要集中在互联网、银行和电信等领域。基于行业应用限制,笔者无法接触到真正的大数据挖掘,但是幸运的是还是碰到了职业和兴趣的重合点。
这几年的摸索是笔者职业生涯中很重要的一段时光,因此有必要将自己一路走来的心得与体会、感悟和挫折整理出来,一则是对自己的这段职业生涯做一个交代,特别是对一路引导、鼓励和支持笔者的师友和家人;二则是合理地引导类似笔者半道出家的学习者,对数据分析有兴趣却没有深厚的统计学知识和IT功底人士,笔者相信本书的内容对于广大对数据分析应用感兴趣的初学者来说都是一种宝贵经验。在学习数据分析的道路上笔者深刻认识到一个道理,即一个成功的数据分析实践的核心因素不是数据分析技术,而是对业务理解和分析思路。这也是当初学习数据分析的初衷,初学者切不可为数据分析而分析数据。
大数据挖掘需要精通数据库、计算机编程和深厚的统计学基础,有的甚至涉及运筹学范畴,是一门复合型的应用科学。大数据的案例现在是一抓一大把,如国外典型的“啤酒与尿布”的案例,在了解数据分析之前不妨来看看几个有趣的应用案例。
(1)数据新闻让英国撤军
2010年10月23日《卫报》利用维基解密的数据做了一篇“数据新闻”,即将伊拉克战争中所有的人员伤亡情况均标注于地图之上,地图上一个红点代表一次死伤事件。用鼠标单击红点后弹出的窗口则有详细的说明,包括伤亡人数、时间和造成伤亡的具体原因。密布的红点多达39万个,显得格外触目惊心,如图0-1所示。此新闻一经刊出立即引起朝野震动,推动英国终做出撤出驻伊拉克军队的决定。
图0-1 伊拉克战争中所有的人员伤亡情况
(2)大数据与乔布斯癌症治疗
乔布斯是世界上第1个对自身所有DNA和肿瘤DNA进行排序的人,为此他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,终这种方式帮助乔布斯延长了几年的生命。
(3)Google成功预测冬季流感
2009年,Google通过分析5 000万条美国人频繁检索的词汇将其和美国疾病中心在2003—2008年间季节性流感传播时期的数据进行比较。并建立了一个特定的数学模型,终成功预测了2009冬季流感的传播,甚至可以具体到特定的地区和州。
(4)奢侈品销售
PRADA在纽约的旗舰店中每件衣服上都有RFID码,每当一个顾客拿起一件PRADA进入试衣间,RFID会被自动识别;同时数据会传至PRADA总部。每一件衣服在哪个城市、哪个旗舰店、什么时间被拿进试衣间和停留多长时间,数据都被存储起来加以分析。如果一件衣服销量很低,以往的做法是直接收回;如果RFID传回的数据显示这件衣服虽然销量低,但进试衣间的次数多,则说明这件衣服的下场会截然不同,或者在某个细节的微小改变就会重新制造出一件非常流行的产品。
除了国外这些经常用于商业培训课程的案例外,数据分析其实并不遥远,在国内也不乏应用。例如,共和国的开国元帅林彪就曾经依靠敏锐的数据嗅觉和军事天赋成功捣毁敌营总部。
目前国内的大部分高校还没有开设数据挖掘这门专业课程,大数据分析需要依靠庞大的数据库,即需要各专业的人士通力合作,是一个团队作业。类似笔者这种半道出家的个人学习者在不具备团队协作的条件下,可以在样本数据的分析下工夫,样本数据也可以称为“小数据”,因此本书的名称定为《大数据时代的小数据分析》。
本书主要介绍应用数据分析的一系列工具,如:Excel、LINGO、Crystal Ball、JMP、Minitab和Xcelsius等,涉及的分析有预测、风险分析、优化求解、假设检验、相关分析、回归分析和聚类分析等。但所有这些软件都不是版本,如Excel使用2010版;Minitab使用的V15版。在使用软件时重要的不是版本的,而是理解其功能和特点,灵活地运用。即使是Excel 2003版本,只要运用得当,同样能发挥强大的功能。很多不同功能的软件都可以完成,本书主要结合不同软件的不同特点介绍其应用。
书中涉及一些专业名词和原理,如标准差和假设检验等,本书没有给出生涩难懂的定义,而只是通俗地解释这些名词。这样做原因有二:一则作为半道出家的笔者不愿,也不会定义这些理论;二则定义这些名词或原理只会让本来就让人头疼的数据分析显得更加枯燥。如果读者需要准确理解这些专业名词,可以参考其他资料。
本书中列举的一些应用都是尽可能地贴近生活和工作,让数据分析看起来尽可能有趣一些,在排列各章节的顺序时也尽量遵循软件的功能之间的逻辑关系。
本书在每一章均会应用一些有趣的案例引出讨论的重点,其中两人按照师徒问答的形式模拟实际工作中的场景循序渐进地学习分析工具,让枯燥的数据分析显得生动一些。
本书适合的读者如下。
(1)对数据分析应用有兴趣的人士。
(2)对统计、数学和码农等深奥理论不感兴趣者。(3)想尝试自身专业的数据分析,提高技能者。
(4)想尝试数据分析工作并寻找切入点者。
本书不适合的读者如下。
(1)喜欢拍脑袋和胸脯者。
(2)见了数据就想呕吐者。
(3)爱好SAS/R/Python等豪门软件的狂热者。
(4)统计、数学和IT专业的大牛。
(5)对数据有深刻理解的科学家。
笔者是从化工这个与数据分析无关的专业开始学习数据分析的,相信只要读者能静心地读完本书也会有所收获。但是不能指望数据分析能解决所有的问题,它不是的。一个成功的数据分析实践的核心因素不是数据分析技术,而是对业务的理解和分析思路。
全书的原理讲解和工具操作同步,即在操作软件的同时理解其原理;列举的案例涵盖多个行业,根据案例引出所需要讨论的知识点;然后根据知识点举一反三,串联尽可能多的数据分析入门知识;同时将介绍其适合的分析工具。
由于笔者的水平有限,对数据分析的理解不够透彻,加之编写时间仓促,因此书中难免会出现一些错误或不准确之处,恳请读者批评指正。
评论
还没有评论。