描述
开 本: 16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787302439028丛书名: 大数据应用与技术丛书
如果没有强有力的数据策略,即便存储大量的数据或使用各种大数据工具,也无法帮助我们得到*终的分析结果
目 录
第1章 何为真正的大数据 1
1.1 技术层面的定义 1
1.2 为什么数据规模无关紧要
4
1.3 大数据对管理层意味着什么
4
1.3.1 “大数据是的”
4
1.3.2 “数据只是另一种电子表格” 5
1.4 大数据的执行方式 5
1.5 小结 10
第2章 如何制定成功的大数据策略 11
2.1 转不出的死命循环 11
2.2 如何解开“谁是次”这个难题 13
2.2.1 改变大数据视角 13
2.2.2 用户认知与数据采集
13
2.2.3 Facebook预测性分析的现实 14
2.2.4 Facebook数据收集走得更远 15
2.2.5 使用Facebook坦诚认知大数据发展潜力 16
2.2.6 专业认知与大数据现实
16
2.2.7 从感知到认知偏差
17
2.2.8 寻找大数据占卜师
17
2.3 下一步:拥抱无知 19
2.4 始于何处 19
2.4.1 在结束时开始 20
2.4.2 当行动变为无为时
21
2.5 确认目标,瞄准目标 22
2.6 如何获得实践方法,让落后观念远离前进的道路 24
2.6.1 解决人们对大数据的恐慌 24
2.6.2 终结未知的恐惧 24
2.6.3 接受改变,融入改变
25
2.6.4 机器统治并不确定,人类仍然起作用 26
2.6.5 接触少数固执的人
26
2.7 回答没人提出的问题 26
2.7.1 持续询问可能性 27
2.7.2 寻找终目标 27
2.8 与解说团队交叉合作 28
2.8.1 为团队增加业务分析师和关键终端用户 28
2.8.2 为收集和管理数据增加首席数据官 29
2.9 小处着手、逐步发展并扩张
30
2.10 原型和迭代策略 31
2.11 谈谈向数据策略中添加预测分析 31
2.12 民主化数据,但预计几乎无人使用(目前) 31
2.13 策略就是一个活的文档;充实它、滋养它 32
2.14 小结 32
第3章 提出“正确”的问题 33
3.1 协作努力,提出问题 34
3.2 魔法8号球效应 35
3.3 用数学软件来分析现实问题
36
3.4 “正确”问题的清单 36
3.5 小结 36
第4章 选择“正确”数据源的方法 37
4.1 需要更多的数据源(数据类型)而非数据本身(数据容量) 37
4.2 为什么无论数据规模多大,生成的数据量都会不足且永远不足 38
4.3 数据囤积与先捉再放 38
4.4 不可思议的大数据案例:购买尿布的狗主人 39
4.5 升级事务性数据的价值
39
4.6 社交媒体数据分析的局限性
40
4.7 大数据买卖的货币价值
40
4.8 利用黑客技术赚钱碰到麻烦
41
4.9 评估数据源 42
4.10 过时的模型招致竞争对手
42
4.11 购买数据时的考量 43
4.12 确定所需的外围数据
43
4.13 谈谈结构化与非结构化数据 44
4.14 防止人为偏见对数据选择的影响 46
4.15 数据孤岛的危险 46
4.16 使用所需数据源的必要步骤 47
4.17 小结 48
第5章 解答大数据问题如同玩魔方 49
5.1 可行性数据的概念 49
5.2 描述性、预测性和规范性数据分析类型的差异 51
5.2.1 描述性数据分析 52
5.2.2 预测性数据分析 53
5.2.3 规范性数据分析 53
5.3 已有明确答案的问题 54
5.4 解释会导致更多的问题
55
5.5 需要解读的问题——魔方
55
5.6 小结 57
第6章 实时分析在动态化策略中的作用 59
6.1 检查实时错觉和时间胶囊
60
6.2 静态策略与动态策略 61
6.3 谈谈转向动态策略的变革管理 62
6.4 选择分析方式 62
6.5 利用专家经验,加速数据分析 65
6.6 实时分析来得太迟时该怎么办 66
6.7 小结 66
第7章 大数据的价值主张和货币化 67
7.1 确定未知领域的投资回报率(ROI)
67
7.2 滥发的货币和模糊的投资回报率 69
7.3 成本核算的困惑 70
7.4 成本不是问题 71
7.5 先考虑大数据项目再谈商业案例 71
7.6 计算实际成本 72
7.7 价值所在 73
7.7.1 从技术角度看待商业案例 73
7.7.2 从非技术角度看待商业案例 74
7.8 项目回报率的计算公式
74
7.9 重要问题:是否应该出售数据 76
7.9.1 销售数据解析 77
7.9.2 物以稀为贵 77
7.10 小结 78
第8章 协同经济的兴起和盈利方式 79
8.1 数据等于知识和财富 79
8.2 大数据带来的冲击:颠覆原有模式 80
8.2.1 分享经济 82
8.2.2 创客运动 83
8.2.3 合作创新 84
8.3 新模式在新协同经济中兴起
85
8.4 强调流畅性,摒弃灵活度
87
8.5 应用大数据制定战略新模式
89
8.6 小结 90
第9章 隐私难题 91
9.1 真相揭开的那天预示着个人隐私神话的失败 92
9.1.1 危险汇总 94
9.1.2 可在世界各地接听的手机通话 94
9.1.3 公民和退伍军人的数据如何帮助其他国家策划袭击 96
9.1.4 数据扩散逐步升级
97
9.1.5 为个人隐私画一条底线
98
9.1.6 企业的隐私难题
101
9.2 数据收集中的4大转变 102
9.2.1 数据入侵性改变
103
9.2.2 数据多样性的改变
104
9.2.3 数据整合性的改变
105
9.2.4 数据作用范围的改变
105
9.3 必须质疑的商业问题
110
9.4 谁是真正的数据拥有者
110
9.5 当前法律和措施在设定先例中的作用 111
9.6 授权允许的误区 113
9.7 个人价值与混合数据
113
9.8 匿名数据的误区 114
9.9 个人隐私与个人利益之间的平衡 115
9.10 数据收集何时会使你或你的公司承担责任 115
9.11 商业价值的透明度
117
9.12 数据从业人员必须铭记的事实 118
9.13 小结 118
第10章 国防情报部门中的用例 119
10.1 态势感知和可视化
120
10.2 信息相关性问题处理(“了解情况”问题) 121
10.3 海量数据中信息搜索和发现(“海底捞针”问题) 124
10.4 企业网络安全数据管理
127
10.5 后勤信息(包括粗放型/动态性企业资产目录) 127
10.6 加强卫生保健 127
10.7 开源信息 129
10.8 内存数据的现代化
130
10.9 企业数据中心 130
10.10 武器装备与战争中的大数据用例 130
10.11 小结 131
第11章 政府大数据管理用例 133
11.1 大数据趋势对政府数据的影响 134
11.2 联合国“全球脉动”计划用例 135
11.3 联邦政府(非国防部或情报界)用例 137
11.4 州政府用例 139
11.5 当地政府用例 142
11.6 法律实施用例 144
11.7 小结 145
第12章 安全行业用例 147
12.1 一切都在互联网上
147
12.2 亦敌亦友的数据 148
12.3 防病毒/反恶意软件用例 149
12.4 目标如何击中要害
151
12.5 虚拟和现实世界的碰撞
156
12.6 纷乱的机器数据 157
12.6.1 农民面临的信息安全困境 157
12.6.2 物联网中农民面临的安全困境周而复始 158
12.7 当前和未来信息安全分析法 159
12.8 小结 162
第13章 医疗保健领域用例 163
13.1 解决抗生素危机 163
13.2 使用大数据治病 165
13.3 从谷歌到疾病预防控制中心 165
13.3.1 美国疾病预防控制中心(CDC)的糖尿病交互图谱 168
13.3.2 项目数据领域
171
13.3.3 赛智生物网络
172
13.4 另一方:生物黑客
173
13.5 电子健康记录(EHR)、电子病历(EMR)和大数据 175
13.6 公布医疗保健数据
176
13.7 小结 179
第14章 小企业和农场用例 181
14.1 大数据适用于小企业
181
14.2 炒作和真实世界局限性之间的界限 182
14.3 为工作选择合适的工具
182
14.4 可能会使用的外部数据源示例 187
14.5 给使用共用或共享数据农民的一句忠告 192
14.5.1 说法一:数据属于农民 193
14.5.2 说法二:数据只用于“帮助”农民从农场中更加受益 194
14.5.3 说法三:农民的数据将会保密 194
14.6 钱、钱、钱:大数据扩大借贷能力的方式 195
14.6.1 PayPal信贷
196
14.6.2 亚马逊资本服务
196
14.6.3 数据驱动型贷款公司Kabbage
197
14.7 小结 197
第15章 交通运输中的用例 199
15.1 加速发展大数据赚取利润
199
15.1.1 美中不足的事
200
15.1.2 依靠数据获胜不会长久 201
15.1.3 火车、飞机和船舶中的数据使用 201
15.2 车联网:很可能不是你以为的那样 203
15.2.1 数据引导创新和自动化 206
15.2.2 智能城市的崛起
206
15.2.3 正在发生的交通创新实例 207
15.3 数据和无人驾驶汽车
208
15.4 互联的基础设施 210
15.5 汽车保险品牌数据收集设备 212
15.6 交通领域无法预料的数据可靠性 214
15.7 小结 215
第16章 能源领域中的用例 217
16.1 关于能源神话和假设的大数据 217
16.2 美国能源信息署(EIA)能源数据存储库 219
16.3 EIA能源数据表格浏览器 220
16.4 失踪的智能电表数据
222
16.5 EIA的API和数据集 222
16.6 国际意义与合作 223
16.7 公私合作下的能源数据变革 224
16.8 公用事业用例 225
16.9 小结 227
第17章 零售业大数据用例 229
17.1 在大数据中重新运用老战术 229
17.1.1 零售业没搞砸,对象客户发生了变化 231
17.1.2 品牌叛变和恶魔客户
231
17.1.3 客户体验又成为一个问题 232
17.1.4 大数据与恶魔客户复兴 232
17.2 零售业与大数据博弈的原因 234
17.3 大数据帮助零售业的方式
234
17.3.1 产品选择和定价
235
17.3.2 当前市场分析
236
17.3.3 利用大数据开发新的定价模式 236
17.3.4 寻找更好的方法获取更多、更好和更清洁的客户数据 237
17.3.5 研究和预测客户接受度和反应 237
17.3.6 预测并规划应对更广泛的市场发展趋势 241
17.4 预测零售业未来 243
17.5 小结 244
第18章 银行和金融服务业用例 245
18.1 定义问题 245
18.2 银行和贷款机构的用例
246
18.3 大数据如何在借贷领域点燃新竞争 248
18.4 新型可选择贷款方式
248
18.4.1 贝宝(PayPal)贷款项目 248
18.4.2 人人贷和贷款俱乐部
249
18.5 零售商与银行的较量;信用卡品牌规避银行 250
18.6 征信局所面临的大数据问题 250
18.7 谈谈保险公司 252
18.8 小结 254
第19章 制造业用例 255
19.1 经济形式与机会展望
256
19.2 制造业的十字路口
258
19.3 3D打印与大数据的相交点 260
19.4 3D打印是如何影响制造业并扰乱客户的 261
19.4.1 盈创公司一天打印10所住宅 261
19.4.2 3D打印的景观别墅
262
19.4.3 3D打印的傍水小宅
263
19.4.4 3D家庭打印对制造业的影响 263
19.5 增材制造的转变将是巨大的,并会波及所有部门 263
19.6 个性化制造将如何改变一切,甚至创造更多的大数据 265
19.7 制造业内部新数据源涌出
266
19.8 此行业的用例 267
19.9 小结 267
第20章 下放权力 269
20.1 数据民主化 269
20.2 4步措施 270
20.3 其他4步 272
20.4 小结 273
第21章 摘要 275
21.1 何为真正的大数据
275
21.2 如何制定成功的大数据策略 276
21.3 提出“正确”的问题
276
21.4 选择“正确”数据源的方法 277
21.5 解答大数据问题如同玩魔方 277
21.6 实时分析在动态化策略中的作用 278
21.7 大数据的价值主张和货币化 279
21.8 协同经济的兴起和盈利方式 279
21.9 隐私难题 280
21.10 政府大数据管理用例
280
21.11 国防情报部门中的用例
281
21.12 安全行业用例 282
21.13 医疗保健领域用例
282
21.14 小企业和农场用例
283
21.15 能源领域中的用例
284
21.16 交通运输中的用例
285
21.17 零售业大数据用例
286
21.18 银行和金融服务业用例
287
21.19 制造业用例 288
21.20 下放权力 289
当下有关大数据的讨论、文章和会议演讲中,始终有一个悬而未决的问题:到底可以用大数据做什么?当然,给出的回答通常非常概括,字眼含义往往含糊不清。很少有人阐明大数据的来源,更不用说大数据应用了。相关问题的答案更是少见,比如从如何计算大数据项目的投资回报率(ROI),将大数据化为实际收益到如何开发一个成功的策略和终如何运用分析来改变整个组织和行业。本书将回答目前有关大数据的紧迫的以及更高层次的问题。
本书读者对象
本书的读者对象是那些对大数据实际应用而非技术细节更感兴趣的人。无论你是独自经营公司还是跨国运营企业,都会在本书中找到切实可行的建议:何时以何种方式利用大数据为所在机构赢得理想的效果。无论是数据科学家、部门主管、律师、小企业主、非营利机构负责人,还是企业高管或董事会成员,本书都可以帮助他们将大数据技术应用于工作中,进行辅助决策。
此外,书中用大量篇幅描述了具体行业的大数据实际应用案例,用以指导不同行业和企业大数据的有效利用和潜在应用。不同的章节将针对10个不同行业有更详细的论述。本书将具体讨论大数据在包括政府、国防和情报、安全、医疗保健、小企业和农场、交通运输、能源、零售、银行保险及制造业等部门或领域的案例、策略、潜在因素和新兴趋势。然而,仅仅阅读论述所在行业的章节是不够的。不久的将来,大数据对其他行业的变化也将对你自身所处行业的未来发展产生影响。
如果说到大数据的发展方向的话,那便是催生变革,促进行业发展进程全面转折。事实上,大数据正在促进整个产业的融合,可以说,跨行业融合正在以前所未有的态势高速发展。因此,有必要关注那些与所在行业正在融合的产业,关注哪类客户正在减少或完全取消所提供的服务。在这方面,本书极有可能带给你更多惊喜。
第 1章 何为真正的大数据
似乎每个人都把大数据挂在嘴边,甚至对许多人来说,大数据是需要考虑的头等要务。
因此,有人认为,每个人都知道何为大数据。其实不然。尽管大数据有各种各样技术上的
定义,但大多数人仍然不确定大数据的大小与常规数据库的大小之间确切的界限。这给介
绍和探索大数据的发展,尤其是定义大数据项目参数带来一定困难。
本章将探讨对“大数据”概念的不同解读。
1.1 技术层面的定义
大数据并不只是存储规模从吉字节
(gigabyte,GB)到太字节
(terabyte,TB)的简单的数
量级增长,尽管数据集仍如预期增长迅速,这一点将在下一章详细阐述。更确切地讲,大
数据是各类数据集合的汇总,包括一些结构化和非结构化数据,一些由物理数据源转换为
在线数据集的数据集,以及事务型和非事务型数据库。来源多种多样,包括一些自产数
据和第三方数据。通常数据集的存储模式存在差异,缺乏一致性。一般来说,大数据的
处理繁冗而复杂,支出明显过高,即便并非完全行不通,现有的运算技术也很难支持大
数据计算。
此外,在技术上,数据集合达到何种规模才符合大数据标准尚未达成共识。而技术领
域内部更倾向于从描述数据特征、衡量数据规模、计算处理大规模数据量来定义大数据。
2001年美国
Gartner公司(原为
Meta集团)的一份报告中对大数据进行了定义,强调大
数据必须具备
3V特征,即容量大
(Volume)、多样化
(Variety)和速度快
(Velocity)。现在,有
机构在
3V之外又定义了第
4个“V”——真实性(Veracity),用以强调数据质量的重要性。
本质上,大数据是需要使用新工具来计算的任何规模的数据集。因此,大数据只是一
个相对的概念,今天被定义为“大”的数据未来可能只是“一般”甚至“小”规模的数据。
所以,在数据前面加上“大”字作为修饰语并不恰当,也并无大用。大多数业内专家
预计不久的将来,这个“大”字将会被完全舍弃,因为它无法准确地描述大数据概念的本
质。真正让大数据产生价值的是它将人、地点和事物广泛地连接起来,这在以前无论以何
2 大数据策略如何成功使用大数据与
10个行业案例分享
种方式协调都无法实现。
即便如此,大数据一般以“太字节”为单位。这并非静态的测量。通常是指在规定的
时间周期内,例如每周,数据中心不断流入的或不断增长的数据流。相反,根据
Rackspace
公司的信息图,如图
1-1所示,数据增长十分迅速,预计每天以
2 621 440太字节的速度增
长,通常在很短时间之内,大数据的静态测量变得可有可无。该信息图也可以从
http:
//www.rackspace.com/blog/exploring-the-universe-of-big-data-infographic/找到。
图
1-1该信息图
1上部的计数器显示,自用户点开信息图起,数据宇宙中增长的太字节量。计
数器很好地让我们全面感受到数据增长速度之快。点击不同行星,可以看到数据宇宙
中不同类别的数据规模,与整体生成的数据规模对比(本图表示为太阳),例如垃圾电
子邮件、
Google搜索索引以及
1 该图由
Rackspace公司提供。概念及研究由多米尼克·史密斯
(Dominic Smith)提供;设计与绘制由
Legacy79公司提供。
第
1章何为真正的大数据
3
我们知道更大规模的数据即将到来,但是数据集太大,尚未找到常见的单位来衡量。
在此之前,将采纳惯用的单位:泽字节
(zettabyte,ZB)和尧字节
(yottabyte,YB)。让我们来
了解一下尧字节,它等于千万亿吉字节
(gigabyte,GB)或
1000的
8次方字节,即
1后面跟
着
24个零。借助图
1-2可以看到尧字节
(YB)与每个存储容量单位的转换。
图
1-2借助图形及其说明可以认识尧字节
(yottabyte,YB)的实际大小
2
2 资料来源于
Backblaze公司,参见
http://blog.backblaze.com/2009/11/12/nsa-might-want-some-backblaze-pods/。
4 大数据策略如何成功使用大数据与
10个行业案例分享
数据规模的发展趋势愈发难以想象,有必要思考其下一步的发展方向。对即将出现的
更高级别的数据量级尚无法予以概括,因此也无法理解并加以利用。然而,达到现代科技
极限的数据即将到来。
1.2 为什么数据规模无关紧要
今天讨论的重点是如何以方式访问和计算数据,而非数据规模。毕竟,数据分析
的价值在于质量而不是数量。
感到困惑了吗?放心吧,很多人和你一样。令人庆幸的是,新的分析工具可用在几乎
任何规模的数据和各类格式的、复杂的数据集中。这说明数据科学团队可以使用大数据工
具从几乎任何数据中获取价值。这的确是个好消息,因为工具较之以前的版本能够进行更
加快速
(和有价值
)的分析。
当然,公司必须考虑数据集大小,以便终为存储、传输和其他数据管理做出安排和
拨款。但就分析结果而言,只需要使用足够大的数据集确保结果有效,数据大小并不重要。
1.3 大数据对管理层意味着什么
管理层对大数据的认知,具体取决于个人的数据认识水平。他们往往认为大数据有点
神秘,但在不同程度上又很有用。有两种截然相反的观点为突出。一方认为大数据能够
揭示一切,对人类的认知和与世界交流的方式提供了全新的模式;而另一方认为它只是用
新奇的方式对原有数据进行解析,他们更习惯用熟悉的电子表格来处理数据。即使出现了
大数据可视化应用,至少在初阶段,后一方仍然将大数据视为另一种形式的电子表格。
当然除了看法之外,还有一些折中观点。思考大数据是无所不能的和大数据仅是
电子表格的升级版这两种观点,迅速预测管理层对使用大数据的预期,为以合适、有
效的方式向上司更好地汇报数据结果做好准备。
1.3.1 “大数据是的”
对持这一类观点的人来说,可能有必要进行一些说明,虽然大数据能够产生一些成果,
也已经产生了一些成果,但是无论过去、现在和将来都不可能像很多电影里描述的那样无
所不能。换句话说,无论数据规模多么巨大,涵盖范围多么广泛,数据绝不可能完结,而
且很少在适当的背景中出现。因此,大数据并不是的。
持此类观点的人往往没有理解预测分析的局限性。数据预测分析是预测未来行为趋势
的不错的工具,但并非是预测未来的魔法水晶球。预测分析法预测未来是假定目前的状况
和趋势保持不变。如果任何事情干扰该路径或明显改变其路线的话,之前的预测分析将不
再适用。管理层和数据爱好者必须明确这一点,这样才能正确地使用信息,明确自身在规
划中不是被分析削弱或取而代之,而应有效地借助分析促进规划。
而且,大部分大数据科学团队仍然在研究相当基本的项目和试验,边做边学。大多数
还根本无法操作复杂的项目。如果管理层预期过高,也许在早期阶段就会失望。失望情绪
第
1章何为真正的大数据
5
会加剧他们脱离实际,这对数据科学团队和业务负责人来说并不是件好事。实际上会导致
大数据项目和所有努力一起报废。因此,重要的是从一开始就理性现实地调整期望。
有利的是,管理层可能更乐于听取处理数据的新方法,更快地传达什么样的信息才是
他们需要的。管理层的热情参与和买进对项目非常有用。
1.3.2 “数据只是另一种电子表格”
另一方可能对大数据不为所动,并不简单地认为数据越多就越好。他们将大数据视为
一项技术活动,而不是一项重要的商业功能。
持此类观点的人可能更容易接受传统的数据可视化效果,至少在初始阶段是这样。为
了方便向该群组中的管理层提供数据支持,好直截了当地询问他们需要的信息以及原因。
如果得到回复,便可以欣然呈现公司的大数据分析成果,这些数据都是公司需要,但迄今
为止尚未研究过的。
如果他们不能或没有回答这个问题,那就积极主动工作,以管理层认为有意义的方式
展示数据分析的价值。
预计大多数高管对大数据成型过程,包括收集、混合和分析并不感兴趣。通常,他们
只对其优于传统方式的地方感兴趣。
要搞清楚管理层是持两种意见中的某一种,还是持中间论调,当务之急是通过案
例演示大数据分析的价值和
/或为任何其他技术进行度量。
然而,和管理层打交道并不是到此为止。
1.4 大数据的执行方式
数据可视化已经被证明是展示数据分析结果、向人类大脑传送信息快捷、有效的
方式。然而每个人处理信息的方式都不尽相同。大多数人容易理解数据可视化常用的几
种方式,包括饼图、条形图、折线图、累积折线图、散点图和其他数据表示法,这些方法
在大数据出现之前已经使用很久。
常见的方法是传统的电子表格,几乎不含任何艺术元素。图
1-3显示了一个传统的
电子表格。
新型可视化效果包含几种类型:交互式可视化效果可以让用户在悬停鼠标或点击不同
区域时,看到更精细的数据;
3D可视化效果可以令图像向不同角度旋转并放大图片以展示
更深层次的信息子集;词云通过词汇大小突出表达的思想、观念或主题;另外还包括其他
类型的创意图像。
图
1-4是一幅现实增强
(Augmented Reality)图像。想象一下平时使用的手机、平板电脑
或可穿戴设备被标注更多维信息,可带来更简单明了的视觉感受。在此例中,废品处理公
司更真实明确地理解了回收站的使用频率、用法和功效。
6 大数据策略如何成功使用大数据与
10个行业案例分享
图
1-3
几乎不含任何艺术元素的传统电子表格
3
图
1-4
现实增强
(Augmented Reality)图像4。想象一下平时使用的手机、平板电脑或可穿戴设
备被标注更多维信息,可带来更简单明了的视觉感受。在此例中,废品处理公司更真
实明确地理解了回收站的使用频率、用法和功效
3 该图由帕姆·贝克
(Pam Baker)提供。
4 该图来源:
VisualCueTM Technologies LLC,经许可后使用。
第
1章何为真正的大数据
7
图 1-5展示了词云通过词汇大小可以快速、明确地表达思想、观念或事件的一个示例。
在此示例中,使用 Infomous应用程序在苹果平板电脑
(iPad)上创立词云,将不同来源的新
闻可视化,如《金融时报》 (FT)、《福布斯》 (Forbes)、《财富》 (The Fortune)、《经济学
人》(Economist)、数字金融媒体公司 The Street和雅虎财经新闻 (Yahoo! Finance)。词汇大
小根据相关新闻话题的重要程度而定。
图 1-5使用 Infomous应用程序在苹果平板电脑 (iPad)上创立词云,将不同来源的新闻可视化,
词汇大小根据相关新闻话题的重要程度而定 5
传统的可视化效果和新型可视化效果要么过于简单,要么复杂得令人难以置信,大多
数不好不坏,处在中间位置。可视化的功能是快速传递有意义的信息。评价可视化传播有
效的标准不是其美学价值,而是如何又快又准地传递信息。
“构建可视化效果,好简单易懂,符合管理层的口味”,德勤咨询 (Deloitte Consulting)
公司董事约翰·勒克 (John Lucker)在电话采访中说。“需要与管理层互动,向他们展示不
同的可视化效果,了解他们的反应,看看哪种形式适合他们。做好经常失败的准备,快
速学习,特别是学习可视化效果的发展”。
总之,一个人眼中优秀的可视化产品往往是另一个人的噩梦。一部分管理层会继续使
用电子表格或较为熟悉的饼图和条形图,另一部分则倾向于可视化效果,不仅容易传达信
息,还为同一信息提供多角度呈现,使信息更加直观、细微、深入。
无论如何,找出每个高管学习、评估和获取信息的方式势在必行,然后专门制定
5 该图来源: Infomous公司,经许可后使用。
8 大数据策略如何成功使用大数据与
10个行业案例分享
不同的可视化方案。
结果,常见的错误是,开发“一套适合所有人使用的可视化效果”与管理层分享。鉴
于当今可视化工具价格便宜,使用方便,输出相同的数据可以获得各类可视化效果,根本
没有必要规范或批量生产可视化。
但是让可视化个性化却很有必要。这项工作花不了太多工夫,但对改善与管理层的沟
通却极为有用。
“可自行决定使用某种可视化形式,但无论哪一种,在报表中要保持前后一致”,约
翰·勒克建议道。“一致性使可视化更易于理解,便于效仿,阅读者不需要先弄清楚每个
新的可视化效果再获取信息。在报表中频繁地更改可视化方式会造成用户操作的疲惫感”。
图 1-6和图 1-7展示了更多今天可用的新型可视化类型的示例。
如图 1-6所示, VisualCue公司的瓦片 (tile)格式利用记分卡的不同颜色 (红色、黄色和
绿色)和直观的图片,让很多公司状况一目了然。在这种情况下,可以看到一家公司及其相
关的金融市场数据。获知全盘情况后再做决定,一旦发现真正想要进一步研究的人或物之
后,再采用传统可视化方式 (图形、图表等 )。
图 1-6
VisualCue公司的瓦片 (tile)格式利用记分卡的不同颜色 (红色、黄色和绿色 )和直观的图
片,让很多公司状况一目了然。在这种情况下,可以看到一家公司及其相关的金融市
场数据 6
6 该图来源: VisualCueTM Technologies LLC,经许可后使用。
第
1章何为真正的大数据
9
图
1-7所示的示例展示了如何在地图上查询数据,但并非仅限于一维或二维空间,这
对于理解公司的组织关系和全盘情况非常有利。这种可视化形式激励人提出以前从未想过
的问题!在此例中,学校管理者通过可视化掌握学校的整体运行情况
(VisualCue瓦片格式
位于中间主要位置
)和每个学生的情况。
图
1-7本例展示了新型可视化类型让人们对大数据时代来临感到兴奋不已。在此例中,学校
管理者通过可视化掌握学校的整体运行情况
(VisualCue瓦片格式位于中间主要位置
)
和每个学生的情况
7
然而,传统的电子表格功能也日渐强大,能够更灵活地提供数据可视化。图
1-8展示
了在
Microsoft Excel中使用条形图的新方法。目前,在
Microsoft Excel中运用了好几种新
的数据可视化工具,特别是
Microsoft为
Office 365企业版用户开发的智能商业分析系统
(Power BI)。
专注于提供的数据分析结果,避免解释获取数据的过程,除非管理层表示对此类内容
感兴趣。
7 该图来源:
VisualCueTM Technologies LLC,经许可后使用。
10 大数据策略如何成功使用大数据与
10个行业案例分享
图 1-8图像显示了使用 Microsoft Excel中条形图的新方法 8
1.5 小结
通过学习本章,我们知道“大数据”一词并不完美。数据集合达到何种规模才符合大
数据的标准尚未达成共识。而技术领域内部更倾向于从描述数据特征、衡量数据规模、计
算处理大规模数据量来定义大数据。因此,今天讨论的重点是如何以方式访问和计算
数据,而非数据规模的大小。毕竟,数据分析的价值在于质量而不是数量。可以肯定的是,
海量数据在短期内必将到来。
令人欣慰的是,许多新的分析工具可用于几乎任何规模的数据和复杂的、格式多样的
数据集中。只要使用足够大的数据集确保分析结果有效,数据大小就并不重要。
管理层对大数据的认知,取决于个人的数据认识水平,他们往往认为大数据有点神秘,
但在不同程度上又很有用。有两种截然相反的观点为突出。一方认为大数据是无所不能
的,能够解决任何问题,并且能够精准地预测未来;而另一方认为它只是电子表格的升级
版。大数据被其视为一项技术活动,而非一项重要的商业功能。除此之外,还有一些中
间评论。在任何情况下,如果想要大数据项目持续进行并获得成功,就需要很好地把握
管理层对大数据的认知。
数据可视化被认为是展示数据分析结果、向人类大脑传送信息快捷、有效的方式。
然而每个人处理信息的方式都不尽相同。无论如何,找出每个高管学习、评估和吸收信息
的方式势在必行,然后专门制定不同的可视化方案。专注于提供的数据分析结果,避
免解释获取数据的过程,除非管理层表示对此类内容感兴趣。
8 该图来源: Microsoft公司。
评论
还没有评论。