描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787502285791
本书对数据挖掘技术在医学中的应用进行了研究,介绍了数据挖掘中的因子分析法、模糊聚类法、关联规则方法、Logistic 回归法、灰色预测方法理论基础。
全书以医学信息挖掘为主线,运用以上五种方法或多种方法的结合对医学数据(中风患者的血流变数据、肺癌图像、试管婴儿成功数据、女性胆固醇数据等)进行了数据挖掘,包括数据采集、数据预处理、数据挖掘与分析、数据挖掘结果分析,并提出相应的建议。定量地描述疾病与临床数据指标之间的关系,为提高疾病诊断的准确性提供新的思路。
本书的第1章,对数据挖掘的研究历史和现状、当前数据挖掘热点做了简要介绍;第2章为数据挖掘技术,对数据挖掘概念及功能、数据挖掘流程、数据挖掘工具、数据挖掘在医学上的应用进行了描述;第3章介绍了主要的数据挖掘的算法及理论依据;第4章研究了因子分析在临床检验中的应用,对大量临床检验数据信息中的女性生化指标进行数据挖掘,为女性预防保健和评价女性健康水平提供参考依据;第5章分析了逐步聚类在血流变检验中的应用;第6章为逐步聚类在肺癌CT 图像特征的应用研究,得到了孤立性肺结节肺癌患者的CT 图像医学特征分类;第7章是因子聚类分析在中风与血流变关系的应用研究;第8章是模糊聚类和Logistic回归在试管婴儿成功因素的应用;第9章为关联规则在中风疾病与血流变关系中的应用;第10章为Apriori算法在试管婴儿成功因素分析中的应用;第11章是灰色预测在女性胆固醇随年龄变化中的应用,对女性健康保健和疾病有一定的预防意义。
目 录
第1章 绪论……………………………………………………………………… 1
1.1 引言……………………………………………………………………… 1
1.2 数据挖掘的研究历史和现状…………………………………………… 2
1.3 当前数据挖掘的研究热点……………………………………………… 4
第2章 数据挖掘技术………………………………………………………… 5
2.1 数据挖掘的定义………………………………………………………… 5
2.2 数据挖掘系统的主要成分……………………………………………… 5
2.3 数据挖掘的功能………………………………………………………… 6
2.4 数据挖掘的流程………………………………………………………… 8
2.5 数据挖掘在医学领域的应用…………………………………………… 11
2.6 数据挖掘系统工具……………………………………………………… 12
第3章 数据挖掘的算法及依据…………………………………………… 17
3.1 聚类……………………………………………………………………… 17
3.2 模糊理论与聚类的结合………………………………………………… 20
3.3 因子分析………………………………………………………………… 23
3.4 Logistic回归…………………………………………………………… 26
3.5 关联规则………………………………………………………………… 28
3.6 灰色预测………………………………………………………………… 31
第4章 女性生化指标的因子分析………………………………………… 35
4.1 因子分析在女性生化指标中的应用意义……………………………… 35
4.2 因子分析在临床检验中的应用过程…………………………………… 36
4.3 结果分析………………………………………………………………… 40
4.4 结论和讨论……………………………………………………………… 41
第5章 逐步聚类在血流变检验中的应用………………………………… 43
5.1 研究血流变指标的临床意义…………………………………………… 43
5.2 将数据挖掘技术引入血流变的应用…………………………………… 44
5.3 逐步聚类基本原理……………………………………………………… 45
5.4 原始数据的准备工作…………………………………………………… 46
5.5 原始数据预处理………………………………………………………… 48
5.6 逐步聚类步骤…………………………………………………………… 52
5.7 逐步聚类结果…………………………………………………………… 58
5.8 逐步聚类方法的优缺点………………………………………………… 64
5.9 结果分析………………………………………………………………… 65
5.10 运用方差分析验证聚类结果的可靠性……………………………… 69
第6章 逐步聚类在肺癌CT图像特征的应用研究…………………… 75
6.1 孤立性肺结节肺癌与CT 图像特征关系研究现状及意义…………… 75
6.2 研究方法………………………………………………………………… 76
6.3 结果分析………………………………………………………………… 80
6.4 讨论……………………………………………………………………… 81
第7章 因子分析与聚类方法在中风与血流变关系的应用研究…… 82
7.1 中风与血流变关系的应用研究的意义………………………………… 82
7.2 研究方法………………………………………………………………… 83
7.3 结果分析………………………………………………………………… 88
7.4 结论和讨论……………………………………………………………… 89
第8章 模糊聚类和Logistic回归在试管婴儿成功因素的应用……… 90
8.1 研究背景及现状………………………………………………………… 90
8.2 数据预处理……………………………………………………………… 91
8.3 建立Logistic回归模型………………………………………………… 93
8.4 关键因素的相对重要性分析…………………………………………… 94
8.5 样本的模糊聚类过程…………………………………………………… 99
8.6 两组患者的医学特征比较…………………………………………… 101
8.7 主要结论……………………………………………………………… 103
第9章 关联规则在中风疾病与血流变关系中的应用……………… 105
9.1 研究中风疾病的意义………………………………………………… 105
9.2 关联规则在医学中研究现状………………………………………… 105
9.3 关联规则的分析过程………………………………………………… 106
9.4 中风疾病与血流变关系的关联规则结果分析……………………… 111
9.5 结论和讨论…………………………………………………………… 112
第10章 Apriori算法在试管婴儿成功因素分析中的应用…………… 114
10.1 试管婴儿成功因素研究的意义……………………………………… 114
10.2 试管婴儿成功率关联规则的获取…………………………………… 115
10.3 试管婴儿成功因素结果分析………………………………………… 117
10.4 结论和讨论…………………………………………………………… 118
第11章 灰色预测在女性胆固醇随年龄变化中的应用……………… 120
11.1 研究女性胆固醇随年龄变化的的意义……………………………… 120
11.2 GM (1,1)模型原理……………………………………………… 121
11.3 数据的收集与数据整理……………………………………………… 122
11.4 灰色GM (1,1)预测模型的建立………………………………… 122
11.5 模型检验……………………………………………………………… 124
11.6 模型检验评价………………………………………………………… 125
11.7 外推预测……………………………………………………………… 126
11.8 结果分析……………………………………………………………… 126
11.9 结论与讨论…………………………………………………………… 127
第12章 总结与展望………………………………………………………… 129
12.1 总结…………………………………………………………………… 129
12.2 展望…………………………………………………………………… 130
附录A 中风患者血流变数据指标值……………………………………… 131
附录B 孤立性肺结节图像特征…………………………………………… 151
附录C 试管婴儿培育情况表……………………………………………… 154
参考文献………………………………………………………………………… 162
前 言
随着社会信息化程度日益加深,医疗行业每天都在产生大量数据,如何更好地开发和利用日益增长的海量医学数据成为人们关注的焦点。数据挖掘理论通过对医学数据进行分析,挖掘蕴藏于其中的潜在规律,对明确诊断、正确治疗及促进对健康和疾病的研究均具有非常重要的意义。如何根据医学数据特点,有针对性地进行研究,挖掘出有意义的信息,为医务工作人员提供决策参考,是当今学者研究的热点,但目前相关的中文书籍较少。本书作者具有多年医院工作背景,在攻读硕士期间,深入研究数据挖掘在临床医学中的应用,并在高校的教研和科学工作中一直追踪数据挖掘在医学研究中的新动向。
本书对数据挖掘技术在医学中的应用进行了研究,书中重点介绍了聚类分析、因子分析及关联分析、Logistic回归法、灰色预测的理论基础。本书力图通过一系列实例来说明进行医学数据挖掘的过程,包括数据采集、数据预处理、数据挖掘、挖掘结果分析,并提出相应的决策建议。
本书的第1章为绪论,对数据挖掘的研究历史和现状、当前数据挖掘热点做了简要介绍;第2章为数据挖掘技术,对数据挖掘概念及功能、数据挖掘流程、数据挖掘工具、数据挖掘在医学上的应用进行了描述;第3章介绍了主要的数据挖掘的算法及理论依据;第4章研究了因子分析在临床检验中的应用,对大量临床检验数据信息中的女性生化指标进行数据挖掘,定量分析各属性之间的关系,找出描述系统本质特征因素,为女性预防保健和评价女性健康水平提供参考依据;第5章分析了逐步聚类在血流变检验中的应用,发现性别、年龄与临床血流变数据指标存在一定的关系,对于老年痴呆及其他疾病的诊断与预防有重要意义,运用方差分析法验证了聚类结果的可靠性;第6章为逐步聚类在肺癌CT 图像特征的应用研究,得到了孤立性肺结节肺癌患者的CT 图像医学特征分类,这对于辅助医生对肺癌的早期诊断及临床治疗具有十分重要的意义;第7章是因子聚类分析在中风与血流变关系的应用研究,通过因子分析和聚类分析法在中风与血流变指标关系研究的联合应用,得到了中风患者血流变4类不同的临床特征,为临床中风的诊断和预防提供一定依据;第8章是模糊聚类和Logistic回归在试管婴儿成功因素的应用,建立了妊娠结果对影响因素的Logistic回归模型,检验后将年龄、移植胚胎数、Gn总量、输卵管和卵巢确定为关键影响因素;第9 章为关联规则在中风疾病与血流变关系中的应用,得到隐含于血流变与中风疾病之间的更有价值的信息,获取客观的结论或提示,将有助于医生作出相应的更科学的医疗决策,使预防中风更加具有针对性,从而提高临床预防和早期治疗的效果;第10章为Apriori算法在试管婴儿成功因素分析中的应用,发现其中蕴含的新信息,绕开了先入为主的专业思维,获取客观的结论或提示,有助于医生作出相应的更科学的医疗决策,使治疗不孕不育技术方案更加具有针对性,得出具有临床意义的指导意见;第11 章是灰色预测在女性胆固醇随年龄变化中的应用,建立女性胆固醇随年龄变化的灰色预测模型,对女性健康保健和疾病有一定的预防意义。
全书由宁波大红鹰学院机电学院张维朋老师提出创作动议及撰写,并负责通稿审校,宁波大红鹰学院信息学院的徐颖老师负责第8章模糊聚类和Logistic回
归在试管婴儿成功因素的应用相关章节撰写。
本书的研究内容是在浙江省公益项目(基于多特征的肺癌CT 图像关联规则的关键技术研究2014C31161) 支持下完成的。本书是跨学科研究专著,研究的
内容属于交叉学科,涉及医学方面的知识与数据。感谢安徽省淮北矿工总医院心血管内科主任魏红霞在中风与血流变关系方面专业知识的建议和指导,感谢安徽省淮北矿工总医院CT 室主任李勇在研究孤立性肺结节肺癌与CT 图像特征关系方面给予的专业技术指导,感谢田思、王水教授在数据挖掘技术方面的建议和对本书的关注。
由于作者的经验和水平所限,书中可能多有错谬之处,还望广大读者海涵并不吝赐教。Email:zwphb@163.com。
2017年8月于宁波大红鹰学院
第1章 绪论
11 引言
随着计算机与信息技术的发展,人类社会发生了巨大变化。在人类社会的三大主导能源、物质和信息要素中,信息变得越来越重要,它将把人类社会从工业时代推向信息时代。随着计算机硬件及软件的发展,尤其是数据库技术与应用在全球范围内的日益普及,人们面临着大数据的迅速扩张,如果没有有效的办法来提取有用的信息和知识,人们就会感到面对信息海洋像大海捞针一样束手无策。在日常生活工作中,人们并不仅仅满足于对这些数据的查询、检索和简单的数学运算,而是迫切需要将这些数据转化为有用的信息和知识。如何利用这一丰富海量数据为人类服务,已经成为广大信息工作者所关注的焦点之一。据统计,现今一个大型企业数据库中的数据,只有7%得到了很好应用。为了克服“丰富的数据,贫乏的知识”这种独特现象,人们对能够处理和分析这些数据的技术需求显得更加强烈,于是数据挖掘(DataMining)技术应运而生[1-2]。随着计算机及云数据库和混合数据的快速发展,数据挖掘技术利用统计分析及人工智能的应用程序,可以动态地、无指导地从原始数据中提取领域的知识,使学者从对演绎数据库的研究转向对归纳数据库的研究。
医院数据库的信息容量不断扩大,数据库技术的发展解决了计算机信息处理过程中海量数据的存储冗余,实现数据共享、保障数据安全以及高效地检索数据和处理等问题,但无法改变“数据爆炸但知识贫乏”的现象,数据量的剧增与数据分析方法的落后之间的矛盾越来越突出。如何充分利用这些宝贵的医学信息资源来为疾病的预防、检测、诊断和治疗提供科学的决策,促进医学研究,已成为人们关注的焦点[3]。医学研究人员希望从已有的成千上万份病历中找出某种疾病的共同特征,从而为治愈这种疾病提供一些帮助等等。针对这些问题,传统的信息管理系统中的数据分析工具无法给出解决方法。因为医院的信息处理大多都仍停留在基于数据库操作型事物处理水平上,无论统计、查询或报表,其处理方式都是对特定数据进行简单的数字运算处理,而不能对这些数据所包含的内在信息进行提取,这是对医学信息资源的一种浪费,实在可惜。而随着数据量的激增,人们越来越希望系统能够提供更高层次的数据分析功能,通过学习医疗数据丰富医学知识库,从而更好地去支持决策或科研工作。正是基于这种新的要求,数据挖掘技术在医学中的应用应运而生[4]。如何对大量的数据资源挖掘深层次的、隐含的、有价值的知识是我们面临的一个难题,数据挖掘有解决这方面的能力。数据挖掘技术的出现为医务管理者和科研工作者分析和利用这些数据资源进行科学管理、决策以及开展医学研究提供了技术工具,面对海量的医学资源,利用现代数据仓库和数据挖掘技术进行分析和处理数据,探索数据挖掘技术在医疗信息化方面的研究具有更重要的使用价值和广阔的发展前景[5]。因此,利用数据挖掘技术开展科学研究,提高医学管理水平及医学技术是有必要的。
12 数据挖掘的研究历史和现状
1.2.1 数据挖掘研究的历史
“知识发现”(KDD)术语首次被提出是在美国底特律召开的第11届国际人工智能联合会议上[6]。1995 年在加拿大召开了届知识发现和数据挖掘国际
学术会议,此后每年举办一次。1997年, 《KnowledgeDiscoveryandData Mining》杂志诞生,其专用于收录有关KDD 的研究成果,国外学者在该方面发表了大量论文并开发出相关的数据挖掘软件,建立大量的相关网站。近些年我国人工智能领域的专家和学者也投入大量热情到KDD 和数据挖掘的研究中,其研究规模从专题讨论会向国际学术大会扩展,研究重点从发现方法向系统应用转变,同时集成了多种发现策略和挖掘技术,注重多学科之间的相互渗透。特别是近10年以来,伴随着大数据的迅猛发展,数据挖掘技术不仅在学术界掀起了新一轮的研究热潮,也引起了工业界的极大关注[7]。
1.2.2 国外数据挖掘研究的现状
近几年国外在数据挖掘的研究主要是Bayes和Boosting两方面。天文领域和人工智能的结合为学者们发现新的星体提供新的理论支持[8]。在医学领域,数据挖掘技术被用于分析医疗数据和基因研究, 其有助于医生发现病因, 治疗疾病[9];在商业领域,利用数据挖掘技术可以分析不同类别信用卡客户的特征,并据此采用不同的营销策略和风险控制方案。如分析贷款人是否安全,是否存在信息诈骗等[1011];IBM 自主研发了AS (AdvanceScout) 系统, 在美国篮球联赛中,AS能够帮助教练提升团队合作能力,提高战术和获胜概率[12]。数据挖掘与数据库技术息息相关,互相渗透,影响不断扩大。国外很多著名公司开发了相关软件,如SPSS、SAS和Matlab,这些软件已成为数据挖掘的工具[13]。美国是全球数据挖掘繁荣的地区,占据着研究的核心地位[14]。
评论
还没有评论。