描述
开 本: 16开纸 张: 胶版纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787302504726
就刚刚公布的13-5国家重点研发计划“高性能计算”重点专项,*明显的一个变化就是把高性能计算的应用单列并且给予极大力度的支持。这足以表明本书的主题,高性能计算的应用不仅仅是高性能产业链的重要一环,更加是其核心价值的体现。而且,能够集中的对高性能应用的全貌进行阐述,也能够帮助相关领导了解本技术的实际价值,并未将来的政策制定提供依据。
不同于高性能计算机本身的软硬件和相关支持部件,高性能应用需要相对完善的物理模型,更加高效的并行算法,同时,还需要跟实际的生产生活紧密结合。其研究结果常常对真是的生产生活起到省时省力的效果。例如,在石油勘探中,一个井开凿下去,少则1亿元人民币,多则10几亿人民币,定位不准确,其经济损失可想而知。再如,新生儿唐氏筛查。传统的唐氏筛查方法是根据通过抽取孕妇血清,检测母体血清中甲型胎儿蛋白、绒毛促性腺激素和游离雌三醇的浓度,并结合孕妇的预产期、体重、年龄和采血时的孕周等,计算生出先天缺陷胎儿的危险系数,而这种检测的误差率可能达到40%。现在,只需要抽取孕妇的静脉外周血,进行DNA测序和生物信息学分析,便能够几乎100%确认胎儿是否患有唐氏综合症。这里的生物信息学分析就是高性能计算的典型应用之一。本书将介绍更多的实例。
对与高性能计算技术的新人以及各个应用的初学者,通过这本书不仅能够较为全面的了解高性能应用的全貌,更加能够获得相关应用方向基础入门的指导和实际案例的启迪。
据前期调研,并未发现如此全面介绍高性能各个方向应用的书籍。
目录
第1章总述
1.1高性能计算概述
1.1.1系统架构
1.1.2硬件基础
1.1.3并行算法
1.1.4中国高性能计算中心
1.2常见应用领域
1.2.1科学计算
1.2.2能源领域
1.2.3气象领域
1.2.4工程仿真
1.3新兴应用领域
1.3.1基因测序研究
1.3.2证券指数计算
1.3.3动漫渲染
1.3.4互联网与深度学习
参考文献
第2章高性能计算应用之计算材料研究
2.1计算材料学概览
2.1.1引言
2.1.2超越发现: 新材料设计观
2.1.3日趋成熟的计算方法论
2.1.4计算材料学应用软件
2.2典型案例
2.2.1第一性原理计算在多铁材料中的应用
2.2.2蒙特卡罗方法及其在石墨烯研究中的应用
2.3新兴的材料基因组计划
小结
参考文献
第3章高性能计算应用之生物学研究
3.1计算生物学概览
3.2蛋白质结构研究
3.2.1电子显微三维重构
3.2.2质谱仪原始资料处理
3.2.3分子动力学模拟
3.3计算机辅助药物设计
3.3.1应用背景
3.3.2计算资源需求
3.4生物信息学
3.4.1生物信息学简介
3.4.2基因测序及数据处理技术
3.4.3生活中的生物信息学
3.5精准医疗
3.5.1精准医疗的概念演变及发展
3.5.2精准医疗服务于癌症诊疗
3.5.3高性能计算与精准医疗
参考文献
第4章高性能计算应用之气象学研究
4.1数值天气预报
4.1.1数值天气预报的起源
4.1.2数值天气预报的工作原理
4.1.3数值天气预报现状与发展趋势
4.1.4数值天气预报与高性能计算
4.1.5常用天气预报模式介绍
4.2数值海洋预报
4.2.1数值海洋预报的起源
4.2.2数值海洋预报的工作原理
4.2.3数值海洋预报现状与发展趋势
4.2.4数值海洋预报与高性能计算
4.2.5常用海洋预报模式介绍
4.3数值气候模拟
4.3.1数值气候模拟背景介绍
4.3.2数值气候模拟与高性能计算
4.3.3常用气候模式介绍
4.4环境空气质量预报
4.4.1空气质量预报的起源
4.4.2空气质量预报的工作原理
4.4.3空气质量预报现状与发展趋势
4.4.4空气质量预报与高性能计算
4.4.5常用空气质量模式介绍
4.5典型案例
4.5.1中国环境监测总站
4.5.2预报预警中心
小结
参考文献
第5章高性能计算应用之工业仿真
5.1工程仿真概览
5.1.1工程仿真简介
5.1.2工程仿真的重要性
5.1.3工程仿真的技术发展
5.1.4常见的工程仿真软件简介
5.1.5工程仿真如何开展
5.2工业仿真与高性能计算
5.2.1CAE与HPC
5.2.2工业仿真计算平台的需求分析和硬件选型
5.2.3高性能计算平台配置方案与使用方法
5.2.4工业仿真云的建设方案简介
5.3典型应用案例
5.3.1某轨道交通装备集团仿真公共服务平台建设
5.3.2某特种设备研究院高性能计算平台建设
参考文献
第6章高性能计算应用之石油勘探领域研究
6.1石油产业——战略资源关系国计民生
6.2石油勘探开发领域高性能计算发展历程
6.3典型案例
6.3.1基于GPU混合架构下的积分法叠前时间偏移应用
6.3.2基于GPU混合架构下的RTM逆时偏移应用
6.3.3“两宽一高”海量数据处理
6.3.4存储对石油勘探大数据处理集群效率影响分析
6.3.5大数据时代勘探云建设模式探索
小结
参考文献
第7章高性能计算应用之石油加工领域研究
7.1石油加工领域——国民经济的支柱产业
7.2石油加工领域高性能计算发展历程
7.3典型案例
7.3.1催化裂化过程的数值模拟
7.3.2烃类蒸汽裂解制乙烯过程的数值模拟
7.3.3催化重整过程的数值模拟
7.3.4加热炉及其空气预热器的数值模拟
7.3.5气固鼓泡流化床中的数值模拟
7.3.6深层鼓泡床内偏涌现象的数值模拟
7.3.7盘环型汽提器中磨损机理的CPFD数值模拟研究
小结
参考文献
第8章高性能计算应用之渲染领域研究
8.1渲染简介
8.1.1渲染的定义
8.1.2渲染的应用领域
8.2渲染常用技术
8.2.1渲染相关概念
8.2.2渲染常用算法
8.2.3渲染常用软件
8.2.4渲染农场技术
8.2.5云渲染
8.2.6GPU渲染
8.3典型案例
8.3.1特种电影的HPC应用
8.3.2渲染云应用
参考文献
第9章高性能计算应用之遥感领域研究
9.1遥感介绍
9.2遥感与大数据
9.2.1遥感大数据表示
9.2.2遥感大数据存储
9.2.3遥感大数据组织
9.2.4遥感大数据检索
9.2.5遥感大数据理解
9.2.6遥感大数据挖掘
9.2.7遥感数据特点分析
9.3遥感计算
9.3.1遥感计算需求分析
9.3.2计算技术发展现状
9.3.3遥感应用计算架构
9.4典型案例
9.4.1遥感图像处理应用案例(CPU GPU)
9.4.2遥感影像分发应用案例(MPI HBase)
小结
参考文献
第10章高性能计算应用之深度学习研究
10.1深度学习技术简介
10.1.1深度学习的发展
10.1.2深度学习应用分析
10.2高性能计算与深度学习
10.2.1深度学习的计算需求
10.2.2高性能计算技术的革新
10.2.3计算技术对深度学习的推进
10.3深度学习的理论基础
10.3.1信息系统处理模型
10.3.2人工神经网络的表示
10.3.3感知器原理
10.4深度学习工具介绍
10.4.1开源工具
10.4.2Caffe测试实例
10.4.3曙光XSharp介绍
10.5典型案例
10.5.1人脸识别
10.5.2ImageNet图像分类
10.6深度学习技术在中国的应用现状
参考文献
第11章高性能计算应用展望
11.1高性能计算应用现状
11.1.1国际高性能计算应用现状
11.1.2国内高性能计算应用现状
11.2高性能计算应用趋势
11.2.1Top500数据统计
11.2.2戈登·贝尔奖应用分布
11.2.3应用软件研发
11.3主要国家对高性能计算的投入
11.3.1美国
11.3.2欧盟
11.3.3日本
11.3.4中国
11.4展望
11.4.1学术展望
11.4.2企业展望
参考文献
高性能计算,又称超级计算,是计算机科学重要的前沿性分支,它不仅是一个国家综合科研实力的体现,更是对国家安全、经济和社会发展具有举足轻重的意义,是公认的国家科技发展水平和综合国力的重要标志,已成为各国竞相抢占的科技竞争战略制高点,全球仅美国、日本、中国拥有超级计算技术。高铁和超级计算是美国唯一公开承认中国能与之比肩甚至超过美国的技术和产业。
高性能计算是科技的基础产业,应用上可支撑: 核试验模拟、石油勘探、气象预报、农业育种、医疗服务、新药研制、动漫渲染、材料设计、金融计算等,几乎涉及人类科学和生活的每一个领域。一般来说,凡是需要大规模数值模拟计算和大规模数据分析处理的情形都可以利用超级计算机进行加速,同时还可以协助探索超宏观(如宇宙)、超微观(如纳米级)、极端环境(如人造太阳)等实际工作环境难以实现的研究。据IDC报告,2015年全球超算市场规模约250亿美元,其中,高性能计算机系统(包括服务器、存储和网络)约占60%,软件和服务约占35%; 并预测2015—2020 年超算市场规模将以8.3%的复合增长率迅速扩大,在2020年将达到440亿美元。另外,深度学习和人工智能被认为是2020年前最有希望颠覆人类生产和生活的技术,而它与超级计算密不可分。从深度学习的模型训练,到模型推理都依赖于超算技术。目前,深度学习已经渗透到文字、语音与影像的识别与处理、生物、医药与医疗、娱乐与媒体、精准营销、国防与安保、自动驾驶与无人飞行器等多个方面。到2020年,预计深度学习应用市场将达到400亿美元。超级计算同时也已经与大数据结合,成为大数据相关产业的技术基础,在此之上可以进行城市规划,实现相关惠民服务,包括政务、交通、社保、医疗、教育、就业、城市、帮扶、电商等惠民服务。此外,还有医疗大数据、空天大数据、气象大数据、环保大数据、金融大数据等一系列朝阳性应用。中国政府从“九五计划”开始就一直支持高性能计算的技术、产业、应用的发展。国家“863计划”推出了一系列高效能计算机系统,2008 年的深腾7000的计算性能是每秒150 万亿次,曙光5000A是每秒230 万亿次; 2010 年推出了曙光每秒6000万亿次和每秒3000 万亿次,天河一号是每秒4700 万亿次。2011 年,我们用国产的处理器推出了每秒千万亿次系统神威蓝光,这是一个里程碑式的成果,解决了国内用自主研发的处理器实现千万亿次系统的突破。2013 年6 月,世界超级计算机500 强中,天河二号名列第一,其峰值速度达到了每秒5亿亿次。“863 计划”也启动了第二台10 亿亿次的计算机研究,由神威蓝光团队研制的基于自主芯片的太湖之光超级计算机,当前位列Top500排名第一。此外,截至2016年,中国科技部批准建立的国家超级计算中心共有7家,分别是国家超级计算合肥中心、国家超级计算天津中心、国家超级计算广州中心、国家超级计算深圳中心、国家超级计算长沙中心、国家超级计算济南中心和国家超级计算无锡中心。可以看到,在系统研制和环境建设方面,我们已经走到了世界领先的地位。近年来,E级计算成为高性能计算一个新的发展目标。2013年,以Prace为首的欧洲超算联盟又启动2020地平线计划及基于ARM架构的E级计算原型系统的“稻草人”计划。2015年,美国白宫提出了国家战略计算计划(National Strategic Computing Initiative),用以最大化超级计算的研究、开发、部署能给美国社会所能带来的福利。2016年以来,中国政府加大了对超算的支持的力度,发展E级高性能计算机及其相关技术。2016年10月9日,习近平总书记在中共中央政治局第三十六次集体学习时强调“要紧紧牵住核心技术自主创新这个‘牛鼻子’,……,推动高性能计算(超算)、移动通信、量子通信、核心芯片、操作系统等研发和应用取得重大突破”。2016年12月,国务院印发《“十三五”国家信息化规划》指出: “十三五”时期要大力发展先进计算技术,重点加强E级计算(超级计算全球最前沿技术,每秒运算性能达到百亿亿次)、云计算、量子计算、人本计算、异构计算、智能计算、机器学习等技术研发及应用。科技部已经按照“十三五”的规划要求,启动“高性能计算(超算)”重点专项2016年度项目和2017年度项目。其中,2016年专项围绕E级高性能计算机系统研制、高性能计算应用软件研发、高性能计算环境研发等三个创新链(技术方向)部署了20个重点研究任务; 2017年专项则围绕E级计算机的编程模型、算法、示范应用及特定行业应用软件研制展开。尽管如此,高性能计算的应用却往往躲在屏幕之后,不为大众所熟知。此外,由于高性能计算的产业链长而复杂,很多IT研究人员对应用了解的并不多,而且不同应用方向的研究人员之间也是隔行如隔山。其次,中国的超级计算机如星云、天河、太湖之光都在世界排名中名列前茅,不少国外的专家质疑我们只是用钱堆出个机器,并不是真正地把高性能计算机用起来。再次,E级计算机原型系统以及将来的E级计算机即将部署,我们需要对以往的高性能计算应用进行归纳,进而为运算速度更快的新一代超级计算机的高效运行与利用打好基础。正是因为这些考量,笔者邀请了业内相关专家学者一起编著了本书。本书由中科曙光公司牵头,参与单位近二十家,较为全面地反映了中国高性能计算应用的现状。同时我们邀请了中国超算创新联盟对未来的高性能计算技术和应用做了展望,相信可以供高性能计算技术的研究人员、应用专家、相关政策的制订者,以及该技术的爱好者参考使用。本书得到了国家重点研发计划高性能计算重点专项2016YFB0200300和2016YFB0200100的资助,特此表示感谢。对于本书的编写工作,各位作者付出了极大的心血和努力,将自己多年积累的高性能计算相关知识和经验予以整理共同完成了此书。然而,编写时间仓促,精力有限,书中难免会有所疏漏,敬请读者批评指正。历军2018年3月中关村软件园
金钟1,方林2,陈芳3,姜金良4,卜景德4
1. 中国科学院计算机网络信息中心2. 华大基因3. 中国科学院文献情报中心4. 中科曙光
生物学是一门研究生物的结构、功能、发生和发展规律的科学,也是和人们日常生活最为密切的学科。当今的生物学研究早已离不开计算机的帮助,希望通过本章的介绍揭开高性能计算与生物学研究的面纱,让读者体会到高性能计算离我们的生活很近,已经影响到了人们生活中的方方面面。本章分4节介绍高性能计算在生物学中的应用。首先,介绍高性能计算在蛋白质结构中的应用,该研究可以为药物设计、疫苗开发提供基础; 第二部分介绍药物设计中的相关知识,我们可以看到高性能计算是如何服务于现代药物设计的; 第三部分为高性能计算在生物信息学中的应用,这部分将介绍基因数据处理与分析相关的技术; 最后一部分将介绍目前最热门的精准医疗,通过该部分介绍可以了解精准医疗如何服务于肿瘤治疗、产前筛查等。3.1计算生物学概览计算生物学是生物学的一个分支,根据美国国家卫生研究院(NIH)的定义,它是理论与数据分析、数学建模和计算模拟在生物学、行为学、社会群体系统中的应用与研究。计算生物学是生物科学与数学和计算机科学等融合后产生的一门新兴交叉学科。由于基因测序技术的飞速发展,人类测序获取到的基因序列数量按照指数方式增长,那么对于如此庞大的基因数据进行分析挖掘,如同源性搜寻、比对、分析和遗传发育分析等,往往伴随着巨大的数据处理量和并行计算量。同时,由于生命科学的研究对象往往是蛋白质和DNA的大分子,对这些分子的三维结构的预测、动力学特性、热力学特性,以及在生命过程中如何发生作用,这些科学问题同样也要借助于高性能计算机,所以高性能计算机在生命科学研究中,应用非常广泛,扮演着十分重要的角色。生物信息学与计算机技术的发展历史如图31所示。
3.2蛋白质结构研究结构生物学是通过研究生物大分子的结构与运动来阐明生命现象的科学。药物设计、疫苗开发和蛋白质分子性能改造等应用领域都以结构生物学的研究成果为基础。X射线晶体学、核磁共振波谱学、电子显微三维重构(也称电镜三维重构)是结构生物学的三大研究手段,具有不同的优势,如图32所示。核磁共振波谱学可以获得蛋白质在溶液中的三维结构,能够分析蛋白质的动态变化,但是研究对象的分子量通常难以超过20kD。X射线晶体学通常可以获得生物大分子原子分辨率的三维结构,但对于分子量较大、较复杂的生物复合分子体系,其晶体难以获得,结构解析难度也较大。当研究对象的尺度越来越大的时候,电子显微三维重构技术,特别是低温电子显微三维重构技术,就显示出其重要的作用,利用该技术可以获得分子量巨大(200kD以上)的超分子复合体系的纳米分辨率三维结构,弥补晶体学和核磁共振分析技术的不足,架起从蛋白质、蛋白质复合体、超分子复合体系到亚细胞系统的三维结构研究的桥梁。
图32结构生物学的三大研究手段: X射线晶体学、核磁共振波谱学、
电子显微三维重构
3.2.1电子显微三维重构1. 基本原理电子显微三维重构技术的基本原理基于中央截面定理: 三维物体沿电子束方向投影的傅里叶变换是该物体所对应的傅里叶空间中通过中心且垂直于投影方向的一个截面。那么一个物体的完备投影的二维傅里叶变换一定能够完全填充该物体的三维傅里叶空间,因此物体的完备投影与物体的三维结构是等价的。实验中,我们收集到大量全同颗粒在不同方向的投影(单颗粒),或同一样品在不同角度的投影(断层成像),首先通过等价线、投影匹配等方法确定每张投影图像的取向和中心(断层数据角度已知,只需精修即可),然后对每张投影图进行傅里叶变换,按照投影方向填充到三维傅里叶空间对应的切面,并进行差值计算得到倒空间的网格点数值,最后再进行反傅里叶变换,就可得到实空间的三维结构。三维重构理论的建立使得利用电子显微镜来解析蛋白质等生物大分子的三维结构成为可能。但是需要解决的问题是电子束打到生物样品上时会带来比较严重的辐射损伤,从而丢失了许多结构信息。在低温电镜(低温电镜的目的是提高生物样品对电子辐射的耐受力,同时减少图像热噪声)和低剂量辐照成像技术出现以前,人们只能采用重金属负染的方法来获得生物大分子的嵌影结构(不是真正的分子结构)。到了20世纪80年代,快速冷冻含水生物样品的制备技术和低温电子显微镜技术的快速发展并实用化,为利用电子显微技术研究蛋白质三维结构奠定了基础。特别是1984年,Dubochet等发表了第一张病毒的低温电子显微镜照片,开创了低温电镜的研究时代。自此,在低温电子显微术、低剂量辐照成像术和电子显微三维重构理论的基础上,一个新的学科领域形成了,即低温电镜结构生物学,这一领域无论是在方法学上还是在蛋白质结构研究上,在近二十多年间都获得了快速发展,取得许多重要成果。利用低温电子显微术和三维重构技术解析蛋白质超分子复合物的结构迄今已分化发展为三种具有不同特点和适用范围的方法: 电子晶体学(Electron Crystallography),主要处理二维晶体样品; 单颗粒三维重构技术(Single Particle Analysis),主要解析具有全同性的蛋白质分子的三维结构; 电子断层三维重构技术(Electron Tomography),主要针对不具有全同性的超分子体系和亚细胞体系。1) 电子晶体学电子晶体学技术利用电子显微镜的成像和电子衍射的功能,从生物大分子的二维晶体获取结构信息,解析其三维结构。生物大分子在空间中有序排列,可以形成三维晶体,也可以形成二维晶体(特别是膜蛋白分子)。对于二维晶体来说,其只在XY平面内具有平移对称性,电子波照射到二维晶体上时能够发生衍射,根据电子显微镜记录的二维图像来确定相位,利用二维晶体的衍射图谱来确定振幅,从而通过反傅里叶变换计算出大分子的密度投影,之后再利用三维重构技术获得大分子的三维结构图,从而解析出生物大分子的三维结构。该方法的特点是解析分辨率较高,目前可达到近原子分辨率。相对来说膜蛋白更易形成二维晶体,因此电子晶体学在膜蛋白研究中更具有潜力。此外,该技术也可用于研究可溶蛋白质的三维结构。除了二维晶体外,电子晶体学技术还可以处理一类特殊的晶体结构,即具有螺旋对称性的样品结构。在某些条件下,蛋白质等生物大分子能够形成纤维状、具有螺旋对称性的微观结构,这种结构在电子显微镜下是可以观察到的,而且电子束经过这种螺旋结构可以发生衍射,利用这种衍射现象并结合电镜的成像数据,就可以解析出这些大分子的三维结构。2) 单颗粒三维重构该技术也叫做单颗粒分析,主要适用于结构具有全同性的生物大分子的结构解析,这些生物大分子可以是具有高度对称性的病毒颗粒(具有二十面体对称性),也可以是不具有对称性的蛋白质颗粒。蛋白质的分子量通常要求在100kD以上,在颗粒数目足够多的情况下,理论上其分辨率可以达到原子水平。蛋白质等生物大分子的溶液样品被加载到含有微孔的碳膜上,通过快速冷冻的方法,这些大分子颗粒被包埋在玻璃态的冰层当中,它们具有全同的三维结构,只是方位取向不同,其空间关系可以用一系列的刚体运动来描述。利用透射电子显微镜大量采集这些大分子的投影图像,通过图像处理和三维重构计算就可以获得该生物大分子的三维结构。通常的计算过程如下: 从原始的电镜照片中将颗粒图像挑选出来,对其进行二维图像对中、分类和平均,然后通过计算等价线的方法推算各分类图的取向,利用傅里叶重构法建立初始三维结构模型,通过对原始图片或分类平均图与结构模型投影的匹配,优化取向参数,进而得到更准确的三维结构模型,如此反复对初始结构模型进行修正,直到收敛获得最终的结果。单颗粒三维重构在二维图像分类分析、取向参数求解和三维重构计算等方面根据研究对象特点的不同有不同的算法策略,因而演化出多种不同的单颗粒分析软件,常用的有EMAN5、SPIDER6、IMIRS7、FREALIGN8、IMAGIC9、AUTO3DEM、XMIPP等。3) 电子断层三维重构电子断层三维重构技术就是对样品做微观CT。具体步骤为: 将制备好的样品放在透射电子显微镜中,以一定角度间隔对样品进行旋转,并用CCD或胶片记录样品在不同角度下的二维投影图像——样品的倾转范围通常为-70°~ 70°,间隔角为1°或2°; 然后对收集的这些原始数据进行匹配,利用加权背投影、代数迭代(ART)或同步迭代(SIRT)等方法进行三维重构获得样品的三维图像。由于电子断层三维重构的研究尺度可以很大——可以对细胞水平上的超微结构进行重构、观察和分析,因此也称该技术为电子断层三维成像技术。该技术适宜对细胞器、亚细胞组装体甚至整个细胞的三维结构进行研究,分辨率为5~20nm。低温快速冷冻技术和自动化数据收集技术的发展是电子断层三维重构技术发展过程中的两个关键技术,尤其是低温快速冷冻技术避开了树脂包埋和负染技术中的假象,能够保持样品接近天然状态的结构。截至目前,利用电子断层三维重构技术,已经有大量文献报导了有关整个细胞、细胞骨架、病毒、细胞器等的超微结构。如Baumeister等利用该技术获得了真核细胞dictyostelium的三维结构,其分辨率达到了5~6nm,并在原位对核糖体和26S蛋白酶体等大分子复合物进行了定位观察。在上面所述的多种电子显微三维重构方法中,发展最快、应用最广的是单颗粒三维重构技术,近年来不断有文章报道利用此技术所获得的大分子复合物的三维结构,其中许多具有高对称性的病毒颗粒结构已经达到近原子分辨率。2. 数据收集与处理1) 单颗粒分析原始数据的自动化收集蛋白质等生物大分子样品固定在玻璃态冰层中,对电子束辐射非常敏感,其原始图像数据的收集需要在低剂量(low dose)模式下进行,常用的电子剂量为10~30e/2,在该模式下的图像采集分为三步: 首先在低倍(search模式,辐照剂量非常低)下寻找冰层厚度合适的区域; 然后进行第二步操作——聚焦(focus模式),将放大倍数设置为曝光时所需倍数或者更大,在选定曝光区域的1~2μm附近的碳膜上确定正焦点; 然后设定合适的欠焦值(-1~-3μm)和曝光时间; 最后完成第三步操作——曝光(exposure模式),在选定区域进行曝光记录图像。由于整个过程中目标区域只经过一次电子束低剂量照射,只有在成像后才能获知图像的质量以及所包含颗粒的数目和分布情况,因此要完成单颗粒分析,必须收集大量的原始图像。要收集如此大数目的颗粒,手动数据收集方式将成为瓶颈,必须寻找有效的自动化收集方法。近五年来,单颗粒原始数据的自动化收集技术得到很快发展,一方面适合于自动化数据收集的含有有序排列微筛的碳支持膜被开发出来并实现了商业化,如QuantifoilTM(http://www.quantifoil.com)和CflatTM (http://www.emsdiasum.com/microscopy/products/grids/cflat.aspx); 另一方面若干单颗粒自动化数据收集软件被开发出来并逐渐成熟,主要有Leginon、AutoEM和JADAS等软件,这些自动化软件能够自动识别成像区域,自动完成样品对中和自动对焦,经过一定的参数设置后可以实现大量数据的自动化收集,一个典型的例子是Scripps研究所的Carragher研究组利用Leginon系统在25小时内自动完成了284742个分子伴侣GroEL的低温单颗粒数据收集工作,并且非常轻松地获得了好于8分辨率的三维重构结果。2) 单颗粒三维重构的自动化颗粒挑选和图像处理流水线单颗粒三维重构技术需要从原始图片中将蛋白质等生物大分子颗粒选取出来,手动挑选数十万的颗粒是一项非常耗时费力的工作,因此自动化的颗粒挑选显得十分重要。到目前为止,已经有很多颗粒自动挑选的软件,主要算法有基于模板的方法(templatebased methods)、基于边缘检测的方法(edge detectionbased)、灰度值比较的方法(intensity comparison)、基于纹理的方法(texturebased)和神经网络方法(neural network)等,识别率能够达到80%~90%。3) 电子断层三维重构的自动化数据收集电子断层成像时要在样品的特定部位连续收集上百张不同角度的照片,这就要求数据收集必须在极低剂量下进行,否则样品将被电子束损伤。一般而言,在进行数据收集时,先在低倍下寻找样品,然后在高倍下样品周围的区域聚焦,最后在准备收集数据的区域曝光,这样可以有效地减少辐射损失。电子断层数据收集存在许多实际问题: ①样品由一个角度转向另一个角度时,由于机械原因,往往会有一定的偏移,在数据收集过程中要进行匹配对中(alignment),所以实际在收集过程中必须额外拍摄一些用于匹配的图像,这势必造成额外的剂量增加; ②由于样品和仪器本身的特点,电子断层只能收集到±70°左右的数据,在数据收集时应采用合理的策略以使所得的数据包括尽量多的信息,基于这样的考虑产生了等角度、等斜率以及saxton三种常用的收集策略; ③由于冷冻样品的成像衬度较低,从高角度开始收集数据有可能无法找到样品,所以一般采用从0°开始逐渐向高角度收集数据,然后再退回0°向反方向收集数据; ④在数据收集过程中,样品不同部位欠焦量并不一致,甚至可能某些部位处于过焦而另一些区域处于正焦或欠焦,并且欠焦量也可能随着角度的变化而不同; ⑤样品厚度也是影响电子断层数据收集的一个重要因素,厚样品能够包含更丰富的结构信息,尤其是对一些较大的细胞器,但厚样品衬度不如薄样品好,而且随着角度增大,衬度会越来越差,这为数据收集带来困难,重构分辨率也比薄样品低,所以样品厚度要在两者之间权衡。针对这些实际问题,开发自动化的电子断层数据收集软件就非常有必要,目前广泛使用的软件有UCSF tomography、TOM software toolbox、SerialEM,Leginon以及FEI公司的Explor3D等,这些自动化数据收集程序(如Explore3D)能够利用最初几张图像的偏移算出整个数据收集过程中图像的偏移轨迹,从而大大降低了额外增加的剂量对样品的损伤,并且能够比较精确地控制电镜和CCD相机,完成自动聚焦功能,能够实现多种收集策略和模式。三维重构图片处理常用软件如表31所示。
表31三维重构图片处理常用软件
软 件 名 称算法及特点
TYSON局部平均,模板匹配,局部方差三种SLEUTH模式识别FindEM基于模板匹配SwarmPS互相关和边缘检测DoG Picker高斯差分图像变换(Difference of Gaussians)Cyclops自动排除碳膜区域,基于旋转空间采样SIGNATURE基于模板,分等级筛选(hierarchical screening)ETHAN灰度值强度比较,适用于球形颗粒Xmipp机器学习技术SPIDER基于模板匹配,局部标准化相关系数算法
3. 计算资源需求许多电镜三维重构程序目前是实现的任务级别的并行,如BSOFT、FREALIGN、IMOD和PRIISM/IVE等。而AUTO3DEM、IMAGIC、UCSF TOMOgraphy等则完全采用了MPI并行方式。著名的单颗粒三维重构软件EMAN目前除了GPU外,其他几种并行手段都已实现,SPIDER和IMIRS程序则采用了OpenMP和MPI并行方式,但SPIDER保留了任务级的并行方式,而IMIRS程序没有。XMIPP则采用了MPI和pthreads方式。常见并行电镜三维重构程序如表32所示。
表32常见并行电镜三维重构程序
程序包方法并 行 任 务并 行 方 式
AUTO3DEM单颗粒定取向; 重构MPIBSOFT单颗粒重构任务级BSOFT电子断层重构; 滤波; 分辨率估计任务级EMAN单颗粒分类; 定取向; 重构; 结构识别任务级; MPI; OpenMPI; 多线程FREEALIGN单颗粒定取向任务级IMAGIC单颗粒定取向; 重构MPIIMIRS单颗粒定取向; 重构MPI; OpenMPIMOD电子断层CTF矫正; 重构; 滤波; 双轴数据合并任务级PRIISM/IVE电子断层重构; 双倾数据匹配任务级; GPUsSPIDER单颗粒重构; 定取向; 模板匹配OpenMP; MPI; 任务级SPIDER电子断层重构; 模板匹配OpenMP; 任务级UCSF25 TOMOGRAPHT26电子断层重构MPIXMIPP11单颗粒分类和匹配; 定取向; 重构MPI; 多线程
通过上面的分析,可以发现此部分的需求可以归纳成以下三个方面。(1) 主要为浮点计算,其中有大量的单精度FFT计算。(2) 软件加速比接近线性,对网络依赖低。(3) 软件内存需求和I/O需求较大,一般需要配置并行文件系统。3.2.2质谱仪原始资料处理1. 应用背景质谱方法(Mass Spectroscope,MS)是通过正确测定蛋白质分子的质量而进行蛋白质分子鉴定、蛋白质分子的修饰和蛋白质分子相互作用的研究,基本原理是带电粒子在磁场或电场中运动的轨迹和速度依粒子的质量与携带电荷比(质荷比,M/Z)的不同而变换,从而可以据此判断粒子的质量及特性。但长期以来,质谱方法仅限于小分子和中等分子的研究,因为要将质谱应用于生物大分子需要将其制备成气相带电分子,然后在真空中物理分解成离子。但如何使蛋白分子经受住离子化过程转成气相带电的离子而又不丧失其结构形状是个难题。20世纪70年代,解吸技术的出现成功地将蛋白分子转化成气相离子。而后快原子轰击与其紧密相关的溶液基质二次离子质谱法使得具有极性的、热不稳定的蛋白分子可经受住电离过程。但这些方法仅限于10kD以下蛋白分子的研究。20世纪80年代电喷雾电离(ESI)和软激光解吸(SLD)电离技术的发展则使得质谱方法应用于高分子量蛋白分子的研究。电喷雾电离(ESI)原理可按电荷残留模型予以描述,带电液滴蒸发,液滴变小,液滴表面相斥的静电荷密度增大。当液滴蒸发到某一程度,液滴表面的库仑斥力使液滴爆炸。产生的小带电液滴继续此过程。随着液滴的水分子逐渐蒸发,就可获得自由徘徊的质子化和去质子化的蛋白分子。针对电喷雾电离所产生的多电荷状态,Fenn将多电荷状态理解为对分子质量进行多次独立的测量,并基于联立方程解的平均方法,获得对分子质量的正确估量,解决了多电荷离子信息的问题,使蛋白分子质量测量精度获得极大的提高,并于1988年首次成功地测量了分子量为40kD的蛋白质分子,精确度达到99.99%。软激光解吸(SLD)是指从激光脉冲中获得能量后,样品分子以完整的低电荷分子离子释放,然后由电场加速。运用激光解吸电离蛋白分子时,激光的能量和波长、化学/物理基质的吸收和热传递特性,与基质中分析物的分子结构之间需要做合理的选择调配。Tanaka选用了低能量氮激光和含有胶状颗粒的甘油作基质,成功地测定了高分子量的糜蛋白酶原、梭肤酶A以及细胞色素。由于Tanaka成功的开创性工作,SLD技术迅速发展。目前占主导的方法是基质辅助激光解吸电离(MALDI)。这一方法是将样品掺入一种低分子量的结晶基质,基质的最大吸收与激光脉冲波长匹配。由于MALDI产生的是低电荷的完整气相大分子,可用于检测纯度不高的生物分子。生物质谱技术由于其高灵敏度、高通量和高精度等特点,目前是大规模蛋白质鉴定的主流技术。在典型的自底向上蛋白质组学研究策略中,蛋白质样品被酶解成肽段混合物,后者通过色谱质谱联用生成串联质谱。从串联质谱重构出肽段序列,是蛋白质鉴定的核心计算问题。目前,最成功和最常用的解决方法是用串联质谱搜索蛋白质序列数据库,将数据库中的序列做理论酶切和理论碎裂,然后将预测的谱图跟实验谱图匹配,从而鉴定肽序列,进而鉴定整个蛋白。基于蛋白质序列库搜索的蛋白质鉴定,实际上是一个检索系统,其核心计算问题是谱图匹配的肽打分算法。同时,为了得到正确的鉴定结果,蛋白质鉴定系统还必须对检索结果的可靠性进行统计评估。蛋白质的修饰给蛋白质鉴定检索系统的速度和精度都带来了更大挑战。2. 计算资源需求1) 常用软件在用于蛋白质分析的质谱技术中,蛋白质样品首先被选定的蛋白酶水解,形成多肽。不同质量电荷比的多肽离子被质谱仪分离、检测出来,得到一级质谱。这些肽离子可以进一步被打碎,形成碎片离子。碎片离子被分离和检测便得到串联质谱。用质谱鉴定蛋白质的方法因此分为以下两大类。第一类是基于一级质谱的,称作肽质量指纹作图。这类方法搜索已知蛋白质数据库,用指定的酶对蛋白质进行模拟水解,得到理论一级质谱。理论一级质谱与实验一级质谱进行比较,结果按照匹配的程度排序。这样的系统有MOWSE,Mascot,ProFound,PeptIdent,MSFit等。肽质量指纹作图适用于蛋白质样品包含一种蛋白质或简单的混合物的情况。其缺点是由于蛋白质混合物和污染物、部分酶解、残基修饰(所谓氨基酸残基是指去掉一个水分子的氨基酸)、质量精度等因素的影响,往往误差较大,导致搜索结果错误。第二类是基于串联质谱的。这类方法首先利用串联质谱技术(Tandem Mass Spectrometry, MS/MS)准确测定肽的氨基酸序列,再通过肽序列鉴定蛋白质的序列。所以,这种方法可以用于鉴定复杂的蛋白质混合物或者验证肽质量指纹搜索的结果,是目前最常用最有效的主流方法。为了鉴定蛋白质,从串联质谱鉴定肽的氨基酸序列是核心问题。从串联质谱鉴定肽序列的计算方法有三种: 数据库搜索方法、从头测序方法、序列标签查询方法。其中最常用的是数据库搜索方法。在这种方法中,数据库中的蛋白质序列被理论水解和碎裂,生成理论串联质谱。把理论质谱与实验质谱相比较,从而找到生成实验质谱的肽序列。在利用串联质谱鉴定蛋白质的方法中,蛋白质鉴定问题归约为更基本的肽鉴定问题。而数据库搜索方法是目前普遍采用的肽鉴定方法。给定实验串联质谱,对数据库中的候选肽进行匹配打分是肽鉴定算法的核心。对肽打分鉴定结果的评价,即识别出正确鉴定的肽序列,也是必不可少的一步。所谓“肽打分”是指: 给定实验串联质谱,对候选肽产生该质谱的可能程度做出评分,从而对所有候选肽进行排序。用信息检索的语言描述,这里的串联质谱即是输入的查询,候选肽即是数据库中保存的对象,而肽打分函数实际上就是检索函数或称排位函数。肽打分函数的功能就是对候选肽进行排位,把最可能产生实验质谱的肽序列排在首位。可以把肽打分函数按构造方式分为以下三类。第一类基于谱向量点积。在基于谱向量点积(Spectral Dot Product,SDP)的肽打分算法中,是把理论质谱和实验质谱重叠的程度作为候选肽的分值,而这种重叠可以用向量间的点积运算描述。在SDP中,理论和实验质谱分别被表示为N维向量c=[c1, c2,…, cN]和t=[t1, t2,…, tN]。其中,N是所使用的不同质量值的数量,ci和ti可以取0/1值,也可以取串联质谱中第i个质量值的离子强度。实验和理论串联质谱间的SDP定义为:
SDP=c·t=∑Ni=1citi
如果两个谱向量是相同的,那么它们应该是平行的。而向量的点积恰好反映了它们平行的程度,因此可以作为肽匹配的分值。Sonar MS/MS软件是使用SDP作为肽打分函数的典型代表,它将质谱表示成向量形式并直接计算谱向量的点积作为分数。目前使用最广泛的商业肽鉴定软件之一SEQUEST是利用信号间的交叉相关分析来比较质谱的,而其中的交叉相关运算实际上也是基于谱向量点积的。首先按一定规则对匹配的氨基酸序列预测其质谱,再对实验质谱做适当处理,以使两个质谱之间交叉相关分析能够反映出碎片离子的相似度。作为离散信号的实验谱x[t]和理论谱y[t]之间的交叉相关如下计算:
Rt=∑n-1i=0x[i]y[i τ]
其中,τ是两个信号间的位移值。相关函数实际上是测量了两个信号间的相似度。如果两个信号是相同的,则相关函数在τ=0处取最大值。SEQUEST打分公式定义为:
Xcorr=Rτ(τ=0)-1149∑–75
可见,Xcorr分值实际上就是SDP再减去一系列位移的SDP的均值。第二类基于概率,如Mascot,SCOPE,ProbID34和PepSearch等。Mascot是除了SEQUEST之外,另一个广泛采用的商业蛋白质鉴定软件。Mascot试图计算实验串联质谱由候选肽随机生成的概率p,而候选肽分数为-log(p)。Mascot的概率打分算法综合考虑了肽长度的分布、酶切位点遗漏概率、质量误差分布以及离子强度等因素。SCOPE是Celera公司设计的打分算法。它利用贝叶斯模型进行打分,对于给定的质谱求每个序列的后验概率。SCOPE通过用两步随机过程模拟串联质谱生成的过程: ①根据概率分布生成肽的碎片; ②根据仪器测量误差,从碎片生成质谱。ProbID试图计算实验串联质谱由候选肽随机生成的贝叶斯后验概率。但是ProbID计算的概率不能算作真正意义上的概率,而只不过是若干因素的简单乘积。其中包括亚胺离子的出现情况、肽序列酶切点是否满足酶的特异性、匹配和不匹配的谱峰,以及连续和互补离子的匹配情况等。第三类基于机器学习,或者说基于模式分类。 肽鉴定本质上可以看作将候选肽分为“正确”和“不正确”的两类分类问题。在基于机器学习的肽打分函数中,候选肽与实验质谱间的多种匹配信息被表示成特征向量的形式,然后利用机器学习方法从序列已知的质谱训练数据中学习出一个打分函数。对于每个质谱,在数据库搜索之后,尽管总会有一个得分最高的候选肽,但是这个候选肽不一定就是正确的。对肽鉴定结果可靠性的评估早期使用的是经验阈值法,如SEQUEST。经验阈值法的好处是简单直观,但缺点也很明显,那就是阈值的指定只凭经验,缺少理论上的依据。当数据库规模增大时,错误候选肽的最高分也会水涨船高。并且,根据阈值过滤出的结果,其可靠性没有定量的估计。使用经验阈值是一种武断的做法,实际上,无论肽鉴定结果的得分有多高,都带有或多或少的不确定性。为了有效估计鉴定结果的可靠性,必须利用统计手段。目前,使用最多的鉴定结果可靠性统计度量指标是针对单谱鉴定的期望值和针对多谱鉴定的假发现率。随机分值的概率分布决定了期望值的计算方法。依据概率分布来源的不同,期望值的计算方法可分为三类,即经验拟合法、理论建模法和穷举计算法。经验拟合法是通过拟合实际的分值分布数据估计概率分布,理论建模法是通过假定某种随机概率模型从理论上推导分值的随机分布,穷举计算法是通过穷举所有可能候选肽得到分值的真实分布。通过经验拟合法计算期望值的搜索引擎有Sonar,X!Tandem,pFind,及RAId_DbS等; 通过理论建模法计算期望值的搜索引擎有Mascot和OMSSA; 穷举计算法则是最近由金(Kim)等人提出的。三种方法各有优缺点,经验拟合法适用于任意类型的打分函数,但要求必须有足够的候选肽规模以拟合分值分布以及恰当的分布形式假设; 理论建模法对于任意给定的一条肽序列都可以计算其期望值,但是只适用于基于概率的打分函数,准确性取决于概率模型的准确性; 穷举计算法能够直接计算出分值的真实分布,但是只适用于加和性的打分函数,并且计算复杂度较高。2) 需求特点(1) 软件加速比接近线性,对网络依赖低。(2) 系统计算量大,计算时间长,系统稳定性,可靠性要求高。3.2.3分子动力学模拟1. 应用背景自20世纪70年代以来,伴随着计算机技术的巨大进步,计算机的计算能力得到了大幅度的提高。作为在原子水平上利用经典牛顿力学方程研究分子状态的计算机模拟方法,分子动力学(Molecular Dynamics,MD)模拟方法已广泛地用于复杂体系,特别是生物大分子的理论研究。相较于实验手段,除了其较为经济的优点外,基于全原子模型的MD模拟可以在原子结构层次揭示生物事件随时间的发展过程。这些信息不仅帮助我们认识生命现象,而且也具有实用价值,比如蛋白质稳定性研究、蛋白质折叠、构象转换、分子识别、离子传输、辅助研究关于药物设计以及验证X射线晶体衍射方法和核磁共振方法得到的分子体系的实验结构。在20世纪70年代中后期,随着分子力学方法的迅速发展,科学家们系统地建立了适用于生物大分子、金属材料、聚合物体系的分子力场。1977年,基于简单力场对牛胰岛素抑制剂(BPTI)在真空中短时间分子动力学的模拟被报道后,MD模拟方法无论是在采样效率还是在势能函数准确性上都取得了巨大的进步。分子动力学模拟的基本过程为: 首先给出生物体系里每个原子的初始位置以及初始速度,选择使用何种溶剂模型处理溶剂效应以及何种分子力场计算分子之间的相互作用能; 对初始结构进行简单能量优化、结构平衡,防止初始结构中原子之间位置冲突; 开始分子动力学模拟,根据所选用的经验势可以得到每个原子上的作用力以及原子运动的加速度,原则上可以求得任意时刻任何原子的位置和速度。实际模拟时必须选择合适的时间步长,模拟中步长必须足够小,一是保证能够正确地计算体系中最快的运动,比如共价键的振动,二是防止原子位置冲突,但是步长又不能太小,否则需要很长的模拟时间才能获得足够多的采样; 最后对模拟结果进行分析处理。分子动力学模拟结果的可靠性和准确性主要依赖于模拟中所选用的势能函数,包含分子力场以及溶剂化模型。
根据量子力学的玻恩奥本海默近似,由于电子的质量远远小于原子核的质量,电子能够根据原子核位置的变化迅速调整自己的位置,在原子核位置发生新的变化前达到平衡,所以原子核和电子的运动就可以分为独立的两步,分子的能量可以认为只和原子核的位置有关,描述分子能量和结构关系的就是分子力场的势能函数。在分子力学模型中,每个粒子通常代表一个原子,在此基础上建立的力场称为全原子力场(All Atom Force Field),有时一个粒子也可以代表一个非极性基团,基于这个想法建立的力场称为联合原子力场(United Atom Force Field)。分子力场的势能函数是一个经验性公式,对分子能量的计算比较粗糙,但是相对于精确的量子力学从头算方法,分子力场的计算量要小数十倍,因此对大分子复杂体系而言,分子力场方法是一套行之有效的方法。以分子力场为基础的分子力学计算方法在分子动力学、蒙特卡罗方法、分子对接等分子模拟方法中有着广泛的应用。分子力场是分子动力学模拟的核心,包括势能量函数的形式及其相应的力场参数。体系的能量通常被经验性地划分成若干个能量项,每项用一个简单的数学形式来表示,一般为:
Etotal=∑bondsKr(r-req)2 ∑anglesKθ(θ-θeq)2
∑dihedralsVn2[1 cos(n-γ)]
∑i
能量函数中包含成键相互作用项以及非键相互作用项。公式中的前4项合称为成键相互作用能项,包含键长项(1—2相互作用),键角项(1—3相互作用),正常二面角项(1—4相互作用)。能量函数中的后两项合称为非键相互作用项,在所有原子力场中,原子间的非键相互作用指的是不同分子之间的原子相互作用或者同一个分子里被三个或更多键隔开的原子之间的相互作用,包括范德华相互作用和静电相互作用; 为了提高力场的精度,有的力场能量函数还包含额外的氢键能量项、键长键角以及二面角之间的耦合项等。这些势能函数以及相关的参数统称为分子力场。在分子动力学模拟中,每个原子位置的变化遵守经典力学规律。
Fi=miai
Fi=-ΔiV
公式中Fi为作用在原子i上的力; mi为它的质量; ai为产生的加速度。Fi可以用第二个公式中的势函数梯度来计算。每隔一个模拟步幅,分子中的各个原子移动到新的位置,由此时的结构可以根据力场求出势能梯度,进而计算每个原子所受到的来自体系中其他原子的力,然后求出加速度,最后求出新的位置。如此循环下去,就可以得到描述体系各个原子的位置、速度和加速度随时间变化的运动轨迹。根据各向异性假设,也就是系统在长时间内的取样平均等价于系综平均,通过统计力学方法计算,可以将分子动力学轨迹中包含的微观信息同宏观物理化学性质联系起来。这样,分子动力学模拟不但可以提供实验中很难测定的高精度动态微观结构信息,还可以通过理论计算得到宏观热力学量,从而可以用于预测实验测量数值。在生物大分子的分子动力学模拟中,生物大分子连同其水溶液环境通常包括几万到上百万的原子数,在每步的模拟中,最耗计算时间的势函数求解理论上与原子数的平方成正比,因此每步要做几亿到几万亿次计算。同时,分子中包含的原子的最快振动周期要求分子动力学模拟的步幅在1~2飞秒范围,而生物大分子行使功能所需的时间则多在微秒~秒范围,甚至更长的时间尺度,因此为得到有意义的相空间取样,需要至少109~1015个模拟时间步。每步计算的规模之大,加上需要计算的步骤之多,要求必须具有极高性能的超级计算机,同时对计算方法进行改进,才能真正意义上实现生物学有意义的时间尺度的模拟工作。近年来,粗粒化(Coarse Graining,CG)方法的出现,使得MD模拟的尺度得到了较大提高。粗粒化方法通过对所研究的分子体系重新定义相互作用位点,使得单个位点对应于多个原子,从而所得对该体系在分子细节上更为“粗粒化”的描述。其实质是忽略某些分子结构的细节信息,从而实现对更大体系进行更长时间的MD模拟。目前粗粒化模拟对凝聚态物质和生物体系的模拟已能达到中等尺度,即体系大小达到微米范围、时间尺度达到毫秒甚至更长。目前,粗粒化方法已在蛋白质、DNA分子、生物膜、高分子聚合物、表面活性剂等体系的模拟中取得了广泛的应用。2. 计算资源需求1) 常用软件(1) NAMDNAMD是一个用于生物大分子大规模分子动力学的并行软件,由美国Illinois大学生物物理系和计算机系联合开发36,支持CHARMM、Gromos和Amber等多种力场,旨在开发出高效的分子动力学并行程序,可支持MPI和Charm 并行,目前已经推出支持GPU和Intel MIC加速版本。NAMD具有非常强的大规模并行计算能力,已经实现了在具有上千个处理器上的并行计算机上,对包含超过三十万个原子的大分子系统进行模拟。NAMD注册后可免费下载使用。官方网站: http://www.ks.uiuc.edu/Research/namd/。(2) AmberAmber(Assisted Model Building with Energy Refinement)是一个常用的分子动力学模拟套件,特别适用于生物大分子。同时,Amber力场也是常用的分子力场。官方网站: http://ambermd.org/。从版本10开始,Amber被拆分成了两部分: AmberTools,摘除了核心程序(如sander)的工具集,以GPL开源发布; Amber,Amber核心程序,需要付费购买。(3) GROMACSGROMACS是一个开源的、高效的、基于标准MPI并行环境设计的大规模分子动力学并行程序38,基于GROMOS分子力场,由荷兰的Groningen大学Department of Biophysical Chemistry开发。GROMACS主要执行生物大分子如蛋白质、核酸、磷脂等物质的计算,也可研究非生物的有机大分子系统,如高分子多聚体等。可以免费下载使用。官方网站: http://www.gromacs.org/。(4) CHARMMCHARMM(Chemistry at HARvard Macromolecular Mechanics)是一种常用的分子立场,CHARMM是相应的分子动力学软件。CHARMM常用于生物大分子的模拟,包括能量最小化,分子动力学和蒙特卡罗模拟等。该软件也已经被移植到各种串行和并行体系架构的平台,包括图形处理单元(GPU)。该软件属于收费软件,有相应商业化版本。官方主页: http://www.charmm.org/。(5) LAMMPSLAMMPS(Largescale Atomic/Molecular Massively Parallel Simulator)是经典的通用型分子动力学程序40。它可以在原子尺度、介观尺度和连续态尺度模拟液相、固态和气相状态的粒子系综,以及原子、高分子、生物、金属、半导体和颗粒系统,实现了固体材料、软物质、粗粒度或介观体系的力场,部分模块支持图形处理单元(GPU)和Intel Xeon Phi平台。LAMMPS使用空间分解和MPI并行技术,并行效率较高,可进行数万核的超大模并行计算,易于扩展。该软件是开源免费软件。官方主页: http://lammps.sandia.gov/。2) 需求特点(1) 主要是以浮点计算为主。(2) 非常适合大规模并行,但是对网络的需求比较大,结点间需要使用低延时、高带宽的InfiniBand高速网。3.3计算机辅助药物设计3.3.1应用背景
计算机辅助药物设计的方法始于20世纪80年代早期。当今,随着人类基因组计划的完成、蛋白组学的迅猛发展,以及大量与人类疾病相关基因的发现,药物作用的靶标分子急剧增加; 同时,在计算机技术的推动下,计算机药物辅助设计在近几年取得了巨大的进展。
计算机辅助药物设计的一般原理是,首先通过X射线单晶衍射等技术获得受体大分子结合部位的结构,并且采用分子模拟软件分析结合部位的结构性质,如静电场、疏水场、氢键作用位点分布等信息。然后再运用数据库搜寻或者全新药物分子设计技术,识别得到分子形状和理化性质与受体作用位点相匹配的分子,合成并测试这些分子的生物活性,经过几轮循环,即可以发现新的先导化合物。因此,计算机辅助药物设计大致包括活性位点分析法、数据库搜寻、全新药物设计。1. 活性位点分析法该方法可以用来探测与生物大分子的活性位点较好地相互作用的原子或者基团。用于分析的探针可以是一些简单的分子或者碎片,例如水或者苯环,通过分析探针与活性位点的相互作用情况,最终可以找到这些分子或碎片在活性部位中的可能结合位置。由活性位点分析得到的有关受体结合的信息对于全新药物的设计具有指导性。目前,活性位点分析软件有DRID、GREEN、HSITE等。另外还有一些基于蒙特卡罗、模拟退火技术的软件,如MCSS、HINT、BUCKETS等。其中,GRID由Goodford研究小组开发,其基本原理是将受体蛋白的活性部位划分为有规则的网格点,将探针分子(水分子或甲基等)放置在这些网格点上,采用分子力场方法计算探针分子与受体活性部位各原子的相互作用能,这样便获得探针分子与受体活性部位相互作用的分布情况,从中可发现最佳作用位点。GRID最初运算的例子是用水分子作为探针分子,搜寻到了二氢叶酸还原酶(DHFR)活性部位中水的结合位点以及抑制剂的氢键作用位点。由此软件成功设计的药物有抗A型感冒病毒药物4-胍基Neu5Ac2en(GG167, RelenzaTM)。该化合物有很强的抗感冒病毒能力,克服了以往抗感冒病毒药物的耐药性缺陷,具有很好的市场前景。MCSS是Miranker和Karplus在CHARMM力场基础上发展而来的,它的基本要点是在运用CHARMM力场进行分子动力学模拟时,取消溶剂分子间的非键相互作用。这样,在分子动力学模拟时,溶剂在能量合适的区域叠合在一起,从而提高了搜寻溶剂分子与受体分子结合区域的效率。小分子碎片(如水和苯分子)可当作溶剂分子,运用上述动力学方法搜寻出分子碎片与受体的结合区域,然后对每个碎片选择100~1000个拷贝,在低能碎片结合域进行能量优化。在最后的能量搜寻过程中,可以用随机取样或网格点的方法来实施。搜寻时每个碎片的各个拷贝可以做刚性转动,最后直接比较每个碎片各个拷贝与受体的结合能,以此选择碎片的最佳作用位点。2001年,Adlington等利用MCSS对前列腺特异性免疫抗原(PSA)的活性位点进行了详细分析,以此对已有的PSA抑制剂进行结构优化,从而得到了迄今为止活性最高的PSA抑制剂。2. 数据库搜寻目前,数据库搜寻方法分为两类。一类是基于配体的,即根据药效基团模型进行三维结构数据库搜寻。该类方法一般需先建立一系列活性分子的药效构象,抽提出共有的药效基团,进而在现有的数据库中寻找符合药效基团模型的化合物。该类方法中比较著名的软件有Catalyst和Unity,而以前者应用更广泛。另一类方法是基于受体的,也称为分子对接法,即将小分子配体对接到受体的活性位点,并搜寻其合理的取向和构象,使得配体与受体的形状和相互作用的匹配最佳。在药物设计中,分子对接方法主要用来从化合物数据库中搜寻与受体生物大分子有较好亲和力的小分子,从而发现全新的先导化合物。分子对接由于从整体上考虑配体与受体的结合效果,所以能较好地避免其他方法中容易出现的局部作用较好,整体结合欠佳的情况。(1) 刚性对接: 刚性对接方法在计算过程中,参与对接的分子构象不发生变化,仅改变分子的空间位置与姿态,刚性对接方法的简化程度最高,计算量相对较小,适合于处理大分子之间的对接。(2) 半柔性对接: 半柔性对接方法允许对接过程中小分子构象发生一定程度的变化,但通常会固定大分子的构象。另外,小分子构象的调整也可能受到一定程度的限制,如固定某些非关键部位的键长、键角等,半柔性对接方法兼顾计算量与模型的预测能力,是应用比较广泛的对接方法之一。(3) 柔性对接: 柔性对接方法在对接过程中允许研究体系的构象发生自由变化,由于变量随着体系的原子数呈几何级数增长,因此柔性对接方法的计算量非常大,消耗计算机时很多,适合精确考察分子间的识别情况。目前,具有代表性的分子对接软件主要有DOCK、F1exX和GOLD。DOCK由Kuntz小组于1982年开发。DOCK的开发经历了一个由简单到复杂的过程: DOCK 1.0考虑的是配体与受体间的刚性形状对接; DOCK 2.0引入了“分而治之”算法,提高了计算速度; DOCK 3.0采用分子力场势能函数作为评价函数; DOCK 3.5引入了打分函数优化以及化学性质匹配等; DOCK 4.0开始考虑配体的柔性; DOCK 5.0在前面版本基础上,采用C 语言重新编程实现,并进一步引入GB/SA打分; DOCK 6引入PB/SA打分,同时增加共轭梯度最小化和兼容分子动力学模拟等。DOCK程序现已成功地应用于药物分子设计领域。Kuntz等利用DOCK程序研究HIV1蛋白酶,根据分子相似性对剑桥晶体数据库进行搜寻,得到化合物haloperidol,通过测试,其对HIV1蛋白酶的Ki值为100μmol/L; 进一步的结构改造得到化合物thioletal,其IC50高达15μmol/L。DesJarlais利用DOCK程序的一个改进版targetDOCK搜寻HIV1蛋白酶抑制剂,得到一系列HIV1蛋白酶抑制剂,其中活性最高的化合物其Ki值为7μmol/L。 AUTODOCK是Scripps的Olson科研小组开发的分子对接软件包,AUTODOCK采用模拟退火和遗传算法来寻找受体和配体最佳的结合位置,用半经验的自由能计算方法来评价受体和配体之间的匹配情况。在AUTODOCK中,配体和受体之间结合能力采用能量匹配来评价。在1.0和2.0版本中,能量匹配得分采用简单的基于AMBER力场的非键相互作用能。非键相互作用来自于三部分的贡献: 范德华相互作用,氢键相互作用,以及静电相互作用。在3.0版中,AUTODOCK提供了半经验的自由能计算方法来评价配体和受体之间的能量匹配。FlexX是一种快速、精确的柔性对接算法,在对接时考虑了配体分子的许多构象。 FlexX首先在配体分子中选择一个核心部分,并将其对接到受体的活性部位,然后再通过树搜寻方法连接其余片段。FlexX的评价函数采用改进的结合自由能函数。FlexX的对接算法建立在逐步构造策略的基础之上,分为以下三步: 第一步是选择配体的一个连接基团,称为核心基团; 第二步将核心基团放置于活性部位,此时不考虑配体的其他部分; 最后一步称为构造,通过在已放置好的核心基团上逐步增加其他基团,构造出完整的配体分子。FlexX对接一个典型的药物分子大约需要三分钟,表明它可用于中等规模的三维数据库搜寻; 此外,由于其采用了经验结合自由能函数进行评价,结果可能要优于以相互作用能为评价函数的分子对接方法。因此,FlexX是一个非常有前途的药物设计方法,近年来发展迅速。3. 全新药物设计数据库搜寻技术在药物设计中广为应用,该方法发现的化合物大多可以直接购买得到,即使部分化合物不能直接购买得到,其合成路线也较为成熟,可以从专利或文献中查得,这都大大加快了先导化合物的发现速度。但是,数据库搜寻得到的化合物通常都是已知化合物,而非新颖结构。近年来,全新药物设计越来越受到人们的重视,它根据受体活性部位的形状和性质要求,让计算机自动构建出形状、性质互补的新分子,该新分子能与受体活性部位很好地契合,从而有望成为新的先导化合物; 它通常能提出一些新的思想和结构类型,但对所设计的化合物需要进行合成,有时甚至是全合成。全新药物设计方法出现的时间虽然不长,但发展极为迅速,现已开发出一批实用性较强的软件,其中主要软件包括LUDI、Leapfrog、GROW、SPROU等,其中LUDI最为常用。 LUDI是由Bhm开发的进行全新药物设计的有力工具,已广泛地被制药公司和科研机构使用,其特点是以蛋白质三维结构为基础,通过化合物片段自动生长的方法产生候选的药物先导化合物。它可根据用户确定好的蛋白质受体结合部位的几何形状和物理化学特征(氢键形成能力、疏水作用位点),通过对已有数据库中化合物的筛选并在此基础上自动生长或连接其他化合物的形式,产生大量候选先导化合物并按评估的分值大小排列,供下一步筛选; 可以对已知的药物分子进行修改,如添加/去除基团、官能团之间的连接等。在受体蛋白质结构未知的情况下,此模块也可以根据多个已知的同系化合物结构的叠合确定功能团,再根据功能团的空间排列和理化性质推测可能的蛋白质受体结合部位特征,根据此特征进行新型药物设计。目前研究人员利用LUDI设计出数十个针对不同疾病的活性化合物。3.3.2计算资源需求1. 常用软件(1) DOCK免费,半柔性对接,支持MPI并行,应用广泛。(2) AutoDock免费软件,半柔性对接(不支持并行)。(3) FlexX商业软件。(4) Discovery Studio商业包含多种尺度的分子对接方法。(5) ZDOCK,RDOCK (刚性对接,蛋白质对接)学术版免费。(6) MORDOR(柔性对接)。2. 需求特点DOCK扩展性良好,DOCK并行模式为将各个小分子平均分配到每个进程中,所以对网络的性能要求不高,扩展性主要看配体小分子的数量和它们计算规模的均匀性。3.4生物信息学3.4.1生物信息学简介
20世纪后期,基因组学及后基因组学的迅猛发展,无论从数量上还是从质量上都极大地丰富了生物科学的数据资源。数据资源的急剧膨胀迫使人们寻求一种强有力的工具去分析这些数据,从海量的生物学数据中寻求生物学规律,这些规律将是解释生命之谜的关键。另一方面,以数据分析、处理为本质的计算机科学技术和网络技术迅猛发展并日益渗透到生物科学的各个领域。于是,一门崭新的、拥有巨大发展潜力的新学科——生物信息学悄然兴起。生物信息学(Bioinformatics)是在生命科学的研究中,以计算机为工具对生物信息进行存储、检索和分析的科学。它是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一。其研究重点主要体现在基因组学(Genomics)和蛋白质组学(Proteomics)两方面,具体地说就是从核酸和蛋白质序列出发,分析序列中表达的结构功能的生物信息。生物信息学是生物和信息技术的结合,这一学科包括用来管理、分析和操作大量生物数据集的任何计算工具和方法。从计算模式上,生物信息的计算可以称为数据密集型的高性能计算,分布式计算任务间的耦合度较低; 生物信息学计算对浮点计算能力的需求很小,而几乎都是整型计算; 生物信息学计算对内存和存储大小、性能的要求较高。生物信息学主要由三个部分组成: 建立存放和管理大量生物信息学数据集的数据库; 开发确定大数据集中各成员关系的算法和统计方法; 使用这些工具来分析和解释不同类型的生物数据,包括DNA、RNA和蛋白质序列、蛋白质结构、基因表达以及生化途径。生物信息学在短短十几年间已经形成了基因组学、蛋白质组学、系统生物学、比较基因组学等多个研究方向。3.4.2基因测序及数据处理技术1. 测序技术介绍DNA测序技术是现代分子生物学研究中最常用的技术。自1977年第一代测序技术问世以来,经过三十多年的发展,DNA测序技术取得重大进展,以高通量为特点的第二代测序技术逐渐成为市场主流,以单分子测序为特点的第三代测序技术也有了明显的提升,其分别在测序特点上占有不同的优势和缺点。测序技术的快速发展,使小型化/台式高通量测序仪成为现实,这意味着大规模基因组测序将不再是大型实验室或科研中心的专利,中小型实验室、公司、临床检验中心都将能够利用高通量测序技术快速高效地获取大量信息,进行科研或开发应用。1) 第一代测序技术在第一台全自动测序仪出现之前,使用最为广泛的测序方法就是Sanger在20世纪70年代中期发明的末端终止法测序技术。Sanger也因此获得1980年的诺贝尔化学奖。他的发明第一次为科研人员开启了深入研究生命遗传密码的大门。原来的方法主要依靠手工操作,难以自动化。例如,它利用放射性同位素标记引物来进行DNA梯状成像,操作十分不方便。要使用双脱氧核苷酸分别做4个末端终止反应,然后采用平板凝胶电泳技术,用4条电泳道来分离4个反应所得产物,费时费力,试剂消耗也大,这些都严重限制了测序的通量。因此,对于开发非放射性的第一代测序技术势在必行。最早版本的第1代测序仪是20世纪80年代中期在Cal Tech的Leroy Hood实验室发明的。这一测序仪通过修改Sanger法得以实现。最关键的改变是采用具有颜色的荧光染料代替同位素标记。4种双脱氧核苷酸终止子被标记上不同颜色的荧光基团。另外,与最初的Sanger法不同,荧光基团是标记在终止子上,而不是在引物上。这种不同颜色标记的方案可以实现一个反应管中同时进行4个末端终止反应。采用聚丙烯酰胺凝胶分离,并通过计算机荧光检测系统分析梯状反应产物。这些改进极大地提高了测序速度,减少了测序过程中的人为干扰。次年,利用Leroy Hood实验室的技术,ABI推出了第一款半自动DNA测序仪ABI 370。在随后的20年中,测序仪的性能得到了极大的提升,但基本工作原理直到最近才有所改变。第1代测序仪的第2个版本出现在20世纪末。这一版本的测序仪,其测序速度与质量得到了进一步的提高。这主要归功于两方面的工作: 第一,平板电泳分离技术被毛细管电泳所取代; 第二,通过更高程度的并行化使得同时进行测序的样本数量增加。使用毛细管替代平板凝胶取消了手工上样,降低了试剂的消耗,提升了分析的速度。另外,紧凑的毛细管电泳设备的形式更易于实现并行化,可以获得更高的通量。ABI 3730测序仪和Amersham MegaBACE分别可以在一次运行中分析96个或384个样本。这一代测序仪在人类基因组计划DNA测序的后期阶段起到了关键的作用,加速了人类基因组计划的完成。而且由于其在原始数据质量以及序列读长方面具有的优势,这些测序仪今天还在使用之中。通过几十年的逐步改进,第1代测序仪的读长可以超过1000bp,原始数据的准确率可以高达99.999%,测定每千碱基序列的成本是0.5美元,每天的数据通量可以达到600000碱基。不论这些数字如何令人印象深刻,第1代测序技术在速度和成本方面都已达到了极限。由于其对电泳分离技术的依赖,使其难以进一步提升分析的速度和提高并行化程度,并且难以通过微型化降低测序成本。因此,需要开发全新的技术来突破这些局限。尽管如此,第1代技术是不会很快消失的,它将与新的若干代测序平台并存。这些久经考验的方法可靠、准确,且已形成规模化,特别是在PCR产物测序、质粒和细菌人工染色体的末端测序,以及STR基因分型方面,将继续发挥重要作用。2) 第二代测序技术随着人类基因组计划的完成,传统的测序方法已经不能满足深度测序和重复测序等大规模基因组测序的需求,这促使了以高通量为显著特征的第二代测序技术的诞生。第二代测序技术主要包括454公司的GS FLX测序平台、Illumina公司的Solexa Genome Analyzer测序平台和ABI公司的SOLiD测序平台。454测序技术利用了焦磷酸测序原理。454测序系统是第二代测序技术中第一个商业化运营的测序平台。其在2005年最早推出了第二代测序平台Genome Sequence 20,完成支原体Mycoplasm a genitalium基因组测序。并在2007年推出性能更优的测序平台GS FLX。2010年秋,该公司自行研制的GS Junior测序仪上市,其在系统性能方面均得到提升。目前,GS Junior测序仪平均读取长度长达400bp,每次运行得到超过35MB高质量过滤后的数据,准确率达99%,平均运行时间为10小时,更适合规模较小的实验室。与第二代测序平台相比,454技术最大的优势在于较长的读取长度,使得后继的序列拼接工作更加高效、准确。但是,454技术无法准确测量同聚物的长度,其技术的主要错误主要来源于核苷酸的插入或缺失。Solexa测序技术主要采用边合成边测序的方法(SBS)。2009年,Solex推出了对读测序的方法,使得在技术层面上取得了进步。目前,新一代的Illumina HiSeq 2000测序仪的读取长度长达2×100bp,每次运行能够得到大约200Gbp的数据,精确度达99.5%以上,使得在后续的序列拼接工作的计算量和难度上均有所增加。Solexa技术在合成中每次只能添加一个dNTP,很好地解决了同聚物长度的问题,其技术的主要错误主要来源是核苷酸的替换,其错误率为1%~1.5%。SOLiD技术利用了DNA连接酶测序的方法,通过连接反应进行测序。其基本原理是以四色荧光标记的寡核苷酸进行多次连接合成,取代传统的聚合酶连接反应。SOLiD是ABI公司于2007年年底推出的全新测序技术,目前已发展到SOLiD 4 Plus,其读长达到50bp,每次运行能够得到80~100Gbp的数据量。(sdarticle)最新研发出来的5500xl solid系统(SOLiD4hp)每次运行能够得到240Gbp数据量,其准确率达到99.94%。然而,尽管新一代测序技术优势多,其局限性也不容忽视,测序速度提高了,但是测序产生的海量数据却为后续的分析与存储带来了巨大的挑战。相对于Sanger测序技术,第二代测序技术具有成本低、高度并行化和通量高速度快的优点,但第二代测序仪又有各自的特点。454: 读长较长(可达400bp),但通量较小,比较适合用来测量较长的DNA片段或全新测序(de novo sequencing)。例如,可用它测序个人基因组——已经测序出Watson的基因组(7.4的覆盖率)和Neanderthal的DNA序列。Solexa: 读长较短(35~50bp),但通量大,机器运行一次就可产生1.5 Gb,用pairended库测序数据量可达3Gb。Solexa多数情况下用于测序小片段的核苷酸序列,如ChIPseq、mRNAseq等; 其深度测序也可用于人的基因组序列,但其覆盖率一般比较高(>30倍)。SOLiD: 性能参数与Solexa接近,但通量略高,机器运行一次可产生3~6Gb的数据,但需花6~10天(而Solexa运行一次花3天)。3) 第三代测序技术近期出现的Helicos公司的Heliscope单分子测序仪、Pacific Biosciences公司的SMRT技术和Oxford Nanopore Technologies公司正在研究的纳米孔单分子技术,被认为是第三代测序技术(也有学者将纳米孔单分子技术称为第四代测序技术)。与前两代技术相比,它们最大的特点是单分子测序。其中,Heliscope技术和SMRT技术利用荧光信号进行测序,而纳米孔单分子测序技术利用不同碱基产生的电信号进行测序。Helicos公司的Heliscope单分子测序仪基于边合成边测序的思想,将待测序列随机打断成小片段并在3末端加上Poly(A),用末端转移酶在接头末端加上Cy3荧光标记。用小片段与表面带有寡聚Poly(T)的平板杂交。然后,加入DNA聚合酶和Cy5荧光标记的dNTP进行DNA合成反应,每一轮反应加一种dNTP。将未参与合成的dNTP和DNA聚合酶洗脱,检测上一步记录的杂交位置上是否有荧光信号,如果有则说明该位置上结合了所加入的这种dNTP。用化学试剂去掉荧光标记,以便进行下一轮反应。经过不断地重复合成、洗脱、成像、淬灭过程完成测序。Heliscope的读取长度为30~35bp,每个循环的数据产出量为21~28Gb。值得注意的是,在测序完成前,各小片段的测序进度不同。另外,类似于454技术,Heliscope在面对同聚物时也会遇到一些困难。但这个问题并不会十分严重,因为同聚物的合成会导致荧光信号的减弱,可以根据这一点来推测同聚物的长度。此外,可以通过二次测序来提高Heliscope的准确度,即在第一次测序完成后,通过变性和洗脱移除3末端带有Poly(A)的模板链,而第一次合成的链由于5末端上有固定在平板上的寡聚Poly(T),因而不会被洗脱掉。第二次测序以第一次合成的链为模板,对其反义链进行测序。对Heliscope来说,由于在合成中可能掺有未标记的碱基,因此其最主要的错误来源是缺失。一次测序的缺失错误率约为2%~7%,二次测序的缺失错误率约为0.2%~1%。相比之下,替换错误率很低,一次测序的替换错误率仅为0.01%~1%。总体来说,采用二次测序方法,Heliscope可以实现目前测序技术中最低的替换错误率,即0.001%。Pacific Biosciences公司的SMRT技术基于边合成边测序的思想,以SMRT芯片为测序载体进行测序反应。SMRT芯片是一种带有很多ZMW(ZeroMode Waveguides)孔的厚度为100nm的金属片。将DNA聚合酶、待测序列和不同荧光标记的dNTP放入ZMW孔的底部,进行合成反应。与其他技术不同的是,荧光标记的位置是磷酸基团而不是碱基。当一个dNTP被添加到合成链上的同时,它会进入ZMW孔的荧光信号检测区并在激光束的激发下发出荧光,根据荧光的种类就可以判定dNTP的种类。此外,由于dNTP在荧光信号检测区停留的时间(毫秒级)与它进入和离开的时间(微秒级)相比会很长,所以信号强度会很大。其他未参与合成的dNTP由于没进入荧光型号检测区而不会发出荧光。在下一个dNTP被添加到合成链之前,这个dNTP的磷酸基团会被氟聚合物(fluoropolymer)切割并释放,荧光分子离开荧光信号检测区。SMRT技术的测序速度很快,利用这种技术测序速度可以达到每秒10个dNTP。Oxford Nanopore Technologies公司正在研究的纳米孔单分子技术是一种基于电信号测序的技术。他们设计了一种以α溶血素为材料制作的纳米孔,在孔内共价结合有分子接头环糊精。用核酸外切酶切割ssDNA时,被切下来的单个碱基会落入纳米孔,并和纳米孔内的环糊精相互作用,短暂地影响流过纳米孔的电流强度,这种电流强度的变化幅度就成为每种碱基的特征。碱基在纳米孔内的平均停留时间是毫秒级的,它的解离速率常数与电压有关,180mV的电压就能够保证在电信号记录后将碱基从纳米孔中清除。纳米孔单分子技术的另一大特点是能够直接读取甲基化的胞嘧啶,而不像传统方法那样必须要用重亚硫酸盐(bisulfite)处理,这对于在基因组水平研究表观遗传相关现象提供了巨大的帮助。纳米孔单分子技术的准确率能达到99.8%,而且一旦发现替换错误也能较容易地更改,因为4种碱基中的两种与另外两种的电信号差异很明显,因此只需在与检测到的信号相符的两种碱基中做出判断,就可修正错误。另外,由于每次只测定一个核苷酸,因此该方法可以很容易地解决同聚物长度的测量问题。该技术尚处于研发阶段,目前面临的两大问题是寻找合适的外切酶载体以及承载纳米孔平台的材料。2. 测序技术应用目前,第三代测序技术尚处于研发推广阶段,而第二代测序技术已经应用于基因组学研究的各个方面,是目前应用最广泛的测序技术,因此下面主要介绍第二代测序技术在基因组测序及转录测序等方面的应用。1) DNA测序(1) 全基因组测序新一代高通量测序技术的发展,使得物种全基因组测序变得速度快、效率和准确率更高,越来越多的物种基因组信息相继公布。全基因组测序主要应用于基因组序列未知的物种,DNA片段测序后,用生物信息学软件对序列进行拼接、组装,从而获得该物种的基因组序列图谱。(2) 基因组重测序重测序是指该物种基因组序列已被测序,有参考基因组序列的测序工作。第2代高通量测序技术目前应用最为广泛的领域就是对已知基因组物种进行重新测序,基因组结构变异、单核苷酸多态性、群体多态性、突变热点等重要信息都是通过重测序研究发现的。(3) 宏基因组研究宏基因组学(MetaGenomics)测序是近年来提出的一种新概念,即不再进行分离,而是从整体上研究整个微生物种群结构的特征,研究对象从单一基因组发展到基因组集合,摆脱了对于传统基因组研究的物种限制,开辟了微生物群体,特别是不可培养微生物菌群基因组学研究的新路径。该类研究的具体操作方法是在提取微生物种群的总DNA后,制备整个种群的DNA文库,然后进行高通量的测序,从而在整体上对样品群落进行分析。与传统的微生物研究相比,宏基因组研究跳出了实验室培养的局限,真实地描述了大自然生态群落的复杂性和多样性,对于人类更好地了解微生物群落有着重要的意义。目前,欧盟推出的人类肠道宏基因组计划(MetaHIT),就是通过研究人类肠道中所有的微生物种类,为明确肠道微生物与肥胖等人类疾病的关系提供重要的理论依据。2) RNA测序(1) 转录组测序生物体最主要的调控方式就是转录水平的调控,而作为目前从全基因组水平研究基因表达的主流方法,建立在高通量测序技术基础上的转录组研究已逐渐取代了基因芯片技术。该方法对大量样品同时进行测序,可获得样品之间的表达差异,而同一样品进行深度测序时可以捕获低表达的基因。此外,还可以获得转录本表达丰度、转录发生位点、转录本SNP、可变剪切等重要信息,因此,转录组测序越来越多地用于各种生物的差异表达基因的筛选及可变剪切的鉴定等方面。
(2) 小分子RNA测序小分子RNA近几年受到了科学界的广泛关注,它是一类长20~30个核苷酸的非编码RNA分子,其介导的转录后基因调控是生物体的一种新型基因调控机制,它在生物体的生长发育和适应外界各种环境胁迫的过程中起着非常重要的作用。传统的对小分子RNA的研究方法主要包括克隆测序法、正向遗传学筛选、芯片技术等,而高通量测序给小分子RNA研究拓展了新的思路。高通量测序技术既能捕捉真实存在的小RNA,同时也能对没有注释的小片段RNA进行预测,更重要的是通量的增加甚至可以捕捉体内一些低表达的小RNA,在小RNA检测方面确实具有极大的优势。
3) 表观遗传学(1) 甲基化测序DNA甲基化是可改变染色质结构、DNA稳定性及DNA与蛋白质相互作用的一种重要基因调控方式,以达到控制基因表达的目的。高通量测序技术在检测全基因组范围内的甲基化位点方面也提出了高效的解决方案。其原理为: 由于在哺乳动物中甲基化一般发生在CpG的胞嘧啶5位碳原子上,所以可通过特异性结合甲基化DNA的蛋白MBD2b或5′甲基胞嘧啶抗体富集高甲基化的DNA片段,用高通量测序对富集到的DNA片段进行测序,从而检测全基因组范围内的甲基化位点。(2) 转录因子结合位点测序转录因子是通过与DNA特定区域相结合,开启或关闭基因的表达以达到调控基因表达目的的一种生物体内常见的调控蛋白。染色质免疫共沉淀技术(ChIP)也称结合位点分析法,是研究体内蛋白质(转录因子)与DNA相互作用的有力工具,通常用于转录结合位点或组蛋白特异性修饰位点的研究。将ChIP与第2代高通量测序技术相结合的ChIPSeq技术,能够高效地在全基因组范围内检测与组蛋白、转录因子等互作的DNA区段。ChIPSeq的原理是,首先通过染色质免疫共沉淀技术(ChIP)特异性地富集目的蛋白结合的DNA片段,并对其进行纯化与文库构建,然后对富集得到的DNA片段进行高通量测序。研究人员通过将获得的数百万条序列标签精确定位到基因组上,从而获得全基因组范围内与组蛋白、转录因子等互作的DNA区段信息。3. 测序数据处理基本的数据处理和分析涉及以下几个步骤。第一步,对测序获取的短序列进行比对拼接。如果是重测序,可以用bowtie进行参考基因组比对,即匹配测序短片段在参考基因组上的位置; 如果是对新物种进行从头(De Novo)测序,用velvet进行拼接,即利用测序短片段重构基因组序列。第二步,比对拼接后,进行全基因组基因注释。包括基因组组分分析,SNP分析,编码基因预测,重复序列注释,Noncoding RNA基因注释,Micro RNA基因注释等。如SNP分析可以用MAQ。第三步,对预测的基因进行功能(GeneOntology,Pathway等)注释。可以用InterproScan,WEGO。第四步,比较基因组和分子进化分析,如快速进化(Rapid Evolution)分析、共线性分析(SyntenyBlock)、基因家族分析等。常用的进化树分析软件如MEGA。在这个过程中,突出的问题有以下几个。(1) 软件选择难。对应某一功能有上百种软件可选,随着仪器的更新换代,数据格式的变化,同一款软件的算法不断升级。(2) 分析效率不高。多为领域专家依赖脚本语言和库写成的软件,未考虑与硬件资源使用的匹配。基本少有优化,并行化,串行或多线程软件居多。(3) 分析流程中多软件衔接难。多数的高通量测序数据分析需几个软件配合完成,各软件通过脚本和大数据的重复读写(数据格式也需匹配)来协调。例如,比对之后做SNP检测,那么比对结果将作为SNP分析的输入。(4) 各软件资源使用特征差异大。例如,拼接软件需要大量的内存消耗,比对则是典型的数据密集计算。
除了各分析算法上的不断优化,当前业界突出的两方面进展表现在工作流系统和云计算的应用。比如UCSC开发的针对第二代测序数据分析的应用系统Galaxy,Notre Dame大学仿makefile开发的用来在集群、云和网格中执行大而复杂任务的工作流引擎Makeflow; 计算大规模RNAseq数据集基因差异表达的云计算工具Myrna,基于序列片段数据进行SNPcalling的MapReduce软件Crossbow。1) de novo序列拼接新一代基因测序技术所产生的序列片段具有序列短、高覆盖率、额外的双端信息等特点。大量的overlap(重叠区域)的产生,增加了组装算法的计算量,初始测序数据的庞大对算法内存的要求随之增加。这就使得序列组装软件不仅要处理重叠区域、片段间隔,还要处理短片段。而且短片段通常使得前两个问题更加严重。de novo序列组装问题就是对测序产生的大量长度为50~100bp的重叠序列片段进行比对合并,以重构源序列,而基因组源序列的长度长达几个Gbp。因此,如果没有高效的序列组装软件,对大基因组测序后产生的数以亿计重叠序列片段进行组装几乎是不可能的。目前广泛使用的拼接策略大致分为三类: Greedyextension、OverlapLayoutConsensus和de Bruijn graph。(1) 基于Greedyextension的拼接策略Greedyextension拼接策略从一个read出发,将其作为种子序列,搜索所有其前缀与种子序列的后缀具有超过阈值重叠(overlap)的read,或选择具有最大重叠长度的read进行延伸,或通过投票选择最大可能的碱基进行延伸,然后将延伸的结果作为种子序列,迭代延伸来完成拼接。Greedyextension拼接策略是一种贪心策略,可能出现错误延伸。使用Greedyextension拼接策略具有代表性的拼接工具包括SHARCGS,SSAKE,VCAKE和QSRA。在SSAKE中,首先从hash表中选取数量最多的read作为种子,然后采用绝对贪婪的方法,检索出与种子匹配的read,并按一定规则拼接,同时补充相应的反向互补序列,逐步形成双链config(即根据read间的overlap,由read拼接成的片段重叠群),从而实现序列的扩展。当源数据的覆盖度很高时,SSAKE可以从头拼接一些简单病毒的DNA,但是拼接长度较短,而且对于真实测序中产生的错误,SSAKE无能为力。VCAKE是对SSAKE的修订,它将所有与种子有overlap的read考虑到,并且每次只扩展一个碱基。VCAKE虽能利用高覆盖度来处理测序产生的错误,但其也只适合拼接病毒和细菌这些较短较简单的基因组。
SHARCGS延续了VCAKE对拼接不确定的处理,并加入了对测序错误的修复,从而有效提高了拼接质量。与SSAKE和VCAKE相比,它在内存、速度、准确度上都有所改善。但这三种算法核心相似,所以它们的整体性能差别不大,都只能应用在简单病毒、细菌基因组的拼接上,且较为耗时。(2) 基于OverlapLayoutConsensus的拼接策略OverlapLayoutConsensus(OLC)拼接策略一般分为以下三个步骤。① Overlap,对所有的read进行两两比对,以获得可能存在的重叠信息,并建立重叠图,通常将每个read看作图上的一个结点,当read A的后缀和read B的前缀具有超过阈值的重叠时,A和B建立连接。 ② Layout,分析重叠图,尽可能寻找贯穿重叠图上所有结点的合适路径,但在实际执行中由于测序错误或重复序列等原因,结果寻找的结果是多条路径,即多个DNA序列片段。 ③ 根据多个序列片段比对得到最后的结果序列,称作Consensus序列。OLC策略理想的情况是在重叠途中找到一条路径能够遍历所有的结点,即寻找图的Hamilton路径,是一个NP问题,因此使用这种策略的拼接工具通常时间复杂度较高。目前典型的拼接工具包括: CABOG、Edena、Newbler和Shorty。Newbler只适用于Roche/454测序仪产生较长read数据(250~400bp),并设计特定的过程用于处理454测序仪在均聚物位置长度不确定问题; CABOG,Newbler和Shorty都在拼接过程中对测序错误和repeat进行了处理。CABOG也只能对100bp长度以上的read进行拼接方能实现较好的拼接性能,它使用了一种称为“rocks and stones”的技术实现对测序错误的纠正; Shorty和Edena都适用于短read数据的拼接,Edena建立transitively reduced重叠图降低图的复杂度; Shorty能通过300~500bp长度的配对末端read数据来估计拼接得到的序列片段间的距离,目前它更多地针对拼接ABI测序仪的SOLiD类型数据。(3) 基于De Bruijn graph的拼接策略现在使用最多的是De Bruijn图算法,其代表软件包括Euler、allpaths、velvet、idba、soapdenovo和abyss等。该算法思想是“反直觉”法: 在将reads组装前,将其切分为长度为k的子串,每一个结点N代表了一系列长度为k的子串,称为kmers。相邻的kmers之间存在N-1个重叠的碱基。基因序列的排布信息由依次重叠的kmers的最后一个碱基的读取顺序决定。N结点上的基因序列的内容表示为s(N)。由于序列的测定的方向性并不明确,为了保证序列组装的正确性,对于每一个N结点,都有一个反向的N′结点而对应,N与N′是关联在一起的,所有对于N的操作同时也对N′有效。De Bruijn图算法的目的在于得到没有分支的最大路径,基于此最大路径,得到contigs。De Bruijn图算法的主要工作就是通过获得的原始数据构建一个有众多N结点的图,然后用“边”来连接这些结点,从而构建一个连续的序列信息。在Velvet中,它先根据kmer构建De Bruijin图,然后结合序列特征及图的结构特征,处理图中的错误read,最后找到一条最优路径作为拼接结果。与之前的算法相比,在拼接速度上有所提高,但由于没有对数据进行压缩处理,所以占用内存较多。2) 序列比对生物序列比对的基本思想是基于分子生物学中的一条经验规则,即当两个分子享有相似的序列时,由于进化关系或者物理化学限制,它们将很有可能具有相似的结构和生物学功能。因此序列比对(Sequence Alignment)的基本问题是比较两个或两个以上符号序列的相似性或不相似性,尽可能确切地反映它们之间的相似性和不相似性,用于阐明序列之间的同源关系,通过序列比对,找出序列之间的相似性,发现与结构相联系的保守序列片段,以及检测新测定序列与数据库中已知结构和功能的序列之间的相似性关系,从而以足够的可信度确定新序列的结构和功能信息。对于第二代测序平台数据的分析,最为重要的一步是将所产生读段通过序列比对形式完成序列相似性比较。由于第二代测序平台数据通量高,因此,第二代序列比对方法一般分为两步: 首先对读段数据或者参考基因组进行归类整理等预处理; 然后通过适当的算法,将短读段序列进行比对和定位。对高通量的序列片段数据进行的预处理方法一般有两类,即基于哈希表的方法和基于后缀trie的BurrowsWheeler转换思想。基于哈希表的方法基本思想是对参考基因序列(也有少数工具是对读段序列)建立哈希表,使用定长的种子在参考基因序列中选取序列与查询序列比对。基于哈希表思想的方法的优点是具有较高的匹配敏感性和准确性,但也有如下不足: 第一,占用的内存空间大; 第二,产生的种子匹配过多。为解决第一个问题,有学者提出了空位种子方法。该方法简单来说,就是在定长的种子中空出个别位置,延长种子长度。使用该方法的比对工具主要有: SOAP、MAQ、RMAP、Mosaik等。为解决第二个问题,有学者提出了后缀Trie方法。后缀Trie是一种n叉树,n为字母表大小。每个结点表示从根结点到此结点所经过的所有字符组成的字符串,它的根结点不包含任何信息,是一种以牺牲存储空间来降低序列查询时间的字符串预处理方式。后缀Trie的主要特征是: 对于任何叶子i,从根结点到该叶子所经历的边的所有标识串联起来后恰好拼出S的从i位置开始的后缀,即S[i,…,m]。树中结点的标识被定义为从根到该结点的所有边的标识的串联。后缀Trie思想即通过n叉树的形式组织各序列,利用字符串集合中字符串的公共部分来降低时间开销以达到提高效率的目的,后缀Trie就是包含所给字段的所有后缀。基于后缀Trie思想的BurrowsWheeler转换可以用“循环、排序”4个字来概括。采用BurrowsWheeler转换的代表是Bowtie、SOAP2、BWA、BWASW。目前已知的序列比对方法很多,依据不同的划分方式有不同的分类。根据同时进行比对序列的数目分为两两比对和多序列比对,从比对范围考虑分为全局比对和局部比对。(1) 双序列比对根据算法结构的不同,将双序列比对算法分为三类: 动态规划的优化方法,启发式算法和大型数据库搜索设计的概率方法。NeedlemanWunsch算法是最早的序列比对算法,属于全局序列比对,在生物信息处理中应用广泛。SmithWaterman算法是一种局部相似性的动态规划算法,在识别局部相似性时具有很高的灵敏度,是双序列比对算法中最基本的算法。① 启发式算法 FASTA算法。FASTA是双序列比对启发式算法,采用了改进的wilbllr和Lipmall算法以集中反映具有显著意义的比对结果。它的基本思想是: 一个能揭示出真实序列关系的比对至少包含一个两条序列都拥有的片段,把查询序列中的所有片段编成Hash表,然后在数据库搜索时查询这个Hash表,以检索出可能的匹配,这样命中的片段就能很快地被鉴定出来。 BLAST算法。BLAST算法可以兼顾搜寻的速度以及搜寻结果的精确度,它比FASTA速度更快。它的基本思想是: 产生比FASTA更少而更有意义的增强点,以提高整个算法的速度。BLAST算法在不失敏感性的前提下大大提高了算法的效率。 BLAT算法。BLAT算法最初用于人类基因组拼接和注释过程中的大规模数据比对任务上。其速度快、共线性输出结果简单易读,存在的局限性是对于特殊的任务需要选择合适的软件,如: 用于远亲缘物种间的核酸序列比对时,比对精度就不够高; 在重复搜索短小匹配片段的同时,会产生过多的没有生物学意义的序列比对碎片。② 大型数据库搜索设计的概率方法为基础的算法MUMmer算法是一种基于后缀树数据结构的全基因组比对方法,利用后缀树的数据结构有效地将算法的时间和空间复杂度由O(N3)降到了O(N)。与BLAST算法相比,其后缀树法在速度上快得多,且能处理大量的插入和删除片段,能识别重复片段和单核酸多态性等多种全基因组序列中的复杂片段。(2) 多序列比对多序列比对算法的基础是动态规划比对算法,但随着比对序列数目及长度的增加,问题的解空间也急剧增大。多序列比对的常用算法有渐进算法、隐马尔可夫模型、迭代比对法等。累进方法是最常用的启发式多序列比对算法。① 渐进比对算法渐进比对算法是最常用的启发式多序列比对算法。算法的基本假设是要比对的序列是同源的。算法的基本思想是由近至远将序列或子比对结果按双重比对算法逐步进行比对,重复这一过程直到所有序列都加入为止。这类算法的主要优点是: 简单、快速,所占内存较少。缺点是在比对初期引进的空位插入错误无法在比对后期因加入其他序列而改正,易陷入局部最优解。CLUSTALW是一个使用最广的渐进比对程序,该算法主要由三个步骤组成: 计算距离矩阵; 构建指导树; 依据指导树进行渐进比对。CLUSTALW对于亲缘关系较近的序列比对效果较好,但是对于分歧较大的序列,比对的准确率明显降低。TCOFFEE是另一个有代表性的渐进比对算法,它的主要特点是将序列的两两局部及全局比对结果做成一个扩展比对信息库,再利用扩展比对信息库中的信息对序列进行比对,这样在每一步比对过程中都用到了所有序列之间的关系信息,在一定程度上提高了序列比对的准确率,尤其是对于存在大量空位插入的情况,效果更为明显。② 迭代比对算法迭代比对(Iterative Alignment)算法是另一类有效的多序列比对算法,它基于一个能产生比对的算法,并通过迭代方式精细多序列比对,直到比对结果不再改进为止。这类算法不能提供获得优化比对结果的保证,但却具有鲁棒性和对比对序列个数不敏感等特性。基于遗传算法的多序列比对SAGA算法是一种实用的迭代算法。该算法的思想是将序列集中不等长的序列以两端加空位方式补齐,构造初始群体中的个体; 将初始群体中的个体按一定的概率进行遗传操作(复制、连锁互换、突变)产生新的个体构成新种群; 对新种群的个体重复上述的遗传操作,直到满足终止条件。个体适应度函数用WSP度量。该算法的优点是: 可以对任意多个序列同时比对,而不会受到限制。主要缺点是速度慢,易于陷入局域优化解。(3) 基于隐马尔可夫模型的序列比对隐马尔可夫模型是目前较先进的多序列比对方法,跟常规的方法相比,它可以发现序列久远的同源性。从原理上,可以将序列比对方法分为如下两类。① 空位种子片段索引思想它将一个短读段分成了若干条长度相等的更短的片段——种子片段。如果整段短小片段可以与参考基因组序列完全配对,那么很显然所有的种子片段也理所应当地与参考基因组序列完全配对。但如果其中有一处错配,例如SNP,那么肯定有一条种子片段无法与参考基因组序列完全匹配。以此类推,如果出现了两处错配就会导致一条或两条种子片段无法与参考基因组序列完全匹配。因此,对所有种子片段两两组合后的片段进行比对,就有可能找出该短小片段在基因组中最有可能的位点。采用空位种子片段索引法的代表是MAQ,ELAND,SOAP2等。② SmithWaterman思想SmithWaterman思想可以概括为一个评价打分技术,它基于动态规划策略的局部序列比对技术,在一条搜索路径中分数可能增加、减少或者不变。通过相似性评估技术来对当前结点打分,相同结点则增分,不同结点则减分,并且必须有间隙(Gap)惩罚机制来处理片段空隙。比较有代表性的使用该策略的比对软件有: SHRIMP、BFAST、Mosaik和BWASW等。4. 计算资源需求1) 内存常用的序列拼接软件一般需要较大的内存,内存容量需1TB以上,一般配置内存槽位较多的四路或八路机架式服务器。序列比对软件可手动调节问题规模,对内存容量的需求不是必要条件,但需要保证内存带宽,按照CPU的内存通道数量配置足够多内存条数。2) 存储序列拼接软件在计算时会产生中间数据,存储性能的好坏对整个计算过程所需要的时间影响较大,对存储的性能要求较高,一般配置多块本地硬盘,计算过程中的临时数据通过本地硬盘读写,一方面保证性能,另一方面减少序列拼接程序运行时对共享存储的影响。也可以为序列拼接结点配置单独的磁盘阵列。序列比对计算间断性的读写硬盘,存储性能越高,计算速度越快,由于序列比对可手动调节问题规模,一般配置性价比较高的两路服务器,所以结点数目较多,需配置并行文件系统。3) 网络序列拼接、比对等软件大部分为单机运行,对网络的需求主要来自于访问存储的要求。一般配置千兆以太网即可,如果配置高速InfiniBand网络,访问存储的性能会提高,减少数据读写的时间,从而提高计算效率。4) GPGPU目前已有部分软件实现了GPGPU加速,比如GPU ClustalW、MUMmerGPU、SWAMP、CUDASW 、MSACUDA、GPUBLAST、SOAP3、GAligne、BarraCUDA等,可根据实际运行软件情况选配GPGPU卡。3.4.3生活中的生物信息学2013年,安吉利亚·朱莉选择预防性切除乳腺来预防癌症,而让朱莉做出这个选择的正是在基因检测中发现自己的BRAC1基因上遗传了来自母亲的突变,而这个突变将使得朱莉患乳腺癌和卵巢癌的几率要比常人高不少,分别达到87%和50%。这是第一次大家在一个大范围的报道中听到基因检测技术如此地和我们个人的健康生活息息相关。其实生物信息学技术已经存在于人们的日常生活中,这里举一个应用最广泛的基因检测技术——无创产前诊断技术作为例子。唐氏综合征即21三体综合征,又称先天愚型或Down综合征,是由染色体异常(多了一条21号染色体)而导致的疾病,在我国发病率为1/800~1/600,随年龄增加发病率提升,35岁之后骤增。传统的唐氏筛查方法是根据通过抽取孕妇血清,检测母体血清中甲型胎儿蛋白、绒毛促性腺激素和游离雌三醇的浓度,并结合孕妇的预产期、体重、年龄和采血时的孕周等,计算生出先天缺陷胎儿的危险系数,而这种检测的误差率可能达到40%,本身不能用于判断是否患有唐氏综合征。在没有出现无创产前检测之前,只能通过羊水穿刺、抽取脐带血等手术方式取到胎儿DNA进行核型验证,从而判断是否具有唐氏综合征。手术方法一方面对孕妇可能造成比较大的身心压力,另外一方面也存在一定的手术风险,如羊水穿刺就会存在1%左右的流产风险。在无创产前检测技术出现后,只需要抽取孕妇的静脉外周血,进行DNA测序和生物信息学分析,便能够几乎100%确认胎儿是否患有唐氏综合征,大大降低了需要进行手术方式确认的人群比例,相比于后者,无创产前检测几乎是一个无风险的方式。在母婴健康领域无创产前检测已经得到了大范围的应用,到目前为止,据不完全统计中国已经有超过500万母亲使用了无创产前检测进行唐氏综合征的排查。3.5精 准 医 疗随着中国经济的快速发展,国人对于生活质量的重视达到前所未有的高度,对于医疗服务尤其是针对个体基因层面的个性化医疗提出了更多需求; 同时,癌症、阿尔茨海默等一系列重大疾病严重威胁着公众健康,给正在改革发展中的医疗体系带来更为严峻的挑战。精准医疗(Precision Medicine)的出现,为系统而前瞻性地进行疾病预防和早期诊断,优化临床诊疗策略和方法,有效降低医疗成本,构建现代化的、面向个体的医疗服务体系带来了全新的视角。3.5.1精准医疗的概念演变及发展1. 精准医疗的提出1960年,费城染色体融合基因BCRABL染色体被发现,为后来的基因靶向药物研发奠定了基础。2007年,美国系统生物学研究所创始人Leroy Hood教授提出“P4医学模式”,后来增加了第5个P(精准)。2008年,哈佛商学院Clayton Christensen教授最早提出精准医疗概念。随后2011年,美国国家研究委员会在《迈向精准医学: 建立生物医学与疾病新分类学的知识网络》一文中正式提出“精准医疗”( Precision Medicine,PM)的概念。 2015年1月月底,前美国总统奥巴马在国情咨文演讲中宣布了“精准医疗计划”,这一计划不仅使得美国公众了解到目前医疗的现状,更影响到全世界的医疗进展。2015年3月,我国立即响应召开了精准医学专家讨论会,并将“精准医疗”列入“十三五”健康发展问题进入研究,重点推进这一领域的快速发展。2. 精准医疗的概念从广义上讲,“精准医疗”是医学全新领域的分支,就是根据个体基因差异、个人生活方式以及环境因素,在精准数据的指导下对疾病开展预防和治疗的新方法; 从狭义的角度讲,就是利用已知的基因信息,为目前肿瘤、传染性疾病和遗传病提供针对个体化的更为有效的治疗手段和方法之一。“精准医疗”是一种基于病人“定制”的医疗模式,医疗的决策、实施等都是针对每一个病人个体特征而制定的,疾病的诊断和治疗是在合理选择病人自己的遗传、分子或细胞学信息的基础上进行的。按照美国国立卫生研究院(NIH)对“精准医疗”的定义,“精准医疗”是一个建立在了解个体基因、环境以及生活方式的基础上的新兴疾病治疗和预防方法。中国工程院院士、中国医学科学院副院长、中国协和医科大学副校长詹启敏指出: “所谓‘精准医疗’是应用现代遗传技术、生物信息技术、分子影像技术,结合患者临床数据和生活环境,实现精准的疾病分类及诊断并制定具有个性化的疾病预防和治疗方案”。目前正是推动精准医疗进一步发展的最好时机,他认为: “中国在基因组学和蛋白组学方面的研究位于国际前沿,分子大数据、影像、靶点等技术发展迅猛,中国在精准医疗的基础层面与西方国家保持同步; 下一步的发展需要整合技术研发、临床转化、产业培育、示范推广,实现交叉融合、协同创新。”3. 精准医疗计划的意义2016年,美国在“精准医疗计划”上投资2.15亿美元,从一百万位美国志愿者那里收集数据,找寻科学证据,将“精准医疗”从概念推进到临床应用。可以看出,所谓“精准医疗计划”,实际上就是将遗传和基因组的信息作为临床治疗出发点的一个行动计划。精准医疗的概念是“个体化医疗”的延伸,是在生物分子学基础上的、更加精确的、因人因病而异的个体化医疗46。如果人们能够深刻了解自己的遗传和基因组学信息,那么对疾病的预测,特别是疾病易感性的预测将得以实现,这一计划将改变目前的就医模式。第一,人们会被告知未来可能患有的某些疾病,更好地针对性进行预防; 第二,患者一旦患有了某种疾病,其诊断将会非常容易; 第三,诊断后的用药将针对个体对药物的敏感性而制定,每个病人将得到最适合自己的药,并在最佳剂量和最小副作用以及最精准用药时间的前提下用药; 最后,对疾病的护理和预后的效果也将得到准确的评估和指导。作为下一代诊疗技术,精准医疗具有重要的理论及实践意义。一方面,精准医疗理论研究有利于完善数据科学学科体系,创新和丰富临床及转化医学的研究; 另一方面,基于大数据,精准医疗服务可以在合适的时间给予患者以合适的治疗,既保障医疗安全又改善医院经营管理。4. 精准医疗的发展方向由“中国医院协会医院信息统计专业委员会”主办的关于“肿瘤精准医疗临床大数据采集与应用专家研讨会”中,陈润生院士认为医疗临床大数据的建设是推动精准医疗发展必不可少也是至关重要、难度较大的因素。2015年年初,卫计委联合中医药管理局公布了肿瘤登记管理办法,要求建立完善全国肿瘤登记制度,动态掌握我国癌症流行状况和发展趋势,并逐层建设省、市、县级肿瘤登记中心,还在做一些积极而有意义的工作,如万人癌症计划、万人全基因组测序计划等。陈润生院士呼吁精准医疗的发展方向如下。(1) 组学和大数据是精准医学发展的基础,非编码的破解是精准医学的一大挑战; (2) 移动互联网技术服务于精准医疗; (3) 建立常见肿瘤的数据库; (4) 医学信息的高速公路需要政府的顶层设计。精准医疗离不开大数据的统计分析,卫计委也将依靠国家的力量来推动这项工作的发展。以后会多牵头组织这样的专家研讨会并发展组织联盟,为推动中国精准医疗大数据的建设奠定基础并做些有益的试点和实践。3.5.2精准医疗服务于癌症诊疗精准医疗是以个体化医疗为基础、随着基因组测序技术快速进步以及生物信息与大数据科学的交叉应用而发展起来的一种新型医学概念与医疗模式。精准医疗的本质是通过基因组、蛋白质组等组学技术和医学前沿技术,对于大样本人群与特定疾病类型进行生物标记物的分析与鉴定、验证与应用,精确找到疾病的原因以及治疗的靶点,并对一种疾病不同过程进行鉴别,实现对于疾病和特定患者进行个性化精准治疗的目的,提高疾病诊治与预防的效益48。1. 精准医疗服务于临床诊疗精准治疗离不开精准诊断,尤其对于恶性肿瘤而言,精准的诊断、合理的分期、准确的分型将与治疗方案、疗效及预后密切相关。1) 肝细胞肝癌每年有超过60万患者死于肝细胞肝癌(Hepato Cellular Carcinoma,HCC)。临床诊疗指南提出的治疗方案包括肝切除、肝移植、栓塞、消融、放疗、化疗及综合治疗等,其中,肝切除、消融术、肝移植是潜在的治愈性治疗方式。HCC的治疗方式多样,主要在于HCC临床特征的复杂性及不同治疗方式效果的差异性,其中治愈性的手段仅限于早期患者,而多数进展期患者可选的治疗方式有限且疗效不佳。在精准医疗理念下,HCC的精准治疗需要根据疾病临床特征及生物学特征进行精细分类分期,包括全面评估患者个体差异如伴随的基础疾病,肿瘤个体差异如大小、数目、播散转移及血管浸润,以及肝脏个体差异如ChildPugh评分等情况,以及患者特殊遗传特性等情况,减少不必要的治疗及可能的副作用,实现治疗方案的精准化。 近年来,相关研究对HCC治疗方案的选择、疗效及预后评估等方面提出了一些新的理念及方法。对于肝切除手术的患者,采用五基因评分系统评估肝切除术后的生存及预后,具有更高的精确性,并且与传统的BCL分期系统、微血管侵犯联合评估,可提高术后预后评估的准确性,有助于对不同HCC病人进行更为精细的分层及指导治疗方案的选择。除此之外,研究通过检测血清RB1水平,对可行肝切除术的HCC患者进行分层,筛选可能从中获益的病人; 通过检测血清FGF19水平,将具有CTNNB1和AXIN1突变的HCC病人相互区分,用于进一步的病人分层,最终作为肝切除术后生存预测的分子标志物。对于肝移植患者的选择目前主要根据Milan标准及UCSF标准,由于存在肝源短缺的问题,如何将肝移植应用于最佳患者从而获取最佳疗效就显得十分重要,因此对现行标准的改进成为研究的重要方向。最近一项研究发现,进行血清AFP18FFDG PET(18Ffluorodeoxyglucosepositron emission tomography)的联合检测对活体肝移植的预后评估效果优于Milan标准,这对现有肝移植标准是一个有效的补充,有助于术前准确评估肝移植效果及指导筛选更适合的病人进行肝移植,实现最佳治疗效果。2) 胃癌在大数据与精准医疗的时代下,胃癌治疗的基础仍然是规范化治疗。通过大量病例的规范化治疗,采集肿瘤样本后,积累临床数据,通过大数据分析,对规范化治疗中出现的“特异性”病例进行mRNA组、基因组、蛋白质组分析探究得到精准医疗的数据基础,进而指导临床治疗。一方面,科技的进步使传统的诊断水平有了提升,内镜超声、CT、磁共振成像(MRI)以及PETCT的综合运用让胃癌的诊断与临床分期准确度不断提高,诊断性腹腔镜与腹腔游离细胞学检测让一部分病人避免了不必要的手术; 另一方面,细胞与分子水平的精细化为精准诊断开辟了广阔天地,microRNA的检测、血液循环肿瘤细胞(Circulating Tumor Cells,CTCs)与传统的肿瘤标记物相比,在胃癌的诊断与监测中显示出较好的前景。血管内皮生长因子(Vascular Endothelial Growth Factor,VEGF)与人表皮生长因子受体2(Human Epidermal Receptor2,HER2)等靶点成为治疗前常规诊断的一部分,而2015年发布的胃癌分子分型更进一步诠释了胃癌的异质性,为精准医疗提供了更宽广的平台。
我国胃癌病人与欧美国家病人存在着较大差异,通过研究找到基因及患病特点十分必要。平台的建立与样本、数据的共享将是决定精准医疗发展的关键。在2015年的全国胃癌学术会议上,15家肿瘤专科医院宣布组建精准医疗联盟,为恶性肿瘤精准医疗在我国的发展创造了契机。今后,精准医疗将不断被各方重视,配套政策也将推出,医院间、区域化乃至全国的合作将常态化。在精准医疗的需求下,早期胃癌治疗的重点在于在保证肿瘤根治的基础上尽量减少病人创伤,保留病人消化道功能。通过对病人临床特点、肿瘤生物学行为的深入分析,可以针对性地进一步筛选哪些病人肿瘤不易出现淋巴结转移,在现有内镜手术适应征的基础上进一步扩大适宜人群。随着对于晚期胃癌了解的不断深入,对于特定病人的治疗模式呈现越来越精准的趋势。在化疗药物的选择方面,过去发现临床特征和药物应用方面存在一定关联性,例如,对于腹膜内播散转移的病人,腹腔内联合静脉给药的方式更好。人源化移植瘤模型(PatientDerived Xenograft,PDX)可能会对药物选择提供更加精准的参考。通过将新鲜肿瘤组织植于裸鼠皮下成瘤,建立可保持病人生物学特性和药物敏感性的模型,从而提高化疗有效性。但目前该技术还存在花费较高、成瘤时间较长等局限性。随着晚期病人临床数据不断完备,基于数据分析,决定个体化治疗方式有望为这类病人进一步改善生存提供希望。
3) 儿童血液肿瘤近十多年,国内外学者对儿童白血病的精准治疗进行了大量的探索。儿童急性淋巴细胞白血病(ALL)是一类异质性很大的血液系统恶性肿瘤,患同样类型白血病患儿采用同一化疗方案、同样化疗药物甚至相同药物剂量,却产生完全不同的毒副作用和疗效。国内外医生依据宿主的药物遗传性因素、白血病细胞的遗传学特征等,采取分层的个体化治疗,已使ALL患儿的5年无病生存率达到80%以上; 酪氨酸激酶受体抑制剂也已用于BCRABL融合基因阳性的慢性粒细胞白血病(CML)、ALL以及pH样ALL的靶向治疗,成功减少了此类患儿对造血干细胞移植的需求。精准医疗在血液肿瘤专业上的研究尽管取得上述成效,但也存在不少问题,诸如个案报告多,多中心合作研究少; 重复性研究多,具有针对性的靶向研究少等。2. 精准医疗服务于神经退行性疾病诊疗神经退行性疾病种类众多,人们最熟悉的是阿尔兹海默病。阿尔茨海默病(AD)目前仍无有效干预手段,其药物开发迫在眉睫,而AD的基因组学研究则是其药物研发的重要原动力之一。AD的基因组学研究包括大规模遗传风险研究、表观遗传研究、脑转录组研究等,近些年来均取得了显著进展,带动了AD的药物研发。同时,因为早期发现和早期干预是现阶段的重要任务,早期标志物研究,其中包括外周血转录组研究等,也是前沿热点。AD的基因组学将来也会成为AD个体化精准医疗的重要保障。AD的基因组学研究包含以下几个方面: ①在遗传风险方面,传统研究针对特定基因和通路,对相关基因的核苷酸变异进行研究,后来全基因组关联研究取代传统的靶基因研究成为公认可靠的研究手段。近几年全外显子组测序和全基因组测序在寻找致病风险高的稀有突变方面异军突起。②在疾病机制方面,表观遗传组研究包括DNA甲基化和microRNA等则可以进一步发现对基因表达的调控机制,脑转录组可揭示全基因组在AD病理状态下的基因表达失调。③在外周标志物方面,从外周血和脑脊液的表观遗传组和转录组可发现区分健康对照和AD甚至轻度认知障碍(Mild Cognitive Impairment,MCI)的标志物,为早期诊断提供客观参考。AD的基因组学研究在过去十几年里产生了一些重要成果,为更清晰地揭示AD的发病机制和遗传风险奠定了坚实的基础,也为外周标志物和药物靶标的发现提供了重要依据61。希望在不久的未来,这些成果能够尽早转化到临床应用,包括遗传风险预警、早期诊断、病情跟踪监测。值得注意的是,因为AD可能存在较高的异质性,基因组学将在AD的个体化诊疗上有很好的应用前景,比如不同APOE基因型的AD患者群体分型后的比较研究等。3. 精准医疗服务于耳部疾病诊疗1) 遗传性聋遗传性聋的精准医疗是指以遗传性聋患者基因组信息为基础,结合蛋白质组、代谢组等相关内环境信息,对耳聋做出精准分类和诊断,为患者设计出个体化的、安全有效的治疗方案,包括基因治疗、外科手术,以达到治疗效果最大化和不良反应最小化,并予以疗效评估与预测。耳聋精准医疗的实质包括三个方面,即精准诊断、精准治疗、精准预防。(1) 精准诊断就遗传性聋的分子检测而言,基因测序是最主要的手段。针对常见耳聋基因突变的快速检测方法日益增多,国内迄今已有7款检测试剂盒通过了中国食药局(China Food and Drug Administration,CFDA)批准。目前,基于大规模测序的遗传性聋精准诊断面临着一系列问题,如有时通过已知耳聋基因的高通量测序仍无法满足诊断需求; 测序发现的大量基因变异与耳聋表型的相关性有待深入研究,这种情况下要借助外显子组测序甚至基因组测序; 综合征性聋可由多基因缺陷导致,绘制综合征性聋的详细致病基因谱仍是未来的发展方向。(2) 精准治疗人工耳蜗植入是重度遗传性聋最主要的外科治疗手段,而在精准治疗方面,基因诊断能为人工耳蜗的疗效提供一定程度的预测。基因技术的发展为遗传缺陷的精确纠正提供了工具。迄今为止,基因转导技术、基因失活及基因打靶策略已广泛运用于各类基因功能研究。在耳聋研究领域,2005年,Izumikawa等利用腺病毒载体将Atoh1基因导入药物性致聋豚鼠内耳,结果显示致聋豚鼠听力得到改善,受损的部分毛细胞功能得到恢复,甚或产生新的毛细胞。2012年,Lustic等通过腺病毒载体介导基因转染技术使Vglut3基因敲除致聋小鼠的听力得到恢复。2013年,Lentz等利用纠正前体mRNA剪接缺陷的反义寡核苷酸(ASO)对新出生的Usher综合征小鼠模型进行经腹腔注射,使小鼠低频听力提高,前庭功能改善,为遗传性聋的基因治疗带来了希望。但ASO治疗策略只在早期发育(小鼠出生后5~10天)有效,并且效果短暂,限制了它在人类中的应用。2015年,哈佛大学波士顿儿童医院的研究小组将携带正常TMC1基因和相应启动子的腺相关病毒AAV1注射到小鼠的内耳,结果显示,TMC1基因治疗成功恢复了毛细胞对声音的应答以及脑干听觉部分的活性。(3) 精准预防通过临床耳聋基因诊断实践和一系列大规模耳聋基因筛查项目的实施,袁永一等提出了基于基因检测的耳聋出生缺陷三级预防策略。一级预防: 通过耳聋基因筛查,对药物性聋易感个体进行用药指导,对聋人夫妇进行生育指导,对青年聋人进行恋爱前遗传指导,对携带耳聋基因突变的听力正常夫妇进行孕前指导,通过胚胎植入前诊断帮助高危家庭生育听力健康的下一代。二级预防: 对耳聋分子病因明确、已经怀孕的夫妇进行产前诊断。三级预防: 通过新生儿基因与听力联合筛查、诊断。2) 眩晕症眩晕症是一种最为常见的临床综合征,有统计数字表明,人群眩晕发病率为5%~8%,65岁占30%,75~80岁女性2/3有眩晕发作,随着人口逐步老龄化,眩晕症的发病率随年龄增高而增加。目前,由于缺乏全面的现代眩晕诊治知识,往往将大部分眩晕诊断为中枢性眩晕,并且采用盲目过度的地毯式辅助检查如化验、CT、MRI甚至血管造影以及毫无针对性的无效治疗,因此中国迫切需要眩晕精准医疗的常态化,应用世界最先进的眩晕诊治理念。周围性眩晕发生率占70%以上,对于这部分眩晕的患者,有经验的医生不需要地毯式的辅助检查,而是通过详细的问诊、病史特征及体格检查,往往可以得到明确的诊断,对症治疗,往往会收到立竿见影的效果。例如,最常见的耳石症(占眩晕症的1/3)不需要繁杂的辅助检查及药物治疗,采用手法复位10min即可治愈(零消耗),其他如梅尼埃病、前庭神经元炎、前庭阵发症、偏头痛性眩晕等应用的药物治疗也只需几元、几十元。为此,呼吁在全国甚至世界范围内定期对医务人员进行培训以及对公众开展现代眩晕理念的普及教育,并建议将每年的6月9日定为“中国眩晕防治日”乃至“世界眩晕防治日”。 4. 精准医疗服务于个体化用药1) 个体化用药研究的背景通常个体化用药的定义是: 在最适的时间、对最适的患者、给予最适的药物和最适的剂量; 其更广泛的定义是指,在整个治疗期间根据患者的需求、喜好和特点进行量体裁衣式的治疗,包括疾病的预防、诊断、治疗及预后。2) 个体化用药研究的新技术随着多学科知识的融汇,各种新兴技术的出现正推动着个体化用药的发展。其中代表性的关键技术包括: ①高通量测序技术,真正将人类基因组计划的成果转化为临床医学的利器,该项技术使得医生可快速了解个体、病理组织及特定细胞中的全基因组信息,从“遗传信息的源头”去解释每一个个体之间、疾病组织之间、细胞之间的差异; ②3D细胞培养技术和类器官构建技术,可为药物疗效预测以及不良反应的监测提供更为精准的评价模型,在新药研发的初始阶段及临床药物治疗中均可发挥重要作用; ③“液体活检”技术,该技术的诞生为临床精准给药提供了一个重要工具,它可实时动态监测治疗药物的疗效,相比于传统单一时间点的检测,对药物疗效及疾病预后的评价更为精准,同时也能够更加及时地发现个体对药物的耐药; ④各种组学技术,如代谢组学、转录组学、蛋白质组学及宏基因组学等,是后基因组时代的重要研究成果,它们从不同侧面揭示了遗传与环境等多因素对个体的影响,是个体化差异表型的具体体现。 3) 未来个体化用药研究的方向与重点(1) 靶向药物的研发。以克唑替尼为代表的药物研发过程已经充分证实了靶向药物的研发的研究成果将大大加速了新药开发的进程。通过对个体差异的研究,寻找针对性的新型药物重要靶点,设计开发对应的靶向药物,将是未来个体化用药的重要研究方向之一。(2) 药物耐药机制的研究。此研究可帮助我们更为深入地了解药物耐药性发生的机制,以此来解释个体差异对药物耐药的影响、延缓药物耐药的出现、制定克服耐药性的方法以及延长药物的治疗作用。(3) 联合用药方法的研究。针对肿瘤的发病机制,目前已经开发出系列药物(包括各种靶向药物)。研究表明,根据疾病发生和发展的机制、进程,联合应用多种药物,可以延长患者的生存期,提高疗效,有望达到事半功倍的效果。(4) 多种个体化用药相关标志物的系统研究。随着大数据时代的到来,应整合患者的生理和病理信息、环境信息、生活习惯、遗传信息等,采用生物信息学的方法对不同患者的个体差异进行全面描述,建立患者临床数据库,全面指导个体化用药。3.5.3高性能计算与精准医疗精准医疗是一项复杂的系统工程,它将组学技术、系统生物学、数字影像、大数据、信息科学等现代科技手段与传统医疗融合创新,形成精准医疗的体系和范式,指导医学实践。以大数据、云存储、高速网络、智能感应为特色的智能互联网,可以把各种数据通过移动通信网传至健康监测终端,使患者即使远在千里之外也可全天24小时得到实时监测的连续记录,并获得远程治疗方案以及生活方式指导。这种以健康大数据为基础、以移动通信为手段的诊疗技术,将使人类健康管理真正做到个性化、瞬时化、精确化,能因人、因病、因时而制宜。精准治疗使疾病由消极防御转变为更加积极的防御策略。互联网则取代传统医院为中心的模式,把风险事后控制转变为风险事前事中控制,达到事半功倍的效果。有研究表明,医疗因素对人的健康贡献仅为8%,而其余的92%都要依靠科学的健康管理来解决。目前,健康中国已经上升为国家战略,健康事业是人人需要的事业,精准的健康管理是人人向往的管理。如果健康管理插上互联网的翅膀,相信会有突飞猛进的进步效果。1. 精准医疗领域应用支撑技术体系精准医疗的技术体系主要包括生物样本库、生物信息学、电子病历和大数据分析技术。前三个方面是精准医疗的前提条件,最后一个方面则是实现精准医疗的关键。生物样本库: 生物样本库保存并提供人类生物资源及其相关信息74,是转化医学研究的重要资源,是精准医疗的前提条件之一。通过计算机科学等领域的方法和软件,结合组学技术,开展队列和疾病研究,分析生物样本库中的生物样本,发现和验证生物标志物,真正体现生物样本的资源保障作用。生物信息学: 生物信息学综合利用计算机科学,存储和分析生物数据,研究重点包括基因组学、蛋白质空间结果模拟、蛋白质组学、药物设计等。结合患者信息和实验结果,生物信息学可以发现蛋白质、代谢产物、基因等生物标志物,从而帮助确定药物设计以及诊疗方案。其中,计算机数据挖掘是优化疾病候选基因的重要工具。基于基因网络的共犯原则(GuiltByAssociation,GBA)是数据分析的基本原理,相同作用组或者相同表达数据的基因最可能共享同一生物学功能。目前,存在各种优化疾病候选基因的数据资源和网络。数据资源,如基因本体论(Gene Ontology,GO)、KEGG(Kyoto Encyclopedia of Genes and Genomes)等能进行富集分析对基因及基因产物进行功能注释。NCBI、LocusLink、Ensemble、SwissPro和TrEmbl提供已知与疾病相关的蛋白序列数据。网络分析可利用局部网络信息如相邻结点、结点度数和最短路径等,或整体网络信息概观整体网络拓扑结构优化候选基因。 电子病历: 生物标志物的发现需要临床数据与患者样本数据相结合。因此,电子病历需要承载整合生物信息数据、临床数据、患者基本信息等信息的功能,从而为基因和分子信息分析以及其他数据分析奠定基础。大数据分析: 目前已经知道人类各种正常及患者组织的基因及基因表达都有了参考标准,基因表达数据的分析与建模已成为生物信息学研究领域中的重要课题。人类的基因数目很大,基因及其表达的变异信息数据库也十分庞大,从海量的组学数据中提取有价值的数据,就要去除大量的“无关信息”,这需要具有极高精确性的分析模型与分析方法,全球很多学者均致力于该领域的研究。如人类肿瘤基因图谱计划(TCGA),就是应用基因组分析技术,特别是采用大规模的基因组测序方法,将人类全部癌症(近期目标为50种包括亚型在内的肿瘤)的基因组变异图谱绘制出来,并进行系统分析,旨在找到所有致癌和抑癌基因的微小变异,其中包含体细胞突变、拷贝数变异、mRNA表达、蛋白质表达等各类信息。这一计划整合了约七千种人类肿瘤的复杂分子网络。法国居里研究院开发了无缝信息系统,能促进数据整合并且实时跟踪个体样本的处理过程。其计算管线能根据患者的分子图谱可靠识别基因组变化和突变,通过严格的质量控制,可以给医生和生物学家提供关于治疗决策的有价值的报告。该系统成功应用于一项根据肿瘤分子图谱的靶向治疗与传统疗法治疗顽固性癌症的多中心随机Ⅱ期实验中(SHIVA临床实验),实施框架(图33)的左栏为从病人咨询到给出治疗方案等工作流程中所需的信息学和生物信息学体系结构,右栏为所需涉及的不同专家,中间一栏显示支持不同工作流程所需的信息系统或技术,包括电子病历、IT支持(数据存储和处理)、数据分析、数据整合、知识和数据共享等。
图33法国居里研究院开发的无缝信息系统
2. 目前存在的相关问题1) 开放与共享数据资源美国食品药品监督管理局(FDA)于2014年6月2日正式上线公共数据开放项目Open FDA(open.fda.gov),开放了2004—2013年间提交给FDA的“300万份药物不良反应报告”的数据,并向民众即时推送大量健康信息及海量的数据资源。此举将有效促进公共及私人部门创新、推进学术研究、民众教育以及公众健康。我国的卫生信息化建设虽已开展多年,但缺乏整体规划。各医院的电子病历系统不能兼容,各个区域卫生信息化系统仍是一个个信息孤岛,数据不能共享,无法形成有价值的医疗大数据。数据开放是大势所趋,要推进精准医疗,就必须从国家层面制定政策,完善电子病历系统,整合现有临床信息系统,开放医学研究的数据与资源,实现共享。2) 培养计算机相关适用人才“精准医疗”需要不断地响应最新的信息技术和医疗进展,需要具有交叉学科背景的复合型人才。生命科学家和医生面临大数据的瓶颈,需要一体化的基因组信息及临床数据解读工具来辅助科研、临床决策。目前我国近五十家院校设有医学信息管理专业,但学生的医学背景、数据处理能力、计算机水平,与生物信息学发展要求有很大差距。而美国的医学生培养属研究生教育(Graduate Education),必须先获得大学本科学士学位,才有资格申请就读医学院,因此医学生来源于各个专业。这种医生培养模式容易在交叉学科产生创新,更适应当前精准医学的发展。对于精准医疗,我们应该客观对待,既要密切关注,认真借鉴国外的先进经验和好的做法,推动国内精准医疗的开展; 又要处之泰然,不要轻易被国外的宣传所左右,要从中国的实际国情出发,切实加强精准医疗的基础研究,走出一条具有自己特色的探索之路。参 考 文 献
[1]Heel M V, Keegstra W. IMAGIC: A fast, flexible and friendly image analysis software system[J]. Ultramicroscopy, 1981, 7(2): 113129.
[2]Brooks B R, Bruccoleri R E, Olafson B D, et al. CHARMM: A program for macromolecular energy, minimization, and dynamics calculations[J]. Journal of computational chemistry, 1983, 4(2): 187217.
[3]Viruses C E M O. Cryoelectron microscopy of viruses[J]. Nature, 1984, 308(5954): 3236.
[4]Henderson R, Baldwin J M, Ceska T A, et al. An atomic model for the structure of bacteriorhodopsin[J]. Biochemical Society Transactions, 1990, 18(5): 844844.
[5]Pappin D J C, Hojrup P, Bleasby A J. Rapid identification of proteins by peptidemass fingerprinting[J]. Current Biology Cb, 1993, 3(6): 327332.
[6]Henderson R. The potential and limitations of neutrons, electrons and Xrays for atomic resolution microscopy of unstained biological molecules[J]. Quarterly Reviews of Biophysics, 1995, 28(2): 171193.
[7]Plimpton S. Fast Parallel Algorithms for ShortRange Molecular Dynamics[J]. Journal of Computational Physics, 1995, 117(1): 119.
[8]Chen H, Hughes D D, Chan T A, et al. IVE (Image Visualization Environment): A Software Platform for All ThreeDimensional Microscopy Applications[J]. Journal of Structural Biology, 1996, 116(1): 5660.
[9]Frank J, Radermacher M, Penczek P, et al. SPIDER and WEB: Processing and Visualization of Images in 3D Electron Microscopy and Related Fields[J]. Journal of Structural Biology, 1996, 116(1): 1909.
[10]Mazzaferro V, Regalia E, Doci R, et al. Liver transplantation for the treatment of small hepatocellular carcinomas in patients with cirrhosis[J]. New England Journal of Medicine, 1996, 334(11): 6939.
[11]Mastronarde D N. DualAxis Tomography: An Approach with Alignment Methods That Preserve Resolution[J]. Journal of Structural Biology, 1997, 120(3): 34352.
[12]Wilkins M R, Williams K L. CrossSpecies Protein Identification using Amino Acid Composition, Peptide Mass Fingerprinting, Isoelectric Point and Molecular Mass: A Theoretical Evaluation[J]. Journal of Theoretical Biology, 1997, 186(1): 715.
[13]Clauser K R, Baker P, Burlingame A L. Role of accurate mass measurement ( /-10 ppm) in protein identification strategies employing MS or MS/MS and database searching[J]. Analytical Chemistry, 1999, 71(14): 28712882.
[14]Ludtke S J, Chiu Wbaldwin P R. EMAN: semiautomated software for highresolution singleparticle reconstructions[J]. Journal of Structural Biology, 1999, 128(1): 8297.
[15]Perkins D N, Pappin D J C, Creasy D M, et al. Probabilitybased protein identification by searching sequence databases using mass spectrometry data[J]. Electrophoresis, 1999, 20(18): 3551– 3567.
[16]And W Z, Chait B T. ProFound: an expert system for protein identification using mass spectrometric peptide mapping information[J]. Analytical Chemistry, 2000, 72(72): 24829.
[17]Kivioja T, Ravantti J, Verkhovsky A, et al. Local Average IntensityBased Method for Identifying Spherical Particles in Electron Micrographs[J]. Journal of Structural Biology, 2000, 131(2): 126134.
[18]Bafna V, Edwards N. SCOPE: a probabilistic model for scoring tandem mass spectra against a peptide database[J]. Bioinformatics, 2001, 17 suppl 1(Suppl): 1321.
[19]Field H I, Fenyo D, Beavis R C. RADARS, a bioinformatics solution that automates proteome mass spectral analysis, optimises protein identification, and archives data in a relational database[J]. Proteomics, 2002, 2(1): 3647.
[20]Liang Y, Ke E Y, Zhou Z H. IMIRS: a highresolution 3D reconstruction package integrated with a relational image database[J]. Journal of Structural Biology, 2002, 137(3): 292304.
[21]Zhang N, Aebersold R, Schwikowski B. ProbID: A probabilistic algorithm to identify peptides through sequence database searching using tandem mass spectral data[J]. Proteomics, 2002, 2(2): 140612.
[22]Sali A, Glaeser R, Earnest T, et al. From words to literature in structural proteomics[J]. Nature, 2003, 422(6928): 21625.
[23]盛泉虎,汤海旭,解涛,等.用于串联质谱鉴定多肽的计量方法[J].生物化学与生物物理学报: 英文版, 2003, (8): 734740.
[24]Plaisier J R, Koning R I, Koerten H K. TYSON: robust searching, sorting, and selecting of single particles in electron micrographs[J]. Journal of Structural Biology, 2004, 145(12): 7683.
[25]Rath B K, Frank J. Fast automatic particle picking from cryoelectron micrographs using a locally normalized crosscorrelation function: a case study[J]. Journal of Structural Biology, 2004, 145(12): 8490.
[26]Roseman A M. FindEMA fast, efficient program for automatic selection of particles from electron micrographs[J]. Journal of Structural Biology, 2004, 145(12): 919.
[27]Short J M. SLEUTH—a fast computer program for automatically detecting particles in electron microscope images[J]. Journal of Structural Biology, 2004, 145(12): 10010.
[28]Sorzano C O S, Marabini R, VelázquezMuriel J, et al. XMIPP: a new generation of an opensource image processing package for electron microscopy[J]. Journal of Structural Biology, 2004, 148(2): 194204.
[29]Izumikawa M, Minoda R, Kawamoto K, et al. Auditory hair cell replacement and hearing improvement by Atoh1 gene therapy in deaf mammals[J]. Nature Medicine, 2005, 11(3): 2716.
[30]Phillips J C, Braun R, Wang W, et al. Scalable molecular dynamics with NAMD[J]. Journal of computational chemistry, 2005, 26(16): 17811802.
[31]Ghosh S, Nie A, An J, et al. Structurebased virtual screening of chemical libraries for drug discovery[J]. Current Opinion in Chemical Biology, 2006, 10(3): 194202.
[32]Chen J Z, Grigorieff N. SIGNATURE: A singleparticle selection system for molecular electron microscopy[J]. Journal of Structural Biology, 2007, 157(1): 16873.
[33]Duffy J P, Vardanian A, Benjamin E, et al. Liver transplantation criteria for hepatocellular carcinoma should be expanded: a 22year experience with 467 patients at UCLA[J]. Annals of Surgery, 2007, 246(3): 50911.
[34]Grigorieff N. FREALIGN: highresolution refinement of single particle structures[J]. Journal of Structural Biology, 2007, 157(1): 117125.
[35]Heymann J B, Dm. B. Bsoft: image processing and molecular modeling for electron microscopy[J]. Journal of Structural Biology, 2007, 157(1): 318.
[36]Plaisier J R, Jiang L, Abrahams J P. Cyclops: New modular software suite for cryoEM[J]. Journal of Structural Biology, 2007, 157(1): 1927.
[37]Woolford D, Ericksson G, Rothnagel R, et al. SwarmPS: rapid, semiautomated single particle selection software[J]. Journal of Structural Biology, 2007, 157(1): 174188.
[38]Yan X, Sinkovits R S, Baker T S. AUTO3DEM—an automated and high throughput program for image reconstruction of icosahedral particles[J]. Journal of Structural Biology, 2007, 157(1): 7382.
[39]Zheng S Q, Keszthelyi B, Branlund E, et al. UCSF tomography: An integrated software suite for realtime electron microscopic tomographic data collection, alignment, and reconstruction[J]. Journal of Structural Biology, 2007, 157(1): 138147.
[40]曹恩禄,韩广强.老年性眩晕病因及临床特点分析[J].基层医学论坛, 2007, 11(14): 669670.
[41]Hess B, Kutzner C, Van Der Spoel D, et al. GROMACS 4: Algorithms for highly efficient, loadbalanced, and scalable molecular simulation[J]. Journal of Chemical Theory and Computation, 2008, 4(3): 435447.
[42]Liujing W.药物代谢组学在肿瘤诊治中的应用与研究进展[J].中国药科大学学报: 英文版, 2008.
[43]Milne J L, Subramaniam S. Cryoelectron tomography of bacteria: progress, challenges and future prospects[J]. Nature Reviews Microbiology, 2009, 7(7): 66675.
[44]Sorzano C O S, Recarte E, Alcorlo M, et al. Automatic particle selection from electron micrographs using machine learning techniques[J]. Journal of Structural Biology, 2009, 167(3): 25260.
[45]Voss N R, Yoshioka C K, Radermacher M, et al. DoG Picker and TiltPicker: softwaretools to facilitate particle selection in single particle electron microscopy[J]. Journal of Structural Biology, 2009, 166(2): 20513.
[46]Shearer A E, Deluca A P, Hildebrand M S, et al. Comprehensive genetic testing for hereditary hearing loss using massively parallel sequencing[J]. Proceedings of the National Academy of Sciences of the United States of America, 2010, 107(49): 211049.
[47]Bruix J Sherman, Sherman M. Management of hepatocellular carcinoma: An update[J]. Hepatology, 2011, 53(3): 10202.
[48]John G, Stephenson J R, Nora H, et al. Progress and challenges in the computational prediction of gene function using networks[J]. F1000research, 2011, 1(4696): 114.
[49]Akil O, Seal R, Burke K, et al. Restoration of Hearing in the VGLUT3 Knockout Mouse Using Virally Mediated Gene Therapy[J]. Neuron, 2012, 75(2): 28393.
[50]Mirnezami R, Nicholson J, Darzi A. Preparing for precision medicine[J]. New England Journal of Medicine, 2012, 366(6): 48991.
[51]Mph M M M, Anne Covey M D. Recent progress in understanding, diagnosing, and treating hepatocellular carcinoma[J]. Ca A Cancer Journal for Clinicians, 2012, 62(6): 394399.
[52]Han G, Wang J, Zeng F, et al. Characteristic transformation of blood transcriptome in Alzheimers disease[J]. Journal of Alzheimers Disease Jad, 2013, 35(2): 373386.
[53]Lentz J J, Jodelka F M, Hinrich A J, et al. Rescue of hearing and vestibular function by antisense oligonucleotides in a mouse model of human deafness[J]. Nature Medicine, 2013, 19(3): 345350.
[54]Nault J C, Reyniès A D, Villanueva A, et al. A Hepatocellular Carcinoma 5Gene Score Associated With Survival of Patients After Liver Resection[J]. Gastroenterology, 2013, 145(1): 176187.
[55]Network C G a R, Jn W, Ea C, et al. The Cancer Genome Atlas PanCancer analysis project[J]. Nature Genetics, 2013, 45(10): 111320.
[56]张雪娇,李海燕,龚树生.国内生物样本库建设现状分析与对策探讨[J].中国医院管理, 2013, 33(7): 7677.
[57]SungMin Ann,Se Jin Jang,Ju Hyun Shim, et al. Genomic portrait of resectable hepatocellular carcinomas: Implications of RB1 and FGF19 aberrations for patient stratification[J]. Hepatology, 2014, 60(6): 197282.
[58]Gill N, Singh S, Aseri T C. Computational disease gene prioritization: an appraisal[J]. Journal of Computational Biology A Journal of Computational Molecular Cell Biology, 2014, 21(6): 45665.
[59]Network C G A. Comprehensive molecular characterization of gastric adenocarcinoma[J]. Nature, 2014, 513(7517): 2029.
[60]Servant N, Roméjon J, Gestraud P, et al. Bioinformatics for precision medicine in oncology: principles and application to the SHIVA clinical trial[J]. Systems Biology, 2014, 5: 152.
[61]胡祥.胃癌腹膜转移规范化治疗[J].中国实用外科杂志, 2014, (7): 621624.
[62]孙益红,汪学非.术前分期在胃癌规范化治疗中的价值[J].中国实用外科杂志, 2014, 34(7): 595597.
[63]周平红,陈巍峰,何梦江.早期胃癌的规范化内镜诊断及治疗[J].中国实用外科杂志, 2014, (7): 604607.
[64]肿瘤精准医疗临床大数据采集与应用专家研讨会召开[J].世界复合医学, 2015, (3): 197197.
[65]Case D, Berryman J, Betz R, et al. AMBER 2015[M].San Francisco, CA: University of California, 2015.
[66]Hong G, Suh K S, Suh S, et al. Preoperative Alphafetoprotein and (18)FFDG PET Predict Tumor Recurrence better than Milan Criteria in Living Donor Liver Transplantation[J]. Journal of Hepatology, 2015, 64(4): 852859.
[67]Rubin M A. Health: Make precision medicine work for cancer care[J]. Nature, 2015, 520(7547): 2901.
[68]何明燕,夏景林,王向东.精准医学研究进展[J].世界临床药物, 2015, (6): 418422.
[69]田埂. “精准医疗”之手: 基因组学将如何改变医学模式?[J].生命世界, 2015, (9): 4245.
[70]赵学森,蒋栋,陈晨,等.精准医疗大背景下医学研究生交叉领域培养的探讨[J].继续医学教育, 2015, (11): 5254.
[71]周国华.临床药学: 聚焦个体化用药[J].药学进展, 2015, (11): 801802.
[72]雷红星.阿尔茨海默病基因组学研究[J].国际药学研究杂志, 2016, (1): 17.
[73]吕善根.儿童血液肿瘤专业更应关注精准医疗[J].中国小儿血液与肿瘤杂志, 2016, 21(1): 11.
[74]邵庆华.让精准健康管理拥抱互联网[J].中国科技产业, 2016, (1): 6970.
[75]王中卿,郭兆慧.常见前庭周围性眩晕精准医疗常态化进展综述[J].系统医学, 2016, 1(2).
[76]袁永一,戴朴.遗传性聋的精准医疗[J].临床耳鼻咽喉头颈外科杂志, 2016, (1): 15.
评论
还没有评论。