描述
开 本: 16开纸 张: 胶版纸包 装: 平装是否套装: 否国际标准书号ISBN: 9787030328311
本书是由中国科学院联合中华人民共和国*、国家自然科学基金委员会共同编著而成的报告,旨在系统地展示中国科研信息化的整体发展情况,推动中国科研信息化的进程。
本书邀请了国内外科研信息化领域的专家、学者和企业家,针对科研信息化涉及的网络环境、超级计算环境、数据环境,以及科研信息化的技术发展和应用实践的现状与趋势进行了客观阐述,对科研信息化的战略态势进行了深入的分析与探讨,力求推动科技创新与创新模式的转变,为中国未来科技创新提供全局性、战略性的参考,向国内外读者展示中国科研信息化的全貌和前沿成果。
本书可作为政府部门、科研机构、高等院校和相关企业进行科技战略决策的参考书,也可供国内外专家、学者研究和参考。
序言
篇 态势战略篇
一、大力发展科研信息化,服务国家科技创新
二、e-Science and Data-Intensive Research
三、加强信息资源开发利用与共享,提高信息化建设效益
四、数据密集时代的科研创新
五、以创新技术支持中国科研信息化发展
第二篇 技木发展篇
一、科研信息化2.0:从构造为科学研究的服务到服务化的科学
二、中国高性能计算研究与应用发展状况
三、多相复杂系统的多尺度并行计算
四、以网络为基础的科学活动环境
五、云计算及其在科学研究中的应用
第三篇 基础设施篇
一、下一代科教互联网与应用展望
二、中国科技网及其应用
三、科研网络新进展
四、中美俄环球科教网络及其应用
……
第四篇 应用实践篇
后记
一、大力发展科研信息化,服务国家科技创新
江绵恒
(中国科学院)
(一)把握科研信息化的发展内涵
信息化是当今时代的大背景,是社会发展的一个重要主题。科研信息化是当今时代
科技活动鲜明的特征之一,是科研模式的重大变革,也是迈向新一轮科技革命的必经
之路。
所谓信息化,是指信息技术在材料、器件、系统方面的发展使得信息的产生、获取、传
输、存储、处理、应用形成了一个系统。早在古代我们的祖先就用烽火台来传输信息;马
拉松则是用跑步来传输信息;到了今天,信息的传输则是以光速来表征。
当信息技术的发展催生了以信息化为主要特征的新产业,包括信息制造业和信息服
务业,且当这样的新产业成为社会生产力的主要方面,或者说信息化的过程成为提高劳动
生产率的主要方式,我们则进入了信息社会。信息化是人类文明下一个发展阶段的主要
特征。
为什么科研活动要信息化?因为科研活动是从数据到信息的感知过程和从信息到知
识的认知过程。从感知到认知,我们有了发现、发明、创造,这是科研活动的内在规律,并
且这个科研活动内在规律和信息化的逻辑内涵是相吻合的。现代的科学研究依赖于海量
数据、各种大科学装置、资源环境监测、数据密集型、计算密集型大规模并行计算模拟等。
比如高能物理、生物信息等,依赖于高速的科研数据网络,海量数据的高速传输,同时是跨
领域、跨地域的科研合作,这都需要有一个协同的环境。科学技术实际上是生产力,其中
的生产方式在进行转变。因此科研活动要信息化,其意义在于使得跨学科、跨时间、跨空
间的大规模科研合作的资源共享与协同工作成为可能,同时改变科学家们从事科研活动
的方式和模式,极大地提高科研活动的劳动生产率。
(二)发展科研信息化要面向国家科技创新战略
十七届五中全会指出,目前我国发展仍处于可以大有作为的重要战略机遇期,要以加
快转变经济发展方式为主线,坚持把经济结构战略性调整作为主攻方向,把科技进步和创
新作为重要支撑,提高产业核心竞争力,培育发展战略性新兴产业。这些都要求我们要高
度重视科技创新工作,切实发挥科技是生产力的重要作用。
我们面临着一个历史性的时代机遇,那就是要通过城市化、工业化、信息化三化协同
发展,齐头并进,来解决我们发展中遇到的问题。我们正处在一个信息社会的初始阶段,
信息社会的生产工具是信息网络。在城市化、工业化、信息化的进程中,土地、能源、矿藏、
信息都是稀缺资源,要解决资源的稀缺问题,就必须依靠科技创新。
中国要完全走出一条自己的发展道路,我们的科技创新就要着力于资源的生产、分
配和消费三大环节,而这些科技的创新可以催生出战略性新兴产业,就会产生新的就业机
会。信息是信息时代新的生产力的一个关键要素,是信息社会的稀缺资源,在信息的生产、
分配和使用方面,给我们提供了很多的机会,催生了包括硬件、软件、服务、电信、传媒等战
略性新兴产业。
科研活动是科技创新的重要组成部分,在国家科技创新体系中占有重要地位。一方
面,关系国计民生的很多创新成果、战略性新兴产业的很多源泉,都来自于能源、材料、信
息、空间、生物医药等众多领域的科研活动。科研信息化直接服务于科研活动,以新的生
产力形式提高科研活动的水平和效率,对于经济社会发展也就有着重要的意义。另一方
面,科研信息化也是国家信息化战略的重要组成部分,是整个社会信息化的先导。它引领
了国内信息化领域的发展,经过多年建设的科研信息化基础设施环境也是国家科技创新
基础设施的重要组成部分,在信息化进程中所培养和锻炼起来的一大批人才队伍也成为
了国家信息化建设的重要力量。
因此,我们要认清科研信息化的重要意义,明确科研信息化工作的出发点和落脚点,
加强为国家科技创新战略服务的责任感与使命感。我们现在面对的问题就是如何把
信息化的过程应用到经济社会发展的过程当中,实际上这方面的机会是巨大的。从事科
研信息化工作的同志不仅要抓住机会,还要发挥引领作用。
(三)科研信息化的发展趋势
随着信息技术的发展、社会需求的进步,科研活动向广度和深度延伸,科研信息化的
理念与形态也在不断地发展之中。把握好发展趋势,将有力地指导科研信息化今后的工
作。概括来说,当前科研信息化工作呈现出以下几个趋势。
1.信息化与信息技术的融合互动
信息技术与信息化是相辅相成、融合互动的。信息技术是基础,在材料、器件、系统上
的创新为信息化提供了支撑条件;信息化是手段,通过将信息技术应用于信息的产生、传
输、计算、处理、应用等各个环节,改变人的科研、生产和生活方式,终将信息技术形成新
的社会生产力。
信息技术需要信息化提供出口,信息化也需要新的信息技术来提高水平。很多信息
技术,正是有了信息化的应用,才有了真正的用武之地,并通过应用来检验技术的实效和
水平,进而更好地提升技术,产生创新。
也有很多信息技术产生于科研信息化的过程中,并通过科研信息化的检验后,推广到
生产生活的社会信息化过程当中。比如现在社会上很热门的物联网,很大程度上就源于
无线传感网的研发。经过十余年的历程,无线传感网从实验室走进特定行业领域,终成
为广泛影响众多行业的新兴产业。又比如用于北京奥运大气环境监测系统的光学仪器、
雷达技术、遥感技术等,之前都是分别研发的信息、光学、材料等技术,有了以任务为牵引
的科研信息化项目后,将各个相关的技术创新集成起来形成了更有成果的新的创新,并在
任务结束后能够继续为社会的环境保护工作服务,产生持续的社会效益。
信息化与信息技术的融合互动,首先要从理念上加深认识,明确方向;其次要打破体
制上的障碍,破除不同单位、不同部门之间的壁垒;后就是要在开放合作的评价机制、
利益分配机制上进行革新,探索可持续发展之路。
2.海云体系
近两年,大家关注的一个热点是云计算。云计算的概念及产生,打一个形象一点的
比方,就是原始社会人类是把湖泊作为共同的水源,后来每户人家将自家的井作为水源,
到了现代社会自来水成为公用设施。信息的处理和存储也经历了一个从集中到分散到再
集中的过程──云计算是信息存储和处理的工业化过程,是信息服务业的基础设施和服
务平台。
这里提出一个“海计算”的概念。在人与社会、人与自然、自然与社会的“新三网融合”
应用中,有许许多多的应用并不一定都要到云端解决,特别是当信息的获取量大到足以使
传输成为瓶颈时,也许很多信息的应用处理,可以在底层的“海”里加以解决。我们可以想
象,其应用的领域是无穷无尽的,当信息化渗透到社会的各个方面,包括科研、商务、娱乐、
社交、医疗、教育乃至其他社会生活,其技术创新和商业模式创新无外乎围绕三个方面展
开:信息化的服务端、应用端以及两者相互联系的空间。未来科技创新和信息产业的兴
起,海阔天空!
3.以数据为中心
信息社会中信息是稀缺资源,信息的主要来源就是数据,因此要把科学数据作为科技
创新的战略性资源,在很大意义上要建立起以数据为中心的科研思维,这不仅是指气象环
境、海洋、生物物种、地质资源等国家资源类的数据,而且还包括基础研究、前沿探索和高
技术开发过程中所产生的广泛的科学数据。
伴随着大科学工程装置、物联网技术在科研活动中的应用,海量科学数据的获取、传
输、存储、处理、应用成为新的挑战。数据是信息的“原材料”,谁掌握了这一资源,谁就掌
握了发展的主动权。因此要加强对科学数据的管理,建立有效的工具、体系和机制。
除了上述所讲的三个趋势以外,可视化、虚拟化、智能化、开放合作共享、安全、大科学
等都是科研信息化的重要方向,需要我们在实践过程中不断凝练和探索。
(四)中国科学院的科研信息化工作
中国科学院始终高度重视科研信息化工作,经过多年的建设,不断取得新的进展。
“十一五”期间,中国科学院坚持以应用需求为出发点,在天文e-VLBI观测、宇宙起源、气候
模拟、野外考察、环境监测等多方面开展了一系列的e-Science应用探索,并集中在基础、资
环、生物、高技术四大领域部署实施了14个科研信息化示范应用项目。多个学科领域开
展了信息化环境下新型科研方法的探索和实践,利用遥感数据采集、高速网络传输、超级
计算环境、协同工作平台等信息技术手段,使得一些以前无法开展的工作成为可能,提高
了科学研究的效率和水平,加快了科学研究成果的转化速度。信息化对传统科研行为方
式的变革和对科技创新跨越式发展的推动作用开始显现。
中国科学院在未来实施“创新2020”和落实“十二五”规划的工作进程当中,将进一步
突出其科技创新的着力点,也就是要解决关系国家全局和长远发展的基础性、战略性、前
瞻性重大科技问题。中国科学院的科研信息化工作,也将紧密围绕这一战略定位,以科技
创新的需求为牵引,把握信息技术发展态势,进一步夯实科研信息化基础设施,提升基础
设施的综合应用和服务能力,实现基础设施之间的互联互通与协同服务,完善科研信息化
应用环境,部署一批直接服务于重大科研活动需求的应用平台,推进信息化与科研活动的
深度融合,有力支撑中国科学院创新跨越、持续发展,为服务国家科技创新体系建设、发挥
科技是生产力的作用作出新的贡献。
二、e-S c i e n c e a n d D a t a – I n t e n s i v e R e s e a r c
h
以数据密集型科学为焦点的全新科学研究方法
Tony Hey, Jim Pinkelman
(Microsoft Research)
摘 要
本章重点介绍e-Science的发展历程并阐述e-Science技术在支持数据密集型科学方面的必要性。首先,简要
介绍了海量科学数据的来源,并通过两个例子引入“第四范式”的概念。然后,提出数据的爆炸式增长给数据采
集、管理和分析带来的新挑战,并着重讨论科学数据共享的优势和面临的困难。接着,指出在数据密集型科学作
为“第四范式”出现的同时,Web和e-Science技术也正推动着一场科学交流的革命。在这场科技变革中,随着开
放式存取的持续发展,大学图书馆和机构知识库即将在新的科学交流领域发挥核心作用。此外,本章还提及在
近两个关于数据密集型科学的政府倡议中,云计算、自然用户界面和语义技术等体现出日益增长的重要性。
Abstract
This paper sets out the e-Science agenda and explains how such
e-Science technologies are needed to support
data-intensive science.After briefly describing some of the sources
of the scientific data deluge, the case for a“ Fourth
Paradigm” for scientific exploration is presented and illustrated
with two examples.The explosion of data brings
new challenges for data capture, curation and analysis.This
discussion leads on to consideration of the benefits and
difficulties of sharing scientific data.In parallel with the
emergence of data-intensive science as a fourth paradigm,
the Web and e-Science technologies are fuelling a revolution in
scholarly communication.The Open Access
movement continues to grow and it is argued that university
research libraries and institutional repositories will play
a central role in the new scholarly communication landscape.Two
recent government initiatives on data-intensive
science are reviewed before the paper is concluded with a brief
mention of the growing importance of Cloud
computing, natural user interfaces and semantic technologies.
Introduction
The last few decades of scientific research have been uniquely
influenced and shaped
by computing.Scientists have increasingly come to rely on computing
technology for almost
all aspects of their research— to automate and control experiments,
to collect and analyze
data, and to model systems and run simulations.However, in recent
years scientists have been
confronted with a new challenge: how to manage, manipulate,
visualize, and mine data sets
that are several orders of magnitude larger than they have had to
work with in the past.
In this paper, we begin by briefly describing some of the sources
of this data deluge.
We will then introduce the concepts of the“ Fourth Paradigm” and
the e-Science tools and
technologies required for data-intensive research[1].To illustrate
these concepts, we give some
brief examples of data-intensive science that show how e-Science
computing technologies
and data management techniques are being used to make use of large
data sets to accelerate
research.We then describe some of the challenges researchers face
during the three major
data-related activities in data-intensive science: capture,
curation, and analysis.Next, some
of the principles, policies, and motivations of sharing data are
explored.This is followed by a
discussion of some of the emerging trends and transformations that
are occurring in the field
of scholarly communication and open access.Government and policy
initiatives in both the
United States and Europe—with regard to data-intensive science— are
covered prior to set of
brief conclusions.
The Data Deluge
Experimental scientists now have a vast array of electronic devices
and systems capable
of producing very large volumes of data.Small, single-purpose
sensors such as optical sensors,
accelerometers, strain gauges, and thermal sensors can be deployed
in mass arrays and used
to collect data over distributed regions or a wide range of
environments[2].Similarly, orbiting
satellites collect vast quantities of images of the Earth in many
parts of the electromagnetic
spectrum and the raw data need considerable post-processing to
generate useful data sets for
scientists.After the success of the pioneering Sloan Digital Sky
Survey[3], astronomers are
planning ambitious new telescopes such as the Large Synoptic Survey
Telescope[4] and the
Square Kilometer Array[5].Both these projects will generate many
hundreds of petabytes of
data and require petascale or even exascale computational resources
to process the data.
Particle physicists are now running experiments with enormously
complex detectors to
record the proton-proton collisions at the Large Hadron Collider(
LHC) at CERN in Geneva[6].
Detailed simulations of the experimental detectors are needed to
model and understand their
characteristics.Real-time computation is also required to reduce
the raw collision rates down
to manageable volumes for later offline analysis, by keeping only a
rare, interesting subset of
these raw events.In June 2011, CERN announced that the LHC
detectors had collected data
from about 70 trillion proton-proton collisions.Finally, the data
have then to be distributed
around the world for analysis by the hundreds of participating
researchers.Each experiment at
the LHC is expected to generate multiple petabytes of data
annually.
In biology, we are on the threshold of a stunning explosion in the
amount of genomics
data being collected.This revolution is being driven by the
large-scale automation of the task
of gene sequencing.The new generation of gene sequencing machines
is able to sequence
approximately 1010 nucleotides per day: this is equivalent to each
machine being able to
评论
还没有评论。