项目与案例

中国科技云助力科学大数据全生命周期管理

应用背景

        科学数据是国家科技创新发展和经济社会发展的重要基础性战略资源,是科学研究中必不可少的基本要素。自从上世纪80年代启动建设以来,通过30多年持续规划与实施,中科院在科学数据建设与应用方面取得了丰硕成果。在20196月,科技部、财政部在前期科学数据工作的基础上,在高能物理、基因组、气象、地震海洋等领域组建了20个国家科学数据中心,其中11个国家科学数据中心是依托中科院高水平研究所建立,涉及多个学科领域,具有鲜明特色。

11个国家科学数据中心


        国家冰川冻土沙漠科学数据中心资源涵盖寒区旱区野外观测、调查考察、试验实验、测试分析、项目汇交、数值模拟、多源遥感、工程施工等10种数据来源,数据总量达112TB,聚合了60%以上我国寒区旱区研究领域的科学数据。 

        国家基因组科学数据中心已被国际权威期刊认可为世界三大生物信息中心之一,成为120余本国际期刊认可的数据中心,建成的国内生物信息大数据资源数据总量达到5PB

        国家基础学科公共科学数据中心已经系统整合物理、化学、材料、动物、植物、病毒、计算机、核科学等学科领域和脑与认知、干细胞与代谢等基础前沿交叉研究领域,以及青海湖、黑龙江、新疆等典型区域长期科研活动中积累的基础科学数据,建设了217个专业数据库,形成了21个主题库和专题库,数据资源总量累计达686TB

存在挑战

        当前,全球科技创新已进入大数据驱动的“第四范式”时代,科学数据产生的数量之多、质量之高前所未有,基于科学数据的科学研究范式、科学发现模式酝酿着革命性变革。国务院办公厅 2018 3 月发布了《科学数据管理办法》,《办法》深刻把握大数据时代科学数据发展趋势,充分借鉴国内外先进经验和成熟做法,加强科学数据全生命周期管理,把确保数据安全放在首要位置,突出科学数据共享利用这一重。 

        据预测,生命组学的数据量将在未来两三年内达到EB级,到2035年将会达到ZB级,数据量将会达数万亿条;天文学观测数据也将累积达到EB级;未来材料领域的大规模材料筛选模拟需要100PF级高性能计算以及高通量计算资源,以及相关大规模并行优化算法的研发,这些都对数据的高效存储、管理、计算能力与方法提出了挑战。

        在科学大数据的存储管理方面,随着研究规模和复杂性的急剧增长,对数据采集、存储、传输的需求也将达到前所未有的高度。海量科研数据,对在线存储提出了巨大的需求,此外重要的科研数据需要归档、备份、容灾与长期保存。对于科研数据进行全生命周期的管理,涉及到数据采集、汇交与保存、共享与利用、数据安全等多个环节。

解决方案

        为了满足国家科学数据中心的数据集中存储、备份、容灾以及高速流转等需求,中国科技云基于高速互联网络环境,建设适应“冷、温、热”不同阶段科学数据存储与调度模式的数据保存与容灾备份的海量存储环境,总容量超过150PB

        针对科学数据存储与传输特点,中国科技云为用户提供了多项基础设施云服务。

1.    面向科学数据大文件存储与传输的需求,中国科技云建设了云存储服务,具备高速、高可靠、高性能等优势,支持FTPHTTP等协议,便于无缝集成使用。

2.    面向科研大数据快速共享发布需求,中国科技云自主研发了对象存储服务,基于纠删码容错的分布式存储,最大限度保障数据的持久安全,可容纳数十PB海量数据,不限存储的容量和文件数目,支持网页、FTPREST API以及S3接口等方式访问。

3.    面向科学数据中心等海量数据备与归档需求,中国科技云推出了云备份服务,用户可通过标准FTP服务方式将海量科研数据备份至中国科技云科学数据备份环境,可实现海量科研数据的同城异地或异城异地快速备份/归档。

成效与展望

        基于中国科技云成熟的服务,针对国家科学数据中心面临的问题与挑战,中国科技云2.0发布会启动了“中国科技云2020应用推进计划”,择优遴选了国家冰川冻土沙漠科学数据中心、国家基础学科公共科学数据中心以及聚变等离子体物理与工程数据库,为每家提供500T备份存储空间,并提供专业的技术支持和服务。

        此外,在20209月,国家微生物科学数据中心(NMDC)成功接入了中国科技云。面向大数据异地下载与高速上传等特色需求,依托已建成高速大数据传输专网以及高效云计算、云存储服务,中国科技云为其提供了整体技术解决方案以及专业技术支持服务,有力地支撑了NMDC向全国科研人员提供超过7个类别的62个数据库100TB的专业数据下载服务。

图片来自于国家微生物科学数据中心微信公众号 

        今后,中国科技云不仅将持续推进各类服务的建设,还将加强与各科学数据中心的交流与合作,充分发挥中国科技云的特色优势,在科学数据全生命周期管理中发挥更重要的作用。