项目与案例

助力数据随需流动,支持国际大科学计划e-VLBI&SKA

应用背景

        e-VLBI(e-Very Long Baseline Interferometry)是甚长基线干涉技术与高速网络技术相结合的一种全新的天文观测手段,射电天文望远镜将观测数据通过高速网络准实时地传送到相关处理中心进行处理,并实时获取相关干涉处理结果。它取代了传统的磁带(或硬盘)记录和运输,大幅降低了数据的记录成本,提高了观测数据的时效性。 

        e-VLBI技术在国际上发展迅速,1975年,在美国和加拿大之间通过卫星通信开展了数据速率为20Mbit/s的首次实时e-VLBI试验。2000年以后,美国、日本和欧洲均进行了e-VLBI实验,技术和应用水平领先。中国VLBI网是由中国科学院上海天文台牵头建设,由五站一中心组成,包括上海佘山站25米和天马站65米射电望远镜、北京密云站50米射电望远镜、云南昆明站40米射电望远镜、新疆乌鲁木齐南山站25米射电望远镜,以及位于上海松江的VLBI数据处理中心。2007年,欧洲、澳大利亚和中国联合进行首次跨越三大洲256Mbit/s 速率的e-VLBI试验演示,并通过JIVE相关处理机实时获得清晰条纹。这是中国VLBI网观测站首次参加国际e-VLBI 观测。

1. 本图来自于中国科学院上海天文台陈中,郑为民,陈肖的《中国 e-VLBI 网的建立及应用》

        中国VLBI(Chinese VLBI Network, CVN) (见图1)将e-VLBI技术成功用于中国探月工程一期和二期的嫦娥系列卫星VLBI测轨定位系统,实时性达到国际先进水平,并持续服务后续探月及深空探测工程。 

        平方公里阵列射电望远镜(SKA)将是人类有史以来建造的最大射电望远镜,其收集面积最终超过1平方公里(100万平方米),同时也是一部超越国界的全球大科学装置,致力于回答关于宇宙的一些基本问题,如天体形成、星系演化、引力本质、暗能量、暗物质等,涉及天文、无线电、信息科学、系统科学等基础与高新技术领域。 

        SKA由包括中国在内的11个正式成员国以及10多个观察员国参与,建设和运行天文大望远镜已经成为一个国家综合实力的真实体现和重要标志。SKA第一阶段(SKA1)将按全工程的10%规模建设,预计将于2021年开始建设,2028年建成。第二阶段(SKA2)将完成其余90%建设工程。为了确保SKA1各项目标的实现,我国工业界充分发挥制造优势,积极参与了反射面天线、低频孔径阵列、信号与数据传输、科学数据处理、中频孔径阵列等国际工作包联盟。目前,我国科学家还成功研制了SKA首台天线样机和首台区域中心原型机。 

        SKA的数据流量将达到每秒PB(即千万亿比特)级。SKA数据的深度分析和加工是在分布于几大洲的区域数据中心完成,按照SKA的数据流规模,估计在建设的SKA1需要输送到区域数据中心进行深度分析的科学数据就达到了每年300PB。到了SKA2阶段,从SKA天文台产生的预处理数据的规模将扩展到SKA先导项目的100倍以上,达到EB量级。

存在挑战

        e-VLBI观测和SKA工程都涉及到海量数据采集、传输、存储、处理、共享、使用和长期保存的全生命周期管理。根据项目设计规划,结合观测实践和先导项目实施,综合分析可知需求和挑战主要有: 

        1.   跨地域、长距离、高速的实时传输

        e-VLBI实验在观测的同时,进行实时传输数据和实时相关处理,需要采集多个观测站的数据才能得出很好的结果,因此试验对网络链路带宽,尤其网络的稳定要求高。

2. SKA 区域中心分布与网络连接

        SKA在全球几大洲部署区域中心(图2),与南非和澳大利亚之间需要海海量数据传输,这样跨洲际数据传输对网络提出了高带宽、低时延的需求。

         2.   海量计算需求挑战,亟需聚合多计算中心的能力

        按中国科学院上海天文台安涛研究员介绍,据估算,SKA第一阶段的科学数据处理所需要的计算能力就达到500Pflops,相当于中国数一数二的超级计算机“神威·太湖之光”的3倍、“天河二号”的5倍。这样,SKA数据的深度分析和加工将在分布于几大洲的区域中心才能完成,这样需要对计算能力进行聚合以及编排、调度和应用。 

        3.   海量数据的备份、容灾和长期保存

        SKA先导项目MWA(默奇森宽场阵列(MWA)是工作在80300 MHz之间的低频射电望远镜,位于西澳大利亚州的默奇森射电天文台(MRO))为例,经过4年的运行,MWA积累了24PB的科学存档数据。其中一个科学目标是GLEAM巡天任务,第一期巡天已经包含了30多万颗星系,存档数据量达到1PB以上。第二期巡天已经开始,灵敏度提高了4倍以上,数据量预期高达6.5 PB。而MWA只占到SKA-low规模的1%SKA数据量由此可见一斑。

        这样海量数据规模,单一数据中心不可能完成,即使区域中心也得难以满足长期保存的需要,需要汇聚全球科学数据存储资源提供面向数据全生命周期管理的解决方案。

解决方案

        面向国际大科学计划和工程的需求,中国科技云多年以来一直依托优质的国际带宽以及计算、存储资源提供全方位的服务与支持。

        中国科技云提供“网络接入服务,拥有多条高速国际科研出口,可以为科研用户提供大带宽、高网速科研传输服务,组织和推动多学科交叉的应用开发资源共享,高性能的网络设备和专业的7×24小时运维队伍,保障用户访问畅通,网络运行安全、稳定,海量科研数据传输顺畅。在工信部提供的《信息通信网络运行质量工作简报》中,给出了202019月期间,骨干互联单位国内节点访问国外节点的质量情况(图3和图4)。

3. 主流运营商国际带宽时延数据

4.主流运营商国际带宽丢包数据

        从以上数据可以看出,在国际访问的时延和丢包率方面,中国科技网长期保持优质排名,其国外节点的访问质量远远优于国内其他主要运营商,充分体现出中国科技网在国际线路方面具有明显优势。

        为更好地满足国际大科学计划对大规模实时数据进行高质量、长距离传输的需求,中国科技云推出了“广域网数据传输优化服务”。SmartCloudWAN传输优化系统是自主研发的广域网传输性能优化系统。该系统基于SD-WAN技术,结合传输协议优化、网络编码、数据压缩等多种网络优化技术来提升广域网数据的传输性能。该系统可显著提升广域网下载速率,减小端到端传输时延,提升数据传输性能。

        面向海量数据存储与分发的需求,中国科技云提供了“云存储”、“对象存储”和 “云备份”服务,具备高速、高可靠、高性能等优势,支持FTPHTTP等协议,便于无缝集成使用,可容纳数十PB海量数据,不限存储的容量和文件数目,支持网页、FTPREST API以及S3接口等方式访问,可实现海量科研数据的同城异地或异城异地快速备份和归档。

成效与展望

        中国科学院上海天文台不仅是国际大科学计划e-VLBI的积极参与者、中国VLBI的建设者,还正在开展SKA区域中心规划与前期工作,参加了国际SKA的各项技术研发,与国际SKA组织和其它SKA区域中心开展合作。

        依靠自身优势,中国科技云先后支持了中国科学院上海天文台牵头的中欧澳三大洲首次实时VLBI实验,国际e-VLBI联测项目,并为“嫦娥一号”探月卫星VLBI测轨分系统提供了强有力的技术支持。

        2020年,中国科技云继续为e-VLBI提供网络支持同时,面对中国科学院上海天文台与西澳大利亚州的默奇森射电天文台(图5)之间就SKA先导项目开展合作,需要海量数据的高速多线程传输实际需求,中国科技云团队积极响应,全力提供支持,在跨洲际数据传输过程中,上传峰值达到2.49Gbps,下载峰值达到4.43Gbps,达到了很好的传输效果(图6)。


5. 西澳大利亚州的默奇森射电天文台


6.  e-VLBISKA先导项目数据传输流量图

        目前,全球科学研究已进入大数据驱动的“第四范式”时代,中国科技云正联合欧洲网格基础设施EGI、国际科学理事会数据委员会ISC CODATA等合作伙伴积极开展“全球开放科学云”(GOSC)工作。