项目与案例

对象存储系统助力CASEarth DataBank遥感数据引擎

对象存储系统简介

    大规模对象存储系统(iharbor)是中国科学院计算机网络信息中心(CNIC)面向地球大数据科学工程建立的一套开源存储系统。其主要目标是实现非/半结构化数据海量存储,广泛支撑大数据处理、人工智能、创新试验等科研活动。系统底层基于纠删码技术构建分布式ceph存储集群,通过构造冗余数据,实现80%有效存储空间利用率,实现理论达12个9的数据持久性。通过分布式关系数据库TiDB实现对象存储的元数据管理,支持分布式事务及多版本控制,默认保持高可用、多副本、多节点存储,有良好的扩展性。系统上层构建用户访问接口,提供4种数据访问方式(WEB前端页面、RESTful HTTP API接口调用、FTP访问方式、rclone客户端挂载)。对象存储系统在异地容灾也具备优越性,目前已有“两地三中心”异地容灾实践案例,进一步保障存储数据的物理安全。对象存储系统开源地址为:https://gitee.com/gosc-cnic/iharbor。

CASEarth DataBank

    CASEarth DataBank是面向地球大数据科学工程建立的一套具有自主知识产权的数据、计算与服务一体化的时序对地观测数据智能服务平台,能够高效存取多源、多尺度、长时序的卫星影像及其他地球观测数据数据库中的资料并提供足够的运算能力来对这些数据进行处理和分析。目前,DATABANK的遥感图像数据集均存储在iharbor中,涉及17个对象存储桶,存储数据量超过1.35PB,元数据约六千万条。Iharbor支持遥感图像的高并发读写,DataBank网站以50GB/S的速度实时在线获取遥感图像数据,并进行可视化渲染。
    Iharbor对象存储基于稳定的底层架构和高速接口服务于DataBank,进一步助力遥感卫星“大数据”向空间信息和地学知识高效转化,对促进人工智能与遥感信息处理等多学科交叉融合和科技创新,具有重要意义。

DataBank遥感数据引擎前端