DataQ(科学数据质量校验软件)
推荐
DataQ 基于开源技术升级打造,是面向科学数据领域的数据质量管理工具,提供数据校验、质量管理和通知服务,用于解决科学数据中心系统建设、运行及数据治理过程中的各种数据质量问题。工具提供数据质量模型构建,数据质量模型执行,数据质量任务管理,异常数据发现保存以及数据质量报表生成等功能。并提供了大规模数据质量模型资源隔离,资源管控,权限隔离等应用特性,具备高并发,高性能,高可用的大数据质量管理能力。
数据分析数据质量
服务介绍

DataQ 基于开源技术升级打造,是面向科学数据领域的数据质量管理工具,提供数据校验、质量管理和通知服务,用于解决科学数据中心系统建设、运行及数据治理过程中的各种数据质量问题。工具提供数据质量模型构建,数据质量模型执行,数据质量任务管理,异常数据发现保存以及数据质量报表生成等功能。并提供了大规模数据质量模型资源隔离,资源管控,权限隔离等应用特性,具备高并发,高性能,高可用的大数据质量管理能力。

产品优势
规则自定义
可根据需求自定义规则
可追溯和可恢复
基于版本控制技术,记录科研人员日常更新空间中数据实体文件的操作日志,实现数据实体文件的变更可追溯和可恢复
技术规则
技术规则
表达式
通过表达式校验数据源,选择数据源,会替换掉校验模版中的占位符, 真正执行的 SQL 语句可以在 SQL 预览中查看。其中过滤条件可以填写系统提供的表达式,该表达式会在任务真正执行的时候,替换成实际的日期时间进行执行
指标检测
基于表达式可集成各类指标如最大值检测、最小值检测、总和检测、日期格式检测、正则表达检测等等指标,并对定义的指标进行全表、跨表检测
产品功能
数据质量模型
支持定义单表校验、跨表校验及自定义校验三种质量模型;同时,系统预置了多个数据质量校验模版,包括空值校验,枚举校验等常用校验
任务调度
支持数据质量模型任务调度
数据质量报表
支持生成数据质量报表
日志管理
日志聚合管理,方便排查数据质量任务
异常数据管理
支持异常数据提取和存储,快速定位问题
管理员控制台
提供管理员控制台界面,支持人员管理,权限管理,系统参数配置等管理功能
实战案例
正则表达式检测
语义: 指定一个表中一个字段,找出该字段不满足给定正则表达式的记录条数。 举例: 希望找出 Cluster0002 集群中,allenzhou_ind 库中test_table 表,在 ds='20190314'分区下,value 字段不满足正则表达式'[0- 9][a-z][A-Z]'的记录数。 配置: 首先选择正则表达式检测模版。 选择希望检测的集群,库名,表名,字段,并填入分区过滤条件和正则表达式
正则表达式检测
语义: 指定一个表中一个字段,找出该字段不满足给定正则表达式的记录条数。 举例: 希望找出 Cluster0002 集群中,allenzhou_ind 库中test_table 表,在 ds='20190314'分区下,value 字段不满足正则表达式'[0- 9][a-z][A-Z]'的记录数。 配置: 首先选择正则表达式检测模版。 选择希望检测的集群,库名,表名,字段,并填入分区过滤条件和正则表达式
技术支持
联系人:路老师
电   话:010-58813781
邮   箱:luchangfa@cnic.cn