2020, No.11STANDARD SCIENCE·Quality Management·
面向多领域共享服务的数据质量控制体系研究
程 芳 赵彦庆 姚 萍
(31008)
摘 要:论文通过分析多领域数据质量管理的特点与需求,针对各领域在线业务数据分析了数据质量控制业务流程和质量控制要素,提出了涵盖数据质量控制目标、控制实施、控制评估等内容的数据质量控制体系框架,重点对数据质量控制体系框架运行相关支撑技术进行说明,为提升多领域数据质量管理实效性提供方法支持。关键词:大数据,数据质量,数据质量控制DOI编码:10.3969/j.issn.1674-5698.2020.11.029
Research on the Data Quality Control Framework Based on
Multi-domain Sharing Service
CHENG Fang ZHAO Yan-qing YAO Ping
(PLA Troop 31008)
Abstract: This paper analyzes the characteristic and requirement of the data quality management based on multi-domain sharing service, summarizes data quality control process and data quality control elements of online business data in each field. It proposes the data quality control framework including data quality control object, data quality implementation and data quality assessment, and mainly interprets the supporting technologies in the operation of data quality control system, providing a beneficial method to improve the effectiveness of the data quality control.Keywords: big data, data quality, data quality control
1 引 言
根据各业务领域数据共享应用的需求,数据来源多样化,数据之间的冲突、歧义、矛盾等问题不断凸显;随着大数据技术的广泛应用,业务信息更多属于在线采集、在线流转、在线应用,数据变化加快、时效性增强,多领域数据交换、数据共享应用更加提升数据质量要求[1]。在基于数据库管理模式下,人工检查、审核、评价等方式对于数据质量控制
发挥了重要作用,在“数据即服务”的大数据环境中,多源数据比对、数据查重、数据消歧等数据质量控制技术发挥了明显的作用。因此,在数据质量控制工作中,技术因素占比逐渐增强,现行的以人员机构为主的质量管理及方法等因素需要重新调整[2]。
根据数据共享、可用、可融合的应用需求,分析大数据环境下数据质量控制的主要因素及保障条件,构建数据质量控制体系框架,为全面、科学提升数据质量提供方法和技术参考。
作者简介:程芳,高级工程师,研究方向为信息资源管理。
155
·质量管理·标 准 科 学 2020年第11期
2 多领域共享服务数据质量需求
传统数据管理方式将逐步融入大数据平台中,业务领域数据服务与业务发展目标更加耦合,数据资产的价值体现直观。
2.1 基于数据价值的数据质量目标
在数据准确性、完整性等通用数据质量要求的基础上,数据的一致性、可用、可访问等要求,成为共享交换的重要条件,业务目标表现为数据应用,数据价值体现成为数据质量目标的主要内容,由此与数据应用紧密关联。
2.2 基于数据共享的数据质量管理
大数据环境为数据资源集成提供了条件,同时为跨部门跨领域数据共享提供了条件,数据质量管理由单一部门向多部门协同转变,数据共享共用共识成为多部门开展数据质量管理的基础[3]。2.3 基于数据集成的数据质量控制流程
从数据生产、传输、存储到应用的全生命周期数据质量控制流程,对于自有数据资产的质量管理能够发挥较好的监测与管理作用。对于大数据环境下,大量引接、汇聚,以及加载的数据资源,数据质量问题更多表现在数据集成与融合阶段,多源数据的一致性、合规性等数据集成成为数据质量控制流程中的重要环节。
2.4 基于元数据的数据质量管控方法
大数据环境下数据存储格式的多样化,使得仅依靠主数据的质量评价缺乏全面性和可操作性。采用元数据可将各类数据的特征、关系、语义等进行规范化描述,在开展数据集成质量控制工作中,能够起到规范、统一的作用[4]。
3 数据质量控制体系框架
多领域数据质量控制聚焦在线运行数据资源,降低了对数据生产的关注。因此,数据质量控制的范围仅考虑数据集成过程中的流程、机制、标准、技术等要素。3.1 业务流程
参考过程控制方法,数据质量工作通常包括数据质量目标分析、数据质量控制实施、数据质量评156
价和数据质量改进4个阶段(如图1所示)。
图1 数据质量控制业务流程
3.1.1 数据质量目标分析
根据数据价值实现需求,确定数据质量效益预期目标,用于指导数据质量工作开展。主要根据大数据环境下数据特点,结合数据应用场景,分析数据应用需求和数据价值目标,制定数据质量控制计划与方案,明确数据质量需求和总体目标。3.1.2 数据质量控制实施
主要采用数据质量控制相关方法、技术、标准等对数据质量产生、传输、存储、集成、应用等全流程的监控、预测与控制,通常可采用元数据管理、数据语义分析、数据消歧等方法,推进数据集成的一致性和合规性。3.1.3 数据质量评价
主要根据数据质量准确性、完整性、可用性、可访问等可量化的指标要求,对数据质量进行评价分析。主要包括建立数据质量评价指标、确定评价方法,明确指标权重等内容。为全面评价数据质量整体管理能力,可采用成熟度模型的方法,评价数据质量能力状况。3.1.4 数据质量改进
针对数据质量控制过程的质量问题,参照数据质量评价结果,对照数据质量预期目标,提出数据质量工作改进建议,包括数据质量问题、配套技术、方法、标准等。3.2 体系框架
数据质量影响因素是数据质量控制的主要内容,数据质量控制目标、数据质量控制实施、分析评估形成数据质量控制体系框架的核心(如图2所示)。数据质量控制实施以数据资源为核心,从业务管理和技术支撑两条线共同推进,业务管理注重标准规范、制度机制和业务流程制定与落实,技术支撑主要与业务领域信息系统配套提供方法与技术。
2020, No.11STANDARD SCIENCE·Quality Management·
数据质量控制分析评估通过对当前数据质量能力、数据质量现状的分析,为提升数据质量提供定性定量参考依据。数据质量控制体系运行以数据应用服务为需求牵引,与业务领域信息系统同步运行。
控制软件需要迁移,在大数据环境下,大量音视频文件的清洗,图片、文档、网页等文件的对比,以及海量历史数据的关联等问题;针对多源数据,开展跨部门数据质量分析等问题。上述问题由于数据在
线、数据量大、数据格式复杂等特点,成为数据质量控制需要解决的关键技术。3.3.4 制度机制
数据质量控制贯穿于数据业务全流程,与业务系统同步规划、建设与运行,与数据资源紧密相关,涉及数据资源监控、元数据抽取、数据访问、数据质量溯源等内容,相关的配套制度机制不可或缺。主要包括数据质量
检查与审核制度、数据资源质量抽查制度、质量评价制度等,以及数据质量跟踪机制、数据质量审计机制以及数据质量追溯机制等。3.3.5 业务流程
数据质量实践工作中,大量的数据质量问题反映在应用阶段,实际根源是数据生产阶段,例如数据录入错误、数据缺失、数据标注错误等,部分原因在于人为因素。其他还有技术方面,数据采录流程、数据存储规则等存在的偏差,都可能会引起数据问题。业务流程的质量因素,主要考虑业务规则的适应性和规范性,包括数据管理人员采集规范、数据编辑要求、数据存储与管理要求等相关操作规则,以及配套工具软件的运行规则。3.4 技术支撑
数据服务云平台为打破各部门业务信息系统的运行提供平台支撑,为各业务领域数据资源的集成应用提供基础。数据质量控制子系统运行的环境支撑如图3所示。
数据集成主要根据数据共享与交换需求,通过多源数据映射、数据内容与字典比对、数据语义分析、数据融合等技术,提供统一的数据视图和数据接口。数据质量控制子系统基于数据集成环境,提供对静态和动态数据的质量控制,动态数据与业务活动紧密关联,对数据质量的时效性要求较高。
实现数据在线质量检测,可构建动态数据质量
157
图2 数据质量控制体系框架
3.3 控制要素
数据质量控制要素主要指影响数据质量的相关内容,从数据生产到数据应用全流程分析,标准规范、数据资源,存储、管理与应用技术、制度机制、业务流程、数据管理等都可能影响数据质量。
另外,针对多源数据质量问题,在单个业务领域数据质量控制的前提下,还需考虑多源数据集成技术、标准、机制等的影响,难以用简单的加权求和等方法进行评价给出结论。3.3.1 数据资源
数据质量控制的核心要素,包括主数据、元数据、数据字典、知识图谱,以及应用过程中产生的业务数据和应用数据等。3.3.2 标准规范
涵盖数据模型、数据分类,主数据、元数据标准,数据存储、传输、集成要求,以及数据应用规范等。对数据质量的影响主要体现在数据模型、数据约束关系等相关标准是否全面准确反映数据应用需求,数据标准规范的更新与变更是否保持一致。3.3.3 技术手段
数据质量问题贯穿于数据全生命周期,贯穿于数据业务全流程,随着数据业务“云化”加速,数据质量控制技术需要同步提升。基于关系数据库、数据仓库等传统数据存储管理模式构建的数据质量
·质量管理·标 准 科 学 2020年第11期
图3 数据质量控制技术支撑
知识规则库,基于大量数据质量问题的机器学习,形成基于文本、图片等数据的知识规则,在线提取业务数据的特征,基于知识规则进行审核校验。另外,在数据集成与整理过程中,针对文本、图片等非结构化数据进行实体、属性、关系等标注,鉴于标注数据对于深度学习的影响,标注数据质量纳入知识数据质量管理。
4 结 语
本文通过分析多领域数据共享服务的特点和数据质量管理要求,立足业务云平台和大数据环境支撑,梳理了基于业务应用的数据质量控制流程、控制要素和控制体系框架,从技术层面分析了构建数据质量控制系统的关键要素和技术要点,为推进多领域在线业务数据质量管理提供基础技术支持。
参考文献
[1] [2]
蔡佳苗,陈学章,巫俊宏.大数据在产品质量风险信息管理中的应用研究[J]. 标准科学,2014,1:82-84.张正敏,侯燕曦,戴宇欣,等. 基于数据挖掘的区域质量发展指数研究与应用[J]. 标准科学,2018,10:126-129.[4][3]
安小米,郭明军,洪学海,等.大数据治理体系的框架及其实现的有效路径[J].大数据,2019,3:1-10.
黄刚,袁满,吴秀英,等.元数据驱动的数据质量评估体系架构研究[J]. 计算机工程与应用,2013,49(8):114-181.
158