首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
数据质量研究综述   总被引:14,自引:1,他引:13  
数据质量管理是信息系统建设的首要问题.本文首先回顾了数据质量的定义和质量提高策略的分类,然后对数据质量研究涉及的两个主要方面,即数据质量评估和数据质量提高技术的各种方法进行了比较和分析,并对有代表性的数据质量提高工具进行了介绍.最后提出了一个评估驱动的数据质量提高框架,并对数据质量研究方向进行了展望.  相似文献   

2.
由于信息系统所提供数据的质量不高(如数据残缺、数据不一致、数据重复等)导致管理者决策过程中经常面临“数据丰富,信息匮乏”的困惑是目前企业普遍存在的现象.为了切实提高信息系统所提供数据的可用性,研究了影响关系数据库数据质量的主要因素,提出了面向多数据源的统一元数据模型和数据库数据质量评估模型,构建了用于数据质量评估的交互式可视形态集.建立了一个面向关系数据库的数据质量可视分析系统,并结合具体企业应用实例进行验证.结果表明,该系统能够有效分析数据质量,提高企业分析决策的可靠性和准确性.  相似文献   

3.
如何有效评价训练数据集的可用性,一直是困扰智能分类系统应用的难点问题。针对机器学习领域的数据分类问题,提出了一种基于区间分析和信息粒化的数据集分类可用性的评估方法,用于评价数据集的可分程度。该方法将待评估的数据集定义为分类信息系统,提出了分类置信区间的概念,通过区间分析进行信息粒化。在此信息粒化策略下,定义分类可用性的数学模型,并进一步给出单个属性以及整体数据集的分类可用性的计算方法。选择18个UCI标准数据集作为评估对象,给出了部分数据集分类可用性的评估结果,并且选取3种分类器对所选数据集进行分类实验,最终通过对上述实验结果的分析证明了该评估方法的有效性和可行性。  相似文献   

4.
面向企业信息化的数据质量评估研究   总被引:1,自引:0,他引:1  
数据质量问题是企业信息化过程中面临的一项重要挑战,但针对数据质量评估的研究还缺乏足够的重视.文中从数据质量定义出发,阐述了数据质量的各个不同维度及其评估指标的确定,在对比分析已有成果的基础上给出了主观、客观两种评估方法,通过引入SOA上下文的可重用服务思想,设计了一种数据质量评估的服务框架,基于该框架对输入输出、流程管理、自动化评估等服务进行了阐述,并使用Web Services服务组件的形式实现了所有的功能需求.  相似文献   

5.
李新庆  王凡  张智  卫建国 《软件》2020,(4):72-76
省级气象数据存储环境虽然有效解决数据标准存储、共享服务的难点问题,但是存在数据完整性不足、可用性不高等影响数据质量的问题,造成气象行业用户的数据服务应用效果较差。针对数据质量中数据完整性这一评估指标,采用宁夏气象综合数据库作为研究数据集,结合数据完整性精确评估方法和大数据可视化技术对评估结果进行仿真,并在宁夏综合气象数据库管理系统中进行应用,为后续完善省级气象数据环境建设提供借鉴。  相似文献   

6.
到目前为止,国际上既没有形成系统化的数据质量评估标准,也没有建立完整的数据质量评估体系。通过对国际和国内数据质量相关内容的研究,分析了大型企业对数据质量的需求,提出了一个数据质量元模型框架结构,构建了数据质量评估体系。该体系包括数据质量的分类和定义、数据质量评估指标算法和数据质量评估体系及流程,为企业对数据质量进行评估提供了可靠的依据。  相似文献   

7.
在当今大数据时代下,数据质量的保证是大数据价值得以发挥的前提,数据质量的评估是其中一个重要的研究课题.本文基于规则库的数据质量评估方法,提出了数据质量评估整体模型,包括规则、规则库、数据质量评估指标、评估模板、评估报告.设计了规则评估模板,组合规则库中的规则,根据数据质量评估指标的重要性设置规则的权重,采用简单比率法和加权平均法相结合的评估方法,计算评估结果并确定数据质量的等级,利用了数据可视化技术来展现数据质量的评估结果.本文既考虑了单个规则的执行合格率,又考虑了各规则在数据质量评估模板中的比重,公正地准确地评估数据质量,并且简洁、直观地呈现评估结果.  相似文献   

8.
数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序进行还原恢复,满足数据清洗及各类应用需求.在数据时效性应用需求分析的基础上,首先明确了属性的时效规则相关概念,对属性的时效规则等进行了形式化定义;然后提出了基于图模型的时效规则发现以及数据时序修复算法;随后,对相关算法进行了实现,并在真实数据集上对算法运行效率、修复正确率等进行了测试,分析了影响算法修复数据正确率的一些影响因素,对算法进行了较为全面的分析评价.实验结果表明,算法具有较高的执行效率和较好的时效修复效果.  相似文献   

9.
基于开源源码大数据进行代码生成、缺陷预测等是当前智能化软件开发方法与技术的重要研究内容。然而现有的关注点主要聚焦于各种推荐、预测等智能算法的研究,较少对研究所使用数据的质量进行评估与分析。大部分智能化软件开发研究的数据来源于开源数据托管平台,受限于开发者自身水平,它们并不能保证都具有较高质量。根据"garbage in,garbage out",这会影响最终结果质量。源码数据的质量对相关的研究有重要影响,却没有得到足够的重视。针对上述问题,提出了一种面向开源源码大数据的方法块数据质量评估方法。首先研究如何定义和评估GitHub上抽取的源码的数据质量问题,然后对开源源码从不同维度进行质量评估。通过该源码数据质量评估方法可以帮助相关研究人员构建具有更高质量的数据集,进而提高智能化相关研究,比如代码生成、缺陷预测等的结果质量。  相似文献   

10.
大数据的一个重要方面:数据可用性   总被引:9,自引:0,他引:9  
随着信息技术的发展,特别是物理信息系统、互联网、云计算和社交网络等技术的突飞猛进,大数据普遍存在,正在成为信息社会的重要财富,同时也带来了巨大的挑战.数据可用性问题就是大数据的重要挑战之一.随着数据的爆炸性增长,劣质数据也随之而来,数据可用性受到严重影响,对信息社会形成严重威胁,引起了学术界和工业界的共同关注.近年来,学术界和工业界开始研究数据可用性问题,取得了一些的研究成果,但是针对大数据可用性问题的研究工作还很少.介绍了大数据可用性的基本概念,讨论大数据可用性的挑战,探讨大数据可用性方面的研究问题,并综述数据可用性方面的研究成果.  相似文献   

11.
多维概念格与多维序列模式的增量挖掘   总被引:1,自引:0,他引:1  
多维序列模式挖掘旨在将一个或多个背景维度信息中发现的关联模式与有序事务序列中发现的序列模式有机结合,从而为用户提供信息内容更加丰富、更具有直接应用价值的多维序列模式.目前虽有一些挖掘多维序列模式的工作,但其关联模式与序列模式的发现过程是基于不同的数据结构分开进行的.提出一种新的概念格结构——多维概念格,它是对概念格的延伸与泛化,其内涵更加丰富,不仅具有多个有序的任务内涵,而且具有多个无序的背景内涵.设计实现了基于该结构的增量式多维序列模式挖掘算法,该算法使用统一的数据模型实现关联模式与序列模式的高效同步挖掘.在合成数据集上的实验结果验证了算法的有效性.同时,算法在实际的银行数据集上的应用效果也说明了算法的实用性.  相似文献   

12.
为解决传统数据质量评估实现方式灵活性与通用性较差的问题,通过对元数据应用与数据质量评估体系的研究,重点分析了元数据在数据质量评估过程中的作用、数据质量评估维度与评估算法;确定基础元数据、评估控制元数据与评估算法元数据,并构建元数据模型.通过实际应用证明模型具有良好的灵活性与通用性.  相似文献   

13.
摘 要: 多维分类根据数据实例的特征向量将数据实例在多个维度上进行分类,具有广泛的应用前景。在多维分类算法的模型学习过程中,海量的训练数据使得准确的分类算法需要很长的模型训练时间。为了提高多维分类的执行效率,同时保持高的预测准确性,本文提出了一种基于贝叶斯网络的多维分类学习方法。首先,将多维分类问题描述为条件概率分布问题。其次,根据类别向量之间的依赖关系建立了条件树贝叶斯网络模型。最后,根据训练数据集对条件树贝叶斯网络模型的结构和参数进行学习,并提出了一种多维分类预测算法。大量的真实数据集实验表明,本文提出的方法与当前最好的多维分类算法MMOC相比,在保持高准确性的同时将模型的训练时间降低了两个数量级。因此,本文提出的方法更适用于海量数据的多维分类应用中。  相似文献   

14.
为有效对船舶企业产品质量进行控制和分析,针对造船企业质量信息特点,提出了基于过程质量数据仓库的多维数据模型,建立了面向主题的船舶企业质量数据仓库。并通过对OLAP数据源中抽取的数据进行转换,构建了面向产品实现全过程的企业主题数据模型,为船舶企业质量管理体系的稳步改进提供了技术保证。通过在某船舶企业的实际应用,验证了该模型和方法的合理性和有效性。  相似文献   

15.
多维时间序列上的异常检测,是时态数据分析的重要研究问题之一.近年来,工业互联网中传感器设备采集并积累了大量工业时间序列数据,这些数据具有模式多样、工况多变的特性,给异常检测方法的效率、效果和可靠性均提出更高要求.序列间相互影响、关联,其隐藏的相关性信息可以用于识别、解释异常问题.基于此,提出一种基于序列相关性分析的多维时间序列异常检测方法.首先对多维时间序列进行分段、标准化计算,得到相关性矩阵,提取量化的相关关系;然后建立了时序相关图模型,通过在时序相关图上的相关性强度划分时间序列团,进行时间序列团内、团间以及单维的异常检测.在真实的工业设备传感器数据集上进行了大量实验,实验结果验证了该方法在高维时序数据的异常检测任务上的有效性.通过对比实验,验证了该方法从性能上优于基于统计和基于机器学习模型的基准算法.该研究通过对高维时序数据相关性知识的挖掘,既节约了计算成本,又实现了对复杂模式的异常数据的精准识别.  相似文献   

16.
基于多维时间序列挖掘的降雨天气模型研究   总被引:1,自引:1,他引:0  
为研究降雨天气中降雨量和相关气象要素的关系,找出降雨前后相关气象要素的变化规律,提出了多维时间序列数据挖掘模型.该模型首先对气象要素时间序列进行维度选择预处理,剔除不相关及冗余维度,然后运用提出的极值斜率分段线性拟合法对时间序列进行分段、数据压缩及特征值提取,最后使用k-means聚类算法对处理后的多维序列进行符号化,利用规则提取得到降雨天气模型.实验结果表明了该模型具有较好的实用价值.  相似文献   

17.
本地差分隐私(local differential privacy,LDP)可以对可穿戴装置(wearable devices)采集到的数据进行隐私保护,每个用户都会在本地扰乱自己的数据,并且将扰动后的数据发送给数据汇聚服务器,以保护用户免受私人信息泄漏的影响.可穿戴装置采集到的数据是多维的,但是现有的针对可穿戴装置多...  相似文献   

18.
数据质量维度量化方法   总被引:2,自引:0,他引:2       下载免费PDF全文
为了实现自动化的数据质量评估,提出了一种在背景范围内的数据质量量化方法QDC(Quantify Dimensions within Context)。数据质量可以用数据和其对应实体的“完美表达”间的差距来衡量。由于“完美表达”很难获得或代价很高,因此提出在多数据源条件下,数据的“完美表达”可以在其背景范围内用投票获得的“最近似”来替代,从而确定了数据质量评估参照的标准。同时提出利用信息论中信息熵指标,将不同类型数据的质量维度统一为通用的度量。作为一种自动化的数据质量评估方法,QDC方法不仅能够对数据的准确性和完整性维度给出准确的评估值,并且具有很高的计算效率。  相似文献   

19.
NDSMMV——一种多维数据集物化视图动态选择新策略   总被引:2,自引:0,他引:2  
物化视图的选择策略是数据仓库研究的重要问题之一.通过深入研究提出了一种多维数据集中物化视图动态选择的新策略--NDSMMV,包括候选视图生成算法CVGA、物化视图选择算法IGA、物化视图调整算法MAMV和物化视图动态调整算法DMAMV.CVGA基于多维数据格生成候选视图集,对候选视图数量进行压缩以减少后续算法的视图空间搜索代价和时间复杂度;IGA基于视图查询、视图维护和存储空间三元评价标准在候选视图集上进行物化视图的选择;MAMV基于物化视图选择过程已选视图的收益变化情况对物化视图进行进一步调整以提高查询的响应性能;DMAMV定时地判断查询视图类型分布是否变化来决定是否进行物化视图的动态调整,从而避免了物化视图集的"抖动".理论分析和实验结果表明该策略是有效可行的.  相似文献   

20.
In recent years, data quality issues have attracted wide attentions. Data quality problems are mainly caused by dirty data. Currently, many methods for dirty data management have been proposed, and one of them is entity-based relational database in which one tuple represents an entity. The traditional query optimizations are not suitable for the new entity-based model. Then new query optimizations need to be developed. In this paper, we propose a new query selectivity estimation strategy based on histogram, and focus on solving the overestimation which traditional methods lead to. We prove our approaches are unbiased. The experimental results on both real and synthetic data sets show that our approaches can give good estimates with low error.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号