首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
朱会娟  蒋同海  周喜  程力  赵凡  马博 《计算机应用》2017,37(4):1014-1020
针对传统数据清洗方法通过硬编码方法来实现业务逻辑而导致系统的可重用性、可扩展性与灵活性较差等问题,提出了一种基于动态可配置规则的数据清洗方法——DRDCM。该方法支持多种类型规则间的复杂逻辑运算,并支持多种脏数据修复行为,集数据检测、数据修复与数据转换于一体,具有跨领域、可重用、可配置、可扩展等特点。首先,对DRDCM方法中的数据检测和数据修复的概念、实现步骤以及实现算法进行描述;其次,阐述了DRDCM方法中支持的多种规则类型以及规则配置;最后,对DRDCM方法进行实现,并通过实际项目数据集验证了该实现系统在脏数据修复中,丢弃修复行为具有很高的准确率,尤其是对需遵守法定编码规则的属性(例如身份证号码)处理时其准确率可达100%。实验结果表明,DRDCM实现系统可以将动态可配置规则无缝集成于多个数据源和多种不同应用领域且该系统的性能并不会随着规则条数增加而极速降低,这也进一步验证了DRDCM方法在真实环境中的切实可行性。  相似文献   

2.
针对数据清洗中规则间逻辑冲突频发和出错率高的问题,提出一种基于偏序集的规则链自动生成方法。通过分层组合的数据清洗框架自顶向下对规则进行分类处理,采用偏序集和哈斯图自动生成每个层级的逻辑正确和一致的规则链,并设计出对应的生成算法和自动清洗算法。以扶贫领域数据为例进行实验,结果表明该方法使数据清洗效率有一定提升,清洗结果出错率明显降低,检验了方法的科学性和有效性。  相似文献   

3.
4.
以往数据清洗工具在三个方面存在不足:工具和用户之间缺少交互,用户无法控制过程,也无法处理过程中的异常;数据转化和数据清洗规则缺少逻辑描述,没有达到与物理实现的分离;缺少元数据管理,用户很难分析和逐步调整数据清洗过程。文中提出了一种新的基于规则描述的交互式数据清洗框架,解决了上述三个方面存在的不足,提高了数据清洗的效率,使得数据的质量得到保证。并通过描述清洗规则的定义和执行,详细阐述了该清洗框架的结构。  相似文献   

5.
以往数据清洗工具在三个方面存在不足:工具和用户之间缺少交互,用户无法控制过程,也无法处理过程中的异常;数据转化和数据清洗规则缺少逻辑描述,没有达到与物理实现的分离;缺少元数据管理,用户很难分析和逐步调整数据清洗过程.文中提出了一种新的基于规则描述的交互式数据清洗框架,解决了上述三个方面存在的不足,提高了数据清洗的效率,使得数据的质量得到保证.并通过描述清洗规则的定义和执行,详细阐述了该清洗框架的结构.  相似文献   

6.
为了有效地清洗数据,此前已经提出了很多的完整性约束规则,例如条件函数依赖、条件包含依赖.这些约束规则虽然可以侦测出错误的存在,但是不能有效地指导用户纠正错误.实际上,基于约束规则的数据修复可能最终得不到确定性的修复结果,相反会引入新的错误,因此很大程度上降低了数据修复的效率.针对以上不足,提出了一种有效的数据清洗框架:首先基于Editing Rules和Master Data对数据进行清洗操作,最终得到确定性的修复;然后依据条件函数依赖来修复遗漏的错误,此种修复结果是不确定的,但是相比之下该框架不仅可以有效地保证数据修复的精确性与唯一性,而且提高了数据修复的效率.  相似文献   

7.
基于规则引擎的数据清洗   总被引:9,自引:0,他引:9       下载免费PDF全文
叶舟  王东 《计算机工程》2006,32(23):52-54
以往的数据清洗研究存在以下缺陷:检测和修复动作要么使用灵活性差的硬编码,要么依靠灵活却低效的人工判断。该文提出了一个使用规则来描述清洗逻辑,使用规则引擎来执行清洗逻辑,从而能够处理各种数据质量问题的数据清洗架构REBDCA,解决了该问题。展示了REBDCA和一个ETL工具的集成,测试了REBDCA的性能,并和用硬编码完成相同逻辑的方案进行了性能对比。  相似文献   

8.
针对日前数据清洗框架中普遍存在的交互性和可扩展性差的问题,本文从数据清洗的定义出发,分析了数据清洗的原理和流程,并在此基础上提出了一种基于规则的交互式数据清洗框架.该框架具有较好的交互性、可扩展性和通用性.  相似文献   

9.
数据挖掘中的隐私泄漏问题一直备受关注,在确保隐私的前提下达到最佳挖掘效果是近年来数据挖掘领域的研究热点之一。为防止在数据挖掘中发生隐私泄漏等问题,基于隐私保护框架,提出一种支持动态计算冲突度的高效的敏感规则清洗算法。在隐藏敏感规则的同时,动态调整冲突交易的冲突度,以尽量减少对非敏感规则误隐藏的可能性。理论分析与实验结果表明,给出的算法隐藏失败率为零,且大幅度降低了误隐藏率,有效保护了敏感规则,显著改善了算法的清洗效果。  相似文献   

10.
围绕城市污水处理过程数据存在连续噪声和缺失的问题,提出一种基于动态融合局部异常因子(dynamic fusion local outlier factor,DFLOF)的污水处理过程数据清洗方法.首先,设计一种基于滑动窗口的数据动态分段方法,通过计算每个子段数据的均值、最大值和峰值区间信息获得数据异常属性值;其次,建立...  相似文献   

11.
随着大数据与AI技术的发展,由数据驱动的预测模型层出不穷,数据清洗在提升这些模型预测中起着重要的作用。从公交车运行数据的时空相关性入手,分析了公交大数据存在的四类异常,接着在对时间相关性、空间邻近性、时空依赖性等公交大数据特性的分析基础上,提出了整合缓冲区、四分位数、时间依赖网络等时空处理方法的冗余清洗、范围清洗、异常清洗、补全清洗四种清洗方法,然后对公交进出站、轨迹数据集用这几种清洗方法进行了清洗。在不同清洗数据集下,通过LSTM公交到达时间预测精度的比较分析,证明了数据清洗对预测精度的提升是显著的。  相似文献   

12.
数据时效性是影响数据质量的重要因素,可靠的数据时效性对数据检索的精确度、数据分析结论的可信性起到关键作用.数据时效不精确、数据过时等现象给大数据应用带来诸多问题,很大程度上影响着数据价值的发挥.对于缺失了时间戳或者时间不准确的数据,精确恢复其时间戳是困难的,但可以依据一定的规则对其时间先后顺序进行还原恢复,满足数据清洗及各类应用需求.在数据时效性应用需求分析的基础上,首先明确了属性的时效规则相关概念,对属性的时效规则等进行了形式化定义;然后提出了基于图模型的时效规则发现以及数据时序修复算法;随后,对相关算法进行了实现,并在真实数据集上对算法运行效率、修复正确率等进行了测试,分析了影响算法修复数据正确率的一些影响因素,对算法进行了较为全面的分析评价.实验结果表明,算法具有较高的执行效率和较好的时效修复效果.  相似文献   

13.
《软件》2017,(12):193-196
在大数据环境下会不可避免的存在一些脏数据,严重的影响了数据质量,而数据清洗是提高数据质量的重要方法,对数据清洗框架的研究可以帮助大数据的系统决策。提出了一个大数据环境下数据清洗的一般框架,并对核心的数据清洗模块中的三个子模块进行详细的分析,包括不完整数据清洗子模块、不一致数据修复子模块和相似重复记录数据清洗子模块,且讨论了其清洗的具体流程。  相似文献   

14.
中医药经过数千年的发展,积累了大量的各种类型的数据.很多研究人员利用大数据技术,对方剂或药品数据预处理后,使用相关算法挖掘和探寻疾病诊疗规律,为新药研制、疾病诊治、医学科研提供科学的依据.但随着方剂规模的增大,人工预处理的方式效率低且易出错.因此,文章提出一种基于Aho_Corasick算法的清洗方法,将药物作为模式串...  相似文献   

15.
大数据集成是提供高质量数据以进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值.然而这种方法在处理多个可能的准确值或设计的规则存在冲突等情况下需要较多人工交互.为此提出基于权重规则的WR(weighted-rule)方法确定大数据集成中数据的准确属性值.该方法为属性值间准确程度的判断规则扩充了权重,在准确值发生冲突时避免了R-topK方法中人工交互干预.基于追逐过程设计了约束条件推理算法,并证明它能够在O(n\\+2)内推导出每对属性值间的带权重的准确程度,形成推导准确属性值的约束条件.面对约束条件中可能的冲突,提出了目标求解算法,在O(n)时间内从所有属性值组合中搜索最可能的准确属性值.在真实和合成数据集中进行了充分的实验,验证了WR方法的效果和效率.WR方法较R-topK方法在性能上提高了3~15倍,在效果上提升7%~80%.  相似文献   

16.
基于自适应滑动窗口清洗算法SMURF(Statistical sMoothing for Unreliable RFid data)需要手动输入阈值δ,对于静态标签,δ的取值对平滑结果几乎没有影响;对于动态标签,结果会造成巨大的误差。针对以上的缺点,提出一种基于动态标签的RFID不确定性数据清洗算法DSUMRF(Dynamic tags-based SMURF)。另外,SMURF算法主要考虑RFID不确定性数据的漏读和错读,没有涉及到冗余数据的处理。在DSUMRF算法的基础上,提出一种RFID冗余数据清洗框架。对比实验表明,针对动态标签,DSMURF算法具有更好的性能。  相似文献   

17.
区块链技术作为一门新兴的技术在众多的领域都有所运用,将区块链技术与计算技术相结合能够形成一个分布式的去中心化的云计算服务体系,可为本地众多的政企数据中心提供高效能的服务。区块链技术本身是去中心化的,具有不可篡改的特征,具有极高的安全性能,能够对数据进行有效地保护。通过结合云计算专有网络服务技术能够解决企事业单位的信息云上的安全问题,提高信息的信任度,在验证真伪的运用上具有不可替代的作用。  相似文献   

18.
常规的区块链数据隐私文本智能加密结构多为单层级的,加密范围有限,导致抗攻击次数下降。为此提出基于大数据的区块链数据隐私文本智能加密方法的设计与分析。根据文本加密的需求及标准,预处理区块链文本智能加密环境,设定格栅化大数据加密目标,以此为基础,综合大数据技术,构建多层级的智能文本加密结构,逐步扩大加密的范围,打破整体的限制,构建区块链隐私文本大数据智能加密模型,采用大数据文本转换修正实现加密处理。测试结果表明:大数据区块链隐私文本加密测试组最终得出的抗攻击次数相对较高,表明该方法的加密效果更好,隐私文本的安全程度更高一些,具有较大的实际应用价值。  相似文献   

19.
信息系统数据清洗、规则提取的矩阵算法   总被引:20,自引:0,他引:20  
本文在等价矩阵概念的基础上,分析了粗糙集知识系统中等价划分与等价矩阵的关系,采用等价矩阵来表示粗糙集的等价关系,提出了一种对数据库知识系统进行数据清洗、从中提取决策规则的矩阵算法,并分析了该算法的计算复杂性.该算法具有规则提取的工程实用性,主要优点在于能够获得信息系统中所有有价值的决策规则.文中通过实例表明了这种算法的有效性.  相似文献   

20.
RFID技术现已广泛应用在供应链、制药监管等领域,然而数据的不准确性制约了RFID技术的进一步发展.为提供高质量的RFID数据给高层应用,对RFID原始数据进行清洗十分必要.本文提出一种基于卡尔曼滤波过滤的数据清洗方法KAL-RFID,有效地解决了单个阅读器的消极读和积极读问题以及动态标签跃迁产生的延迟问题.实验结果表明KAL-RFID方法提高了清洗效率,并且得到更准确的清洗结果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号