首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 109 毫秒
1.
数据质量规则是检测数据库质量的关键。为从关系数据库中自动发现数据质量规则,并以其为依据检测错误数据,研究质量规则表示形式及其评估度量,提出以数据项分组及其可信度为依据的最小质量规则计算准则、挖掘算法以及采用质量规则检测错误数据的思路。该数据质量规则形式借鉴关联规则的可信度评估机制、条件函数依赖的表达能力,统一描述函数依赖、条件函数依赖、关联规则等,具有简洁、客观、全面、检测异常数据准确等特性。与相关研究相比,降低挖掘算法的时间复杂度,提高检错率。用实验证明该方法的有效性和正确性。  相似文献   

2.
彭锦峰  申德荣  寇月  聂铁铮 《软件学报》2023,34(3):1049-1064
随着信息化社会的发展,数据的规模越发庞大,数据的种类也越发丰富.时至今日,数据已经成为国家和企业的重要战略资源,是科学化管理的重要保障.然而,随着社会生活产生的数据日益丰富,大量的脏数据也随之而来,数据质量问题油然而生.如何准确而全面地检测出数据集中所包含的错误数据,一直是数据科学中的痛点问题.尽管已有许多传统方法被广泛用于各行各业,如基于约束与统计的检测方法,但这些方法通常需要丰富的先验知识与昂贵的人力和时间成本.受限于此,这些方法往往难以准确而全面地检测数据.近年来,许多新型错误检测方法利用深度学习技术,通过时序推断、文本解析等方式取得了更好检测效果,但它们通常只适用于特定的领域或特定的错误类型,面对现实生活中的复杂情况,泛用性不足.基于上述情况,结合传统方法与深度学习技术的优点,提出了一个基于多视角的多类型错误全面检测模型CEDM.首先,从模式的角度,结合现有约束条件,在属性、单元和元组层面进行多维度的统计分析,构建出基础检测规则;然后,通过词嵌入捕获数据语义,从语义的角度分析属性相关性、单元关联性与元组相似性,进而基于语义关系,从多个维度上更新、扩展基础规则;最终,联合多个视角...  相似文献   

3.
朱会娟  蒋同海  周喜  程力  赵凡  马博 《计算机应用》2017,37(4):1014-1020
针对传统数据清洗方法通过硬编码方法来实现业务逻辑而导致系统的可重用性、可扩展性与灵活性较差等问题,提出了一种基于动态可配置规则的数据清洗方法——DRDCM。该方法支持多种类型规则间的复杂逻辑运算,并支持多种脏数据修复行为,集数据检测、数据修复与数据转换于一体,具有跨领域、可重用、可配置、可扩展等特点。首先,对DRDCM方法中的数据检测和数据修复的概念、实现步骤以及实现算法进行描述;其次,阐述了DRDCM方法中支持的多种规则类型以及规则配置;最后,对DRDCM方法进行实现,并通过实际项目数据集验证了该实现系统在脏数据修复中,丢弃修复行为具有很高的准确率,尤其是对需遵守法定编码规则的属性(例如身份证号码)处理时其准确率可达100%。实验结果表明,DRDCM实现系统可以将动态可配置规则无缝集成于多个数据源和多种不同应用领域且该系统的性能并不会随着规则条数增加而极速降低,这也进一步验证了DRDCM方法在真实环境中的切实可行性。  相似文献   

4.
针对数据源中出现的错误数据,分析了孤立点检测方法在数据清理中的重要性,提出了一种基于孤立点检测的错误数据清理方法。在对常用孤立点检测方法进行比较、分析的基础上,采用一种有效的孤立点检测方法来检测数据源中的孤立点。最后,以一个实例验证了该方法的效果。研究表明:基于孤立点检测的错误数据清理方法能有效地检测数据源中的错误数据。  相似文献   

5.
交通流数据清洗规则研究   总被引:2,自引:0,他引:2       下载免费PDF全文
王晓原  张敬磊  吴芳 《计算机工程》2011,37(20):191-193
交通检测器获得的数据存在无效、冗余、错误、时间点漂移及丢失等质量问题。为此,在分析影响数据质量问题原因的基础上,给出交通流数据清洗的概念,研究“脏数据”的清洗规则与清洗步骤,并对环形线圈检测器检测到的数据进行验证。结果表明,该清洗规则对错误、丢失、冗余等“脏数据”的识别率均在90%以上。  相似文献   

6.
随着海量数据的涌现和不断积累,数据治理成为提高数据质量、最大化数据价值的重要手段.其中,数据错误检测是提高数据质量的关键步骤,近年来引起了学术界及工业界的广泛关注.目前,绝大多数错误检测方法只适用于单数据源场景.然而在现实场景中,数据往往不集中存储与管理.不同来源且高度相关的数据能够提升错误检测的精度.但由于数据隐私安全问题,跨源数据往往不允许集中共享.鉴于此,提出了一种基于联邦学习的跨源数据错误检测方法 FeLeDetect,以在数据隐私保证的前提下,利用跨源数据信息提高错误检测精度.为了充分捕获每一个数据源的数据特征,首先提出一种基于图的错误检测模型GEDM,并在此基础上设计了一种联邦协同训练算法FCTA,以支持在各方数据不出本地的前提下,利用跨源数据协同训练GEDM.此外,为了降低联邦训练的通信开销和人工标注成本,还提出了一系列优化方法.最后,在3个真实数据集上进行了大量的实验.实验结果表明:(1)相较于5种现有最先进的错误检测方法,GEDM在本地场景和集中场景下,错误检测结果的F1分数平均提高了10.3%和25.2%;(2) FeLeDetect错误检测结果的F1分数较本地场景...  相似文献   

7.
为有效管理人工智能技术操作步骤的规范性,需要对人工智能技术的IETM业务规则进行研究;而当前已经制定的IETM业务规则,在人工智能技术复杂繁多的操作步骤中,许多细节问题没有得到规范管理;为此,提出一种基于人工智能技术的IETM业务规则研究方法;该方法首先确定人工智能技术的IETM业务规则数据模块,再将所有人工智能数据模块进行分类,并分配给各部门相关技术人员进行IETM业务规则的制定,数据模块ETM业务规则的制定过程将采用PCR技术以层次形式来表述,然后将所有分类数据模块IETM业务规则进行汇总、协商、统一,形成完整的人工智能技术的IETM业务规则,管理人工智能技术操作步骤的规范性;实验仿真证明,所提方法能够有效管理人工智能技术操作步骤的规范性。  相似文献   

8.
大数据时代,数据的来源复杂,数据质量存在严重问题,有些数据不准确、缺失或存在错误。不正确的数据严重影响了数据挖掘的质量,给决策造成重大的影响。关于缺失数据的修复方法很多,其中条件函数依赖就是一个有效的方法,在如何发现条件函数依赖方面已经有了很多研究成果。文中提出一种应用关联规则构建条件函数依赖的方法,由于关联规则通过数据挖掘得到,具有一定的隐蔽性,不是一般的方法能够发现,所以,由关联规则构建的条件函数依赖具有一定的应用价值,文中给出了构建方法,并通过实验证明其有效性。  相似文献   

9.
主要研究高速公路车检器流量检测数据的筛选方法和修补方法。首先从交通流三参数的关系出发,分析错误数据的种类及原因,提出一种对错误数据的筛选方法;然后分析与修补数据相关性最强的参数集合,制定修补算法对缺失数据进行补修。错误数据的筛选主要运用阈值法,阈值的制定以道路通行能力为依据。本研究为高速公路的车检器流量检测数据的预处理技术提出了新的思路。  相似文献   

10.
为了有效地清洗数据,此前已经提出了很多的完整性约束规则,例如条件函数依赖、条件包含依赖.这些约束规则虽然可以侦测出错误的存在,但是不能有效地指导用户纠正错误.实际上,基于约束规则的数据修复可能最终得不到确定性的修复结果,相反会引入新的错误,因此很大程度上降低了数据修复的效率.针对以上不足,提出了一种有效的数据清洗框架:首先基于Editing Rules和Master Data对数据进行清洗操作,最终得到确定性的修复;然后依据条件函数依赖来修复遗漏的错误,此种修复结果是不确定的,但是相比之下该框架不仅可以有效地保证数据修复的精确性与唯一性,而且提高了数据修复的效率.  相似文献   

11.
针对数据清洗中规则间逻辑冲突频发和出错率高的问题,提出一种基于偏序集的规则链自动生成方法。通过分层组合的数据清洗框架自顶向下对规则进行分类处理,采用偏序集和哈斯图自动生成每个层级的逻辑正确和一致的规则链,并设计出对应的生成算法和自动清洗算法。以扶贫领域数据为例进行实验,结果表明该方法使数据清洗效率有一定提升,清洗结果出错率明显降低,检验了方法的科学性和有效性。  相似文献   

12.
为了将频繁产生的分布在世界各地的金融数据按需地高性能集成,提出了基于ETL(extract-transform-load)的金融数据集成过程模型.对规则引擎原理进行了研究,建立了基于业务转换规则的插件式扩展实现可复用可定制的业务转换过程.利用事件驱动的交互模型和元数据映射保证非结构化和半结构化数据之间无差异集成,采用增量式数据处理解决数据集成中棘手的性能问题.通过实践项目的验证,对比传统数据集成方法和该过程模型,验证了该过程模型的有效性.  相似文献   

13.
数据迁移的一般原则   总被引:4,自引:0,他引:4  
在应用软件及数据库开发中经常要做数据迁移工作 ,数据迁移就是将数据从一种数据环境移入另一种数据环境中。进行彻底而精确的数据转换应遵循以下关键步骤 :识别源数据、确定数据集成转换的规则以及开发转换规则代码。介绍了数据迁移的一般步骤 ,并提出了从数据转换、选择迁移方法以及从元数据管理的角度评价迁移工具的标准  相似文献   

14.
电子商务网站逐渐成为商务智能中数据量最大的地方之一。把数据仓库技术引入电子商务应用中,把用户在电子商务网站上的点击流(Click Stream)和Web日志文件作为数据源,利用高效的改进的关联规则算法,可以有效地分析出其中蕴涵的知识,如用户行为模式等。利用这些知识,商务人员能够拓展他们的市场,改善客户关系,降低成本,使操作流水化,有效地辅助他们改进商业策略。  相似文献   

15.
一种基于XML映射规则的数据迁移方法设计和实现   总被引:5,自引:0,他引:5  
胡晓鹏  李晓航  李岗 《计算机应用》2005,25(8):1849-1852
数据迁移可以看作是实现从源数据库表到目的数据库表的映射。研究了数据迁移的形式化过程,详细讨论了该过程中存在的几类重要映射,提出了基于XML的通用映射规则表示方法。在此基础上,介绍了通过分析数据库表对象创建脚本自动生成XML形式映射规则框架的方法,并讨论了实际的数据迁移过程。  相似文献   

16.
一种高效的用户浏览行为采集方法   总被引:1,自引:0,他引:1  
针对在多用户、多Web站点的网络访问环境下存在的数据采集问题,提出了一种新的数据采集及清理方法。引入网络嗅探的方式进行浏览行为数据的采集;在结合传统数据清理方法的基础上,提出一种利用HTTP请求间存在的引用和时间关系来清除HTTP请求产生的大量的非用户显式点击的附带请求。实验结果表明,该方法可以有效地采集浏览行为数据并清除大量的附带请求,抽取出能够反映用户显式点击的页面基请求,为用户浏览行为建模提供准确的数据源。  相似文献   

17.
目前传统的Web应用程序访问数据库的方法是SQL代码嵌入在domain/business类中,一旦系统出现改动,就要修改源代码。目前比较通用的方法是SQL代码写在独立的一个或多个数据类中或在存储过程中,这种方法能压缩源代码。提出了通用数据类的概念。采用通用数据类,使程序开发人员摆脱开SQL和事务,达到了快速开发的目的。利用ADO.NET和XML技术实现了数据访问层的思想,并实现了事务集中处理。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号