共查询到17条相似文献,搜索用时 109 毫秒
1.
数据质量规则是检测数据库质量的关键。为从关系数据库中自动发现数据质量规则,并以其为依据检测错误数据,研究质量规则表示形式及其评估度量,提出以数据项分组及其可信度为依据的最小质量规则计算准则、挖掘算法以及采用质量规则检测错误数据的思路。该数据质量规则形式借鉴关联规则的可信度评估机制、条件函数依赖的表达能力,统一描述函数依赖、条件函数依赖、关联规则等,具有简洁、客观、全面、检测异常数据准确等特性。与相关研究相比,降低挖掘算法的时间复杂度,提高检错率。用实验证明该方法的有效性和正确性。 相似文献
2.
随着信息化社会的发展,数据的规模越发庞大,数据的种类也越发丰富.时至今日,数据已经成为国家和企业的重要战略资源,是科学化管理的重要保障.然而,随着社会生活产生的数据日益丰富,大量的脏数据也随之而来,数据质量问题油然而生.如何准确而全面地检测出数据集中所包含的错误数据,一直是数据科学中的痛点问题.尽管已有许多传统方法被广泛用于各行各业,如基于约束与统计的检测方法,但这些方法通常需要丰富的先验知识与昂贵的人力和时间成本.受限于此,这些方法往往难以准确而全面地检测数据.近年来,许多新型错误检测方法利用深度学习技术,通过时序推断、文本解析等方式取得了更好检测效果,但它们通常只适用于特定的领域或特定的错误类型,面对现实生活中的复杂情况,泛用性不足.基于上述情况,结合传统方法与深度学习技术的优点,提出了一个基于多视角的多类型错误全面检测模型CEDM.首先,从模式的角度,结合现有约束条件,在属性、单元和元组层面进行多维度的统计分析,构建出基础检测规则;然后,通过词嵌入捕获数据语义,从语义的角度分析属性相关性、单元关联性与元组相似性,进而基于语义关系,从多个维度上更新、扩展基础规则;最终,联合多个视角... 相似文献
3.
针对传统数据清洗方法通过硬编码方法来实现业务逻辑而导致系统的可重用性、可扩展性与灵活性较差等问题,提出了一种基于动态可配置规则的数据清洗方法——DRDCM。该方法支持多种类型规则间的复杂逻辑运算,并支持多种脏数据修复行为,集数据检测、数据修复与数据转换于一体,具有跨领域、可重用、可配置、可扩展等特点。首先,对DRDCM方法中的数据检测和数据修复的概念、实现步骤以及实现算法进行描述;其次,阐述了DRDCM方法中支持的多种规则类型以及规则配置;最后,对DRDCM方法进行实现,并通过实际项目数据集验证了该实现系统在脏数据修复中,丢弃修复行为具有很高的准确率,尤其是对需遵守法定编码规则的属性(例如身份证号码)处理时其准确率可达100%。实验结果表明,DRDCM实现系统可以将动态可配置规则无缝集成于多个数据源和多种不同应用领域且该系统的性能并不会随着规则条数增加而极速降低,这也进一步验证了DRDCM方法在真实环境中的切实可行性。 相似文献
4.
5.
6.
随着海量数据的涌现和不断积累,数据治理成为提高数据质量、最大化数据价值的重要手段.其中,数据错误检测是提高数据质量的关键步骤,近年来引起了学术界及工业界的广泛关注.目前,绝大多数错误检测方法只适用于单数据源场景.然而在现实场景中,数据往往不集中存储与管理.不同来源且高度相关的数据能够提升错误检测的精度.但由于数据隐私安全问题,跨源数据往往不允许集中共享.鉴于此,提出了一种基于联邦学习的跨源数据错误检测方法 FeLeDetect,以在数据隐私保证的前提下,利用跨源数据信息提高错误检测精度.为了充分捕获每一个数据源的数据特征,首先提出一种基于图的错误检测模型GEDM,并在此基础上设计了一种联邦协同训练算法FCTA,以支持在各方数据不出本地的前提下,利用跨源数据协同训练GEDM.此外,为了降低联邦训练的通信开销和人工标注成本,还提出了一系列优化方法.最后,在3个真实数据集上进行了大量的实验.实验结果表明:(1)相较于5种现有最先进的错误检测方法,GEDM在本地场景和集中场景下,错误检测结果的F1分数平均提高了10.3%和25.2%;(2) FeLeDetect错误检测结果的F1分数较本地场景... 相似文献
7.
席洁 《计算机测量与控制》2017,25(8):275-278
为有效管理人工智能技术操作步骤的规范性,需要对人工智能技术的IETM业务规则进行研究;而当前已经制定的IETM业务规则,在人工智能技术复杂繁多的操作步骤中,许多细节问题没有得到规范管理;为此,提出一种基于人工智能技术的IETM业务规则研究方法;该方法首先确定人工智能技术的IETM业务规则数据模块,再将所有人工智能数据模块进行分类,并分配给各部门相关技术人员进行IETM业务规则的制定,数据模块ETM业务规则的制定过程将采用PCR技术以层次形式来表述,然后将所有分类数据模块IETM业务规则进行汇总、协商、统一,形成完整的人工智能技术的IETM业务规则,管理人工智能技术操作步骤的规范性;实验仿真证明,所提方法能够有效管理人工智能技术操作步骤的规范性。 相似文献
8.
9.
主要研究高速公路车检器流量检测数据的筛选方法和修补方法。首先从交通流三参数的关系出发,分析错误数据的种类及原因,提出一种对错误数据的筛选方法;然后分析与修补数据相关性最强的参数集合,制定修补算法对缺失数据进行补修。错误数据的筛选主要运用阈值法,阈值的制定以道路通行能力为依据。本研究为高速公路的车检器流量检测数据的预处理技术提出了新的思路。 相似文献
10.
为了有效地清洗数据,此前已经提出了很多的完整性约束规则,例如条件函数依赖、条件包含依赖.这些约束规则虽然可以侦测出错误的存在,但是不能有效地指导用户纠正错误.实际上,基于约束规则的数据修复可能最终得不到确定性的修复结果,相反会引入新的错误,因此很大程度上降低了数据修复的效率.针对以上不足,提出了一种有效的数据清洗框架:首先基于Editing Rules和Master Data对数据进行清洗操作,最终得到确定性的修复;然后依据条件函数依赖来修复遗漏的错误,此种修复结果是不确定的,但是相比之下该框架不仅可以有效地保证数据修复的精确性与唯一性,而且提高了数据修复的效率. 相似文献
11.
12.
为了将频繁产生的分布在世界各地的金融数据按需地高性能集成,提出了基于ETL(extract-transform-load)的金融数据集成过程模型.对规则引擎原理进行了研究,建立了基于业务转换规则的插件式扩展实现可复用可定制的业务转换过程.利用事件驱动的交互模型和元数据映射保证非结构化和半结构化数据之间无差异集成,采用增量式数据处理解决数据集成中棘手的性能问题.通过实践项目的验证,对比传统数据集成方法和该过程模型,验证了该过程模型的有效性. 相似文献
13.
14.
电子商务网站逐渐成为商务智能中数据量最大的地方之一。把数据仓库技术引入电子商务应用中,把用户在电子商务网站上的点击流(Click Stream)和Web日志文件作为数据源,利用高效的改进的关联规则算法,可以有效地分析出其中蕴涵的知识,如用户行为模式等。利用这些知识,商务人员能够拓展他们的市场,改善客户关系,降低成本,使操作流水化,有效地辅助他们改进商业策略。 相似文献
15.
16.
一种高效的用户浏览行为采集方法 总被引:1,自引:0,他引:1
针对在多用户、多Web站点的网络访问环境下存在的数据采集问题,提出了一种新的数据采集及清理方法。引入网络嗅探的方式进行浏览行为数据的采集;在结合传统数据清理方法的基础上,提出一种利用HTTP请求间存在的引用和时间关系来清除HTTP请求产生的大量的非用户显式点击的附带请求。实验结果表明,该方法可以有效地采集浏览行为数据并清除大量的附带请求,抽取出能够反映用户显式点击的页面基请求,为用户浏览行为建模提供准确的数据源。 相似文献
17.
陈谊楠 《电脑编程技巧与维护》2012,(4):35-36,57
目前传统的Web应用程序访问数据库的方法是SQL代码嵌入在domain/business类中,一旦系统出现改动,就要修改源代码。目前比较通用的方法是SQL代码写在独立的一个或多个数据类中或在存储过程中,这种方法能压缩源代码。提出了通用数据类的概念。采用通用数据类,使程序开发人员摆脱开SQL和事务,达到了快速开发的目的。利用ADO.NET和XML技术实现了数据访问层的思想,并实现了事务集中处理。 相似文献