首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 234 毫秒
1.
传统关联规则挖掘方法通常产生海量杂乱的规则,它们对用户而言是冗余的.为解决该问题,文中提出一种基于信息熵的兴趣度规则挖掘算法.通过变量相关性分析剔除原始规则集中虚假、错误的规则,并在信息熵的基础上提出度量关联规则兴趣度的框架.该算法不依赖用户先验知识,能无偏地表达数据包含的信息.在真实和仿真数据集上的实验验证该算法能有效挖掘兴趣度规则,且性能比传统算法更优.  相似文献   

2.
大数据时代,数据的来源复杂,数据质量存在严重问题,有些数据不准确、缺失或存在错误。不正确的数据严重影响了数据挖掘的质量,给决策造成重大的影响。关于缺失数据的修复方法很多,其中条件函数依赖就是一个有效的方法,在如何发现条件函数依赖方面已经有了很多研究成果。文中提出一种应用关联规则构建条件函数依赖的方法,由于关联规则通过数据挖掘得到,具有一定的隐蔽性,不是一般的方法能够发现,所以,由关联规则构建的条件函数依赖具有一定的应用价值,文中给出了构建方法,并通过实验证明其有效性。  相似文献   

3.
基于聚类的模糊遗传挖掘算法的研究   总被引:2,自引:0,他引:2       下载免费PDF全文
通过分析连续型属性数据的特点和已有的关联规则挖掘算法,在定量描述的准确性和算法的高效性方面作了进一步研究,针对已有的通过结合最大一项集和隶属函数值去计算染色体的适应值的模糊遗传挖掘算法速度慢的问题,提出一种基于聚类的模糊遗传关联规则挖掘算法。该算法采用模糊遗传原理在交易数据中同时提取关联规则和隶属函数。同时,采用k-means聚类算法对种群中的染色体进行分类并且依据分类得到的信息和自身的信息评估每个染色体的适应性,从而降低了扫描数据库的次数,测试结果表明该算法速度快,准确度高。  相似文献   

4.
印鉴  周祥福  杨敏 《计算机工程》2006,32(12):34-36
数据挖掘是从数据中提取有用知识的过程。在现实生活中,数据丢失的情况是很常见的,尤其是在商业数据库中,由于文件错误、纪录缺失、存储策略的改变等都会引起数据丢失而造成数据库的不完整。这种不完整性会影响关联规则的挖掘过程,因为在有数据缺失时对规则的支持度以及可信度的计算都得不到确定值。把Apriori算法应用于不完整数据库,基于期望支持度和期望可信度,给出了一个挖掘不完整事务数据库中关联规则的算法。  相似文献   

5.
数据一致性是数据质量管理的一个重要内容。为了提升图数据一致性,大量关系型数据库中的数据依赖理论被引入到图数据库,包括图函数依赖、图关联规则等。图修复规则是最新提出的一种针对图数据的数据依赖规则,具有强大的修复能力,但目前尚无有效的挖掘算法。为了自动生成图修复规则并提高图数据修复的可靠性,提出一种将图常量条件函数依赖转化为图修复规则的方法(GenGRR)。通过图模式在图中匹配同构子图并映射成节点-属性二维表,从表中相应属性域中抽取错误模式把图常量条件函数依赖转化成图属性值修复规则;删去图模式中常量条件函数依赖RHS对应的节点与相连边生成图属性补充规则。基于最大公共同构子图筛选并验证生成图修复规则的一致性。在多个真实数据集上进行测试,验证相比图常量条件函数直接修复图数据,通过转化生成的图修复规则具有更好的修复效果。  相似文献   

6.
关联规则挖掘作为一种大数据挖掘方法,被用于确定不同项目间存在的内在联系,并以大于某一阈值作为评判不同项间存在关联的依据。传统关联规则挖掘方法仅能建立不同项间的布尔型关联规则,存在硬化数据"尖锐边界"问题导致关联规则挖掘性能下降的缺点。为克服经典数据挖掘算法的这一缺陷,提出一种新型中智关联规则挖掘算法。基于专家知识对语言学术语进行量化预处理,得到不同指标的量化数据资料库;基于关联规则支持度定义计算不同指标项集合的支持度;通过考虑不同项间的隶属度、不确定度和非隶属度函数生成关联规则。将该中智挖掘算法与模糊挖掘算法进行对比,结果表明,该算法能够增加生成关联规则数量,有助于提高数据挖掘的准确性。  相似文献   

7.
对垂直分布于不同站点的数据进行联合关联规则挖掘是一个重要的研究方向,然而已有的算法挖掘得到的都是全局单维关联规则,不能处理多维数据集并得到全局多维关联规则。针对此问题提出一种数据两方垂直分布条件下的多维关联规则挖掘算法TDDM(Two Part Vertically Distributed Data Mining),该算法结合数据立方体技术,直接在垂直分布于两方的数据上进行挖掘,得到多维关联规则。理论分析和实验结果表明,该算法可以有效挖掘数据两方垂直分布条件下的多维关联规则。  相似文献   

8.
刘萍  别荣芳 《计算机应用》2005,25(6):1376-1378,1381
生成关联规则算法FAS,能够迅速区分某频繁项集的所有关联规则的前件和后件,生成给定频繁项目集的关联规则。基于FAS算法,设计并实现了一个基于最近挖掘结果的数据挖掘系统AR—Miner。该系统主要包括数据预处理、频繁集初始计算、频繁集更新计算、频繁集选择、关联规则生成五部分,不仅实现了关联规则挖掘的可视化和生成结果按“支持度一可信度”形式的可视化,还为基于频繁集的交互式挖掘提供了方便、友好的界面。  相似文献   

9.
徐佳 《信息与电脑》2022,(24):69-71
大数据集中挖掘正负关联规则是关联规则挖掘的重要研究内容。负关联规则挖掘存在挖掘关联规则数量多、难度大等问题,因此针对大数据集中挖掘正负关联规则提出一种基于OpenMP的Gibbs抽样正负关联规则挖掘算法。该算法通过Gibbs抽样从原始数据集中挖掘得到重要的关联规则,并在Gibbs抽样的转移概率计算部分利用OpenMP并行技术进行加速。在只挖掘重要正负关联规则的同时,缩短挖掘时间,有效提高正负关联规则挖掘的效率。在UCI蘑菇数据集中使用该算法,实验结果显示该算法在大数据集中具有较好的表现。  相似文献   

10.
胡维迪  王炜  何欣  张涵宇 《计算机与数字工程》2021,49(10):1951-1956,1962
以云南省桥梁为例,建立了多目标桥梁劣化因果分析方法.该算法在关联规则挖掘算法的基础上引入遗传算法和灰色关联分析方法解决了关联规则挖掘算法中支持度和置信度取值大小影响规则质量问题.评估了云南省亚热带地区桥梁的劣化因果关系.实验结果表明建成年限、下穿通道类型、桥梁的构造形式及构造材料、降雨量等因素对桥梁劣化产生较大影响.  相似文献   

11.
胡艳丽  张维明 《计算机科学》2009,36(12):115-118
介绍了条件函数依赖理论及如何用于检测不一致数据.首先介绍了条件函数依赖的概念及其推理系统,以及如何通过依赖传播实现视图的规范化;阐述了条件函数依赖的一致性和蕴含判定问题,并在此基础上介绍了基于条件函数依赖检测关系数据库数据一致性的技术;最后讨论了条件函数依赖的扩展及应用.  相似文献   

12.
仲志平  仲晓辉 《微机发展》2012,(1):217-220,224
数据冲突是数据库中数据质量中心问题之一。在集中式数据库中,基于SQL技术可以有效地检测出违背给定条件函数依赖集的元组。然而,当数据库中数据被水平或垂直划分且分布在不同站点时,检测数据冲突将面临更大的挑战,常常需要将数据从一个站点移动到另外一个站点。提出了分布式数据库中条件函数依赖冲突检测算法,该算法不仅能有效地检测出水平划分数据中条件函数依赖冲突,而且能减少数据传输。实验结果证实算法是有效的。  相似文献   

13.
Business rules are an effective way to control data quality. Business experts can directly enter the rules into appropriate software without error prone communication with programmers. However, not all business situations and possible data quality problems can be considered in advance. In situations where business rules have not been defined yet, patterns of data handling may arise in practice. We employ data mining to accounting transactions in order to discover such patterns. The discovered patterns are represented in form of association rules. Then, deviations from discovered patterns can be marked as potential data quality violations that need to be examined by humans. Data quality breaches can be expensive but manual examination of many transactions is also expensive. Therefore, the goal is to find a balance between marking too many and too few transactions as being potentially erroneous. We apply appropriate procedures to evaluate the classification accuracy of developed association rules and support the decision on the number of deviations to be manually examined based on economic principles.  相似文献   

14.
目前绝大部分冲突消解方法都是基于迭代计算数据源可靠度和事实可信度的机制。当数据源较少时,数据源的可靠度难于进行评估,仅凭投票来消解冲突往往会造成较大误差。针对数据源较少时的冲突消解问题,提出基于常量条件函数依赖的冲突消解算法。根据多个数据源之间的冲突,找出冲突匹配对及对应的冲突候选值集合。考虑常量条件函数依赖中具体到部分实例子集的约束关系,将常量条件函数依赖集作为先验知识,通过判断候选值是否符合常量条件函数依赖来选择正确的候选值,避免了错误数据比例较大时直接投票选择产生的误差。通过两个真实数据集上的对比实验验证了上述算法的有效性。  相似文献   

15.
图依赖是用于解决图数据的数据一致性问题的数据质量规则。基于图依赖提升数据一致性的过程通常分为图依赖定义与形式化、图依赖自动挖掘、基于图依赖的数据一致性提升三步。介绍了针对数据一致性的图依赖理论,并根据拓展类型将图依赖分为基于结构约束拓展、基于语义约束拓展和基于外部约束拓展的图依赖;综述并对比了从图数据中自动挖掘图依赖及其拓展的算法;分析了应用图依赖提高数据一致性的研究现状;总结了当前研究中仍存在的问题,并依据问题展望了图依赖在数据质量领域的应用前景。  相似文献   

16.
基于项目集知识库的关联规则挖掘与更新的高效算法   总被引:2,自引:2,他引:2  
通过对已有的诸关联规则挖掘与更新算法进行深入的分析和研究,指出了其共同存在的问题与不足,提出了一种基于项目集知识库的关联规则挖掘与更新方法。该方法既适应当数据库D中数据不变而用户指定的最小支持度和最小置信度这两个阈值变化的情况,也适合事务数据库D中数据发生变化的情况。当事务数据库D中数据不变时,仅需扫描数据库一次,便可建立项目集知识库KBD,然后可反复调整最小支持度和最小置信度进行关联规则挖掘与更新。而当事务数据库D中数据发生变化时,仅需扫描数据集d 和d-各一次;通过对项目集知识库KBD的更新来达到对频繁项目集和关联规则的更新。  相似文献   

17.
一种基于约束的关联规则挖掘算法   总被引:1,自引:1,他引:0  
基于约束的关联规则挖掘是一种重要的关联挖掘,能按照用户给出的条件来实行有针对性的挖掘。大多数此类算法仅处理具有一种约束的挖掘,因而其应用受到一定程度的限制。提出一种新的基于约束的关联规则挖掘算法MCAL,它同时处理两种类型的约束:非单调性约束和单调性约束。算法包括3个步骤:第一步,挖掘当前数据集的频繁1项集;第二,应用约束的性质和有效剪枝策略来寻找约束点,同时生成频繁项的条件数据库;最后,递归地应用前面两步寻找条件数据库中频繁项的约束点,以生成满足约束的全部频繁项集。通过实验对比,无论从运行时间还是可扩展性来说,本算法均达到较好的效果。  相似文献   

18.
In data mining applications, it is important to develop evaluation methods for selecting quality and profitable rules. This paper utilizes a non-parametric approach, Data Envelopment Analysis (DEA), to estimate and rank the efficiency of association rules with multiple criteria. The interestingness of association rules is conventionally measured based on support and confidence. For specific applications, domain knowledge can be further designed as measures to evaluate the discovered rules. For example, in market basket analysis, the product value and cross-selling profit associated with the association rule can serve as essential measures to rule interestingness. In this paper, these domain measures are also included in the rule ranking procedure for selecting valuable rules for implementation. An example of market basket analysis is applied to illustrate the DEA based methodology for measuring the efficiency of association rules with multiple criteria.  相似文献   

19.
基于频繁模式树的负关联规则挖掘算法   总被引:1,自引:0,他引:1       下载免费PDF全文
典型的正关联规则仅考虑事务中所列举的项目。负关联规则不但要考虑事务中所包含的项目集,还必需考虑事务中所不包含的项目,它包含了非常有价值的信息。然而,对于负关联规则的研究却很少,仅有的几种算法也存在一定的局限性。为此,该文提出了一种基于FP-tree的负关联规则挖掘算法,该算法不但可以发现事务数据库中所有的负关联规则,而且整个过程只需扫描事务数据库两次,算法是有效和可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号