首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 343 毫秒
1.
数据一致性是数据质量管理的一个重要内容。为了提升图数据一致性,大量关系型数据库中的数据依赖理论被引入到图数据库,包括图函数依赖、图关联规则等。图修复规则是最新提出的一种针对图数据的数据依赖规则,具有强大的修复能力,但目前尚无有效的挖掘算法。为了自动生成图修复规则并提高图数据修复的可靠性,提出一种将图常量条件函数依赖转化为图修复规则的方法(GenGRR)。通过图模式在图中匹配同构子图并映射成节点-属性二维表,从表中相应属性域中抽取错误模式把图常量条件函数依赖转化成图属性值修复规则;删去图模式中常量条件函数依赖RHS对应的节点与相连边生成图属性补充规则。基于最大公共同构子图筛选并验证生成图修复规则的一致性。在多个真实数据集上进行测试,验证相比图常量条件函数直接修复图数据,通过转化生成的图修复规则具有更好的修复效果。  相似文献   

2.
关联规则挖掘是经典的数据挖掘方法,越来越多的企业都把它看作是必不可少的战略分析工具。当前关联规则挖掘方法得到的规则过多,令用户在运用时难以理解,因此研究关联规则集的约简方法具有应用价值。研究了数据库模式中关键字包含的主属性对基于Apriori算法的关联规则挖掘产生的关联规则的影响,即部分函数依赖会导致关联规则挖掘的数据集中冗余信息的频繁出现,并产生没有实际价值的关联规则,识别并消除这样的规则就能实现规则集的约简。求全部主属性如同求所有候选关键字问题都是NP难题,因此提出了一种基于一个候选关键字进行验证的算法来判定主属性,从而完成基于主属性判定的关联规则挖掘约简算法的设计与实现,并在最后的实验中验证了该算法的有效性。   相似文献   

3.
电厂锅炉燃烧系统具有多输入、多输出、大滞后和强非线性特性.为了优化燃烧过程,提高机组热效率,关键问题是确定机组运行主要可控参数的优化目标值.本文采用基于模糊划分的多值属性数据挖掘算法来确定重要参数的运行优化目标值.将模糊集合理论引入到关联规则的研究中,利用模糊概念对数据进行概括和抽象,通过定义在属性论域上的模糊集来软化边界.此方法能将多值属性关联规则的挖掘问题转化为布尔型关联规则的挖掘问题.通过实验验证了算法的可行性并对算法的性能进行了讨论,说明了本文中提出的挖掘算法能发现关系数据库中数量型属性之间的蕴涵的关联性.最后以600 Mw机组历史实测参数为基础数据,对各种不同特征负荷工况下的数据进行挖掘.得到各自的最优值,并将这些最优值用于指导实际运行,取得了显著的效果.  相似文献   

4.
为了有效地清洗数据,此前已经提出了很多的完整性约束规则,例如条件函数依赖、条件包含依赖.这些约束规则虽然可以侦测出错误的存在,但是不能有效地指导用户纠正错误.实际上,基于约束规则的数据修复可能最终得不到确定性的修复结果,相反会引入新的错误,因此很大程度上降低了数据修复的效率.针对以上不足,提出了一种有效的数据清洗框架:首先基于Editing Rules和Master Data对数据进行清洗操作,最终得到确定性的修复;然后依据条件函数依赖来修复遗漏的错误,此种修复结果是不确定的,但是相比之下该框架不仅可以有效地保证数据修复的精确性与唯一性,而且提高了数据修复的效率.  相似文献   

5.
关联规则的挖掘是一个重要的数据挖掘问题.目前的算法主要是研究支持-信任框架理论的关联规则挖掘,基于支持-信任理论的关联规则挖掘布尔型描述的数据已经比较成熟,但是现实的数据库中有许多数值属性的数据,从这些数据中挖掘潜在的规则,经典的关联规则方法(Apriori)就显得力不从心了.这里介绍将数值数据映射到二维空间,利用基于密度分布函数的聚类分析方法将数值属性区间分段,并在此基础上挖掘容易理解并且具有概括性和有效的数值属性关联规则.  相似文献   

6.
条件函数依赖(Conditional Functional Dependence,CFD)的挖掘是一种重要的数据库分析技术,它是在函数依赖(Functional Dependence,FD)挖掘的基础上加入条件分析功能扩展而来,当前被应用于数据质量检测.CFD挖掘是在FD挖掘的基础上通过条件分析进行更细粒度的信息挖掘,其时间复杂度较高.文章详细介绍一种经典的CFD挖掘方法(即CTANE算法),对其实现方法提出了优化措施,并通过实验比较了不同实现方法的效率,得出了优化措施改进效率的结论.  相似文献   

7.
扩展条件函数依赖(extended conditional functional dependency,eCFD)是一种描述数据一致性的语义规则,是条件函数依赖(conditional functional dependency,CFD)的扩展.相比于CFD,eCFD能够描述更多的模式从而表达更丰富的语义信息.然而,关注eCFD的研究工作并不多.从给定数据中发现eCFD规则是一个重要问题,据笔者所知,目前还没有这方面的工作.该问题的难点在于,给定数据中所有合法的eCFD规则之间存在不一致的情况,且包含大量冗余,而CFD和传统的函数依赖规则并没有这样的问题.为避免不一致,同时尽可能地消除冗余,定义了“强合法eCFD”和“近似无冗余eCFD”.基于这些概念给出了eCFD发现问题的形式化定义,并给出了MeCFD算法.利用划分属性的方法,MeCFD首先生成所有的基本eCFD,然后,通过合并基本eCFD来构造“组合eCFD”.使用先深序来搜索候选空间,使得MeCFD仅用常数的存储空间来维护数据划分,节省了大量的空间开销,有效的剪枝策略被用来改进MeCFD的性能.真实数据集上的实验结果显示出MeCFD良好的可扩展性以及剪枝策略和优化方法的有效性.  相似文献   

8.
基于数值属性的关联规则挖掘算法   总被引:7,自引:0,他引:7  
关联规则的挖掘是一个重要的数据挖掘问题。目前的算法主要是研究支持—信任框架理论的关联规则挖掘,基于支持—信任理论的关联规则挖掘布尔型描述的数据已经比较成熟,但是现实的数据库中有许多数值属性的数据,从这些数据中挖掘潜在的规则,经典的关联规则方法(Apriori)就显得力不从心了。这里介绍将数值数据映射到二维空间,利用基于密度分布函数的聚类分析方法将数值属性区间分段,并在此基础上挖掘容易理解并且具有概括性和有效的数值属性关联规则。  相似文献   

9.
加权关联规则挖掘算法的研究   总被引:20,自引:0,他引:20  
讨论了加权关联规则的挖掘算法,对布尔型属性,在挖掘算法MINWAL(O)和MINWAL(W)的基础上给出一种改进的加权关联规则挖掘算法,此算法能有效地考虑布尔型属必的重要性和规则中所含属性的个数,对数量型属性,应用竞争聚集算法将数量型属性划分成若干个模糊集,产系统地提出加权模糊关联规则的挖掘算法,此算法能有效地考虑数量型属性的重要性和规则中所含属性的个数,并适用于大型数据库。  相似文献   

10.
传统的模糊支持向量机隶属度函数是基于样本点到类中心点的距离进行设计的,这对非规则形状分布数据很不合理.在基于粗糙集和支持向量机建立入侵检测模型里,使用粗糙集理论挖掘出各条件属性对决策属性的影响决策程度,提出基于样本点与类中心点属性比较加权的新隶属度函数构造方法.该方法用于此模型,可以有效降低隶属度函数对样本集几何形状的依赖,能够有效地区分样本点、噪音点以及孤立点.实验表明,与支持向量机和传统基于类中心距离的模糊支持向量机相比,新的基于属性相关的隶属度函数的模糊支持向量机达到最好的分类效果,而且新隶属度方法简单易行,运行速度快  相似文献   

11.
Towards certain fixes with editing rules and master data   总被引:1,自引:0,他引:1  
A variety of integrity constraints have been studied for data cleaning. While these constraints can detect the presence of errors, they fall short of guiding us to correct the errors. Indeed, data repairing based on these constraints may not find certain fixes that are guaranteed correct, and worse still, may even introduce new errors when attempting to repair the data. We propose a method for finding certain fixes, based on master data, a notion of certain regions, and a class of editing rules. A certain region is a set of attributes that are assured correct by the users. Given a certain region and master data, editing rules tell us what attributes to fix and how to update them. We show how the method can be used in data monitoring and enrichment. We also develop techniques for reasoning about editing rules, to decide whether they lead to a unique fix and whether they are able to fix all the attributes in a tuple, relative to master data and a certain region. Furthermore, we present a framework and an algorithm to find certain fixes, by interacting with the users to ensure that one of the certain regions is correct. We experimentally verify the effectiveness and scalability of the algorithm.  相似文献   

12.
Data mining is most commonly used in attempts to induce association rules from transaction data. In the past, we used the fuzzy and GA concepts to discover both useful fuzzy association rules and suitable membership functions from quantitative values. The evaluation for fitness values was, however, quite time-consuming. Due to dramatic increases in available computing power and concomitant decreases in computing costs over the last decade, learning or mining by applying parallel processing techniques has become a feasible way to overcome the slow-learning problem. In this paper, we thus propose a parallel genetic-fuzzy mining algorithm based on the master–slave architecture to extract both association rules and membership functions from quantitative transactions. The master processor uses a single population as a simple genetic algorithm does, and distributes the tasks of fitness evaluation to slave processors. The evolutionary processes, such as crossover, mutation and production are performed by the master processor. It is very natural and efficient to run the proposed algorithm on the master–slave architecture. The time complexities for both sequential and parallel genetic-fuzzy mining algorithms have also been analyzed, with results showing the good effect of the proposed one. When the number of generations is large, the speed-up can be nearly linear. The experimental results also show this point. Applying the master–slave parallel architecture to speed up the genetic-fuzzy data mining algorithm is thus a feasible way to overcome the low-speed fitness evaluation problem of the original algorithm.  相似文献   

13.
Hybrid mining approach in the design of credit scoring models   总被引:1,自引:0,他引:1  
Unrepresentative data samples are likely to reduce the utility of data classifiers in practical application. This study presents a hybrid mining approach in the design of an effective credit scoring model, based on clustering and neural network techniques. We used clustering techniques to preprocess the input samples with the objective of indicating unrepresentative samples into isolated and inconsistent clusters, and used neural networks to construct the credit scoring model. The clustering stage involved a class-wise classification process. A self-organizing map clustering algorithm was used to automatically determine the number of clusters and the starting points of each cluster. Then, the K-means clustering algorithm was used to generate clusters of samples belonging to new classes and eliminate the unrepresentative samples from each class. In the neural network stage, samples with new class labels were used in the design of the credit scoring model. The proposed method demonstrates by two real world credit data sets that the hybrid mining approach can be used to build effective credit scoring models.  相似文献   

14.
现有NIDS的检测知识一般由手工编写,其难度和工作量都较大.将数据挖掘技术应用于网络入侵检测,在Snort的基础上构建了基于数据挖掘的网络入侵检测系统模型.重点设计和实现了基于K-Means算法的异常检测引擎和聚类分析模块,以及基于Apriori算法的关联分析器.实验结果表明,聚类分析模块能够自动建立网络正常行为模型,并用于异常检测,其关联分析器能够自动挖掘出新的入侵检测规则.  相似文献   

15.
Mining fuzzy association rules for classification problems   总被引:3,自引:0,他引:3  
The effective development of data mining techniques for the discovery of knowledge from training samples for classification problems in industrial engineering is necessary in applications, such as group technology. This paper proposes a learning algorithm, which can be viewed as a knowledge acquisition tool, to effectively discover fuzzy association rules for classification problems. The consequence part of each rule is one class label. The proposed learning algorithm consists of two phases: one to generate large fuzzy grids from training samples by fuzzy partitioning in each attribute, and the other to generate fuzzy association rules for classification problems by large fuzzy grids. The proposed learning algorithm is implemented by scanning training samples stored in a database only once and applying a sequence of Boolean operations to generate fuzzy grids and fuzzy rules; therefore, it can be easily extended to discover other types of fuzzy association rules. The simulation results from the iris data demonstrate that the proposed learning algorithm can effectively derive fuzzy association rules for classification problems.  相似文献   

16.
目的 颜色编辑扩散是图像处理领域中的一个重要研究内容。以往方法中,为了取得期望的编辑效果,要求交互选定的样本颜色尽可能丰富。为了降低输入条件,提出一种新的有效重采样的颜色编辑扩散技术。方法 首先对图像做超像素分割并提取每个超像素中心作为重采样样本。遵循超像素中心非边缘像素,只服从一种编辑模式的原则,计算其与每种编辑模式的相似度,如果与某种编辑模式相似度绝对占优,则该样本的编辑模式直接确定。对于待定样本,依照相邻相似样本服从相同编辑模式的思想来判断其归属。然后将重采样样本的颜色编辑遵循相似颜色编辑后仍相似的原则采用增量的方式扩散到整幅图像。扩散时每个像素自适应地选择样本的数量,以避免相似度低样本的干扰。结果 与以往的方法进行比较,该方法对输入条件的敏感度较低,且在相同的相对简单的输入条件下能取得更好的视觉效果,可视化的梯度显示细节保持也更理想。结论 该方法能有效简化用户交互,将稀疏的画笔像素的扩散转化为颜色信息相对丰富的超像素中心样本的扩散,且生成的图像能忠于编辑颜色及较好地保持图像细节。  相似文献   

17.
回顾了当前入侵检测技术和数据挖掘技术,分析了Snort网络入侵检测系统存在的问题,重点研究了数据挖掘中的关联算法Apriori算法和聚类算法K一均值算法;在Snort入侵检测系统的基础上,增加了正常行为挖掘模块、异常检测模块和新规则生成模块,构建了基于数据挖掘技术的网络入侵检测系统模型。新模型能够有效地检测新的入侵行为,而且提高了系统的检测效率。  相似文献   

18.
Extracting M-of-N rules from trained neural networks   总被引:4,自引:0,他引:4  
An effective algorithm for extracting M-of-N rules from trained feedforward neural networks is proposed. First, we train a network where each input of the data can only have one of the two possible values, -1 or one. Next, we apply the hyperbolic tangent function to each connection from the input layer to the hidden layer of the network. By applying this squashing function, the activation values at the hidden units are effectively computed as the hyperbolic tangent (or the sigmoid) of the weighted inputs, where the weights have magnitudes that are equal one. By restricting the inputs and the weights to binary values either -1 or one, the extraction of M-of-N rules from the networks becomes trivial. We demonstrate the effectiveness of the proposed algorithm on several widely tested datasets. For datasets consisting of thousands of patterns with many attributes, the rules extracted by the algorithm are simple and accurate.  相似文献   

19.
传统的入侵检测技术主要是从已知攻击数据中提取出每种具体攻击的特征规则模式,然后使用这些规则模式来进行匹配。然而基于规则的入侵检测的主要问题是现有的规则模式并不能有效应对持续变化的新型入侵攻击。针对这一问题,基于数据挖掘的入侵检测方法成为了入侵检测技术新的研究热点。本文提出了一种基于孤立点挖掘的自适应入侵检测框架,首先,基于相似系数寻找孤立点,然后对孤立点集合进行聚类,并使用改进的关联规则算法来从孤立点聚类结果中提取出各类入侵活动的潜在特征模式,然后生成可使用的匹配规则模式来添加到现有的规则模式中去,进而达到自适应的目的。本文使用KDD99的UCI数据集进行孤立点挖掘,然后使用IDS Snort的作为实验平台,使用IDS Informer模拟攻击工具进行测试,这两个实验结果表明了本文所提出算法的有效性。  相似文献   

20.
模糊神经网络即具有输入信号是模糊量的神经网络,是模糊系统与神经网络相结合的产物,汇聚了二者的优点;遗传算法是一种自适应全局优化概率搜索算法.研究了基于模糊神经网络与遗传算法相融合的一种算法,在应用模糊神经网络进行数据挖掘前,应用遗传算法完成隶属函数的训练,以便更好地进行模糊神经网络学习;经过模糊神经网络学习后,提取相关规则,再次应用遗传算法,进行规则剪枝,提高数据挖掘效率.实验表明,与传统方法相比,该方法能够更快速、更加准确地进行数据挖掘,提取更精确的推理规则.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号