首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 221 毫秒
1.
一种基于多维集的关联模式挖掘算法   总被引:2,自引:0,他引:2  
大多数维间关联规则挖掘算法如基于数据立方体的关联规则挖掘算法都假定对象的属性取值只具有单值性.将对象的属性取值扩展到多值,据此提出多维集的概念和基于多维集关联规则的语义特征.在此语义特征下,提出了一个多维集的关联规则挖掘算法.该算法利用多维集关联规则的限制特征,能够在数据集缩减的同时进行侯选集的三重剪枝,因此,具有比直接使用apriori等算法更好的性能,分析了算法的性能和正确性、完备性,并通过实验对算法有效性进行了对比.  相似文献   

2.
针对就业信息数据中存在着大量的量化属性和分类属性等现象,提出了一种基于k-means的量化关联规则挖掘方法。该方法利用聚类算法k-means对量化属性进行合理分区,将量化属性转化为布尔型;利用改进的布尔关联规则方法对此进行关联规则挖掘,找出学生的受教育属性和就业属性之间的关联性;对挖掘出的规则进行分析和运用。就业信息数据实验证明,文中所提方法对就业信息进行挖掘是有效的、可行的。  相似文献   

3.
王琦  李霞 《计算机工程》2012,38(9):46-48
分析分类规则内属性之间的相关性,提出一种分类规则约简方法。针对原始训练集构造FP树,获取相应的关联规则集,对关联规则后件属性(集),采用置信度α描述该属性(集)相对于其所在分类规则的重要程度。在分类规则集中,约简α值小于阈值?的属性,从而约简分类规则长度。利用UCI机器学习及SDSS DR7数据进行实验,结果表明该方法具有较高的分类效率。  相似文献   

4.
针对目前很少有一整套的能同时处理量化属性和分类属性字段的多维关联规则的解决方法,提出了一整套的从原数据出发一直到关联规则的可视化的解决方法,论文首先采用了等深分箱的方法将量化属性按引进的最大支持度进行离算化处理。在得到频繁集的时候通过对传统的单维.Apriori算法的改进,从而实现了其在多维关联规则中的应用,最后对关联规则的可视化采用了柱状图的方式。  相似文献   

5.
针对监控视频下的行人多属性识别问题,提出一种结合神经网络与关联规则的多分类方法。首先通过Faster-RCNN检测算法与改进的AlexNet多分类网络得到监控视频下行人各个属性的置信度,再采用关联规则Apriori算法对训练数据进行处理,进而结合神经网络分类的置信度和关联规则的处理结果,提出一种对分类置信度进行优化的算法。最后,统计关联规则优化后的某些行人属性准确率。结果表明,将神经网络与关联规则有效结合后可以提升某些属性识别的准确率。  相似文献   

6.
针对就业信息数据中存在着大量的量化属性和分类属性等现象,提出了一种基于k-means的量化关联规则挖掘方法,该方法首先利用聚类算法k-means对量化属性进行合理分区,将量化属性转化为布尔型,其次利用改进的布尔关联规则方法对此进行关联规则挖掘,找出学生的受教育属性和就业属性之间的关联性,最后对挖掘出的规则进行分析和运用。就业信息数据实验证明,本文所提方法对就业信息进行挖掘是有效的、可行的,它为高校教育提供了指导和参考依据,在高校教育领域具有较好的应用前景。  相似文献   

7.
王勇  邹盛荣 《计算机科学》2013,40(11):208-210,227
传统的关联规则算法,只考虑了类内的关联性,忽略了类间的相似性特征、高开销的分类过程、耗时的关联过程。提出了数据内间特征模糊贴近分类的数据库约束挖掘算法,其通过数据模糊集间的贴近度描述数据间的一致度,在传统的神经网络挖掘技术中,引入数据融合技术,对类间数据进行分类处理后,对原始挖掘数据的动态特征进行分析获取新的挖掘模型,以在大规模数据库中准确查询目标数据。仿真实验结果表明,算法挖掘稀疏数据集和密集数据集的效率都优于传统的关联规则算法,极大提高了数据库的挖掘效率。  相似文献   

8.
针对MLKNN算法仅对独立标签进行处理,忽略现实世界中标签之间相关性这一问题,提出了一种基于关联规则的MLKNN多标签分类算法(FP-MLKNN)。该算法采用关联规则算法挖掘标签之间的高阶相关性,并用标签之间的关联规则改进MLKNN算法,以达到提升分类性能的目的。首先,使用MLKNN算法求样本的特征置信度;采用关联规则算法挖掘生成一系列强关联规则,进而将2种算法进行融合来构造多标签分类器,对新标签进行预测;在此基础上,将本文提出的算法与MLKNN、AdaBoostMH和BPMLL这3种算法进行实验对比。实验结果表明,本文所提算法在yeast、emotions和enron数据集上的分类性能均优于这3种算法,具有较好的分类效果。  相似文献   

9.
针对现阶段我国区域能源安全突发事件频现的问题,对区域能源安全外生警源隐含特性展开了研究。通过对区域能源安全事件案例抽取,构建了能源安全外生警源属性集和数据集。依据数据集的特点设计了能源安全外生警源多维关联规则挖掘模型。该模型首先基于多维属性融合的思路,通过把属性划分为事务项,将外生警源多维属性映射为一维,然后利用Apriori算法的基本原理进行规则挖掘;在此基础上,将该模型应用于能源安全外生警源隐含特征分析中,研究警源属性间的关联关系,实现强关联规则输出。研究结果表明,多维关联规则方法可以发现隐藏在外生警源数据中的规律,通过对挖掘出的规则集的归纳分析,得出区域能源安全外生警源爆发时具有衍生性、季节性、危害性和持续性等共性特征。  相似文献   

10.
针对数据集中属性间存在依赖关系以及对象间存在相关性,定义了一种新的相似关系模型,该模型所描述的相似关系能够体现对象之间的自然相关性.在此基础上提出一种基于属性依赖关系和对象相关性的自然聚类算法,该聚类算法在不事先指定聚类数目的情况下,将所有相似性达到设定阈值的对象自然聚为一类;当调整相似性阈值时,该算法还可实现不同粒度的聚类.通过分别对数值型数据集和分类型数据集进行实验比较分析,结果表明这种自然聚类算法与其他聚类算法相比,能够真实反映数据间的相关性以及数据集的自然簇结构,同时可以发现任意形状的簇,有效地提高了聚类的精度和质量.  相似文献   

11.
将粗糙集理论中属性重要度和依赖度的概念与分级聚类离散化算法相结合,提出了一种纳税人连续型属性动态的离散化算法。首先将纳税数据对象的每个连续型属性划分为2类,然后利用粗糙集理论计算每个条件属性对于决策属性的重要度,再通过重要度由大至小排序进行增类运算,最后将保持与原有数据对象集依赖度一致的分类结果输出。该算法能够动态地对数据对象进行类别划分,实现纳税人连续型属性的离散化。通过采用专家分析和关联分析的实验结果,验证了该算法具有较高的纳税人连续型属性离散化精度和性能。  相似文献   

12.
基于粗糙集理论的属性约简算法是机器学习和数据挖掘领域的研究热点之一。粗糙集理论是一种新型的处理模糊和不确定信息的数学工具,在保证分类能力不变的前提下,通过知识的约简导出概念的分类规则。文中提出了一种基于属性桶的约简算法,其约简过程类似基于属性频度函数的约简算法。该算法首先构造一组与决策表决策属性个数相同的属性桶,不同的属性桶划分了不同长度的区分矩阵项,避免了约简前的排序过程。通过构造属性桶时对核属性进行特殊处理,在一定程度上简化了属性约简过程。  相似文献   

13.
Mining optimized gain rules for numeric attributes   总被引:7,自引:0,他引:7  
Association rules are useful for determining correlations between attributes of a relation and have applications in the marketing, financial, and retail sectors. Furthermore, optimized association rules are an effective way to focus on the most interesting characteristics involving certain attributes. Optimized association rules are permitted to contain uninstantiated attributes and the problem is to determine instantiations such that either the support, confidence, or gain of the rule is maximized. In this paper, we generalize the optimized gain association rule problem by permitting rules to contain disjunctions over uninstantiated numeric attributes. Our generalized association rules enable us to extract more useful information about seasonal and local patterns involving the uninstantiated attribute. For rules containing a single numeric attribute, we present an algorithm with linear complexity for computing optimized gain rules. Furthermore, we propose a bucketing technique that can result in a significant reduction in input size by coalescing contiguous values without sacrificing optimality. We also present an approximation algorithm based on dynamic programming for two numeric attributes. Using recent results on binary space partitioning trees, we show that the approximations are within a constant factor of the optimal optimized gain rules. Our experimental results with synthetic data sets for a single numeric attribute demonstrate that our algorithm scales up linearly with the attribute's domain size as well as the number of disjunctions. In addition, we show that applying our optimized rule framework to a population survey real-life data set enables us to discover interesting underlying correlations among the attributes.  相似文献   

14.
基于粗糙集理论的关联规则挖掘研究及应用   总被引:2,自引:0,他引:2  
提出了一种基于粗糙集理论的关联规则算法,使用粗糙集理论对数据进行预处理,同时使用属性限制避免挖掘无用的关联规则,挖掘出来的关联规则是分类规则,可以对未知数据进行分类;使用规则过滤去除冗余规则,只保留本质的、一般的规则。通过对网络安全审计数据的分析的试验表明,该方法是行之有效的。  相似文献   

15.
社交网络中积累的海量信息构成一类图大数据,为防范隐私泄露,一般在发布此类数据时需要做匿名化处理.针对现有匿名方案难以防范同时以结构和属性信息为背景知识的攻击的不足,研究一种基于节点连接结构和属性值的属性图聚类匿名化方法,利用属性图表示社交网络数据,综合根据节点间的结构和属性相似度,将图中所有节点聚类成一些包含节点个数不小于k的超点,特别针对各超点进行匿名化处理.该方法中,超点的子图隐匿和属性概化可以分别防范一切基于结构和属性背景知识的识别攻击.另外,聚类过程平衡了节点间的连接紧密性和属性值相近性,有利于减小结构和属性的总体信息损失值,较好地维持数据的可用性.实验结果表明了该方法在实现算法功能和减少信息损失方面的有效性.  相似文献   

16.
《Information Systems》2001,26(6):425-444
Mining association rules on large data sets have received considerable attention in recent years. Association rules are useful for determining correlations between attributes of a relation and have applications in marketing, financial and retail sectors. Furthermore, optimized association rules are an effective way to focus on the most interesting characteristics involving certain attributes. Optimized association rules are permitted to contain uninstantiated attributes and the problem is to determine instantiations such that either the support, confidence or gain of the rule is maximized. In this paper, we generalize the optimized support association rule problem by permitting rules to contain disjunctions over uninstantiated numeric attributes. Our generalized association rules enable us to extract more useful information about seasonal and local patterns involving the uninstantiated attribute. For rules containing a single numeric attribute, we present a dynamic programming algorithm for computing optimized association rules. Furthermore, we propose bucketing technique for reducing the input size, and a divide and conquer strategy that improves the performance significantly without sacrificing optimality. We also present approximation algorithms based on dynamic programming for two numeric attributes. Our experimental results for a single numeric attribute indicate that our bucketing and divide and conquer enhancements are very effective in reducing the execution times and memory requirements of our dynamic programming algorithm. Furthermore, they show that our algorithms scale up almost linearly with the attribute's domain size as well as the number of disjunctions.  相似文献   

17.
将C4.5决策树分类算法用于高职就业预测,并提取挖掘规则。对学生基本信息、各科考试成绩,以及就业信息进行处理,选取决策属性,构造决策树,由提取的规则,获得就业和学生成绩之间的关系,挖掘结果显示,该算法能将学习成绩属性和是否是学生干部属性进行正确分类,做出一定的就业预测,对辅助决策具有一定的帮助。  相似文献   

18.
发掘多值属性的关联规则   总被引:45,自引:1,他引:45  
张朝晖  陆玉昌  张钹 《软件学报》1998,9(11):801-805
属性值可以取布尔量或多值量.从以布尔量描述的数据中发掘关联规则已经有比较成熟的系统和方法,而对于多值量则不然.将多值量的数据转化为布尔型的数据是一条方便、有效的途径.提出一种算法,根据数据本身的情况决定多值量的划分,进而将划分后的区段映射为布尔量,在此基础上可发掘容易理解且具有概括性的、有效的关联规则.  相似文献   

19.
Fan  Xiaodong  Chen  Xiangyue  Wang  Changzhong  Wang  Yang  Zhang  Ying 《Applied Intelligence》2022,52(6):6079-6092

Multi-label classification is a typical supervised machine learning problem and widely applied in text classification and image recognition. When there are redundant attributes in the data, the efficiency of classification will be reduced. However, the existing attribute reduction algorithms have high computational complexity. This paper aims to design an efficient attribute reduction algorithm. The k pairs of boundary samples were selected from the positive and negative classes respectively, and the distance between each pair was calculated as the evaluation of attributes. By maximizing the evaluation function, the definition of reduction and the design of the algorithm were established. The comparison experiment is carried out on eight generic multi-label data. The experimental results show that the attribute importance evaluation defined in this paper can better represent the classification performance of the attribute for multi-label classification. The boundary samples can better reflect the classification effect of attributes. The proposed model avoids the point-by-point statistics of all samples’ information and improves the computational efficiency.

  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号