首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 270 毫秒
1.
针对传统关联规则挖掘中可能会忽略具有时间因素的关联规则的问题,提出了一种具有时间约束的改进时态关联规则算法.该算法通过计算模式平均支持度、数据集平均支持度、模式集中度等参数来判断Apriori算法所得到的模式是否在某一时间区域数据集上具有较高支持度,再对该数据集进行进一步挖掘,以找到更精确的和时间相关的模式,从而得到单个或不同时间区间上的关联规则以及跨时间区间和跨事务的关联规则.通过实验分析,该算法是可行的,并在实际应用中有一定的意义.  相似文献   

2.
关联规则挖掘的软集包含度方法   总被引:2,自引:0,他引:2       下载免费PDF全文
耿生玲  李永明  刘震 《电子学报》2013,41(4):804-809
本文在深入研究软集数据分析的基础上,将包含度引入软集数据关联规则挖掘中,利用包含度理论描述属性集之间的量化关系,给出软集上属性集间的包含度、关联规则和最大关联规则的概念,讨论包含度和可信度之间的联系.在此基础上给出利用包含度在事务数据软集中挖掘满足给定的支持度和可信度阈值的软关联规则方法,以及最大软关联规则的提取算法.理论证明和实例分析表明该关联规则挖掘方法是有效的,并通过实验对算法的性能进行了比较.  相似文献   

3.
《信息技术》2018,(2):153-158
为在大数据环境中精确地进行关联规则挖掘,基于分布式框架Spark,改进关联规则挖掘算法Apriori,解决使用该算法处理大规模数据时遇到的单机内存资源限制和性能缺陷,同时保证结果准确度。利用开源数据集和海量轨迹数据集评估算法的有效性,实验结果表明:与传统方法相比,改进后的Apriori算法进行规则挖掘能够得到相同准确度的结果,并且通过增加处理节点的数量灵活扩展待挖掘数据规模,从而使关联规则挖掘不再受数据规模限制。  相似文献   

4.
关联规则反映了大量数据中项集之间的相互依存性和关联性,Apriori算法是关联规则挖掘中的经典算法。本文利用关联规则的Apriori算法对校园物资管理系统中的数据进行了挖掘,找出物品潜在的频繁集以达到提高工作效率的目的。  相似文献   

5.
阐述现阶段大数据应用的基础上,从人工智能角度出发进行数据挖掘的算法研究。基于支持度和置信度的关联分类算法难以有效度量类别和项集之间的相关性,因此容易产生许多质量不高的规则。提出了一种基于余弦度量的关联分类算法——IACD。IACD算法在挖掘关联规则时使用余弦度量来度量项集与类别间的相关性;其次,提出了一种新的规则强度对规则进行排序、剪枝以减少冗余规则的数量。实验结果表明,IACD算法有效地提高了规则质量,在多个UCI数据集上具有较高的分类准确率。  相似文献   

6.
《信息技术》2017,(5):110-116
以模糊集成联机分析处理(On-Line Analytical Processing,OLAP)为基础对关联规则挖掘算法进行改进,该算法为多维联机研究提供一种关联规则计算架构。基于模糊数据立方体的知识发现,为用户提供灵活的多维数据层次抽象模式。在多维数据集的多维属性处理中,引入模糊数据立方体作为问题措施补充,并利用不同层次的模糊关联规则构造模糊数据立方体,然后利用权重和多层次的概念构建模糊加权多层次关联规则。最后,通过对所提算法在合成数据集以及2000年中国人口普查的数据仿真测试,验证了基于OLAP的挖掘方法要比离散关联规则挖掘方法、单独支持阈值关联规则及最小挖掘项集关联规则三种对比算法,在最小支持度、置信度、权重均值等指标上,性能更加优异。  相似文献   

7.
随着互联网的快速发展,Web数据挖掘已经成为当今热门的研究主题。本文介绍了Web数据挖掘的基本概念、Web数据的特点及其Web数据挖掘分类,并对Web数据挖掘技术的研究进行讨论。利用Apriori算法发现频繁集,找到页面间的关联规则。针对网页超链接结构的特点:一条超链接只能建立在两个网页上,发现频繁集只要找出所有2-项集即可,从而提出网页超链接挖掘的NApriori算法。NApriori算法显著提高了Apriori算法的效率。  相似文献   

8.
基于候选项集个数上阶的增量式关联规则更新算法   总被引:2,自引:0,他引:2       下载免费PDF全文
提出了一种有效的增量式关联规则挖掘算法IAR,算法的特点在于:提出并采用了基于候选项集个数上阶的选择扫描数据库的机制,可有效减少数据库的扫描次数;算法是一种通用的增量式算法,提出了最小支持度和数据库均改变时,增量式挖掘中的重要性质,从而可充分利用上一次挖掘的结果,有效减少候选项集的数目.并且提出了基于组合数学和项集等价类理论的计算候选项集个数的上阶的方法.通过大量的数据实验,表明算法的效率比已有的算法有了很大提高.  相似文献   

9.
程玉胜  张佑生  胡学钢  章晓良 《电子学报》2009,37(12):2797-2802
 分析了等价矩阵和联合决策矩阵规则提取算法对于大数据集低效性的根源.提出了基于任意分割的规则获取方法和相应的串行进位链计算流程.这种计算流程将大数据集上的规则获取,转化为通过分割后多个智能体(子系统)及其智能体间数据共享的"并行+串行"的规则提取计算过程,有效的解决了大数据集上规则获取问题.复杂度分析表明该算法在效率上较现有的算法有显著的提高;实例分析验证了该方法的可行性;相应的对比实验表明这种计算流程对大数据集上的规则获取的实用性和高效性.  相似文献   

10.
伪装人体检测在视频监控领域具有重要的研究和应用价值.本文针对目前基于图像表层特征提取的伪装人体检测方法无法有效检测出没有明显移动的伪装人体目标,充分利用了人体目标具有一定范围呼吸率的独特特性,提取并增强伪装人体的微振动特征,利用振动特征实现了伪装人体目标进行检测.首先,提出了自己的伪装人体视频数据集和基于微振动特征的伪装人体检测模型;其次,利用训练集估计伪装人体目标的最优呼吸率区间,利用估计的最优呼吸率区间增强了视频中伪装人体的微振动;最后,根据增强了微振动的视频和提出的检测模型,实现伪装人体目标的定位检测,并通过图像形态学去噪后处理降低检测结果的噪声.本文提取微振动特征的检测算法通过充分的消融实验和对比实验进行了验证,在提出的视频数据集上,检测效果IOU达到了 0.526,Precision达到了 0.738,优于其它图像特征最先进的检测方法.  相似文献   

11.
Privacy Preserving Data Mining   总被引:1,自引:0,他引:1  
In this paper we address the issue of privacy preserving data mining. Specifically, we consider a scenario in which two parties owning confidential databases wish to run a data mining algorithm on the union of their databases, without revealing any unnecessary information. Our work is motivated by the need both to protect privileged information and to enable its use for research or other purposes. The above problem is a specific example of secure multi-party computation and, as such, can be solved using known generic protocols. However, data mining algorithms are typically complex and, furthermore, the input usually consists of massive data sets. The generic protocols in such a case are of no practical use and therefore more efficient protocols are required. We focus on the problem of decision tree learning with the popular ID3 algorithm. Our protocol is considerably more efficient than generic solutions and demands both very few rounds of communication and reasonable bandwidth.  相似文献   

12.
分布式异常检测中隐私保持问题研究   总被引:3,自引:0,他引:3       下载免费PDF全文
隐私保持是目前数据挖掘领域的一个重要方向,其目标是研究如何在不共享原始数据的条件下,获取准确的数据关系.本文采用现实的多方安全计算模式,结合数据干扰技术,提出了一种保持隐私的异常检测算法.该算法选择那些超出局部阈值距离的两点间距离及其序号进行通讯,为了保持原始数据的隐私,随机抽取一些正常范围内的两点间距离及其序号,在加入干扰后分散在异常信息中.理论分析表明该算法既提供了现实的数据隐私又保障了算法的性能.  相似文献   

13.
随着数据量的增长,隐私保护的问题也愈发突出,文中是介绍了目前数据挖掘过程中隐私保护相关的基本技术,提出了一种数据集中式分布下布尔数据集的关联规则的挖掘算法,此方法在实现了隐私保护的同时,通过与或运算实现了数据集的压缩。相关实验数据表明,该算法有效减少了挖掘时间,并保证了误差在可接受的范围之内。  相似文献   

14.
针对传统气象数据质量控制算法存在的不足,首先提出将Apriori关联规则挖掘算法用于气象数据中,通过Apriori算法挖掘出关联规则;其次分析了Apriori算法存在的不足,提出了一种改进的MC_Apriori算法,通过真实数据仿真表明,新算法在时间性能上更加优越;最后,在原数据的基础上植入部分错误数据,通过与规则库中的关联规则进行规则匹配,找出错误数据率达到93.3%。  相似文献   

15.
Data mining is an information extraction process that aims to discover valuable knowledge in databases. Existing genetic algorithms (GAs) designed for rule induction evaluates the rules as a whole via a fitness function. Major drawbacks of GAs for rule induction include computation inefficiency, accuracy and rule expressiveness. In this paper, we propose a constraint-based genetic algorithm (CBGA) approach to reveal more accurate and significant classification rules. This approach allows constraints to be specified as relationships among attributes according to predefined requirements, user's preferences, or partial knowledge in the form of a constraint network. The constraint-based reasoning is employed to produce valid chromosomes using constraint propagation to ensure the genes to comply with the predefined constraint network. The proposed approach is compared with a regular GA and C4.5 using two UCI repository data sets. Better classification accurate rates from CBGA are demonstrated.  相似文献   

16.
Privacy preserving data mining algorithms are crucial for the personal data analysis, such as medical and financial records. This paper focuses on feature selection and proposes a new privacy preserving distributed algorithm, which can effectively select features based on differential privacy and Gini index under the MapReduce framework. At the same time, the theoretic analysis for privacy guarantee is also presented. Some experiments are conducted on bench-mark datasets, the simulation results indicate that during the selection of important features, the proposed algorithm can preserve privacy information to a certain extent with less time cost than on centralized counterpart.  相似文献   

17.
李光  王亚东  苏小红 《电子学报》2010,38(1):204-212
 隐私保持的数据挖掘是目前数据挖掘领域的重要研究方向之一,其首要研究内容是开发在不泄露隐私数据的前提下进行数据挖掘的方法.决策树是分类挖掘的一种重要方法,也是目前隐私保持的数据挖掘领域中少有的被深入研究了的分类方法.针对目前尚未对隐私保持的决策树挖掘方法进行系统总结的问题,本文对该领域进行综述.首先对问题背景进行介绍,随后介绍了该领域的研究现状,对现有方法进行了分类和总结,最后总结出该领域进一步研究的方向.  相似文献   

18.
刘波  潘久辉 《电子学报》2007,35(8):1612-1616
关联规则挖掘是数据挖掘领域中重要的研究分支,频繁项集或频繁谓词集的计算是其中的关键问题.本文针对包括多值属性的关系数据库,以多维关联规则挖掘为目标,研究频繁谓词集的计算方法,提出了MPG算法及IMPG增量算法.MPG算法通过构建频繁模式图MP-graph,按照深度优先搜索方法,动态挖掘频繁谓词集,只需扫描数据库一次.此外,该方法至多增加一次数据库扫描,就能扩展为IMPG算法,进行增量关联规则挖掘.文章分析了算法时间和空间性能,用实验说明了算法的有效性.  相似文献   

19.
介绍了关联规则数据挖掘概念和可拓学思想。探讨了把可拓学理论用于关系数据库上关联规则挖掘。通过对关系数据库上多值属性进行布尔数值转换,利用关联规则挖掘算法在关系数据库对关联规则进行挖掘.再用可拓学相关性和蕴含性思想,对所获得的关联规则进行拓展,获得更多更有价值的关联规则。  相似文献   

20.
基于项权值排序挖掘的跨语言查询扩展   总被引:1,自引:0,他引:1       下载免费PDF全文
黄名选  蒋曹清 《电子学报》2020,48(3):568-576
为了改善自然语言处理应用中长期存在的主题漂移和词不匹配问题,本文首先提出一种加权项集支持度计算方法和基于项权值排序的剪枝方法,给出面向查询扩展的基于项权值排序的加权关联规则挖掘算法,讨论关联规则混合扩展、后件扩展和前件扩展模型,最后提出基于项权值排序挖掘的跨语言查询扩展算法.该算法采用新的支持度和剪枝策略挖掘加权关联规则,根据扩展模型从规则中提取高质量扩展词实现跨语言查询扩展.实验结果表明,与现有基于加权关联规则挖掘的跨语言扩展算法比较,本文扩展算法能有效遏制查询主题漂移和词不匹配问题,可用于各种语言的信息检索以改善检索性能,扩展模型中后件扩展获得最优检索性能,混合扩展的检索性能不如后件扩展和前件扩展,支持度对后件扩展更有效,置信度更有利于提升前件扩展和混合扩展的检索性能.本文挖掘方法可用于文本挖掘、商务数据挖掘和推荐系统以提高其挖掘性能.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号