首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
关联规则是为了挖掘出隐藏在数据中的相互关系,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则,从而辅助决策者进行决策。结合市场监督管理部门监管数据的实际情况,抽取市场主体部分基本信息和监管部门录入的违规、违法数据生成违规违法事务数据库,再将事务数据库转换为布尔矩阵,采用基于向量内积的关联规则挖掘方法生成频繁项集,进行关联规则挖掘。实验结果表明,该方法能够快速、准确地挖掘出相应的关联规则,符合市场监管部门日常工作的实际情况,对实际工作具有一定的指导意义。  相似文献   

2.
胡鹏  童恒建  徐来 《微计算机信息》2006,22(15):175-177
数据挖掘的目的是为了发现有效的关联规则从而找到不易发现的规律从而对企业的决策提供帮助,而查找频繁项集是发现有效关联规则的基础,其基础算法是Apriori算法。分布式数据库是目前较为流行的一种的数据库开发模式,它通过将一套完整的数据库系统分别部署在几台电脑上可以实现几台电脑并行处理数据从而提高数据库的效率。本文通过分析一个查找频繁项集的例子提出了一种将改进的频繁项集查找算法与分布式数据库相结合的方法从而实现频繁项集的高效查找。  相似文献   

3.
We present an algorithm for frequent item set mining that identifies high-utility item combinations. In contrast to the traditional association rule and frequent item mining techniques, the goal of the algorithm is to find segments of data, defined through combinations of few items (rules), which satisfy certain conditions as a group and maximize a predefined objective function. We formulate the task as an optimization problem, present an efficient approximation to solve it through specialized partition trees, called High-Yield Partition Trees, and investigate the performance of different splitting strategies. The algorithm has been tested on “real-world” data sets, and achieved very good results.  相似文献   

4.
针对大数据中的频繁项集挖掘问题,提出一种基于Spark框架的FP-Growth频繁项集并行挖掘算法。首先,根据垂直布局思想将数据按照事务标识符垂直排列,以此解决扫描整个数据集的缺陷。然后,通过FP-Growth算法构建频繁模式树,并生成频繁1-项集。接着,通过扫描垂直数据集来计算项集的支持度,从而识别出非频繁项,并将其从数据集中删除以降低数据尺寸。最后,通过迭代过程来生成频繁 -项集。在标准数据集上的实验结果表明,该算法能够有效挖掘出频繁项集,在执行时间方面具有很大的优越性。  相似文献   

5.
数据挖掘是从数据库中发现潜在有用知识或者感兴趣模式的过程。在数据挖掘领域中主要集中于单一支持度下的关联规则挖掘,在事务数据库中发现项目之间的关联性,而在实际应用中,项目可以有不同的最小支持度,不同的项目可能具有不同的标准去判断其重要性,因此提出一个在最大值支持度约束下,发现有用的模糊关联规则挖掘算法,在该约束下,利用逐层搜索的迭代方法发现频繁项目集,通过实例证明了该挖掘算法是易于理解和有意义的,具有很好的效率。  相似文献   

6.
针对基于Spark框架的关联规则算法存在I/O开销大、数据结构和挖掘频繁集方式单一、计算支持度的方式效率低等问题,提出基于SparkSql进行分布式编程的算法。将数据集加载到DataFrame,利用改进后的布隆过滤器高效存储频繁集挖掘过程中产生的项集,解决RDD内存资源和计算速度受限问题。基于先验定理对事务、项目和项集进行精简,同时提出用Sql语句对项集中项目对应事务集合求交集的方式计算项集支持度,提高计算支持度的效率。提出了两种迭代算法和自适应数据的选择条件,增强该算法对各种数据集的泛化性。进行多组实验,证明提出的算法总是自适应本次迭代数据的特点选择最优的迭代方法,同时具有较高并行算法性能,可以扩展到更大规模集群和数据;同基于Spark框架的关联规则算法YAFIM和R-Apriori进行对比,在每次迭代和总体运行计算效率上有更好的表现。  相似文献   

7.
采掘关联规则是数据采掘的重要研究内容.本文针对交易项目中广泛存在的包含和泛化关系,充分利用已采掘出交易项目集的频繁模式集合,提出了一种快速的基于概念提升的多层次关联规则更新采掘方法与算法UMARCP.  相似文献   

8.
Given a time stamped transaction database and a user-defined reference sequence of interest over time, similarity-profiled temporal association mining discovers all associated item sets whose prevalence variations over time are similar to the reference sequence. The similar temporal association patterns can reveal interesting relationships of data items which co-occur with a particular event over time. Most works in temporal association mining have focused on capturing special temporal regulation patterns such as cyclic patterns and calendar scheme-based patterns. However, our model is flexible in representing interesting temporal patterns using a user-defined reference sequence. The dissimilarity degree of the sequence of support values of an item set to the reference sequence is used to capture how well its temporal prevalence variation matches the reference pattern. By exploiting interesting properties such as an envelope of support time sequence and a lower bounding distance for early pruning candidate item sets, we develop an algorithm for effectively mining similarity-profiled temporal association patterns. We prove the algorithm is correct and complete in the mining results and provide the computational analysis. Experimental results on real data as well as synthetic data show that the proposed algorithm is more efficient than a sequential method using a traditional support-pruning scheme.  相似文献   

9.
关联规则挖掘的主要任务是根据对事务的统计找出项之间的关系。传统的挖掘算法要求项具有逻辑属性,并在挖掘过程中产生大量的中间项集,成为算法的瓶颈。给出一种基于关联路径树的表格数据组织形式,并采用模式指导的方式进行频繁项集挖掘,该方法不要求项具有逻辑属性,初始模式不同的项集组合迭代可以分配到不同的CPU完成,提高了算法的执行效率。该算法对美国1984年国会选举数据进行了实验,结果完全正确。  相似文献   

10.
High on-shelf utility itemset (HOU) mining is an emerging data mining task which consists of discovering sets of items generating a high profit in transaction databases. The task of HOU mining is more difficult than traditional high utility itemset (HUI) mining, because it also considers the shelf time of items, and items having negative unit profits. HOU mining can be used to discover more useful and interesting patterns in real-life applications than traditional HUI mining. Several algorithms have been proposed for this task. However, a major drawback of these algorithms is that it is difficult for users to find a suitable value for the minimum utility threshold parameter. If the threshold is set too high, not enough patterns are found. And if the threshold is set too low, too many patterns will be found and the algorithm may use an excessive amount of time and memory. To address this issue, we propose to address the problem of top-k on-shelf high utility itemset mining, where the user directly specifies k, the desired number of patterns to be output instead of specifying a minimum utility threshold value. An efficient algorithm named KOSHU (fast top-K on-shelf high utility itemset miner) is proposed to mine the top-k HOUs efficiently, while considering on-shelf time periods of items, and items having positive and/or negative unit profits. KOSHU introduces three novel strategies, named efficient estimated co-occurrence maximum period rate pruning, period utility pruning and concurrence existing of a pair 2-itemset pruning to reduce the search space. KOSHU also incorporates several novel optimizations and a faster method for constructing utility-lists. An extensive performance study on real-life and synthetic datasets shows that the proposed algorithm is efficient both in terms of runtime and memory consumption and has excellent scalability.  相似文献   

11.
关联规则挖掘中对Apriori算法的一种改进研究   总被引:24,自引:0,他引:24  
刘以安  羊斌 《计算机应用》2007,27(2):418-420
针对Apriori算法寻找频繁项集问题,通过对事务数据库的布尔化表示,提出了一种直接利用布尔矩阵的行向量去搜寻频繁项集的思想。即通过向量的内积运算和判别准则逐步浓缩布尔矩阵的行向量,从而快速、直观地归纳出事务数据库的频繁项集。研究和分析表明,该方法不仅算法简单、只需扫描一次数据库,而且还具有搜索速度快、节省内存空间和处理项目集维数大等优点。对于处理超大型事务数据库和分布式事务数据库,同样也有较好的应用。  相似文献   

12.
杨泽民 《计算机科学》2013,40(3):259-262
为了解决关联规则挖掘算法中频繁集信息挖掘不完善和时序周期对事务集频繁项挖掘的影响问题,提出了一种基于时序和兴趣度约束的加权关系规则挖掘算法。该算法首先利用时序滑动函数对时序事务集进行发生概率估算和权值赋值,依据兴趣度约束函数和剪枝定理进行事务集化简,然后根据支持度和寿支持期望进行加权频繁事务集抽取,最后依据置信度进行加权关联规则导出。实验结果证明,该算法能够快速有效地挖掘出符合用户兴趣度的关联规则。  相似文献   

13.
Mining Fuzzy Multiple-Level Association Rules from Quantitative Data   总被引:2,自引:0,他引:2  
Machine-learning and data-mining techniques have been developed to turn data into useful task-oriented knowledge. Most algorithms for mining association rules identify relationships among transactions using binary values and find rules at a single-concept level. Transactions with quantitative values and items with hierarchical relationships are, however, commonly seen in real-world applications. This paper proposes a fuzzy multiple-level mining algorithm for extracting knowledge implicit in transactions stored as quantitative values. The proposed algorithm adopts a top-down progressively deepening approach to finding large itemsets. It integrates fuzzy-set concepts, data-mining technologies and multiple-level taxonomy to find fuzzy association rules from transaction data sets. Each item uses only the linguistic term with the maximum cardinality in later mining processes, thus making the number of fuzzy regions to be processed the same as the number of original items. The algorithm therefore focuses on the most important linguistic terms for reduced time complexity.  相似文献   

14.
基于动态交易项目集的关联规则更新   总被引:2,自引:0,他引:2  
张继福  刘静  张荣国  谭瑛 《计算机工程》2000,26(7):64-65,71
该文在交易数据库和最小支持度不变条件下,当用户动态地增加或删除交易项目集中的某些交易项目时,充分利用了交易项目集改变前已采掘出的频繁模式集,提出了两种关联规则的快速更新算法lzi-ar和Dzi-ar,经实验分析表明,该地关联规则的更 可行的和高效的。  相似文献   

15.
一种基于事务修剪的约束关联规则的挖掘算法   总被引:2,自引:0,他引:2  
陈义明  贺勇 《计算机应用》2005,25(11):2627-2629
针对一类常见而简单的规则中有项或缺项的约束,提出了一种基于事务数据修剪的约束关联规则的快速挖掘算法。该算法先扫描一遍数据库对事务进行水平和纵向的修剪,接着在修剪后的数据集上挖掘频繁项集,形成规则的候选头集、体集和规则项集,最后一次扫描后由最小可信度约束得到所要求的关联规则。实验表明,与按简洁约束采取的一般策略相比,该算法的性能有较明显的提高。  相似文献   

16.
简单数据集可以通过关联规则得到在数据间的相互关系;相当多的情况下,由于不能从关联规则得到隐藏在数据间的相互关系,需要按间接关联规则分析出数据项集在交易集合中出现的频度,挖掘隐藏在数据间的相互关系。文中通过使用概念分层和基于近邻的方法,探讨利用FP树产生的频繁项集,对候选关联检验其是否满足项对支持度条件,并利用这个频繁项集挖掘事务的间接关联,找到挖掘事务的间接关联的内在规律,构造出不依赖中介条件的间接关联挖掘算法。  相似文献   

17.
赵艳芹  孙昌立 《计算机应用》2009,29(5):1477-1479
针对Apriori关联规则算法需要多次扫描事务数据库及产生的候选集庞大的瓶颈问题,提出一种不产生候选项目集,即可产生项目集的新算法,对数据的处理次数大大减少,提高了挖掘效率。并结合在儿童培训机构客户关系管理(CRM)中客户选择的培训内容的具体应用分析,阐明了基于Apriori改进算法的CRM数据挖掘对于儿童培训机构增强竞争优势的重要意义。  相似文献   

18.
基于二进制的长频繁项目集挖掘算法   总被引:1,自引:1,他引:0  
结合挖掘长频繁项目集的自顶向下搜索策略,提出一种基于二进制的长频繁项目集挖掘算法.该算法用数值递减搜索策略产生候选项,在用到频繁项目集修剪其子集减少候选项的基础上还通过事务特征减少搜索事务数,并运用二进制的逻辑"与"运算计算支持数,提高了算法的效率.算法分析和实验表明,该算法是有效的、快速的.  相似文献   

19.
在关联规则挖掘算法中,Apriori由于多次对数据库进行扫描会产生较多的候选集,在多次扫描数据库的情况下容易产生I/O开销问题,并引起数据挖掘效率低.矩阵关联规则在数据挖掘过程中没有删除非频繁项集,致使存在较多的无效扫描,对于挖掘效率的提高也不明显.该文提出了一种改进的矩阵和排序索引关联规则数据挖掘算法,首先,删除不需...  相似文献   

20.
Apriori算法必须反复地扫描数据库才能求出频繁项集,效率较低,且不支持更新挖掘。为了解决这些问题,提出了一种基于粗糙集、单事务项组合和集合运算的关联规则挖掘算法。本算法首先利用粗糙集进行属性约简,对新决策表中的每个事务进行“数据项”组合并标记地址,然后利用集合运算的方法计算支持度和置信度即可挖掘出有效规则。本算法只需要一次扫描数据库,同时有效地支持了关联规则的更新挖掘。应用实例和实验结果表明,本算法明显优于Apriori算法,是一种有效且快速的关联规则挖掘算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号