首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
关联规则挖掘AprioriTid算法的改进   总被引:7,自引:0,他引:7  
提出了一种将AprioriTid算法与事务压缩和项目压缩相结合的改进算法。该算法中候选项目集及支持度计算是在每条事务压缩后通过联接产生,候选项目集采用关键字识别,省去了AprioriTid算法中的剪枝和字符串模式匹配步骤。实验结果表明,改进的算法执行效率明显优于AprioriTid算法。  相似文献   

2.
挖掘关联规则中AprioriTid算法的改进   总被引:2,自引:0,他引:2       下载免费PDF全文
针对Apriori和AprioriTid算法中存在的项集生成瓶颈问题,提出了一种基于事务集压缩、候选项集压缩和支持度布尔矩阵的改进AprioriTid算法。该算法中通过删去不必比较的事务来有效缩减数据集;优化频繁项集的自连接方式来减少生成的候选项集个数;使用支持度布尔矩阵来加快候选项集的验证速度。实验结果表明改进算法确实能有效减少相关计算量,比已有算法执行效率明显提高,同时验证了该算法在旋转机械故障诊断中的有效性。  相似文献   

3.
一种改进的关联规则混合挖掘算法   总被引:1,自引:1,他引:1  
牛玉广  邓亮 《微机发展》2005,15(11):141-143
对数据挖掘技术中关联规则挖掘算法Apriori和AprioriTid进行了分析。首先提出Apriori的改进算法Apriori-New,然后提出基于Apriori-New的混合算法AprioriHybrid。通过实验对比,在由候选项集生成频繁项集的过程中,其时间开销比Apriori和AprioriTid都要小,尤其对于事务数多的大项集,取得了快速挖掘频繁项集的目的。  相似文献   

4.
对数据挖掘技术中关联规则挖掘算法Apriori和AprioriTid进行了分析.首先提出Apriori的改进算法Apriori-New,然后提出基于Apriori_New的混合算法AprioriHybrid.通过实验对比,在由候选项集生成频繁项集的过程中,其时间开销比Apriori和AprioriTid都要小,尤其对于事务数多的大项集,取得了快速挖掘频繁项集的目的.  相似文献   

5.
针对最大频繁项目集挖掘算法(DMFIA)当候选项目集维数高而最大频繁项目集维数较低的情况下要产生大量的候选项目集的缺点,提出了一种改进的基于频繁模式树(FP-tree)结构的最大频繁项目集挖掘算法--FP-MFIA。该算法根据FP-tree的项目头表,采用自底向上的搜索策略逐层挖掘最大频繁项目集,从而加速每次对候选集计数的操作。在挖掘时根据每层的条件模式基产生维数较低的非频繁项目集,尽早对候选项目集进行剪枝和降维,可大量减少候选项目集的数量。同时在挖掘时充分利用最大频繁项集的性质,减少搜索空间。通过算法在不同支持度下挖掘时间的对比可知,算法FP-MFIA在最小支持度较低的情况下时间效率是DMFIA以及基于降维的最大频繁模式挖掘算法(BDRFI)的2倍以上,说明FP-MFIA在候选集维数较高的时候优势明显。  相似文献   

6.
关联规则挖掘AprioriTid算法优化研究   总被引:19,自引:0,他引:19  
提出了一种基于事务压缩和项目压缩的AprioriTid优化算法。该算法的特点是:项目集采用关键字识别,同时对事务数据进行事务和项目压缩。从而省去了Apriori算法和AprioriTid算法中的剪枝和模式匹配步骤,减小了扫描事务数据库的大小,提高了发现规则的效率。通过实验表明,优化的算法执行效率明显优于AprioriTid算法。  相似文献   

7.
关联规则挖掘AprioriHybrid算法的研究和改进   总被引:5,自引:0,他引:5  
秦吉胜  宋瀚涛 《计算机工程》2004,30(17):7-8,135
分析了关联规则挖掘Apriori、AprioriTid和AprioriHybrid算法的优缺点,针对AprioriHybrid算法的瓶颈提出了一种使用支持度矩阵对频繁2项集快速验证的方法,并给出了一种简单易行,而又高效的逐步缩减交易数据库的方法,加快了对候选频繁k项集的验证速度,从而显著地提高AprioriHybrid算法的效率。  相似文献   

8.
最大频繁项目集挖掘是多种数据挖掘应用研究的一个重要方面,最大频繁项目集的快速挖掘算法研究是当前研究的热点。传统的最大频繁项目集挖掘算法要多遍扫描数据库并产生大量的候选项目集。为此,该文提出了基于F-矩阵的最大频繁项目集快速挖掘算法FMMFIBFM,FMMFIBFM采用FP-tree的存储结构,仅须扫描数据库两遍且不产生候选频繁项目集,有效地提高了频繁项目集的挖掘效率。实验结果表明,FMMFIBFM算法是有效可行的。  相似文献   

9.
一种挖掘频繁项集和频繁闭包项集的算法   总被引:4,自引:1,他引:4  
文章基于AprioriTid和挖掘闭包项集算法Close提出了一种新算法FFC算法,该算法能同时生成频繁项集和频繁闭包项集。提高效率的同时又为挖掘无冗余规则奠定了基础。  相似文献   

10.
AprioriTid算法的改进   总被引:1,自引:0,他引:1  
针对关联规则挖掘的AprioriTid算法缺点提出了一种改进的算法,即在构造k阶Tid表时,考虑当前交易项包含的所有k阶候选项的全部元素组成的集合,它肯定是当前交易项的子集.如果它的范教大于k就将其写入k阶Tid表中,而不是它所包含的所有k阶候选项集都写入表中,这样必然减少下一次寻找k+1阶大项集时所需要扫描的交易量,从而使AprioriTid算法得到进一步优化.通过在Northwind数据集上的实验,验证了该算法有效地优化了空间复杂度和时间复杂度.  相似文献   

11.
Web service composition is an inevitable aspect of Web services technology, which solves complex problems by combining available basic services and ordering them to best suit the problem requirements. Automatic composition gives us flexibility of selecting best candidate services at composition time satisfying QoS requirements; this would require the user to define constraints for selecting and composing candidate Web services. In this work, a Web service composition approach is presented in which a rich set of constraints can be defined on the composite service. The output of the framework is the schedule of Web service composition in which how and when services are executed is defined. The basic properties of the proposed approach is converting Web service composition problem into a constraint satisfaction problem in order to find the best solution that meets all criteria defined by user and providing semantic compatibility and composability during composition.  相似文献   

12.
Service restoration and survivability have become increasingly important in telecommunications network planning with the introduction of fiber-optic high-speed networks. Synchronous optical network (SONET) technology promotes the use of interconnected rings in designing reliable networks. We describe a heuristic approach for designing networks comprised of interconnected rings. Our approach is particularly attractive for relatively sparse networks in which the set of all cycles (constituting the potential rings) can be determined at a reasonable computational effort. Most networks fall into this category. Given a set of nodes, with demand among all possible node-pairs, and a set of available links that connect the nodes, the problem is to select an optimal subset of rings, utilizing only allowable links, such that each node is included in at least one ring and each ring is connected to at least one other ring at two or more nodes. Such a multiple ring network ensures instantaneous restoration of service in case of a single link or node failure. We first generate a large set of candidate rings and approximate the cost of each ring based on the nodes that are served by the ring and based on the demands. We then apply a set covering algorithm that selects a (minimum cost) subset of the candidate rings such that each node is included on at least one ring. Finally, we select a few additional rings in order to achieve the required connectivity among the rings. We present computational results for realistic-size (e.g., 500 nodes) telecommunication networks  相似文献   

13.
为实现维吾尔语网络内容的倾向性分析,进行维吾尔语情感词典的构建研究。首先对现有成果中的情感基准词进行汇总分析,筛选使用频率高、情感倾向强烈的词汇作为维文情感种子词,并利用维文同义词电子词典建立种子扩展词集;其次对HowNet、NTUSD以及大连理工大学开发的情感词典进行并运算,翻译为维吾尔语词汇构成候选词集合;最后利用语料库,计算候选词与种子词以及同义扩展词之间的点互信息值,判别候选词的极性并将其加入到相关的褒贬情感词库中。与汉语句子情感倾向评测实验结果比较,基于该词典的维吾尔语句子倾向性判断准确率和召回率基本相同。  相似文献   

14.
In this paper, we introduced a novel feature selection method based on the hybrid model (filter-wrapper). We developed a feature selection method using the mutual information criterion without requiring a user-defined parameter for the selection of the candidate feature set. Subsequently, to reduce the computational cost and avoid encountering to local maxima of wrapper search, a wrapper approach searches in the space of a superreduct which is selected from the candidate feature set. Finally, the wrapper approach determines to select a proper feature set which better suits the learning algorithm. The efficiency and effectiveness of our technique is demonstrated through extensive comparison with other representative methods. Our approach shows an excellent performance, not only high classification accuracy, but also with respect to the number of features selected.  相似文献   

15.
频繁模式挖掘是数据库挖掘中的一个十分重要的组成部分,然而以前的许多研究都是基于Apriori的产生候选集的测试迭代方法。这些方法普遍存在需要多次扫描数据库,对产生的大量候选集进行迭代测试的缺陷,尤其是对于挖掘长模式时这种缺陷就尤为突出。FP-growth方法采用分而治之的策略,只需对数据库进行二次扫描,而且避免了产生大量候选集的问题。文中的基于SQL的频繁模式挖掘方法既是在此基础上提出的,采用子查询及DBMS扩展技术(如用户定义函数等)对该方法进行了改进。  相似文献   

16.
基于小波多分辨率分析的 PDF417 定位算法   总被引:1,自引:0,他引:1  
为提高二维条码自动检测定位的效率, 提出了一种利用小波多分辨率分析进行 PDF417 二维条码自动检测定位的新方法, 该方法在高频子图基于特征向量利用纹理相似性原理, 采用区域增长法产生二维条码数据区域的候选子区域集合, 然后在低频子图利用二维条码的起始符、终止符及其边界特征对候选子区域进行验证, 最后得到二维条码在图像中的位置. 实验证明该方法能准确定位受到不同污损程度的二维条码图像, 特别在污损程度高的情况下, 该方法具有独特的优势.  相似文献   

17.
数据流分类中的增量特征选择算法   总被引:1,自引:0,他引:1  
李敏  王勇  蔡立军 《计算机应用》2010,30(9):2321-2323
概念流动的出现及数据的高维性增加了数据流特征选择的复杂性。信息增益是最有效的特征选择算法之一,但计算量大。对信息增益做了等价替换,提出一种基于改进信息增益的混合增量特征选择(IFS)算法。该算法首先利用与分类器无关的评价函数选出候选特征集合,然后将分类器作用于候选特征集合,利用分类精度作为评价标准去选择特征子集,在遇到概念漂移时重新选择特征子集。通过在超平面数据集和UCI数据集上的实验,表明基于IFS算法的分类器能够很快地适应概念漂移,并且比基于全部特征的分类算法有更高的精度。  相似文献   

18.
不产生候选的快速投影频繁模式树挖掘算法   总被引:8,自引:0,他引:8  
1.概述近年来,对事务数据库、时序数据库和各种其它类型数据库中的频繁模式挖掘的研究越来越普及。许多先前的研究都是采用Apriori或类似的候选产生—检查迭代算法,使用候选项集来找频繁项集。这些算法都基于一种重要的反单调的Apriori性质:任何非频繁的(k—1)-项集都不可能是频繁k-项集的子集。因此,如果一个候选k-项集的(k—1)-子集不在频繁(k—1)-项集中,则该候选也不可能是频繁的,从而可  相似文献   

19.
机器学习的查询扩展在博客检索中的应用   总被引:1,自引:0,他引:1  
该文介绍一种新的查询扩展方法,该方法结合了查询扩展技术和机器学习理论。通过机器学习的方法挑选出查询扩展词,以此提高检索结果的性能。对于输入的查询项,首先通过伪反馈技术生成候选扩展词集合,然后使用支持向量机对输入的候选词评分,挑选得分较高的候选词和原始查询项组成一个新的查询项。由于训练这个支持向量机的训练数据较难获得,我们利用评测会议的检索结果和检索工具自动地生成训练数据。这套查询扩展方法的优点在于通过对训练语料的学习,能够对候选扩展词作出更合理的选择。在TREC评测会议组织的观点检索任务中,相对于不采用任何扩展技术的基准系统,该方法提高了MAP指标33.1%。  相似文献   

20.
Many statistical queries such as maximum likelihood estimation involve finding the best candidate model given a set of candidate models and a quality estimation function. This problem is common in important applications like land-use classification at multiple spatial resolutions from remote sensing raster data. Such a problem is computationally challenging due to the significant computation cost to evaluate the quality estimation function for each candidate model. For example, a recently proposed method of multi-scale, multi-granular classification has high computational overhead of function evaluation for various candidate models independently before comparison. In contrast, we propose an upper bound based context-inclusive approach that reduces computational overhead based on the context, i.e. the value of the quality estimation function for the best candidate model so far. We also prove that an upper bound exists for each candidate model and the proposed algorithm is correct. Experimental results using land-use classification at multiple spatial resolutions from satellite imagery show that the proposed approach reduces the computational cost significantly.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号