首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
序列模式发现在数据挖掘领域中的地位越来越重要,本文首先介绍了频繁序列挖掘模式的基本概念,然后基于投影树算法,给出了其数据并行模式和任务并行模式,接着进行了算法的复杂性分析,我们的实验证明这些算法都能获得较好的加速比,而且任务并行模式具有更好的可扩展性。  相似文献   

2.
DNA序列数据挖掘技术   总被引:4,自引:1,他引:4  
朱扬勇  熊赟 《软件学报》2007,18(11):2766-2781
DNA序列数据是一类重要的生物数据.研究DNA序列数据解读其含义是后基因组时代的主要研究任务.数据挖掘是目前最有效的数据分析手段之一,用于发现大量数据所隐含的各种规律,也是生物信息学采用的主要数据分析技术.将数据挖掘技术用于DNA序列数据分析,已得到了广泛关注和快速发展,并取得了许多研究成果.综述了DNA序列数据挖掘领域的研究状况和进展,提出了3个研究阶段:基于统计的挖掘方法应用阶段、一般化挖掘方法应用阶段和专门的DNA序列数据挖掘方法设计阶段.阐述了DNA序列数据挖掘的基础是序列相似性,评述了DNA序列数据挖掘领域所采用的关键技术,包括DNA序列模式、关联、聚类、分类和异常挖掘等,分析讨论了其相应的生物应用背景和意义.最后给出DNA序列数据挖掘进一步研究的热点问题,包括DNA序列数据新的存储和索引机制的设计、根据生物领域知识的数据挖掘新模型和算法的设计等.  相似文献   

3.
传统数据挖掘算法在处理海量数据集时计算能力有限。为解决该问题,提出一种基于Map Reduce的分布式序列模式挖掘算法MR-PrefixSpan。在PrefixSpan算法的基础上,对模式挖掘任务进行分割,利用Map函数处理由不同前缀得到的序列模式,并行构造投影数据库,从而提高挖掘效率及简化搜索空间。采用Reduce函数对中间结果进行规约,得到全局序列模式。在Hadoop集群上的实验结果表明,MR-PrefixSpan能减少数据库扫描时间,具有较高的并行加速比和较好的可扩展性。  相似文献   

4.
基于隐私保护的数据挖掘是近年来数据挖掘领域的研究热点之一.提出一个基于数据清洗的敏感序列模式隐藏算法,它通过计算事务组影响权值,选取对非敏感序列模式影响最小的事务组进行清洗,从而在确保隐藏敏感序列模式的同时,尽量减少对非敏感模式集的影响.对不同稠密度和不同规模数据集的实验结果表明,该算法既实现了对敏感模式的保护又具有较低的误隐藏率,并且当数据集大小变化时,序列数据库相异度没有明显改变.  相似文献   

5.
序列模式挖掘是数据挖掘的一个重要问题.传统的序列模式仅能揭示频繁出现的项目以及出现的顺序,但不能揭示在前续项目出现的情况下,后续项目出现的时间.在本文中,引入一种新的多时间粒度序列模式,模式中相邻项目之间的转换时间采用从原数据集中导出的、多时间粒度下的最小有界时间区间和平均时间标注.建立了多时间粒度序列模式挖掘模型,提出了一种新的多时间序列模式挖掘算法MG-PrefixSpan.实验表明,算法是有效的.  相似文献   

6.
由于数据规模的快速增长,高效用序列模式挖掘算法效率严重下降.针对这种情况,提出基于MapReduce的高效用序列模式挖掘算法HusMaR.算法基于MapReduce框架,使用效用矩阵高效地生成候选项;使用随机映射策略均衡计算资源;使用基于领域的剪枝策略来防止组合爆炸.实验结果表明,在大规模数据集下,算法取得了较高的并行效率.  相似文献   

7.
序列模式挖掘的并行算法研究   总被引:1,自引:0,他引:1  
马传香  简钟 《计算机工程》2005,31(6):16-17,136
序列模式在许多领域都有着重要的应用,大量的数据和模式需要高效的、可扩展的并行算法.针对目前序列模式挖掘算法存在的普遍问题,提出了一个适合无共享并行环境下的算法PMSP,有效地解决了存储受限以及时效性问题,并将它与当前相对较优的并行算法HPSPM做了比较,实验表明PMSP是有效的.  相似文献   

8.
在传统LIPI数据挖掘算法中,需要反复扫描投影数据库寻找局部频繁项并重复构造大量重复投影,造成数据挖掘耗时,效率低下的不足.为了提高算法的计算速度,提出改进的LIPI数据挖掘算法.算法借助连接2-序列位置信息表(LIPI)找到序列模式的下一项,完成K-1序列位置信息与2-序列位置信息的连接,实现序列模式放缩式增长,得出K-序列与K-序列相应的位置信息数据,避免对投影数据库反复扫描;引入了BIDE算法的前后向剪枝策略,检查相同末项序列位置信息表进行前向剪枝,消除大量重复投影的构建,提高挖掘算法的效率.实验结果表明,改进后的算法能快速的寻找到局部频繁项,有效提高了数据挖掘的效率.  相似文献   

9.
在线分割时间序列数据   总被引:15,自引:0,他引:15  
李爱国  覃征 《软件学报》2004,15(11):1671-1679
时间序列分割是时间序列数据挖掘研究的重要任务之一.它主要有两个应用:检测生成时间序列的系统何时发生变化;创建时间序列的高级数据表示,从而对时间序列进行索引、聚类和分类.在实时时间序列数据挖掘应用中,需要在线时间序列分割算法,以便实时发现和预测时态模式.在对时间序列分割问题进行形式化描述的基础上,提出了一种评估时间序列的分割结果以及分割算法性能的评价指标,并提出了一种在线分割时间序列数据的递推算法(on-line segmentation,简称OLS).OLS的一个显著特点是不依赖有关时间序列的先验知识.实验结果说明,OLS算法能够有效地在线检测出数据挖掘应用中感兴趣的关键变化点,而且"过拟合"程度低.  相似文献   

10.
贝叶斯(Bayesian)方法是近年来数据挖掘中引人注目的研究热点之一,它有效地处理不完备数据、溢出数据和噪声数据之间的序列相关性。该文在对传统序列模式挖掘算法和贝叶斯知识研究的基础上,描述了序列的概率论模型,结合贝叶斯学习,简化了序列模式挖掘过程,提出了一种面向噪声数据的基于贝叶斯方法的序列模式挖掘算法。最后对该算法进行了复杂度分析,并验证了算法性能的优越性。  相似文献   

11.
为了更好地分析购物篮数据,挖掘出潜在客户,序列模式挖掘应运而生。序列模式挖掘是数据挖掘一个重要研究内容,近年来在很多领域得到广泛运用。概述序列模式挖掘的发展现状,研究基本挖掘框架的经典挖掘算法与扩展模型挖掘算法,特别针对近年来出现的新数据形式序列模式挖掘,以及基于零压缩二叉决策图(ZBDD)结构的挖掘算法做了阐述,最后对序列模式挖掘发展趋势进行了展望。  相似文献   

12.
对入侵检测和数据挖掘从定义和分类等各方面等进行了基本介绍,提出了一个基于数据挖掘的入侵检测系统的总体框架,其整个系统分为训练阶段和测试阶段,对其中各个模块进行基本的功能分析。为了提高数据挖掘的效率,可以将序列模式挖掘引入该入侵检测系统中。将关联规则算法和序列模式挖掘算法同时使用,增加挖掘的粒度。对序列模式挖掘的算法进行了具体分析,并通过具体的实例来说明引入序列模式挖掘能更好地提高数据挖掘的效率。  相似文献   

13.
基于预聚类技术的并行序贯模式挖掘算法   总被引:3,自引:0,他引:3       下载免费PDF全文
本文讨论了在并行序贯模式数据挖掘方面采用“预聚类并行序贯模式挖掘”的策略,对数据序列聚类后按不同的类分布到不同的并行节点上,以减少甚至消除不必要的通讯开销,以便能够提高并行序贯模式挖掘在集群式高性能计算机上的执行效率。  相似文献   

14.
Since Agrawal and Srikant proposed sequential pattern mining in 1995, there have been many scholars working to improve the efficiency and reduce the processing time of algorithms. This study intends to propose a fuzzy AprioriSome algorithm for fuzzy sequential patterns mining with integration with clustering technique, K-means algorithm. Two experiments performed using transaction data provided by a securities firm and foodmarket data from SQL sever 2000 demonstrate the strength of fuzzy AprioriSome sequential pattern mining in mining large quantity of transaction data.  相似文献   

15.
对比序列模式可以用来表征不同类别数据集之间的差异。在生物信息、物流管理、电子商务等领域,对比序列模式有着广泛的应用。Top-k对比序列模式挖掘的目标是发现数据集中对比度最高的前k个序列模式。在Top-k对比序列模式挖掘中,可能挖掘出冗余的序列模式。目前,虽然有Top-k对比序列模式发现算法被提出,但这些算法并未考虑冗余序列模式的问题。为此,本文提出了基于广度优先生成树的去冗余Top-k对比序列模式挖掘算法BFM(breadth-first miner)。使用BFM算法可以有效地解决冗余问题,得到去冗余的Top-k对比序列模式。在BFM算法的基础上,提出了性能更好的算法PBFM(pruning breadth-first miner)。通过在真实数据集上的实验分析与对比 ,验证了本文算法的有效性。  相似文献   

16.
Scalability is a primary issue in existing sequential pattern mining algorithms for dealing with a large amount of data. Previous work, namely sequential pattern mining on the cloud (SPAMC), has already addressed the scalability problem. It supports the MapReduce cloud computing architecture for mining frequent sequential patterns on large datasets. However, this existing algorithm does not address the iterative mining problem, which is the problem that reloading data incur additional costs. Furthermore, it did not study the load balancing problem. To remedy these problems, we devised a powerful sequential pattern mining algorithm, the sequential pattern mining in the cloud-uniform distributed lexical sequence tree algorithm (SPAMC-UDLT), exploiting MapReduce and streaming processes. SPAMC-UDLT dramatically improves overall performance without launching multiple MapReduce rounds and provides perfect load balancing across machines in the cloud. The results show that SPAMC-UDLT can significantly reduce execution time, achieves extremely high scalability, and provides much better load balancing than existing algorithms in the cloud.  相似文献   

17.
序列模式发现是最重要的数据挖掘任务之一,并有着广阔的应用前景。针对静态数据库,序列模式挖掘已经被深入地研究,但针对基于数据流的序列模式挖掘的研究还不是十分深入。数据流有着无限性的特性,因此往往不能保存数据流中全部的数据,同时很多时候只对最近的时间段的序列模式感兴趣,提出一个有效的结合滑动窗口技术的挖掘序列模式的算法FPM-SW,算法利用到3个数据结构(PatternTable,CountTable和Ta-tree)来处理基于数据流的序列模式挖掘的复杂性问题。算法通过CountTable结构来保存以往的潜在频繁序列,考虑到在某些情况下CountTable占用内存过多,算法还结合了一种压缩CountTable技术来减少内存占用。FPM-SW的优点是可以最大限度地降低负正例的产生,实验表明FPM-SW具有较高的准确率。  相似文献   

18.
多维概念格与多维序列模式的增量挖掘   总被引:1,自引:0,他引:1  
多维序列模式挖掘旨在将一个或多个背景维度信息中发现的关联模式与有序事务序列中发现的序列模式有机结合,从而为用户提供信息内容更加丰富、更具有直接应用价值的多维序列模式.目前虽有一些挖掘多维序列模式的工作,但其关联模式与序列模式的发现过程是基于不同的数据结构分开进行的.提出一种新的概念格结构——多维概念格,它是对概念格的延伸与泛化,其内涵更加丰富,不仅具有多个有序的任务内涵,而且具有多个无序的背景内涵.设计实现了基于该结构的增量式多维序列模式挖掘算法,该算法使用统一的数据模型实现关联模式与序列模式的高效同步挖掘.在合成数据集上的实验结果验证了算法的有效性.同时,算法在实际的银行数据集上的应用效果也说明了算法的实用性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号