共查询到20条相似文献,搜索用时 62 毫秒
1.
2.
3.
4.
5.
无重复投影数据库扫描的序列模式挖掘算法 总被引:5,自引:0,他引:5
序列模式挖掘在Web点击流分析、自然灾害预测、DNA和蛋白质序列模式发现等领域有着广泛应用.基于频繁模式增长的PrefixSpan是目前性能最好的序列模式挖掘算法之一.然而在密数据集和长序列模式挖掘过程中会出现大量的重复投影数据库,使得这类算法性能下降.算法SPMDS通过对投影数据库的伪投影做单项杂凑函数,如MD5等,检查是否存在重复的投影数据库,避免大量重复数据库的扫描,并采用一些必要条件简化投影数据库的搜索,进而提高算法的性能.实验和分析都表明SPMDS性能优于PrefixSpan. 相似文献
6.
7.
数据挖掘领域的一个活跃分支就是序列模式的发现,即在序列数据库中找出所有的频繁子序列。介绍序列模式挖掘的基本概念,然后对序列模式中的经典算法PrefixSpan算法和基于PrefixSpan框架的闭合序列模式CloSpan算法进行了描述,并对它们的执行过程及其特点进行了分析与比较,总结了各自的优缺点,指出PrefixSpan算法适用于短序列方面挖掘,而CloSpan算法在长序列或者阈值较低时胜过PrefixSpan算法且CloSpan算法挖掘大型的数据库有更好的性能,得出的结果对序列模式挖掘的设计有重要的参考价值。 相似文献
8.
9.
刘佳新 《计算机技术与发展》2012,(5)
为了减少在序列模式挖掘过程中由于重复运行挖掘算法而产生的时空消耗,提出了一种基于频繁序列树的交互式序列模式挖掘算法(ISPM). ISPM算法采用频繁序列树作为序列存储结构,频繁序列树中存储数据库中满足频繁序列树支持度阈值的所有序列模式及其支持度信息.当支持度发生变化时,通过减少本次挖掘所要构造投影数据库的频繁项的数量来缩减投影数据库的规模,从而减少时空消耗.实验结果表明,ISPM算法在时间性能上优于PrefixSpan算法和Inc-Span算法 相似文献
10.
11.
Web数据挖掘技术及工具研究 总被引:29,自引:0,他引:29
Internet应用的普及使得数据挖掘技术的重点已经从传统的基于数据库的应用转移到了基于Web的应用。文章就Web挖掘技术的概念、分类及文本挖掘和用户访问模式挖掘的实现技术做了详细的阐述,并在此基础上介绍了一些实用的Web挖掘工具。 相似文献
12.
由于数据挖掘在各行业中的广泛应用,因而该技术引起了人们的普遍关注,近年来该技术在金融、电信、零售、医疗、科研等行业领域内发挥了巨大的作用。网站的数据挖掘(Websitedatamining)即Web挖掘、生物信息或基因的数据挖掘以及空间数据挖掘成为数据挖掘领域新的研究热点。 相似文献
13.
孤舟 《数字社区&智能家居》2006,(11):26-27
WinRAR是Windows上常用的压缩解压缩工具。由于它支持包括ZIP在内的多种压缩格式.且压缩速度较快压缩率较高,故现在已成为Windows上非常流行的压缩软件。下面是笔者在使用中总结的一些经验.在这里共享出来.希望能对你使用这个软件有所帮助。 相似文献
14.
Xiu-LiMa Yun-HaiTong Shi-WeiTang Dong-QingYang 《计算机科学技术学报》2004,19(6):0-0
Mining frequent patterns has been studied popularly in data mining area. However, little work has been done on mining patterns when the database has an influx of fresh data constantly. In these dynamic scenarios, efficient maintenance of the discovered patterns is crucial. Most existing methods need to scan the entire database repeatedly, which is an obvious disadvantage. In this paper, an efficient incremental mining algorithm, Incremental-Mining (IM), is proposed for maintenance of the frequent patterns when new incremental data come. Based on the frequent pattern tree (FP-tree) structure, IM gives a way to make the most of the things from the previous mining process, and requires scanning the original data once at most. Furthermore, IM can identify directly the differential set of frequent patterns, which may be more informative to users. Moreover, IM can deal with changing thresholds as well as changing data, thus provide a full maintenance scheme. IM has been implemented and the performance study shows it outperforms three other incremental algorithms: FUP, DB-tree and re-running frequent pattern growth (FP-growth). 相似文献
15.
Vineet Chaoji Mohammad Al Hasan Saeed Salem Mohammed J. Zaki 《Data mining and knowledge discovery》2008,17(3):457-495
Frequent pattern mining (FPM) is an important data mining paradigm to extract informative patterns like itemsets, sequences,
trees, and graphs. However, no practical framework for integrating the FPM tasks has been attempted. In this paper, we describe
the design and implementation of the Data Mining Template Library (DMTL) for FPM. DMTL utilizes a generic data mining approach, where all aspects of mining are controlled via a set of properties. It uses a novel pattern property hierarchy to define and mine different pattern types. This property hierarchy can be thought of as a systematic characterization of
the pattern space, i.e., a meta-pattern specification that allows the analyst to specify new pattern types, by extending this
hierarchy. Furthermore, in DMTL all aspects of mining are controlled by a set of different mining properties. For example, the kind of mining approach to use, the kind of data types and formats to mine over, the kind of back-end storage
manager to use, are all specified as a list of properties. This provides tremendous flexibility to customize the toolkit for
various applications. Flexibility of the toolkit is exemplified by the ease with which support for a new pattern can be added.
Experiments on synthetic and public dataset are conducted to demonstrate the scalability provided by the persistent back-end
in the library. DMTL been publicly released as open-source software (), and has been downloaded by numerous researchers from all over the world. 相似文献
16.
Web使用信息挖掘综述 总被引:29,自引:1,他引:29
Web使用信息挖掘可以帮助我们更好地理解Web和Web用户访问模式,这对于开发Web的最大经济潜力是非常关键的。一般来说,使用信息挖掘包含三个阶段:数据预处理,模式发现和模式分析。文章以这三个阶段为PWeb框架,分别介绍了数据预处理的技术与困难,Web使用信息挖掘中常用的方法和算法,以及主要应用。 相似文献
17.
Web使用模式挖掘研究 总被引:3,自引:0,他引:3
Web使用模式挖掘是利用Web使用数据的高级阶段,文中分析了Web使用模式挖掘流程及挖掘技术后,架构了一种用于Web使用模式的工具,并将其应用在优化Web站点的链接结构,发现潜在客户等方面。 相似文献
18.
19.