共查询到20条相似文献,搜索用时 93 毫秒
1.
目前数据挖掘算法的评价 总被引:11,自引:2,他引:11
首先讨论了数据挖掘算法的评价标准问题,然后运用数据封装分析的方法评价了目前的分类算法,基于实验结果,对目前的关联规则挖掘算法进行了评价。 相似文献
2.
介绍了现有的数据挖掘概念和技术,处理模型及数据挖掘实施的平台-数据仓库,在研究和总结的基础上提出一种新的数据挖掘处理模型。 相似文献
3.
用户访问模式数据挖掘的模型与算法研究 总被引:21,自引:2,他引:21
从大量顾客日志数据中挖掘有意义的和户访问模式有相关的潜在顾客群,是现代企业发展电子商务战备的重要支撑技术之一,文中基于E-OEM模型,提出并 综合考虑服务器的应用逻辑设计,页面拓扑结构及用户的浏览路长等多个数据泊的用户访问及潜在顾客群的挖掘算法,并以实验证明该模型和算法的有效性。 相似文献
4.
5.
6.
一种高效的挖掘序贯模式的算法 总被引:1,自引:0,他引:1
本文给出了一种挖掘数据库中序贯模式的算法,通过认真地研究了挖掘过程中的中间及结果数据的存储结构,大大地减少了对数据库的扫描遍数,提高了算法的效率。 相似文献
7.
8.
9.
10.
11.
基于频繁链表的频繁集的挖掘算法 总被引:4,自引:0,他引:4
自从1989年提出KDD以来,关联规则的挖掘一直是人工智能及数据库领域关注的焦点,尤其是项目决策者渴求的制胜法宝。挖掘关联规则的前提是频繁集的挖掘,目前典型的频繁集挖掘算法以Appriori算法为代表。在Appriori算法的基础上提出了一些可行的方法,所有这些算法不外乎达到两个目的:①在穷举的基础上,设法删除对关联规则不太有效的频繁集,减少候选频繁集的数量,达到提高挖掘算法性能的目的。②直接挖掘最大频繁集,以最大频繁集为基础挖掘感兴趣 相似文献
12.
一种直接在Trans-树中挖掘频繁模式的新算法 总被引:5,自引:1,他引:5
Frequent pattern mining plays an essential role in many important data mining tasks. FP-growth is a very efficient algorithm for frequent pattern mining. However, it still suffers from creating conditional FP-tree separately and recursively during the mining process. In this paper, we propose a new algorithm, called Least-Item-First Pat-tern Growth (LIFPG), for mining frequent patterns. LIFPG mines frequent patterns directly in Trans-tree withoutusing any additional data structures. The key idea is that least items are always considered first when the current pat-tern growth. By this way, conditional sub-tree can be created directly in Trans-tree by adjusting node-links and re-counting counts of some nodes. Experiments show that, in comparison with FP-Growth, our algorithm is about fourtimes faster and saves half of memory;it also has good time and space scalability with the number of transactions,and has an excellent performance in dense dataset mining as well. 相似文献
13.
频繁模式挖掘在数据挖掘领域已经有广泛的应用.然而,对于增量更新频繁模式挖掘研究得不是很多.本文提出了一种新颖的增量更新频繁模式树结构(IUNP_Tree),构建它只需要对数据库扫描一次.此外,提出了基于条件矩阵(conditional matrix)的频繁模式挖掘算法(FPBM_Mine)和增量更新算法INUPA,可以有效地处理数据库的增量更新问题.实验表明,该算法是有效的,并且运行效率高于FP-growth算法. 相似文献
14.
Qinghua Zou Wesley Chu David Johnson Henry Chiu 《Knowledge and Information Systems》2002,4(4):466-482
Efficient algorithms to mine frequent patterns are crucial to many tasks in data mining. Since the Apriori algorithm was
proposed in 1994, there have been several methods proposed to improve its performance. However, most still adopt its candidate
set generation-and-test approach. In addition, many methods do not generate all frequent patterns, making them inadequate
to derive association rules. We propose a pattern decomposition (PD) algorithm that can significantly reduce the size of the
dataset on each pass, making it more efficient to mine all frequent patterns in a large dataset. The proposed algorithm avoids
the costly process of candidate set generation and saves time by reducing the size of the dataset. Our empirical evaluation
shows that the algorithm outperforms Apriori by one order of magnitude and is faster than FP-tree algorithm.
Received 14 May 2001 / Revised 5 September 2001 / Accepted in revised form 26 October 2001
Correspondence and offprint requests to: Qinghua Zou, Department of Computer Science, California University–Los Angeles, CA 90095, USA. Email: zou@cs.ucla.eduau 相似文献
15.
为了高效地从海量物流数据中获取频繁路径,根据物流网络及物流的特征设计了一种物流数据模型以及一种充分考虑了物流网络拓扑信息的频繁路径序列挖掘算法PMWTI(Path Mining With Topology Information).在PMWTI中设计了一种用于候选路径序列深度剪枝的代价容忍度剪枝方法,该方法在利用Apriori性质剪枝的基础上进一步去除了部分不可能是频繁路径序列的候选路径序列,这在一定程度上缩减了候选路径序列规模,从而减少了对数据集的扫描.实验表明,相比没有采用该剪枝方法的同等算法,PMWTI具有更高的频繁路径挖掘效率. 相似文献
16.
17.
一种基于关系数据库的频繁项集挖掘算法 总被引:3,自引:0,他引:3
频繁项集的挖掘是数据挖掘中的一个十分重要的组成部分,目前对于事务数据库频繁项集的挖掘算法研究较多。本文根据事务数据库中布尔型频繁项集挖掘的理论和方法,再结合关系数据库的特殊性,利用标准SQL语言提出了一种新的在关系数据库中挖掘频繁项集的简易算法。实验证明该算法具有较高的效率。 相似文献
18.
19.
高效隐私保护频繁模式挖掘算法研究 总被引:1,自引:0,他引:1
阐述了隐私保护数据挖掘的目标,即在获取有效的数据挖掘结果的同时,满足用户对隐私保护的要求.针对个体用户及组织用户的隐私保护,论述了不同的方法,并归纳出隐私保护数据挖掘中所采用的两种主流算法.改进了高效隐私保护关联规则挖掘算法(EMASK)中需要完全的数据库扫描并且进行多次比较操作的弊端,提出了基于粒度计算的高效隐私保护频繁模式挖掘算法(BEMASK).该算法将关系数据表转换成面向机器的关系模型,数据处理被转换成粒度计算的方式,计算频繁项集变成了计算基本颗粒的交集.特别是数据的垂直Bitmap表示,在保证准确性不降低的情况下,一方面减少了I/O操作的次数,另一方面较大地提高了效率. 相似文献
20.
频繁闭合项目集的并行挖掘算法研究 总被引:2,自引:1,他引:2
频繁项目集挖掘因其在数据挖掘领域中的基础地位和广泛应用备受学术界和产业界的关注,用挖掘频繁闭合项目集代替挖掘频繁项目集是近年来提出的一个重要策略。不同于以往提出的挖掘所有频繁项目集的并行算法,本文针对频繁闭合项目集的特性及并行挖掘的特点,给出了共享存储器模型上(Shared Memory)基于频繁模式树(FP-tree)的挖掘频繁闭合项目集的并行算法(FCIPM)思想,提出了频繁闭合项目集直接判断法,性能分析表明所提技术对算法的性能提高起到了关键作用。 相似文献