期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

<正> “人类正在被数据淹没,但人类却饥饿于知识”。信息爆炸、信息泛滥是当今数字化社会所面临的一个巨大的挑战。据估计,全世界的数据总量每18个月就要翻一番,以目前社会的信息化和自动化发展趋势来看,这个速度还会更快。由于科学的进步和技术的发展,越来越多的先进技术、仪器和工具被广泛地应用于政府、商业、工业及科学等部门。科学相似文献

8.

数据挖掘技术及应用 总被引：1，自引：0，他引：1

邵华《软件工程师》2000,(1):62-64

<正> 基本概念知识发现(Knowledge Discovery in Database)是使用数据挖掘来抽象或识别知识的过程。数据库中的知识发现过程并不是一个琐碎无用的过程,它的每个过程都很重要——是在数据中获取并验证正确的、新奇的、潜在有用的和最终可理解的模相似文献

9.

数据挖掘与组合学习 总被引：12，自引：2，他引：12

刁力力胡可云等《计算机科学》2001,28(7):73-78

一、概述数据挖掘是信息爆炸问题的一种解决方案。在数据挖掘中,分类预测是最基本的任务之一。组合学习器是分类预测器的集合,这些分类器的单独决策被以某种方式组合起来(典型的方法是通过加权或无权重投票)以给新样本分类。实验表明,组合方法在多数情况下比单个分类预测方法要精确。因此,在数据挖掘中引相似文献

10.

数据挖掘管理系统 总被引：14，自引：0，他引：14

林杰薛华成《微型电脑应用》2000,16(11):13-15,23

本文分析了数据挖掘的常用技术和分析方法,详细探讨了数据挖掘过程,在此基础上,设计了一个由多模型构成的数据挖掘管理系统的一般框架,其能支持数据挖掘分析的全过程。相似文献

11.

基于频繁链表的频繁集的挖掘算法 总被引：4，自引：0，他引：4

袁鼎荣张师超《计算机科学》2003,30(7):165-166

自从1989年提出KDD以来,关联规则的挖掘一直是人工智能及数据库领域关注的焦点,尤其是项目决策者渴求的制胜法宝。挖掘关联规则的前提是频繁集的挖掘,目前典型的频繁集挖掘算法以Appriori算法为代表。在Appriori算法的基础上提出了一些可行的方法,所有这些算法不外乎达到两个目的:①在穷举的基础上,设法删除对关联规则不太有效的频繁集,减少候选频繁集的数量,达到提高挖掘算法性能的目的。②直接挖掘最大频繁集,以最大频繁集为基础挖掘感兴趣相似文献

12.

一种直接在Trans-树中挖掘频繁模式的新算法 总被引：5，自引：1，他引：5

范明王秉政《计算机科学》2003,30(8):117-120

Frequent pattern mining plays an essential role in many important data mining tasks. FP-growth is a very efficient algorithm for frequent pattern mining. However, it still suffers from creating conditional FP-tree separately and recursively during the mining process. In this paper, we propose a new algorithm, called Least-Item-First Pat-tern Growth (LIFPG), for mining frequent patterns. LIFPG mines frequent patterns directly in Trans-tree withoutusing any additional data structures. The key idea is that least items are always considered first when the current pat-tern growth. By this way, conditional sub-tree can be created directly in Trans-tree by adjusting node-links and re-counting counts of some nodes. Experiments show that, in comparison with FP-Growth, our algorithm is about fourtimes faster and saves half of memory;it also has good time and space scalability with the number of transactions,and has an excellent performance in dense dataset mining as well. 相似文献

13.

基于矩阵的频繁模式挖掘及更新算法

何海涛张世玲《计算机科学》2008,35(3):200-202

频繁模式挖掘在数据挖掘领域已经有广泛的应用.然而,对于增量更新频繁模式挖掘研究得不是很多.本文提出了一种新颖的增量更新频繁模式树结构(IUNP_Tree),构建它只需要对数据库扫描一次.此外,提出了基于条件矩阵(conditional matrix)的频繁模式挖掘算法(FPBM_Mine)和增量更新算法INUPA,可以有效地处理数据库的增量更新问题.实验表明,该算法是有效的,并且运行效率高于FP-growth算法. 相似文献

14.

A Pattern Decomposition Algorithm for Data Mining of Frequent Patterns

Qinghua Zou Wesley Chu David Johnson Henry Chiu 《Knowledge and Information Systems》2002,4(4):466-482

Efficient algorithms to mine frequent patterns are crucial to many tasks in data mining. Since the Apriori algorithm was proposed in 1994, there have been several methods proposed to improve its performance. However, most still adopt its candidate set generation-and-test approach. In addition, many methods do not generate all frequent patterns, making them inadequate to derive association rules. We propose a pattern decomposition (PD) algorithm that can significantly reduce the size of the dataset on each pass, making it more efficient to mine all frequent patterns in a large dataset. The proposed algorithm avoids the costly process of candidate set generation and saves time by reducing the size of the dataset. Our empirical evaluation shows that the algorithm outperforms Apriori by one order of magnitude and is faster than FP-tree algorithm. Received 14 May 2001 / Revised 5 September 2001 / Accepted in revised form 26 October 2001 Correspondence and offprint requests to: Qinghua Zou, Department of Computer Science, California University–Los Angeles, CA 90095, USA. Email: zou@cs.ucla.eduau 相似文献

15.

一种基于拓扑信息的物流频繁路径挖掘算法

杨俊瑶蒙祖强蒋亮《计算机科学》2015,42(4):258-262

为了高效地从海量物流数据中获取频繁路径,根据物流网络及物流的特征设计了一种物流数据模型以及一种充分考虑了物流网络拓扑信息的频繁路径序列挖掘算法PMWTI(Path Mining With Topology Information).在PMWTI中设计了一种用于候选路径序列深度剪枝的代价容忍度剪枝方法,该方法在利用Apriori性质剪枝的基础上进一步去除了部分不可能是频繁路径序列的候选路径序列,这在一定程度上缩减了候选路径序列规模,从而减少了对数据集的扫描.实验表明,相比没有采用该剪枝方法的同等算法,PMWTI具有更高的频繁路径挖掘效率. 相似文献

16.

一种基于逻辑的频繁序列模式挖掘算法

刘端阳冯建李晓粉《计算机科学》2015,42(5):260-264

传统的类Apriori频繁序列模式挖掘算法都是基于支持度框架理论,需要预先设定支持度阈值,而这通常需要较深的领域知识或大量的实践,因此目前仍没有一种很好的设定方法.同时,序列模式的挖掘结果往往数量很大且不易理解,可用性较低.针对上述问题,提出了一种基于逻辑的频繁序列模式挖掘算法即LFSPM算法,并首次在频繁序列模式挖掘算法中引入了逻辑的思想,通过逻辑规则过滤,大大优化了结果集.实验证明,该算法较好地解决了支持度设置问题及挖掘结果可理解性不高的问题. 相似文献

17.

一种基于关系数据库的频繁项集挖掘算法 总被引：3，自引：0，他引：3

王治和《计算机科学》2006,33(9):159-160

频繁项集的挖掘是数据挖掘中的一个十分重要的组成部分，目前对于事务数据库频繁项集的挖掘算法研究较多。本文根据事务数据库中布尔型频繁项集挖掘的理论和方法，再结合关系数据库的特殊性，利用标准SQL语言提出了一种新的在关系数据库中挖掘频繁项集的简易算法。实验证明该算法具有较高的效率。相似文献

18.

一种新的工作流频繁模式挖掘算法研究

高昂杨扬王玥薇《计算机科学》2009,36(9):231-233

为了提高工作流模型挖掘技术的准确性,提出了一种新的工作流频繁模式挖掘算法.首先,阐述了工作流模型依赖矩阵的定义,并利用工作流日志建立了依赖矩阵.然后采用活动间的依赖关系作为频繁项集,设计了一种基于依赖矩阵的频繁项集自动生成算法.最后对频繁项集进行处理,得到最终的工作流频繁模式.该算法能够处理活动间交叠关系和具有串、并行关系的工作流模型,因此更具优越性. 相似文献

19.

高效隐私保护频繁模式挖掘算法研究 总被引：1，自引：0，他引：1

程舒通徐从富但红卫《计算机科学》2015,42(4):194-198

阐述了隐私保护数据挖掘的目标,即在获取有效的数据挖掘结果的同时,满足用户对隐私保护的要求.针对个体用户及组织用户的隐私保护,论述了不同的方法,并归纳出隐私保护数据挖掘中所采用的两种主流算法.改进了高效隐私保护关联规则挖掘算法(EMASK)中需要完全的数据库扫描并且进行多次比较操作的弊端,提出了基于粒度计算的高效隐私保护频繁模式挖掘算法(BEMASK).该算法将关系数据表转换成面向机器的关系模型,数据处理被转换成粒度计算的方式,计算频繁项集变成了计算基本颗粒的交集.特别是数据的垂直Bitmap表示,在保证准确性不降低的情况下,一方面减少了I/O操作的次数,另一方面较大地提高了效率. 相似文献

20.

频繁闭合项目集的并行挖掘算法研究 总被引：2，自引：1，他引：2

缪裕青《计算机科学》2004,31(5):166-168

频繁项目集挖掘因其在数据挖掘领域中的基础地位和广泛应用备受学术界和产业界的关注,用挖掘频繁闭合项目集代替挖掘频繁项目集是近年来提出的一个重要策略。不同于以往提出的挖掘所有频繁项目集的并行算法,本文针对频繁闭合项目集的特性及并行挖掘的特点,给出了共享存储器模型上(Shared Memory)基于频繁模式树(FP-tree)的挖掘频繁闭合项目集的并行算法(FCIPM)思想,提出了频繁闭合项目集直接判断法,性能分析表明所提技术对算法的性能提高起到了关键作用。相似文献