首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
序贯模式挖掘评述   总被引:1,自引:0,他引:1  
1 引言数据挖掘(data mining)就是从大量不完全的、有噪声的、模糊的或者随机的实际应用数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。数据挖掘是知识发现的核心部分,而知识发现是在积累了大量数据后,从中识别出有效的、新颖的、潜在的、有用的及最终可以理解的知识,人们利用这些知识改进工作,提高效率和效益。  相似文献   

2.
序贯模式是时间相关数据库中存在的一种十分有用的知识模式,其发掘方法的研究有着十分重要的意义,本文给出了一种挖掘数据库中序贯模式的算法,通过认真地研究了挖掘过程中的中间及结果数据的存储结构,从而大大地减少了对数据库的扫描遍数,提高了算法的效率。  相似文献   

3.
提出了一个基于时间窗口的数据预处理算法.面向具体应用,根据已有知识,此算法可以智能化地滤去一些“噪声”数据.与一般的定义不同.本文所谓的“噪声”数据是指那些由一些已知的规则决定性地影响着的数据,研究显示它们会对进一步的数据挖掘形成极大干扰.实际测试结果表明,本算法能够改善一些已有数据挖掘算法的执行效果.  相似文献   

4.
一种高效的挖掘序贯模式的算法   总被引:1,自引:0,他引:1  
本文给出了一种挖掘数据库中序贯模式的算法,通过认真地研究了挖掘过程中的中间及结果数据的存储结构,大大地减少了对数据库的扫描遍数,提高了算法的效率。  相似文献   

5.
序贯模式是数据挖掘领域的重要研究课题之一.鉴于目前国内外在此方面的研究主要是集中在对交易数据的分析处理上,而从数据挖掘本身的角度考虑,交易数据库与常用的关系数据库两者之间却存在着很大的差异,这就要求新的挖掘算法与之相适应.本文针对如何从一般关系数据库中进行序贯模式的知识发现问题做了初步的研究和探讨,并在此基础上形成了一种基于时间窗口的序贯模式挖掘算法TW_SP.  相似文献   

6.
一种改进的序贯最小优化算法   总被引:1,自引:0,他引:1  
序贯最小优化(SMO)算法是目前解决支持向量机训练问题的一种十分有效的方法,但是当面对大样本数据时,SMO训练速度比较慢。本文分析了SMO迭代过程中目标函数值的变化情况,进而提出以目标函数值的改变量作为算法终止的判定条件。几个著名的数据集的试验结果表明,该方法可以大大缩短SMO的训练时间,特别适用于大样本数据。  相似文献   

7.
基于预聚类技术的并行序贯模式挖掘算法   总被引:3,自引:0,他引:3       下载免费PDF全文
本文讨论了在并行序贯模式数据挖掘方面采用“预聚类并行序贯模式挖掘”的策略,对数据序列聚类后按不同的类分布到不同的并行节点上,以减少甚至消除不必要的通讯开销,以便能够提高并行序贯模式挖掘在集群式高性能计算机上的执行效率。  相似文献   

8.
关联规则的序贯抽样算法比较研究   总被引:2,自引:0,他引:2  
关联规则发现是数据挖掘的核心技术,其中最经典的算法是Apriori算法。Apriori算法创建模型的方法是一次性抽样的方法。这种机器学习中传统而主流的建模技术,通常需要大量的样本量,这无疑会导致算法执行效率低下。最近几年,一些自适应的抽样建模方法逐渐得到重视,其中CarlosDomingo眼3演提出的基于序贯抽样理论的可升级性算法是其中之一,这一方法为用更少的资源建立稳健且不断更新的模型提出了新的思路。文章首先比较序贯抽样算法与传统的一次性抽样算法在关联规则中发现中的不同,接着论述将序贯抽样算法与Apriori算法结合同时达到节省空间和样本量的APASAR算法,最后通过模拟比较三种不同算法的执行效果。  相似文献   

9.
基于序贯频繁模式挖掘,提出并实现了一种宏观网络流量异常检测的方法。定义了一个新的频繁模式和相对应的异常度概念。对863-917网络安全监测平台提供的全国流量数据进行了实验,得出对应于“橙色八月”的2006年8月上旬流量严重异常的结论。通过与相关的其他传统算法进行对比,如使用绝对流量的算法和简单使用不同小时流量排名的算法,进一步说明序贯频繁模式对网络流量分析的实用性。  相似文献   

10.
虽然线性规划方法处理正规型零和博弈均衡问题有其独特的优点,但对零和序贯博弈均衡问题的求解却无能为力,而常用的逆向归纳法求解该类问题也有其固有的不足。鉴于上述原因,首先在序贯型博弈中定义了行动序列和实现概率等概念并给出相关定理。在此基础上,结合线性规划的思想,推出了求解二人零和序贯博弈均衡的新算法。该算法的目的是把序贯型博弈纳什均衡求解问题转化为线性规划问题,然后通过使用现成的线性规划软件(比如LINDO/LINGO软件)进行求解。该算法对解决该类问题提供了新的途径,具有一定的理论价值和实用价值。最后的算例对比分析说明了算法的可行性和有效性。  相似文献   

11.
数据挖掘中数据预处理的研究与实现   总被引:18,自引:1,他引:17  
数据预处理将原始的真实数据库转换成适于数据挖掘的挖掘数据库,为挖掘算法更好的实现以及挖掘结果形象的显示打下了良好的基础。针对结构化数据讨论了数据预处理的两个目标:消除现实数据库中的数据缺陷;为数据挖掘做准备。并在此基础上,介绍了数据挖掘软件KDD中数据预处理技术的实现。  相似文献   

12.
针对变值数据环境下的序列模式挖掘问题进行研究,提出一种针对变值数据的约束(ACV约束),用于表达用户在变值数据环境下对序列模式聚集特征的要求。在此基础上,提出一种基于ACV约束的序列模式挖掘算法,利用ACV约束的性质有效削减搜索空间。在用IBM数据生成器产生的序列数据以及真实数据上的实验结果表明,该算法能够有效利用ACV约束对无用的候选序列模式进行剪枝,减少冗余的搜索空间并提高挖掘效率。  相似文献   

13.
带时间特征的序列模式挖掘算法TESP   总被引:4,自引:0,他引:4  
朱立运  朱建秋 《计算机工程》2004,30(10):51-53,95
引入序列模式时间特征的概念,并提出了一个带时间约束的序列模式挖掘算法,称做TESP(Time-enriched Sequential Pattern mining),该算法在找出模式的同时,也给出了序列模式的时间特征,并且允许用户在挖掘之前对模式的这些时间特征进行限制,提高了序列模式挖掘的灵活性和有用性。  相似文献   

14.
动态划分序列模式挖掘算法   总被引:1,自引:0,他引:1  
在对海量数据进行序列模式挖掘时,由于产生的候选序列数量大并且需要反复遍历数据库,会带来存储受限及时效性问题.为此,基于无共享分布式环境,提出一种动态划分序列模式挖掘算法DPSPM.通过分布数据降低数据库扫描的规模,降低I、O开销,使用分派函数指定选举节点,降低通信开销,设计动态列表存储候选序列,降低内存开销,多个子过程异步运行,提高算法的执行效能.实验结果表明,DPSPM算法在较小支持度情况下对中大型数据库有较好的搜索效率.  相似文献   

15.
基于模糊集理论,挖掘带有数量属性的序列模式称为模糊序列模式挖掘。源于AprioriAll算法的模糊序列模式挖掘算法需多次扫描数据库。针对该缺点,提出一种基于序列矩阵表示且只需扫描一次数据库的算法MFSPM。实验表明,算法效率有明显提高。  相似文献   

16.
In this paper, we deal with mining sequential patterns in multiple time sequences. Building on a state-of-the-art sequential pattern mining algorithm PrefixSpan for mining transaction databases, we propose MILE (MIning in muLtiple sEquences), an efficient algorithm to facilitate the mining process. MILE recursively utilizes the knowledge of existing patterns to avoid redundant data scanning, and therefore can effectively speed up the new patterns’ discovery process. Another unique feature of MILE is that it can incorporate prior knowledge of the data distribution in time sequences into the mining process to further improve the performance. Extensive empirical results show that MILE is significantly faster than PrefixSpan. As MILE consumes more memory than PrefixSpan, we also present a solution to trade time efficiency in memory constrained environments.
Xingquan ZhuEmail:
  相似文献   

17.
针对现有Web访问序列模式挖掘算法和PrefixSpan算法存在的问题,提出一种基于投影位置的Web访问序列模式挖掘算法(PWSPM)。该算法通过序列模式分析,发现用户的行为模式,预测用户对网页的访问模式,进而改进站点的性能和组织结构,提高用户查找信息的质量和效率,以及对用户开展个性化的信息服务。实验和应用结果表明,提出的算法具有更好的执行效率,适用于Web日志挖掘,可用于构建智能化Web站点和解决个性化的信息服务问题。  相似文献   

18.
在加权序列模式挖掘中,基于候选码生成-测试方法的MWSP是目前应用性最好的算法之一,然而在挖掘过程中容易出现候选组合爆炸的情况,为此文章提出了一种高效的加权序列模式挖掘算法(PWSM)。PWSM算法引入k-最小加权支持数概念并利用前缀投影数据库原理有效地避免了候选组合爆炸的发生,并且在挖掘的过程中充分利用最小加权支持数,再次对算法进行优化。实验表明,该算法较MWSP算法能更加有效地从序列数据库中挖掘加权序列模式。  相似文献   

19.
序列模式数据挖掘算法的并行化研究   总被引:1,自引:0,他引:1  
王宗江 《计算机科学》2008,35(8):249-251
序列模式在许多领域都有着重要的应用,大量的数据和模式需要高效的、可扩展的并行算法.针对目前序列模式挖掘算法存在的普遍问题,在对串行序列模式数据挖掘算法研究的基础上,本文提出了一种并行的序列模式数据挖掘算法.通过理论分析与实验验证可知:该并行数据挖掘算法,在海量数据的情形下,能很好地提高数据挖掘的效率.  相似文献   

20.
关联规则挖掘向来是数据挖掘的一个重要领域,挖掘算法也层出不穷.本文在深入分析了FP树特性的基础上,改进了FP树构造过程,通过一次扫描事务数据库生成FP树.缩短了关联规则挖掘时间,提高了效率,实验验证了其有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号