共查询到17条相似文献,搜索用时 578 毫秒
1.
2.
本文研究如何快速有效地从XML数据中挖掘频繁模式,提出了从XML数据中挖掘频繁模式的增量式算法FreqtTree.该算法首先将XML文档转化成DOM树,然后从DOM树中挖掘所有频繁模式.FreqtTree算法采用最右扩展技术,对DOM树仅遍历一次,因此具有很高的效率.在此基础上详细描述了基于DOM树的关联规则挖掘算法DFreqtTree.最后将本文提出的算法用Java语言实现,并进行性能分析,结果表明算法是高效可行的. 相似文献
3.
通过对关联规则挖掘技术及经典算法Apriori和FP-growth的研究和分析,提出了一种改进的频繁项集挖掘算法。该算法利用矩阵存储数据,并结合矩阵运算求项集的支持数,有效减少了事务数据库的扫描次数;利用有序频繁项目邻接矩阵创建频繁模式树,有效减少了频繁模式树的分支和层数。通过实例分析了频繁项集的挖掘过程。 相似文献
4.
基于核矩阵学习的XML文档相似度量方法 总被引:6,自引:0,他引:6
XML文档作为一种新的数据形式,成为当前的研究热点.XML文档间相似度的计算是XML文档分析、管理及文本挖掘的基础.结构链接向量模型(structuredlink vector model,简称SLVM)是一种综合考虑XML文档结构信息与内容信息进行XML文档相似度量的方法.体现XML文档结构单元关系的核矩阵在结构链接向量模型中扮演着重要角色.为自动捕获XML文档结构单元关系,提出了两种核矩阵的学习算法,分别是基于支持向量机(support vector machine,简称SVM)的回归学习算法和基于矩阵迭代的学习算法.相似搜索实验对比结果表明,基于核矩阵学习方法的XML文档相似度量方法的准确性明显优于其他方法.进一步实验表明,基于矩阵迭代学习的核矩阵学习算法与基于支持向量机的回归学习算法相比,不仅具有更高的准确性,而且所需训练文档更少、计算代价更小. 相似文献
5.
6.
7.
基于关系矩阵的关联规则增量式更新 总被引:2,自引:0,他引:2
关联规则是当前数据挖掘研究的主要模式之一.本文提出了一种高效的增量式关联规则的挖掘算法USLIG,以处理当最小支持度改变时相应的关联规则的更新问题.该算法通过构建向量之间的关系矩阵,将频繁项目集的产生过程转化为项目集的关系矩阵中向量的运算过程,能充分利用以前的挖掘结果,只需扫描比数据库小得多的向量,克服了IUA及相关算法需多次扫描数据库的缺点. 相似文献
8.
传统频繁项集挖掘算法的执行效率较低。提出了一种基于矩阵与前缀树的频繁项集挖掘算法MPFI,能快速地挖掘事务数据库中的频繁项集。MPFI算法只需扫描事务数据库一次,构建垂直方向的二进制矩阵,应用二进制位向量表达频繁项集信息,利用前缀树压缩存储频繁项集的相关信息,不产生候选项集。理论分析与实验结果表明,MPFI算法能有效地提高频繁项集挖掘效率。 相似文献
9.
针对负关联规则中非频繁项集的生成问题,将向量内积引入到该领域.通过对事务数据库的布尔化表示及对数据存储结构的合理分配,提出了一种新的非频繁项集快速生成算法.该算法首先将布尔化所得矩阵中的向量进行内积运算,通过逐层递增的思想,用两级支持度模型来约束非频繁项集与频繁项集的产生,使非频繁项集不仅可由频繁项集之间连接产生,而且... 相似文献
10.
在空间拓扑关联挖掘中,为提取包含指定空间布局关系的拓扑关联规则,提出一种基于空间布局约束的拓扑关联规则挖掘算法,该算法能够在多空间关系模式下,挖掘包含空间布局约束的拓扑关联规则,将空间关系事务转换成整数,通过空间布局约束重构非目标空间对象类的权值向量,用重构权位值递减构建候选频繁项,并用布尔运算计算其支持数。实验结果表明,与传统挖掘算法相比,该算法的挖掘速度更快、更有效。 相似文献
11.
在XML频繁查询模式挖掘稠密数据集、长数据集中,为克服项目集挖掘过程中挖掘的项目过多、不利于结果利用等问题,提出基于频繁叶模式的最大频繁查询模式挖掘算法MFRSTMiner。该算法通过构造频繁模式扩展森林,在扩展森林的叶节点中挖掘出最大频繁子树。试验结果表明该算法能够有效地挖掘动态事务集的最大频繁查询模式。 相似文献
12.
13.
14.
研究基于频繁结构的XML文档聚类方法,其频繁结构包括频繁路径和频繁子树。首先介绍一种挖掘XML文档中所有嵌入频繁子树的算法SSTMiner,对SSTMiner算法进行修改,得到FrePathMiner算法和FreTreeMiner算法,分别用于挖掘XML文档中最大频繁路径和最大频繁子树,在此基础上,提出一种凝聚的层次聚类算法XMLCluster,分别以最大频繁路径和最大频繁子树作为XML文档的特征,对文档进行聚类。实验结果表明FrePathMiner算法和FreTreeMiner算法找到频繁结构的数量都比传统的ASPMiner算法多,这就可以为文档聚类提供更多的结构特征,从而获得更高的聚类精度。 相似文献
15.
16.
17.
《Journal of Parallel and Distributed Computing》2001,61(3):350-371
In this paper we propose algorithms for generation of frequent item sets by successive construction of the nodes of a lexicographic tree of item sets. We discuss different strategies in generation and traversal of the lexicographic tree such as breadth-first search, depth-first search, or a combination of the two. These techniques provide different trade-offs in terms of the I/O, memory, and computational time requirements. We use the hierarchical structure of the lexicographic tree to successively project transactions at each node of the lexicographic tree and use matrix counting on this reduced set of transactions for finding frequent item sets. We tested our algorithm on both real and synthetic data. We provide an implementation of the tree projection method which is up to one order of magnitude faster than other recent techniques in the literature. The algorithm has a well-structured data access pattern which provides data locality and reuse of data for multiple levels of the cache. We also discuss methods for parallelization of the TreeProjection algorithm. 相似文献