期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

施秀升张东站《现代计算机》2011,(3):3-6,23

在分析现有的频繁模式树挖掘的经典算法FREQT和FreqtTree基础上,提出一种新的基于递推式右路径扩展的XML频繁模式树挖掘算法。该算法采用最右路径扩展的思想,利用递推式的候选节点集更新技术来压缩候选节点集,产生数量较少的候选模式,并且在计算候选模式树的支持数时,采用增量式技术,提高算法效率。从理论上证明该算法的正确性,并对通过具体实验验证算法的高效性。相似文献

2.

基于压缩结构树的XML数据频繁模式挖掘研究

下载免费PDF全文

曹洪其牛天耘孙志挥《计算机工程》2006,32(19):108-110

XML文档频繁模式挖掘是XML相关研究工作中的重要内容。在现有的频繁树结构挖掘算法WL的基础上，提出了一种高效的基于压缩结构树存储结构的XML数据频繁模式挖掘算法AFPMX_CST。该算法压缩了搜索空间，减少了扫描次数，相对于WL算法在时间效率和空间效率方面具有更加良好的性能。同时，该文进一步研究了将挖掘结果转换为相应的DTD格式的方法及过程。实验结果表明AFPMX_CST算法是可行和有效的。相似文献

3.

基于XML数据的频繁模式挖掘算法*

曹洪其牛天耘孙志挥《计算机应用研究》2007,24(1):116-119

结合XML文档的特点,采用XML数据模型XOEM和压缩结构树的存储结构,提出了一种高效的XML数据的频繁模式挖掘算法──AFPMX算法,并从理论和实验两方面证明了该算法是可行和有效的。相似文献

4.

基于序列前缀技术的XML频繁路径挖掘算法

张洁毛国君《计算机系统应用》2018,27(1):78-85

XML文档是半结构化数据,对其进行频繁路径挖掘可以分为两步：XML文档序列化和序列挖掘阶段. 现有的序列化方式将XML文档表示为Xpath路径集合,其中有大量的节点冗余;序列挖掘阶段采用的类Apriori算法需要多次扫描数据库并产生大量的候选集,采用的PrefixSpan算法会产生大量的投影数据库,占用较大的内存. 针对以往XML频繁路径挖掘算法存在的不足,本文提出一种高效的挖掘算法——基于序列前缀技术的XML频繁路径挖掘算法（PXFP,Prefix-based XML Frequent Path Mining Algorithm）. PXFP算法以广度优先方式遍历XML文档树并将每个节点表示为“节点：父节点”的形式,这种序列化的方式减少了节点冗余. 在序列挖掘阶段借鉴PrefixSpan 算法中前缀的概念,但不产生投影数据库,仅得到直接后缀（即前缀的子节点）,通过记录频繁子路径的位置信息逐渐扩大频繁模式的长度,位置信息的引入减少了对数据库的扫描. 实验结果表明,PXFP算法取得了比PrefixSpan算法更高的时间和空间效率. 相似文献

5.

XML数据流分页频繁子树挖掘研究 总被引：1，自引：0，他引：1

雷向欣杨智应黄少寅胡运发《计算机研究与发展》2012,49(9):1926-1936

随着XML数据流的广泛应用,从挖掘XML数据流中发现知识具有重要的理论与应用价值.相比其他频繁模式挖掘,大型XML文档与数据流的频繁子树挖掘面临困难:XML数据流不可能整体在内存解析;对XML数据流分段挖掘必须考虑XML数据的半结构化特征等.针对上述问题,提出数据流分页频繁子树挖掘模型Tmlist.Tmlist对XML数据流进行分页,管理跨页节点及频繁候选子树的跨页增长,逐页挖掘频繁子树;频繁候选子树的增长根据根节点层次由浅至深地在最右路径加入频繁候选节点,避免以低层次为根子树的重复性递归增长;对频繁候选子树采用子树拓扑序列和最右路径共同标识,子树的增长不需要对子树前缀进行匹配,省去前缀节点存储与匹配开销;以页面最小支持度对频繁候选子树按页筛选,子树按页面衰减度衰减支持度、剪枝.Tmlist在可控误差范围内降低频繁子树挖掘的空间消耗,提高内存利用率和挖掘效率. 相似文献

6.

一种挖掘XML文档频繁子树的方法 总被引：1，自引：0，他引：1

下载免费PDF全文

傅珊珊吴扬扬《计算机工程与科学》2007,29(10):65-67

本文主要研究从由带标签有序树构成的森林中挖掘嵌入式频繁子树,具体做法是：首先对XML文档进行预处理,生成最简结构树SST,然后从SST中挖掘出频繁子树。本文提出了SSTMiner算法,该算法针对TreeMiner算法存在的瓶颈问题,结合当前所处理的SST的结构特点进行改进,进一步提高了算法执行的效率。实验证明,本文提出的方法能够准确高效地
地挖掘出XML文档中的频繁子树。相似文献

7.

ESPM--频繁子树挖掘算法 总被引：13，自引：2，他引：13

朱永泰王晨洪铭胜汪卫施伯乐《计算机研究与发展》2004,41(10):1720-1727

随着互联网的发展,频繁模式的挖掘由频繁项集扩展到结构化数据：树和图．在这些结构上的挖掘工作被应用于更为复杂的领域,比如生物信息学、网络日志和XML文档．提出了一个新颖的算法：ESPM,以挖掘有序标号树中的频繁子树．不同于以往的工作,把树同构的判断工作放到了算法的晚期,从而减少了整个挖掘过程的时间开销．人工数据集和真实数据集上的实验都证明ESPM相较于其他算法的优越性．还提出了一些可能的改进．相似文献

8.

海量加密军用数据下的频繁项目集挖掘仿真

张志宏兰静《计算机仿真》2015,32(5)

军用加密数据为了达到保密的目的,人为设定了较多的加密规则,打破了数据之间常规的关联性.在进行军用数据挖掘建立关联规则时,由于数据关联规则被人为隐藏,递归生成关联条件模式树的过程中,传统的FP-tree算法挖掘算法,由于加密数据的关联复杂性,会递归生成大量条件模式树,导致后期挖掘过程占用了大量的挖掘算法资源,挖掘效率较低.提出基于改进FP-tree的海量加密军用数据下频繁项目集挖掘算法,依据海量加密军用数据下频繁项目集挖掘原理,在FP-tree 算法的基础上,依据预剪枝策略减少挖掘节点,通过单向有序FP-tree防止每次存储当前挖掘出的频繁项目集之前都需要超集检验,建立项目表格,避免递归生成条件模式树浪费资源.将提出的改进FP-tree算法应用到海量加密军用数据下频繁项目集的挖掘中,获取的实验结果说明,改进FP-tree算法在提高加密军用数据频繁项目集挖掘速度及准确率方面具有较高的优越性. 相似文献

9.

基于频繁叶模式的XML最大频繁查询模式挖掘算法

陈超祥丁健龙华成金林樵《计算机应用与软件》2009,26(6):85-87,197

在XML频繁查询模式挖掘稠密数据集、长数据集中,为克服项目集挖掘过程中挖掘的项目过多、不利于结果利用等问题,提出基于频繁叶模式的最大频繁查询模式挖掘算法MFRSTMiner。该算法通过构造频繁模式扩展森林,在扩展森林的叶节点中挖掘出最大频繁子树。试验结果表明该算法能够有效地挖掘动态事务集的最大频繁查询模式。相似文献

10.

基于二叉频繁模式树的医学图像关联规则挖掘

王立军宋余庆谢从华吕颖《计算机工程与应用》2006,42(13):182-184,229

医学图像的数据量是相当巨大的,挖掘医学图像中数据的关联关系就需要一种适合挖掘海量数据的挖掘算法。针对基于频繁模式树FP_TREE的关联规则算法在挖掘海量数据时占用大量内存的缺点,提出了一种基于二叉频繁模式树(FP_BTREE)的关联规则算法。该算法采用二叉树存储数据的技术来映射数据库中数据,以减少对数据库的访问次数。而且根据内存具体情况可以先求出先建立的二叉频繁模式树的频繁模式。解决了占用大量内存的缺点,适合挖掘医学图像海量数据集。此算法也为多棵二叉频繁模式树的并行计算打下基础。最后应用此算法提取医学图像数据集中隐含的关联信息。相似文献