首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
基于频繁结构的XML文档聚类   总被引:1,自引:1,他引:0       下载免费PDF全文
研究基于频繁结构的XML文档聚类方法,其频繁结构包括频繁路径和频繁子树。首先介绍一种挖掘XML文档中所有嵌入频繁子树的算法SSTMiner,对SSTMiner算法进行修改,得到FrePathMiner算法和FreTreeMiner算法,分别用于挖掘XML文档中最大频繁路径和最大频繁子树,在此基础上,提出一种凝聚的层次聚类算法XMLCluster,分别以最大频繁路径和最大频繁子树作为XML文档的特征,对文档进行聚类。实验结果表明FrePathMiner算法和FreTreeMiner算法找到频繁结构的数量都比传统的ASPMiner算法多,这就可以为文档聚类提供更多的结构特征,从而获得更高的聚类精度。  相似文献   

2.
基于划分的XML文档聚类研究   总被引:1,自引:0,他引:1  
本文在文本聚类的基础上对XML文档聚类进行了研究,对划分聚类法进行了改进,使之适合于XML文档聚类.最后通过路径划分聚类算法根据频繁结构对XML文档进行挖掘聚类,并对实验结果进行讨论.  相似文献   

3.
Web文档聚类是Web挖掘的一个重要研究方向。现有的挖掘算法得到的频繁模式不仅维数高,而且不能很好反映文档表达的语义信息。为了得到更精确的聚类结果,本文提出一种基于句子级的最大频繁单词集挖掘方法来挖掘文档特征项。在此基础上,先初步聚类后依据类间距离和类内链接强度阈值合并或拆分类,最终实现文档聚类。在此过程中,使用可变精度粗糙集模型计算每个类的特征向量。实验结果表明,本文提出的算法优于传统的文档聚类算法。  相似文献   

4.
在关键字查询领域,目前提出的大多数索引结构主要考虑的是静态的XML文档.当XML文档出现频繁更新时,这些索引结构可能面临着大范围的重新编码,从而增加了数据库索引维护的代价.为了能在XML文档动态更新的环境下保持其索引结构的稳定,提出了一种支持动态XML文档上关键字查询的索引结构DLSS( DDE Level Structure Summary).该索引结构采用了一种针对动态更新改进的Dewey编码,该编码只需在文档更新时对新的节点赋予相应的编码,而不需要调整原有的编码结构.实验证明,DLSS索引结构可以在XML文档频繁更新或者较少更新时都能保持索引结构的相对稳定,并能在其上实现较高的关键字查询效率.  相似文献   

5.
郑小慎 《计算机应用》2006,26(4):875-877
提出了基于频繁特征项集的文档聚类方法。对预处理后的文档,通过Apriori算法找出文档频繁特征项集,依据其子集中频繁特征词语对相关文档进行聚类,该方法能够有效降低特征项的维数,并能够通过频繁特征词语集合对聚类后的类别进行适当的描述。  相似文献   

6.
一种基于XML文档聚类的XML近似查询算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出了一种基于XML文档聚类的XML近似查询算法。给出了基于语义的XML文档间距离的计算方法,结合该语义距离,提出了基于网格的八邻域聚类算法对XML数据库进行聚类划分,进而利用在聚类过程中得到的聚类中心对静态有序选择算法的近似查询评估阶段进行优化,使得不用对XML数据库进行完全遍历就能及时返回满足用户需要的查询结果。最后,在汽车外形智能化设计的实验中表明该算法有效地提高了静态有序选择算法的查询效率。  相似文献   

7.
XML结构聚类     
郝晓丽  冯志勇 《计算机应用》2005,25(6):1398-1400
针对当前XML文档结构聚类算法的一些不足,提出采用段匹配的概念来计算两棵XML文档树中的路径相似性,并在此基础上得出两棵树整体的相似度量。在整个聚类过程中,算法还把一组相关文档与一个XML聚类代表相关联,该聚类代表就包含了一个文档集合中所有文档的最相关的特征。为了构建聚类代表,算法通过构造最佳匹配树,合并树,修剪树三步来实现。通过比较聚类代表,发现新的聚类时更新聚类代表来完成文档聚类。实验结果就充分展现了算法的有效性。  相似文献   

8.
基于结构与文本关键词相关度的XML网页分类研究   总被引:9,自引:0,他引:9  
针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法.算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类.实验证明该分类算法具有比较高的分类查全率和查准率,能够较好地解决XML文档同时属于多个类的问题.  相似文献   

9.
基于量子遗传算法的XML聚类方法   总被引:1,自引:0,他引:1  
主要用模式分析的核方法与量子遗传算法相结合研究XML聚类,提出了一种基于量子遗传算法混合核聚算法的XML文档聚类新方法。该方法先对XML文档约简,以频繁标签序列建立向量空间核的核矩阵,用高斯核函数求解初始聚类和聚类中心,然后用初始聚类中心构造量子遗传算法的初始种群,通过量子遗传算法与核聚算法相结合求得全局最优解的聚类。实验结果表明,使用该算法的聚类比改进的核聚算法、K均值算法等单一方法具有良好的收敛性、稳定性和更高的全局最优。  相似文献   

10.
将集成学习方法应用到XML文档聚类中来改进传统聚类算法的不足。提出一种标签与路径相结合的XML文档向量模型,基于这个模型,首先对原始文档集进行多次抽样,在新文档集上进行K均值聚类,然后对得到的聚类中心集合进行层次聚类。在人工数据集和真实数据集上的实验表明,该算法在召回率和精确率上优于K均值算法,并且增强了其鲁棒性。  相似文献   

11.
Recently, there is an increasing research efforts in XML data mining. These research efforts largely assumed that XML documents are static. However, in reality, the documents are rarely static. In this paper, we propose a novel research problem called XML structural delta mining. The objective of XML structural delta mining is to discover knowledge by analyzing structural evolution pattern (also called structural delta) of history of XML documents. Unlike existing approaches, XML structural delta mining focuses on the dynamic and temporal features of XML data. Furthermore, the data source for this novel mining technique is a sequence of historical versions of an XML document rather than a set of snapshot XML documents. Such mining technique can be useful in many applications such as change detection for very large XML documents, efficient XML indexing, XML search engine, etc. Our aim in this paper is not to provide a specific solution to a particular mining problem. Rather, we present the vision of the mining framework and present the issues and challenges for three types of XML structural delta mining: identifying various interesting structures, discovering association rules from structural deltas, and structural change pattern-based classification.  相似文献   

12.
Recently, there is an increasing research efforts in XML data mining. These research efforts largely assumed that XML documents are static. However, in reality, the documents are rarely static. In this paper, we propose a novel research problem called XML structural delta mining. The objective of XML structural delta mining is to discover knowledge by analyzing structural evolution pattern (also called structural delta) of history of XML documents. Unlike existing approaches, XML structural delta mining focuses on the dynamic and temporal features of XML data. Furthermore, the data source for this novel mining technique is a sequence of historical versions of an XML document rather than a set of snapshot XML documents. Such mining technique can be useful in many applications such as change detection for very large XML documents, efficient XML indexing, XML search engine, etc. Our aim in this paper is not to provide a specific solution to a particular mining problem. Rather, we present the vision of the mining framework and present the issues and challenges for three types of XML structural delta mining: identifying various interesting structures, discovering association rules from structural deltas, and structural change pattern-based classification.  相似文献   

13.
XML文档相似性的仿真研究   总被引:1,自引:0,他引:1  
XML文档相似性的计算是XML文档分类中的一个难题。文中描述了一种基于结构的方法,通过序列化模式挖掘方法,挖掘出两个文档之间的最大相似路径,从而可以通过计算最大相似的路径的节点数目和所有路径的节点数目的比值,得到两个文档之间的相似度。文章提出了一种新的最小化XML文档的方法,并且综合考虑了文档节点的语义相似度和结构相似度,从而进一步地提高了计算文档相似度的精度。实验表明,该方法有着良好的应用前景。  相似文献   

14.
针对XRel模式无法有效支持动态XML文档存储的问题,在区间编码的基础上,引入向量方法提出一种支持XML文档动态更新的编码方案——NewDietz,设计可以存储NewDietz编码元素的关系模式,并给出新元素在关系模式下的更新方法。新模式既保证新元素的有效存储,又兼顾动态XML文档从该模式中重组需要对元素进行祖先-后裔判断的问题。为验证新模式的实际应用效果,开发一个水利空间数据存储与展示模块,并对空间数据分别采用2种存储模式进行验证。对比结果表明,新模式明显提升XML文档在关系数据库中的存储效率,并有效支持XML文档的动态更新,为基于XML的水利业务数据在关系数据库中的高效存储提供一种可能。  相似文献   

15.
保持数据约束的关系数据库至XML文档的转换   总被引:2,自引:0,他引:2  
XML已成为Internet上的技术趋势,在保留原有关系数据库的同时发展XML文档是目前的最佳选择,它需要在保持数据依赖约束基础上实现关系数据库与XML文档的转换.这一过程中,模式转换必须先于数据转换,因为现有的关系数据库通常是规范化的,重建XML文档树结构才能实现这一转换.为了达成此目的,首先依据已有的数据依赖约束将规范化的关系联合进一组表格,实现反向规范化,然后将这些联合表格映射为一组DOM,归并成XML文档树,根据用户选择的根结点,以及与它相连的结点形成一个期望的局部文档树,被选的XML文档树又映射为DTD格式的XML模式.这样就可以将联合表映射成一组DOM,并将其归并成单一DOM,最终转换成XML文档.  相似文献   

16.
目前XML工具的编辑能力不足以保证生成有效的XML文档,缺乏对文档模式的合理利用。而由XMLSchema定义的文档模式,不仅提供了有效性验证标准,同时蕴含了生成有效XML文档的准则。本文提出了一种生成有效XML文档的方法。该方法基于XML文档模式图定义不同节点的操作集合,以及该操作集合上的计算和相应操作语义,并分析论证了该方法本身的有效性。  相似文献   

17.
基于PCA的XML文档特征提取方法   总被引:1,自引:0,他引:1  
郭丽红  王箭 《计算机工程与设计》2011,32(11):3894-3896,3911
为了更好地对XML文档进行分类或聚类分析,以主成分分析的理论基础为指导,在研究了文本表示的各种模型的基础上,提出了两种对XML文档进行向量化表示并进行特征提取的方法,同时也实现了对XML文档的有效降维。实验结果表明,两种方法都能有效地表示XML文档的主体特征,但全路径特征向量抽取方法能更好地描述XML信息,为下一步有效处理XML文档做了良好铺垫,具有一定的研究价值。  相似文献   

18.
基于XML文档的图书信息XQuery查询技术   总被引:2,自引:0,他引:2  
魏衍君  何洁月 《微机发展》2004,14(4):43-44,47
XML与HTML相比在数据管理和格式化组织上具有更大的优越性,XQuery能够有效地查询和处理XMI文档。为了查询网上基于XML文档的图书信息,文章设计了一些统一格式的XML文档作为图书信息的数据源,利用XQuery技术,将XQuery查询程序嵌入实现格式控制的JAVA程序中,JAVA程序可以调用并运行XQuery查询程序,查询的结果保存到一个XML文件中,将查询得到的XML文档转换成需要的格式输出给用户。初步实验证明这种方法是可行的并具有较强的实用性,为实现网上基于XML文档的信息查询提供了技术基础。  相似文献   

19.
随着XML在各个领域的广泛应用,XML数据规模急剧增加,查询处理也日趋复杂。集中式环境由于单机存在的I/O瓶颈问题,在处理日益复杂的查询操作时已渐渐不能满足应用需求。因此,高性能的并行数据库在XML处理方面的研究,必将为XML数据库的。存储和查询处理带来新的曙光。本文讨论了一种对XML文档的基于节点轮循法进行分片的设计原理及实现算法。实验结果证明该方法具有很好的加速比和缩放比性能。  相似文献   

20.
概率XMI、是描述不确定数据的有效方式,Dcwcy编码是一种重要的XMI、文档关键字索引编码技术。在概率XML大文档关键字索引检索过程中,频繁地比较关键字索引Dewey编码非常耗时。针对上述问题,对概率XML文档进行分区,并设计了适合概率XML文档特点的关键字索引的Dewey编码策略,提出了一种概率XML文档Top-k关键字并行检索算法PTKS(Parallcl Top-k Keyword Scarch Algorithm)。实验证明,P"I'KS提高了概率XM工文档关键字检索的时间效率,尤其在文档结构复杂度高的情况下检索效率提高更加显著。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号