首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 203 毫秒
1.
提出了一种发现蕴藏在不同XML文档嵌套结构中的关系信息及其出现模式的新方法.可根据用户兴趣,发现描述不同实体之间联系的关系信息,抽取关系实例及其在文档中的出现模式.具体解决方案是:首先识别和收集包含用户感兴趣的实体的XML文档片段:然后根据文档片段标签的语义和文档片段的结构计算文档片段的相似度,并采用自适应阈值方法按相似度聚类文档片段.使得包含同一种关系的文档片段聚集在同一个片段簇:最后从XML文档片段簇中抽取关系实例及其出现模式.实验结果表明,对于包含有意义标签的各种XML文档,该方法能够准确地识别和抽取出描述指定实体之间联系的各种关系信息.  相似文献   

2.
XWIS中基于预定义模式的包装器   总被引:3,自引:0,他引:3  
目前,从HTML文档中有效的抽取数据是一个值得研究的问题。文中提出了一种基于预定义模式的方法来构造HTML包装器,并将它运用到XWIS(基于XML的Web信息查询系统)中。这种方法下,由用户定义模式并给出模式与HTML页面的映射关系,接着系统推导出规则同时生成包装器。  相似文献   

3.
基于XML的信息检索技术   总被引:1,自引:1,他引:1  
传统的信息检索方法无法为用户准确地提供所需的资料,这主要是由于传统的HTML网页结构上的缺陷造成的。文中通过比较HTML文档和XML文档在结构和语义上的差异,阐述了XML文档在信息检索技术中的优势和XML文档必将成为新一代网页模式的趋势。目前已经有很多权威编程工具和数据库支持从XML文档中抽取信息,越来越多的软件提供XML接口,文中以Microsoft公司的.NETFramework为例,介绍了如何从XML文档中检索信息。试验证明基于XML的信息检索技术较好地解决了Internet上资料获取的困难。  相似文献   

4.
吕锋  余丽 《微机发展》2007,17(6):53-55
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

5.
基于XML的Web数据抽取研究   总被引:1,自引:0,他引:1  
文中介绍了三种常用的Web数据抽取的方法:直接解析HTML文档的方法,基于XML的方法(也称作为分析HTML层次结构的方法)以及基于概念建模的方法。重点研究其中的基于XML的数据抽取方法,基本做法是将原始的HTML文档通过一个过滤器检查并修改HTML文档的语法结构,从而形成一篇基于XML的XHTML,然后利用XML工具来处理这些HTML文档。实现了从非结构化的HTML文档向结构化的XML文档转化的预处理过程,给在Web挖掘中使用传统的数据抽取方法进行数据抽取创造了有利条件。  相似文献   

6.
传统的信息检索方法无法为用户准确地提供所需的资料,这主要是由于传统的HTML网页结构上的缺陷造成的.文中通过比较HTML文档和XML文档在结构和语义上的差异,阐述了XML文档在信息检索技术中的优势和XML文档必将成为新一代网页模式的趋势.目前已经有很多权威编程工具和数据库支持从XML文档中抽取信息,越来越多的软件提供XML接口,文中以Microft公司的.NET Framework为例,介绍了如何从XML文档中检索信息.试验证明基于XML的信息检索技术较好地解决了Internet上资料获取的困难.  相似文献   

7.
以XML作为研究对象,提出了一种新的基于二叉树结构的XML数据模式信息的提取方法,抽取出XML文档的所有开始和结束标记并生成相应的标记链,对标记链中结点嵌套关系进行分析生成标记二叉树,通过判断和删除标记二叉树中的冗余数据得到XML文档的最简标记树模式.实验结果表明,即使对于标记的嵌套关系非常复杂的XML文档,该算法也能够准确地抽取出相应的最简标记树模式结构,同时还生成了相应的DTD模式文件.  相似文献   

8.
XML是互联网上信息表示和数据交互的重要标准,文档分类是解决从海量信息中获取有效信息的重要方法,提出一种基于模糊路径匹配的XML文档分类方法。首先去除对分类没有影响的信息;然后采用一种混合的XML文档相似性计算方法,将XML文档表示为路径的集合。为了提高效率,删除了文档中重复出现的路径后进行模糊匹配,用匈牙利算法计算出文档间的相似度;最后使用改进的K近邻算法进行文档的分类。使用自动生成及真实的文档集进行实验,结果表明:两组文档分类的正确率均可以达到100%。  相似文献   

9.
VXMLR系统存储模式的自适应调整   总被引:1,自引:0,他引:1  
XML管理系统的查询处理效率很大程度上取决于系统中XML数据的存储模式.在用户查询已知或可预测的情况下,根据用户查询设计存储模式可以改善系统的查询处理效率.该文介绍VXMLR系统存储模式的自适应调整机制,根据历史查询信息,VXMLR系统对其存储模式进行自适应调整,从而提高查询处理效率,其基本思路是:首先根据历史查询,推导出适当的映射规则,得到XML文档在关系数据库中的存储模式;然后,在给定的空间约束下,根据历史查询使用背包问题求解算法选择关系表进行垂直分割或冗余存储相关数据,使查询所访问的无关数据尽可能少,VXMLR系统提供四种存储模式调整策略,其中两种策略可以实现自适应的存储模式调整,实验结果表明文中提出的方法是有效的。  相似文献   

10.
基于XML的异构数据交换模型的研究   总被引:1,自引:0,他引:1  
基于XML的异构数据交换系统通过XML提供通用数据格式,在异构数据源间信息交换的模型中使用XML文档作为中间文件.由于以往的交换系统只提取出了少部分用户自定义完整性约束,因此提出一种新的关系模式和XML模式相互转换的方法.在转换过程中,重新定义了关系模式的通用模型,从而保证了数据的完整性.通过实验证明了该转换方法的可行...  相似文献   

11.
XML has recently become very popular as a means of representing semistructured data and as a standard for data exchange over the Web, because of its varied applicability in numerous applications. Therefore, XML documents constitute an important data mining domain. In this paper, we propose a new method of XML document clustering by a global criterion function, considering the weight of common structures. Our approach initially extracts representative structures of frequent patterns from schemaless XML documents using a sequential pattern mining algorithm. Then, we perform clustering of an XML document by the weight of common structures, without a measure of pairwise similarity, assuming that an XML document is a transaction and frequent structures extracted from documents are items of the transaction. We conducted experiments to compare our method with previous methods. The experimental results show the effectiveness of our approach.  相似文献   

12.
基于结构与文本关键词相关度的XML网页分类研究   总被引:9,自引:0,他引:9  
针对XML网页特点,提出了计算XML文档结构相似性、文档关键词出现的位置以及关键词频度的方法,根据计算的结果提取XML网页特征,同时设计了一种基于支持向量机的XML网页多类分类算法.算法通过XML文档的训练样本集为每一类文档建立基于相似公共特征的聚类核,计算测试样本中的文档与每个聚类核的相似度,判断该文档的所属类.实验证明该分类算法具有比较高的分类查全率和查准率,能够较好地解决XML文档同时属于多个类的问题.  相似文献   

13.
一种基于Hash表的XML模式快速提取算法   总被引:1,自引:0,他引:1  
为快速获取XML文档的模式信息,提出一种基于Hash表的XML模式提取算法。该算法首先将XML文档转换为一棵XML文档树;然后遍历这棵文档树,将相关模式信息存储到一个Hash表中;最后,对Hash表中的信息进行处理,得到XML模式的DTD表示形式。将文中的算法用VC++实现,实验结果表明该方法是可行有效的,而且在保证XML模式提取结果正确性的同时,还有效地简化了模式表示形式。  相似文献   

14.
基于XML异构数据库集成中间件的设计与实现   总被引:13,自引:0,他引:13  
为了解决网络环境中异构数据库数据共享和协作问题,提出了基于XML中间件技术实现异构数据库之间信息交换模型.在此模型中对虚拟法或中介法模型进行改进设计了翻译器、集成器和转换器,分别用于数据获取、合并和格式转换.为了更精确地描述XML文件自身结构信息,实现了从DTD到XML Schema的转换.  相似文献   

15.
为了改善单一聚类算法的聚类性能,提出一种基于量子遗传算法的XML文档聚类集成解决方法。该方法首先利用KNN分类算法将XML文档划分成k个差异性的聚类成员;其次根据聚类成员的关系获得内联相似度矩阵,并通过多次分割、向下、向上、双向收缩的QR算法分解特征值对应的特征向量来实现矩阵的维数缩减;然后在映射空间上用量子遗传算法实现聚类集成,把每一个样本判别到最优的聚类类别中。这样减少了数据差异性对聚类结果的影响,提高了聚类质量。实验结果表明,在真实的数据集上,该聚类集成算法比其他聚类集成算法具有更好的效果。  相似文献   

16.
Using structural similarity for clustering XML documents   总被引:2,自引:2,他引:0  
In this paper, we describe a method for clustering XML documents. Its goal is to group documents sharing similar structures. Our approach is two-step. We first automatically extract the structure from each XML document to be classified. This extracted structure is then used as a representation model to classify the corresponding XML document. The idea behind the clustering is that if XML documents share similar structures, they are more likely to correspond to the structural part of the same query. Finally, for the experimentation purpose, we tested our algorithms on both real (ACM SIGMOD Record corpus) and synthetic data. The results clearly demonstrate the interest of our approach.  相似文献   

17.
一种增量式规则提取算法   总被引:6,自引:0,他引:6  
扩展了决策矩阵的定义,并在此基础上提出一种增量式规则提取算法(IREA),该算法能够以增量的方式从样本数据中提取确定性和可能性规则.对于缺乏领域知识时的知识/规则获取具有重要使用价值.  相似文献   

18.
XML文档数据编码模式是XML文档查询处理的基础, 好的文档编码模式有利于提高文档的查询效率. 为了解决XML数据查询效率低、支持动态更新等问题. 本文在二叉树遍历的编码基础上, 引入二叉树的三叉链表存储结构对XML文档结点进行编码. 该编码利用自然数作为编码序号, 因此编码长度较短; 引入结点双亲指针, 方便结点之间结构关系的判定, 结点采用三叉树链式存储, 方便文档的更新操作.  相似文献   

19.
徐明  庄毅 《计算机科学》2006,33(2):205-207
作为构建开放和分布式应用系统的一种主流模式,多Agent系统有着广阔的研究前帚和应用价值。在统一建模语言(UML)的支持下,面向Agent的软件工程研究开始走向成熟。一些面向Agent的方法学提供了开发多A—gent系统的工具、应用方法或技术。随着Web服务技术的发展,XML成为Internet上数据组织和交换的标准。现有研究工作所提出的多Agent系统对XML文档提供很少的支持。针对上述问题,设计了一个基于XML的多Agent系统——XMAS。该系统采用带根连通有向图来表示XML文档数据模型,并给出相应的文档模式提取算法,XML文档数据的解析以及对Web服务的相关支持。在数据存储过程中的索引优化使得XMAS在数据查询上具有良好的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号