首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于DOM模型扩展的Web信息提取   总被引:5,自引:0,他引:5  
顾韵华  田伟 《计算机科学》2009,36(11):235-237
提出了一种基于DOM模型扩展的Web信息提取方法.将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容.该方法不要求对网页的结构有预先认识,具有自动和通用的特点.提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中.  相似文献   

2.
基于DOM和元数据的Web信息提取   总被引:5,自引:0,他引:5  
以W3C的文档对象模型DOM和元数据为基础,把要提取的信息以DOM层次结构中的路径表达式来表示,通过归纳学习来获得所需信息的路径表达式,从而获得提取信息;元数据在信息提取过程中起到关键作用,它以XML的DTD表示,可以由信息服务商提供,也可以由开发人员给出,适应了信息源不断变化的特点。  相似文献   

3.
李伟 《数字社区&智能家居》2007,(3):1192-1192,1203
如何实现数据库的集成、共享和利用,提高了信息系统的整体效能,以及解决了XML和数据库双向传输的瓶颈,成为信息支持系统的关键问题之一。该文在分析可扩展标记语言XML特点的基础上,对XML与数据库之间基于DOM模型的映射方式进行了探讨,并给出了以XML文件作为中间文件的异构数据库集成,以及XML文档和数据库之间数据传输的实现方法。  相似文献   

4.
XML的DOM接口研究   总被引:1,自引:0,他引:1  
黄律  傅明  曾菲菲 《微处理机》2004,25(6):32-33,36
本文讨论了XML中DOM的使用优点,以及DOM和应用程序的几个主要接口和它们的使用方法。用例子说明了应用程序通过DOM对XML文档的一般性操作方法。  相似文献   

5.
基于DOM的XML解析与应用   总被引:2,自引:0,他引:2  
随着XML的广泛应用,大量的信息都将通过XML文档来进行存储、交换,因此熟悉和掌握一种解析XML文档的方法是很重要的。文中着重介绍基于DOM的XML解析的原理、特点、实现及在数据存储方面的应用,并以业务查询组件为例,详细描述了XML建模、解析及与JAVA反射机制相结合实现组件的可扩展现性,增强了组件的灵活性和扩展现性,降低组件的维护成本,突出了XML存储数据的优点,对推广应用XML和DOM技术有一定的实用意义。  相似文献   

6.
基于DOM的XML解析与应用   总被引:4,自引:0,他引:4  
随着XML的广泛应用,大量的信息都将通过XML文档来进行存储、交换,因此熟悉和掌握一种解析XML文档的方法是很重要的。文中着重介绍基于DOM的XML解析的原理、特点、实现及在数据存储方面的应用,并以业务查询组件为例,详细描述了XML建模、解析及与JAVA反射机制相结合实现组件的可扩展现性,增强了组件的灵活性和扩展现性,降低组件的维护成本,突出了XML存储数据的优点,对推广应用XML和DOM技术有一定的实用意义。  相似文献   

7.
如何实现数据库的集成、共享和利用,提高了信息系统的整体效能,以及解决了XML和数据库双向传输的瓶颈,成为信息支持系统的关键问题之一。该文在分析可扩展标记语言XML特点的基础上,对XML与数据库之间基于DOM模型的映射方式进行了探讨,并给出了以XML文件作为中间文件的异构数据库集成,以及XML文档和数据库之间数据传输的实现方法。  相似文献   

8.
一种改进的基于本体的Web信息抽取   总被引:1,自引:0,他引:1  
以Web页面信息项本体定义为基础,对单个样本页面信息项路径进行启发式学习,对所有样本页面集中信息块路径进行归纳学习,识别结构相似的信息块子树位置,以准确划定信息抽取区域,降低页面噪声。将经过噪声处理的样本页面自动解析成页面的结构本体。比较Web页面信息项本体和页面的结构本体,通过归纳学习算法生成抽取规则,提高Web信息的抽准率。  相似文献   

9.
XML DOM在自动排课系统中的应用   总被引:1,自引:0,他引:1  
朱创录  钟东 《微机发展》2006,16(1):190-192
XML作为一种数据交换的标准,已经贯穿于Internet应用的各个领域之中。基于XML的文档对象模型(DOM)是一种与平台无关、语言无关的标准接口,是XML文档操作的基础。文中讨论了通过XML DOM为主要数据处理技术来进行自动排课系统设计中的一些关键技术及解决方法。  相似文献   

10.
XML作为一种数据交换的标准,已经贯穿于Internet应用的各个领域之中。基于XML的文档对象模型(DOM)是一种与平台无关、语言无关的标准接口,是XML文档操作的基础。文中讨论了通过XML DOM为主要数据处理技术来进行自动排课系统设计中的一些关键技术及解决方法。  相似文献   

11.
基于本体论的Web信息抽取   总被引:15,自引:0,他引:15  
以本体论为基础,以所要提取的信息的层次结构作为信息提取的路径,定义了Web页面的信息项本体,并自动解析生成Web页面的结构本体.通过对这两个本体进行对比,构造了一种归纳学习算法来半自动地生成信息提取规则,对Web页面的信息提取具有较高的效率.  相似文献   

12.
传统基于DOM的信息抽取方法采用路径作为抽取规则,由于规则过于单一,因此效果并不十分理想。本文从相似页面的获取出发,逐步介绍了基于DOM采用特征比较法进行信息抽取的过程,最后还给出了针对多记录网页抽取时的试探策略、实验证明,该方法可以有效地抽取出网页中的数据。  相似文献   

13.
文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。  相似文献   

14.
利用Ontology和规则表达式的Web信息抽取   总被引:5,自引:0,他引:5  
借助Ontology,基于成熟的Perl字符处理规则,提出了一种规则表达式方案来满足Web页面信息的抽取、转换和集成。介绍了实现过程。  相似文献   

15.
张鑫  陈梅  王翰虎  王嫣然 《微机发展》2011,(2):58-61,65
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。  相似文献   

16.
对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML的通用的web信息抽取模型,它能够把Web上的数据抽取出来整合到指定模式的XML文档中去,最大限度地实现了Web信息的查询与共享.  相似文献   

17.
殷慷  施伯乐 《计算机工程》2003,29(Z1):15-17
提出一种基于XML技术的网络数据源动态绑定技术.该方法不仅使系统的健壮性和可扩展性大大加强,更重要的是使绑定数据源的工作可以半自动地由没有专业知识的用户完成.该方案已在上海博物馆网上图像辅助搜索系统中得到应用检验.  相似文献   

18.
基于Web的表格信息抽取研究   总被引:1,自引:0,他引:1  
如今,Web成为了网络信息的主要平台。根据研究发现,表格在Web文本中被经常使用。正因为表格形式简洁并且含有丰富的信息,自动理解表格在知识管理、信息检索、Web挖掘等应用中有着广泛的用途,所以研究Web表格信息抽取有着重要的现实意义。互联网上有大量信息采用HTML表格表示,由于HTML不描述数据的内容,机器不能理解和查询。论文首先将HTML文档转换为XML文档,结合本体形成启发式规则,对表格定位、表格结构识别两个关键技术进行了分析。在此基础上,利用HTML表格属性,将HTML表格标准化,从而适用于复杂表格的信息抽取。  相似文献   

19.
Dynamic web sites commonly return information in the form of lists and tables. Although hand crafting an extraction program for a specific template is time-consuming but straightforward, it is desirable to automatically generate template extraction programs from examples of lists and tables in html documents. Supervised approaches have been shown to achieve high accuracy, but they require manual labelling of training examples, which is also time consuming. Fully unsupervised approaches, which extract rows and columns by detecting regularities in the data, cannot provide sufficient accuracy for practical domains. We describe a novel technique, Post-supervised Learning, which exploits unsupervised learning to avoid the need for training examples, while minimally involving the user to achieve high accuracy. We have developed unsupervised algorithms to extract the number of rows and adopted a dynamic programming algorithm for extracting columns. Our method achieves high performance with minimal user input compared to fully supervised techniques.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号