首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。  相似文献   

2.
张瑞雪  宋明秋  公衍磊 《计算机科学》2011,38(4):213-215,225
一般地,从HTML网页中提取正文信息,应先将HTML、网页解析成DOM树,然后遍历DOM树,依据目标信息在DOM树中的分布规律,将信息从DOM树中提取。这种传统方法将解析DOM树和从DOM树中提取信息看成两个独立的过程,制约了提取信息的速度。事实上,在准确提取目标信息的过程中,独立解析整个DOM树是没有必要的。在此,提出了逆序解析DOM树算法,并结合DOM树相似理论和传统的顺序解析算法,从部分目标信息开始分别向后顺序和向前逆序解析DOM树,同时定位并获取其他目标信息。利用该方法提取网页正文信息,一方面只需解析部分DOM树,从而减少了解析树结构花费的时间,另一方面不需要遍历整个DOM树查找目标信息,从而节省了查找时间,大大提高了信息提取速度。最后,通过实验证实了该方法的优越性。  相似文献   

3.
基于DOM和元数据的Web信息提取   总被引:5,自引:0,他引:5  
以W3C的文档对象模型DOM和元数据为基础,把要提取的信息以DOM层次结构中的路径表达式来表示,通过归纳学习来获得所需信息的路径表达式,从而获得提取信息;元数据在信息提取过程中起到关键作用,它以XML的DTD表示,可以由信息服务商提供,也可以由开发人员给出,适应了信息源不断变化的特点。  相似文献   

4.
为解决异构DeepWeb结果页面中数据区域及数据记录的自动抽取问题,提出一种基于DOM树与领域本体的Web抽取方法。利用数据内容特征以及领域本体库标记DOM树的节点,按照结果页面展示规律定位数据区域,根据改进的简单树匹配算法,定位数据区域及数据记录。实验结果表明,该方法定位数据区域及数据记录的F-measure值比传统的抽取方法高2.93%~6.67%。  相似文献   

5.
基于DOM的XML数据访问技术   总被引:1,自引:0,他引:1  
分析文档对象模型(DOM)的特点,及DOM解析XML文档的方法和主要的接口,并应用此方法在Microsoft的.NET平台下实现XML的数据访问.对推广应用XML和DOM技术有一定的实用意义.  相似文献   

6.
利用DOM类库检索XML文档   总被引:1,自引:0,他引:1  
文档对象模型(DOM)是一种与平台无关、语言无关的标准接口,是XML文档操作的基础。论述了XML的应用前景和应用现状,提出了用高级语言中封装的DOM类库检索和解析XML文档,以VB6.0为例,来完成XML文档的检索和数据提取等工作。  相似文献   

7.
用DOM树实现XML与高级语言的数据交互   总被引:3,自引:0,他引:3  
用DOM树解析XML文档,实现XML与高级语言的数据交互。以VB6.0为例,提供二段源代码完成XML文档的生成、数据提取等工作。  相似文献   

8.
基于DOM树和递归X—Y分割算法的Zone树模型   总被引:2,自引:2,他引:0       下载免费PDF全文
黄歆  桑楠 《计算机工程》2009,35(5):53-55
在分析DOM树的基础上提出一种基于DOM树和递归X—Y分割算法,可以根据网页的几何布局生成Zone树模型。描述了将Zone树模型和递归X—Y算法应用到文献数据检索的优越性,给出构建Zone树模型的算法。该模型主要用于在线文献的数据提取,具有速度快、准确性高等特点,优于目前大多数浏览器所采用的DOM树结构。  相似文献   

9.
简要介绍XML文档解析器中最为流行的DOM4j解析器的基本功能和API结构,并阐述基于DOM4j建立XML文档树的基本步骤,探讨DOM4j中一种非常重要的访问者模式解析方法的原理和实现。  相似文献   

10.
DOM4j解析技术探究   总被引:1,自引:0,他引:1  
简要介绍XML文档解析器中最为流行的DOM4j解析器的基本功能和API结构,并阐述基于DOM4j建立XML文档树的基本步骤.探讨DOM4j中一种非常重要的访问者模式解析方法的原理和实现。  相似文献   

11.
目前多数抽取方法主要针对主题信息块的提取,未深入到各单独信息块。为此,设计一种基于DOM树的视频元数据抽取系统。通过改进Heritrix的链接过滤功能和URL队列管理策略,结合网页DOM树节点类型,从各单独信息块中抽取网页元数据。实验结果表明,该系统的网页平均查准率为95.7%,平均抽取准确率为98.4%,高于同类系统。  相似文献   

12.
机器人流程自动化(RPA)是以软件机器人及人工智能为基础的业务过程自动化科技,能够代替或协助人类在计算机等设备中完成重复性工作。在应用RPA软件对浏览器页面元素进行自动化操作时,在保证准确的前提下快速对目标DOM元素进行定位和搜索是完成一个完整自动化流程的关键技术难点。现有的定位方法,如Xpath和Css-Selector,面对结构复杂的网页会出现路径过长的问题,导致定位速度慢或路径定位不准等。为解决上述问题,提出一种用于RPA系统的DOM对象快速搜索与定位算法——最优XPATH路径算法。该算法分析元素的属性等信息生成最优路径,用于在自动化操作时对元素进行唯一定位。实验结果表明,使用最优路径对元素进行定位所需时间仅为使用完整XPATH路径定位耗时的23.14%,说明所提算法具有降低路径生成难度,加快元素定位速度等优点,提高了自动化效率。  相似文献   

13.
基于DOM模型扩展的Web信息提取   总被引:5,自引:0,他引:5  
顾韵华  田伟 《计算机科学》2009,36(11):235-237
提出了一种基于DOM模型扩展的Web信息提取方法.将Web页面表示为DOM树结构,对DOM树结点进行语义扩展并计算其影响度因子,依据结点的影响度因子进行剪枝,进而提取Web页面信息内容.该方法不要求对网页的结构有预先认识,具有自动和通用的特点.提取结果除可以直接用于Web浏览外,还可用于互联网数据挖掘、基于主题的搜索引擎等应用中.  相似文献   

14.
本文通过采用一个在线教程的实例,通过在ASP服务端操纵XML,讨论了利用DOM以及DTD技术对XML文档结构的处理,可以控制向客户端发送数据,使服务端对数据中间件的操纵更加合理和便捷。具体从DOM对树型结构的处理加以分析。  相似文献   

15.
提出了一种将关系数据库向XML映射的新方法——“反规范化及合并”方法,分析了该方法的基本思想和实现步骤。即将规范化的关系模式还原成原来冗余的关系模式,并转换成相应的XML DOM;最后将各个XML DOM合并。最后。通过在银行贷款中的应用归纳和总结了该方法的特点和优势。  相似文献   

16.
谢方立  周国民  王健 《计算机科学》2016,43(Z11):31-34, 49
提出一种基于DOM节点类型标注的网页主题信息抽取的方法。首先依据网页中噪声存在的形式,将DOM节点划分为4种类型:文本型、图片型、链接型和可忽略型,并给出节点内聚度的计算方法。通过给DOM节点添加类型和内聚度两个属性,在正文提取阶段选取内聚度大于阈值的文本型节点,最后整合成网页主题信息。将该方法与另外3款网页正文提取工具做对比实验,结果显示 该方法 在F1指标上为95.1%,比Evernote工具高出0.3%,比YNote工具高出5.01%。  相似文献   

17.
基于子树匹配的交互式Web数据抽取方法   总被引:4,自引:0,他引:4  
查询相关的Web页面中的数据记录之间具有极高的代码结构相似性。Web数据记录对应的DOM子树之间自然也就具有很高的结构相似性。针对查询相关的Web页面的特点,提出了一种基于DOM子树匹配的交互式Web数据抽取方法,实验证明,该方法能保证很高的数据抽取查全率和准确率。  相似文献   

18.
从XML文档的基本结构出发,详细论述了DOM(Document Object Model,文档对象模型)构造、节点树结构特征及DOM的基本接口,结合XML与数据库的存储与转换技术,论证了DOM在XML数据库操作中的重要性。  相似文献   

19.
使用DOM对象实现XML和数据库的交互   总被引:4,自引:0,他引:4  
本文主人介绍如何将数据库中的数据转化为XML格式,重点介绍如何在ASP中使用DOM对象将RecordSet数据移至XML文件中,以及XML数据库岛的概念。  相似文献   

20.
杨静 《福建电脑》2014,(11):120-122
当移动终端从服务器上获得XML数据时,就需要对XML数据文进行解析,此时就会涉及到XML的解析技术。通过对DOM、SAX以及Pull解析器介绍和分析,从内存占有、编程方式、访问与修改、访问方式等四个方面的比较,给出了在不同场所采用不同的解析器。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号