首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 421 毫秒
1.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。  相似文献   

2.
随着互联网技术的迅猛发展,因特网成为目前新闻信息最丰富最主要的来源。本文在分析新闻网页的基础上,分析了目前现有的信息抽取技术和XML技术,提出了一个基于XML技术的Web新闻抽取系统。本文主要是充分运用XML中的XPath技术在数据定位方面的优势,并提出一种基于DOM树的XPath生成算法,使用XSLT语言用于描述抽取规则,并使用路径表达式XPath定位待抽取的信息点。  相似文献   

3.
表格信息抽取引擎的设计与实现   总被引:3,自引:0,他引:3  
王治和 《计算机科学》2006,33(10):126-127
讨论针对Web表格的信息抽取,分析并给出了表格信息抽取引擎的系统结构,以及实现该系统所涉及的关键技术和数据模型,为用户提供一种以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具。  相似文献   

4.
简要介绍了XPath技术,分析了使用XPath路径表示式选择XML文档节点的方式,分析了.NET对XML文档的访问支持,探讨了在.NET环境下,基于XPath技术使用C#语言实现XML文档数据提取的解决方案,为Web信息抽取软件的开发打下基础。  相似文献   

5.
针对传统的基于关键词的搜索与数据检索存在的弊端,本文提出基于本体的Web信息抽取框架。该框架首先获取Web页面,将其转换为格式良好的HTML文档,然后利用HTML解析器将该文档转化为DOM树,再根据XPath表达式获取用户感兴趣的数据块,由此生成抽取规则,最后通过OntPMatch算法实现数据的抽取,并以RDF数据格式储存信息。本文以棉花信息为研究对象加以实证研究,实现Web生物信息数据抽取原型系统,为方便用户发现有价值的Web生物信息资源提供一个有效的工具。  相似文献   

6.
基于Web Services服务管理系统的研究   总被引:5,自引:0,他引:5       下载免费PDF全文
提出了基于Web Services的服务管理体系结构,并设计和实现了基于XML服务管理信息模型和基于SOAP服务管理协议。该系统能够对跨不同管理域的服务进行有效的管理和对服务管理系统进行灵活的配置。通过用XPath表达式指定范围和过滤规则,有效地共享跨不同管理域的服务管理信息,通过XPath表达式指定的过滤规则支持较细粒度的事件通知,解决了跨不同管理域间实现服务管理的难题。  相似文献   

7.
基于主题的Web信息个性化服务   总被引:6,自引:0,他引:6  
实现互联网信息的个性化服务,是Web信息处理中的一个重要研究课题,本文在所提出的基于搜索路径Web网页搜索和基于多知识网页信息抽取方法的基础上,提出一种基于对象的信息层次模型新方法,可以有效描述Web用户的信息需求,将这三种方法有机结合在一起,构成了一个基于主题的Web信息个性化服务的解决方案,该方案既可以用于服务端,也可以直接应用在客户端,是一个轻量级网络信息服务解决方案。  相似文献   

8.
基于本体的Web服务发现模型研究   总被引:5,自引:2,他引:5  
针对传统的Web服务发现机制查准率低的缺点,结合本体技术与OWL-S语义描述语言设计一个Web服务发现模型。该模型主要包括查询处理器、领域本体库和发现引擎三个模块,通过在领域内共同的语义理解基础上抽取服务查询信息中所需的功能信息以及对服务广告信息的语义描述,实现针对服务功能信息的语义匹配,从而提高服务的查准率。  相似文献   

9.
Web信息抽取通常采用的是一种归纳学习方法,从指定的模版网页中归纳到抽取规则,这种方法虽然能够准确地抽取出信息,当网站的模版发生改变后,必须重新获得抽取规则,因而这种抽取器的维护成本比较高,可适应性差。本文针对这一难题,提出一种基于DOM树的可适应性多信息块Web信息抽取,该方法首先通过NekoHtml将网页解析成DOM树,然后确定包含关键词组的信息块,从而实现Web信息抽取。经过大量网站的实验证明该方法适用于不同站点的信息抽取,并且能对多信息块的Web页面进行信息抽取。  相似文献   

10.
基于规则归纳的信息抽取系统实现   总被引:2,自引:0,他引:2       下载免费PDF全文
面对Web信息的迅猛增长,信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型(DOM)解析以及检索、抽取、映射等规则的定义,设计并实现了一种具有规则归纳能力的信息抽取系统,用于Web信息的自动检索。在用于抽取规则归纳的框架下,还重点对用于生成抽取模式的WHISK学习算法进行了实验对比分析,结果表明系统对于单槽和多槽数据都具有不错的归纳学习能力。  相似文献   

11.
文章提出一种基于DOM的Web信息提取方法,通过归纳学习获得被提取信息的定位路径,利用XPath和XSLT在数据定位和数据转换方面的特点编写提取模式,根据网页元素与DOM节点对应关系,判断所获得信息源是否适用于已有提取模式。  相似文献   

12.
面对大规模异构网页,基于视觉特征的网页信息抽取方法普遍存在通用性较差、抽取效率较低的问题。针对通用性较差的问题,该文提出了基于视觉特征的使用有监督机器学习的网页信息抽取框架WEMLVF。该框架具有良好的通用性,通过对论坛网站和新闻评论网站的信息抽取实验,验证了该框架的有效性。然后,针对视觉特征提取时间代价过高导致信息抽取效率较低的问题,该文使用WEMLVF,分别提出基于XPath和基于经典包装器归纳算法SoftMealy的自动生成信息抽取模板的方法。这两种方法使用视觉特征自动生成信息抽取模板,但模板的表达并不包含视觉特征,使得在使用模板进行信息抽取的过程中无需提取网页的视觉特征,从而既充分利用了视觉特征在信息抽取中的作用,又显著提升了信息抽取的效率,实验结果验证了这一结论。  相似文献   

13.
Internet上的化学数据库是宝贵的化学信息资源,如何有效地利用这些数据是化学深层网所要解决的问题。本文总结了化学深层网的特点,基于XML技术实现从数据库检索返回的半结构化HTML页面中提取数据的目标,使之成为可供程序直接调用做进一步计算的数据。在数据提取过程中,先采用JTidy规范化HTML,得到格式上完整、内容无误的XHTML文档,利用包含着XPath路径语言的XSLT数据转换模板实现数据转换和提取。其中XPath表达式的优劣决定了XSLT数据转换模板能否长久有效地提取化学数据,文中着重介绍了如何编辑健壮的XPath表达式,强调了XPath表达式应利用内容和属性特征实现对源树中数据的定位,并尽可能地降低表达式之间的耦合度,前瞻性地预测化学站点可能出现的变化并在XSLT数据转换模板中采取相应的措施以提高表达式的长期有效性。为创建化学深层网数据提取的XSLT数据提取模板提供方法指导。  相似文献   

14.
毛曦  李琦  刘帅  朱亚杰 《计算机科学》2012,39(105):229-231,264
随着网络技术的不断发展,互联网已经成为一个海量、复杂多样的数据源,特别是随着Web2. 0与社交网络的兴起,每个网民都可视为一个空间传感器,其源源不断地将周围的空间信息发布在网上,互联网中的空间信息日益丰富。提出了面向网络的空间信息提取系统,在从Web页面中所包含的半结构文本或自由文本中识别出完整位置的基础上,提取出与该位置相关的专题属性信息,并将其结构化和空间化。通过系统实例的研究,验证了本系统的可行性。  相似文献   

15.
方宏  吕太之 《计算机工程》2009,35(24):265-267
针对传统搜索引擎难以提取客户端脚本生成信息的问题,结合求职搜索引擎的研发,运用HtmlUnit解析JavaScript动态网页,使用Selenium IDE提取动态元素的XPath,解决传统搜索引擎难以提取客户端动态生成信息的问题。实验结果证明,该技术是行之有效的。  相似文献   

16.
17.
本体驱动的半结构化Web生物数据抽取   总被引:3,自引:0,他引:3  
成瑜  何洁月 《计算机工程》2006,32(5):192-194
提出由本体驱动,并根据文档结构和特征匹配来进行信息定位和信息抽取的方法,并实现了一个用户指导的交互式信息抽取原型系统。有效地解决了信息抽取中涉及的同义词,一词多义等语义问题,以及数据项不完整和排序不固定的问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号