首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 359 毫秒
1.
研究Web信息提取技术,提出数据获取、规则定义和规则执行3个步骤的基于XML的半结构化Web信息提取方法,为进一步满足Web信息提取提供了一种高效的新方法.  相似文献   

2.
随着Web上信息的迅速扩展,Web信息提取技术正应用于搜索引擎、用户兴趣挖掘以及个性化信息获取等多种应用和研究中.文中通过采用模板技术,设计并实现Web招聘信息提取系统.该系统根据已配置的模板,从各高校就业中心网站提取招聘信息,结构化并存入内嵌HSQL数据库中.基于已采集的信息,进行个性化搜索,找到用户所需招聘信息.试验结果表明,该系统能够完成信息的提取和个性化搜索,具有很好的实际效用.另外,由于该系统采用java和内嵌HSQLDB开发,具有高度的平台移植性和很好的移动便捷性.  相似文献   

3.
针对Web中数据密集型的动态页面,文本数据少,网页结构化程度高的特点,介绍了一种基于HTML结构的web信息提取方法。该方法先将去噪处理后的Web页面进行解析,然后根据树编辑距离计算页面之间的相似度,对页面进行聚类,再对每一类簇生成相应的提取规则,对Web页面进行数据提取。  相似文献   

4.
基于模板的Web信息自动提取方法*   总被引:3,自引:2,他引:1  
为了解决传统Web信息提取过程中准确率和效率相矛盾的问题,提出了一种基于模板与机器自动识别相结合的Web信息自动提取方法。该方法先利用一组启发式规则自动识别HTML文本中不同属性信息之间的分隔符,再把它们配置到模板中,然后根据模板分析相同类型的网页,最后以话题线索的方式存储。实验结果表明,与传统的Web信息提取方法相比,本方法能够处理多种结构类型的网页,同时能够在很大程度上提高准确率、召回率和效率;并且可以在不需要修改算法的情况下根据用户需求动态提取相关信息,满足各方面研究的需要。  相似文献   

5.
本文利用本体思想,采用基于规则和统计相结合的算法,提出了一种网上人物信息提取算法,实现了半结构化人物信息的自动提取。通过程序统计的方法创建了一个包含4624个有效字段名的词典,用来检验提取出的字段名是否有效,当字段名有效时再提取其对应的字段值,大大提高了信息提取的准确率。实验结果表明,该算法对半结构化web人物网页信息提取具有较高的效率,平均准确率为97.6%,平均召回率为86.1%。  相似文献   

6.
《软件》2017,(2):91-97
以设计和实现梯级水电站调度信息移动查询系统为目标,分析企业梯级水电站调度系统需求,整合不同应用系统的调度信息,以Web App应用方式进行设计,通过需求分析、系统设计、系统实现等建设过程,实现了实时数据、预报计划、时段数据、整点数据等调度信息查询功能,并以移动方式展现给用户。应用于中国长江电力股份有限公司长江上游梯级水电站调度的实例表明,系统具有灵活性、可扩展性,功能与性能满足企业应用要求,通过移动设备和个人电脑可以快速、便捷的访问系统;整合后的调度信息避免了系统应用环境差异和专业知识壁垒,满足了企业不同用户的需求。该系统对梯级水电站调度管理以及信息化建设具有参考价值。  相似文献   

7.
基于Web信息组织模型的元数据检索技术   总被引:1,自引:0,他引:1  
高玉珠  刘瑞 《计算机应用》2006,26(Z1):89-90
针对目前互联网搜索引擎主要使用全文检索技术,无法从Web页面中提取元数据信息情况,设计了一个基于信息组织模型的Web元数据信息提取和检索系统.使用基于正则表达式的元数据信息提取模型,信息提取和索引程序不断从数量巨大的Web页面中提取元数据信息,对本地元数据库进行不断地更新.抽象了多种Web信息组织模型,设计了相应的信息检索模型,并且这些模型可以大范围地应用于提取Web站点的元数据,所采用的方法充分利用了Web页面的数据结构,避免了采用复杂的语法、语义分析,为面向多个领域的元数据信息检索做出了一定的研究和探索.  相似文献   

8.
为了获取分散Web页面中隐含信息,设计了Web信息抽取系统。该系统首先使用一种改进的HITS主题精选算法进行信息采集;然后对Web页面的HTML结构进行文档的数据预处理;最后,基于DOM树的XPath绝对路径生成算法来获取被标注结点的XPath表达式,并使用XPath语言结合XSLT技术来编写抽取规则,从而得到结构化的数据库或XML文件,实现了Web信息的定位和抽取。通过一个购物网站的抽取实验证明,该系统的抽取效果良好,可以实现相似Web页面的批量抽取。  相似文献   

9.
基于Web的UML建模系统   总被引:2,自引:0,他引:2       下载免费PDF全文
针对目前异构网络环境下的异地开发和信息查询需求,结合MVC模式,设计并实现基于Web的UML建模系统。为了便于表示UML建模过程中的结构化数据和半结构化数据,将建模信息保存为XML文件,使系统具有更好的可扩展性、开放性、灵活性、自我描述性、可操作性及规范的层次结构。通过建立基于XML的信息查询提高了查询效率。  相似文献   

10.
在基于MAS(Multi-Agent-System)的电子商务系统环境中,提出了一个针对半结构化信息的规范处理模式。通过这个处理模式,系统可以自主解决电子商务系统中数据的提取与转化、信息集成、数据关联管理等问题。这种信息处理模式结合了MAS设计思想,利用信息提取与转换器(Wrapper)屏蔽或解释半结构化信息中的异构部分的方法,设计信息源封装体系;通过提供一致的应用接口,使系统可以对信息源施加各种操作和管理,同时介绍了一个利用该模式设计的信息管理网站的结构。  相似文献   

11.
大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要.  相似文献   

12.
毛曦  李琦  刘帅  朱亚杰 《计算机科学》2012,39(105):229-231,264
随着网络技术的不断发展,互联网已经成为一个海量、复杂多样的数据源,特别是随着Web2. 0与社交网络的兴起,每个网民都可视为一个空间传感器,其源源不断地将周围的空间信息发布在网上,互联网中的空间信息日益丰富。提出了面向网络的空间信息提取系统,在从Web页面中所包含的半结构文本或自由文本中识别出完整位置的基础上,提取出与该位置相关的专题属性信息,并将其结构化和空间化。通过系统实例的研究,验证了本系统的可行性。  相似文献   

13.
面向网上论坛的信息抽取技术   总被引:5,自引:0,他引:5  
在分析了网上论坛内部的信息组织模式和链接结构的基础上,提出了一套面向网上论坛的语义话题线索抽取框架、叙述了其具体实现。为信息抽取定义了完善的抽取规则规范,提供了用户定制规则的可视化工具和论坛站点中语义信息单元自动下载抽取的后台引擎。  相似文献   

14.
When browsing information on large Web sites, users often receive too much irrelevant information. The WWW information collection, collaging, and programming (Wiccap) system lets ordinary users build personalized Web views, which let them see only the information they want - and in the way they prefer. It provides a set of GUI tools, including a mapping wizard, extraction agent, and presentation toolkit, that hide the internal representation from ordinary users, but let experienced users create more advanced mapping rules. Wiccap encapsulates HTML and language-specific details from the original Web site, facilitating the creation of personalized Web views for multilingual sites.  相似文献   

15.
针对Web信息抽取(WIE)技术在健康领域应用的问题,提出了一种基于WebHarvest的健康领域Web信息抽取方法。通过对不同健康网站的结构分析设计健康实体的抽取规则,实现了基于WebHarvest的自动抽取健康实体及其属性的算法;再把抽取的实体及其属性进行一致性检查后存入关系数据库中,然后对关系数据库中隐含健康实体的属性值利用Ansj自然语言处理方法进行实体识别, 进而抽取健康实体之间的联系。该技术在健康实体抽取实验中,平均F值达到99.9%,在实体联系抽取实验中,平均F值达到80.51%。实验结果表明提出的Web信息抽取技术在健康领域抽取的健康信息具有较高的质量和可信性。  相似文献   

16.
基于关键词聚类和节点距离的网页信息抽取   总被引:2,自引:0,他引:2  
大部分网页信息抽取方法都针对特定的网站,例如基于网站抽取规则和基于训练网页样例的方法。这些方法在某一个网站上可以很好地应用。但当遇到新的网站时,必须人为地增加抽取规则或者提供新的训练网页集。而且,当网站的模版改变时,也要重新设计这些规则或重新输入训练网页集。这些方法难以维护,因此不能应用到从大量不同的网站上进行信息抽取。本文提出了一种新的网页信息抽取方法,该方法基于特定主题的关键词组和节点距离,能够不加区分地对不同的网站页面信息自动抽取。对大量网站的网页进行信息抽取的实验显示,该方法能够不依赖网页的来源而正确和自动地抽取相关信息,并且已经成功应用到电子商务智能搜索和挖掘系统中。  相似文献   

17.
基于规则归纳的信息抽取系统实现   总被引:2,自引:0,他引:2  
面对Web信息的迅猛增长,信息抽取技术非常适合于从大量的文档中抽取需要的事实数据。通过文档对象模型(DOM)解析以及检索、抽取、映射等规则的定义,设计并实现了一种具有规则归纳能力的信息抽取系统,用于Web信息的自动检索。在用于抽取规则归纳的框架下,还重点对用于生成抽取模式的WHISK学习算法进行了实验对比分析,结果表明系统对于单槽和多槽数据都具有不错的归纳学习能力。  相似文献   

18.
语义传感器Web的出现为物联网中传感器系统间的数据互操作、信息共享和知识融合提供了实现方式,传感器本体的构建则是实现这些功能的前提.本文在参考万维网联盟提出的语义传感器网络本体的基础上,对传感器及配套的数据采集仪构建了对应的本体,为传感器系统提供了有效的知识组织模型.通过建立的传感器和数据采集仪本体,可以实现传感器的自动分类管理,设定推理规则后可以提供传感器和采集仪间的配接推荐,提高检测现场多传感器系统设计的效率和可靠性,将领域知识应用到系统设计和管理中.最后以具体的传感器实例对推理规则进行了测试,结果满足应用要求.  相似文献   

19.
基于数据区域发现的信息抽取规则生成方法   总被引:2,自引:2,他引:0       下载免费PDF全文
提出一种自动检测网页中数据记录结构特点并生成Web信息抽取规则的方法,以网页DOM树为基础,自动发现和分离Web数据区域所对应的DOM子树,将其分解为数据记录子树集合,综合数据记录子树的结构特点生成抽取规则。实验结果显示,该方法具有较高的抽取准确率和查全率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号