首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
随着Internet的快速发展,网络已成为人们查询信息的重要渠道。Web作为巨大的数据源,从Web中提取知识是当前研究的热点之一。在这些海量信息中,大多都是基于HTML的。该文提出一种基于HTML结构的Web就业信息抽取模型。  相似文献   

2.
基于本体的WEB表格信息抽取   总被引:9,自引:0,他引:9  
本文给出了一个基于本体的WEB表格信息抽取方法,在信息的抽取过程中,利用学习手段,逐渐完善本体的构造,从而增强本体对应用领域的描述能力,使系统的信息抽取自动化程度逐渐提高。  相似文献   

3.
随着互联网的发展和普及,Internet上的信息急剧增长,能够自动获取适用,简单和精炼的信息,成为人们的迫切希望.同时针对农村互联网条件差而手机越来越普及的情况,我们设计实现了一个基于WEB信息抽取和GSM的主动服务系统.本文在分析农产品供求信息网页结构的基础上,提出了一种基于内容和web文档结构路径(DOM)相结合的信息抽取算法.最后实验结果说明该抽取算法能够很好地制定抽取规则并能够准确的抽取所需要的内容.  相似文献   

4.
王锟 《福建电脑》2008,(3):133-133,144
web信息抽取是对html文本中包含的信息进行结构化处理,抽取出有用的信息。本文提出了一种web信息抽取方法,通过清洗半结构化的HTML页面信息将其转化为结构化的XHTML格式信息,再利用DB29的SQL/XML语言,实现web信息的抽取。实验表明,该方法能够准确地提取数据块,正确抽取块内信息。  相似文献   

5.
随着互联网的快速发展,网络中的信息正在爆炸式地增长,网页作为网络中信息表达的方式之一,其结构也变得越来越复杂。而如何精确、高效地从网页中获取目标信息成为一个问题。本文总结现有的针对网页的信息抽取方法并加以分类,同时分析其优缺点,最后对未来的研究内容进行展望。  相似文献   

6.
对现有的信息抽取技术和XML技术加以研究,在此基础上提出了适合XML的通用的web信息抽取模型,它能够把Web上的数据抽取出来整合到指定模式的XML文档中去,最大限度地实现了Web信息的查询与共享.  相似文献   

7.
为了得到统一的数据形式以利于数据操作和处理,提出了采用基于元数据的模板定制技术以实现信息抽取的方法.该方法有效地实现对非结构化文本的信息提取,将抽取信息转换为统一的XML格式,然后将XML格式的信息集成到关系数据库中.本方法在某造船厂的企业信息化中得到成功应用,为解决企业的信息集成问题提供了一种面向Word文档的新方案.  相似文献   

8.
信息检索与信息抽取技术的研究   总被引:15,自引:1,他引:15  
在当今信息社会 ,人们对于信息获取的要求越来越高。特别是互联网的普及 ,可以很方便地从互联网上获取信息。然而目前的信息检索技术和信息抽取技术还远远不能满足人们的要求。首先介绍信息检索和信息抽取技术 ,然后分析两者的特点和不足 ,最后提出一个结合两者优势的信息获取模型  相似文献   

9.
本文分析了Web信息抽取的概念、特点,总结了Web信息抽取技术的分类、技术发展现状及其应用。描述了Web信息抽取的知识来源,并对Web信息抽取的几类典型方法进行了详细描述。  相似文献   

10.
信息抽取研究综述   总被引:1,自引:2,他引:1  
郭喜跃  何婷婷 《计算机科学》2015,42(2):14-17,38
信息抽取的任务是从大量数据中准确、快速地获取目标信息,提高信息的利用率。目前,信息抽取已经成为NLP领域的一个重要分支。随着互联网应用的发展,其价值也正日益显现,学术界和工业界对此都寄予厚望。首先回顾了信息抽取的发展历程;接着从命名实体识别、指代消解、关系抽取和事件抽取4个方面总结了信息抽取关键技术的研究进展;然后分析了信息抽取目前面临的若干主要问题;最后对信息抽取的研究趋势作了预测。  相似文献   

11.
对因特网中一些重要数据信息进行还原和提取,是保证网络应用的健康发展和打击网络犯罪的一个重要手段。根据因特网中的实时网络数据大多基于HTTP协议进行构建与传输这一应用背景,针对HTTP1.1中增加的持续性连接(Persist Connection)与块编码(Chunked Encoding)技术,探讨了在新技术下的信息还原方法,实现了对某些应用场合所关心数据的还原、提取和存储。所给出的还原方法经实践验证,处理效率和效果达到了预期目标,对识别因特网中的不良网页信息具有较大的实用价值。  相似文献   

12.
WEB上存在着大量数据,为了有效地利用这些数据,必须把它们从WEB页面中获取出来存放到数据库中.本文首先介绍了WEB环境下数据获取的相关概念与技术,基于此,提出了一种基于XML的WEB数据获取系统结构,讨论了它的主要组成.最后,给出了系统的实现方法.  相似文献   

13.
陈连波 《数字社区&智能家居》2009,5(2):1004-1005,1013
WEB信息系统交付一组复杂的内容和功能给大量的终端用户,使与服务器连接的所有客户机都能共享使用WEB信息系统提供的内容和功能。WEB信息系统测试通常包括:功能测试、性能测试、可用性测试、安全性测试、系统兼容性测试和接口测试。  相似文献   

14.
WEB信息检索与WEB数据挖掘   总被引:12,自引:0,他引:12  
首先分析了WEB信息检索的现状,主要针对WEB信息检索的局限性,引出WEB数据挖掘,并对WEB数据挖掘技术作了概要的介绍。然后,讨论了WEB数据挖掘与WEB信息检索之间的关系,最后阐述了如何将WEB数据挖掘的研究成果应用到WEB信息检索领域中,从而提高WEB信息检索的效率和质量。  相似文献   

15.
根据“行情数据常表现为最大的表格区域“等规律,提出了先识别最大表格再自动抽取行情数据的抽取算法,该算法无需用户定义目标区域即可自动抽取并存储数据.  相似文献   

16.
根据“行情数据常表现为最大的表格区域”等规律,提出了先识别最大表格再自动抽取行情数据的抽取算法,该算法无需用户定义目标区域即可自动抽取并存储数据。  相似文献   

17.
毛曦  李琦  刘帅  朱亚杰 《计算机科学》2012,39(105):229-231,264
随着网络技术的不断发展,互联网已经成为一个海量、复杂多样的数据源,特别是随着Web2. 0与社交网络的兴起,每个网民都可视为一个空间传感器,其源源不断地将周围的空间信息发布在网上,互联网中的空间信息日益丰富。提出了面向网络的空间信息提取系统,在从Web页面中所包含的半结构文本或自由文本中识别出完整位置的基础上,提取出与该位置相关的专题属性信息,并将其结构化和空间化。通过系统实例的研究,验证了本系统的可行性。  相似文献   

18.
基于Ontology的信息抽取   总被引:17,自引:0,他引:17  
为了提高Internet上的信息搜索效率,基于内容的搜索引擎成为迫切的用户需求。但内容信息的手工获取是一项繁重的工作。从文本或半结构化文档中自动地抽取用户关心的内容信息且表示成计算机能理解的形式是一项极具实用价值的挑战性研究。该文从知识表示与推理的角度研究了提高信息抽取智能性的途径,提出了将Ontology与模板规则相结合的技术,并针对线性模板表示的局限提出了基于二侧树结构的模板规则表示,同时实现了此表示下的假设生成———冲突消解推理。该技术成功地应用于招聘广告的信息抽取。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号