首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。  相似文献   

2.
基于本体的旅游信息抽取   总被引:1,自引:0,他引:1  
基于本体的信息抽取技术是一种把本体和信息处理技术结合起来实现信息抽取的一种方法。提出一种基于本体的旅游领域信息抽取方法。该方法依据旅游本体的关键词定位页面信息区域,从网页中抽取正文信息,对其进行分词处理及过滤,再根据Java标注模式引擎JAPE(Java Annotation Patterns Engine)编写的规则进行本体匹配,形成结构化的内容,存入数据库。最后,通过实验证明了所提出的方法的准确性。  相似文献   

3.
在利用本体进行信息抽取的基础上,提出了一个基于个人信息领域的语义信息抽取系统框架,将语义抽取从WEB领域扩展到个人信息领域;系统对个人信息领域内的网页,电子邮件,本地数据库和本地文件夹建立本体,根据本体之间的语义关联,实现个人信息领域内数据的交流。系统详细描述了语义信息抽取系统的实现过程,并以电子邮件为例重点介绍了语义信息抽取的算法。  相似文献   

4.
基于网络资源与用户行为信息的领域术语提取   总被引:1,自引:0,他引:1  
领域术语是反映领域特征的词语.领域术语自动抽取是自然语言处理中的一项重要任务,可以应用在领域本体抽取、专业搜索、文本分类、类语言建模等诸多研究领域,利用互联网上大规模的特定领域语料来构建领域词典成为一项既有挑战性又有实际价值的工作.当前,领域术语提取工作所利用的网络语料主要是网页对应的正文,但是由于网页正文信息抽取所面临的难题会影响领域术语抽取的效果,那么利用网页的锚文本和查询文本替代网页正文进行领域术语抽取,则可以避免网页正文信息抽取所面临的难题.针对锚文本和查询文本所存在的文本长度过短、语义信息不足等缺点,提出一种适用于各种类型网络数据及网络用户行为数据的领域数据提取方法,并使用该方法基于提取到的网页正文数据、网页锚文本数据、用户查询信息数据、用户浏览信息数据等开展了领域术语提取工作,重点考察不同类型网络资源和用户行为信息对领域术语提取工作的效果差异.在海量规模真实网络数据上的实验结果表明,基于用户查询信息和用户浏览过的锚文本信息比基于网页正文提取技术得到的正文取得了更好的领域术语提取效果.  相似文献   

5.
张鑫  陈梅  王翰虎  王嫣然 《微机发展》2011,(2):58-61,65
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。  相似文献   

6.
提出一种基于领域服务本体的语义标注方法.并结合电力系统领域本体对该方法进行实例说明,该方法通过分析文档(或者网页)的关键信息,使用基于OWL-S本体的语义描述方法建立关键信息与本体概念之间的映射.采用这种方法对文档进行语义标注后,可以把文档隐含的Web服务信息显式地表现出来,这样多个文档(或者网页)之间就具有语义关联关系.为服务的语义解析及智能监控提供基础.  相似文献   

7.
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法.该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web贞面中信息项的抽取路径.通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则.使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点.  相似文献   

8.
在甲骨文领域本体语义环境的基础上,提出一种针对甲骨文卜辞这种特殊结构的文档进行语义标注的方法。为提高标注的准确率,分析甲骨文特有的特征,并针对这种特殊的文档提出一系列规则。该方法首先对甲骨片上的卜辞信息进行分解,然后在甲骨文本体知识的指导下进行概念抽取。对于每个具体的实例概念在本体知识库中寻找其语义环境信息。按照所提出的规则分别计算这些信息与具体一条卜辞的重要度,最后以三元组的形式把标注信息存放于标注库中。实验结果表示,该方法依据领域本体的语义环境大大提高了标注的准确率。  相似文献   

9.
针对传统的基于关键词的搜索与数据检索存在的弊端,本文提出基于本体的Web信息抽取框架。该框架首先获取Web页面,将其转换为格式良好的HTML文档,然后利用HTML解析器将该文档转化为DOM树,再根据XPath表达式获取用户感兴趣的数据块,由此生成抽取规则,最后通过OntPMatch算法实现数据的抽取,并以RDF数据格式储存信息。本文以棉花信息为研究对象加以实证研究,实现Web生物信息数据抽取原型系统,为方便用户发现有价值的Web生物信息资源提供一个有效的工具。  相似文献   

10.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果.  相似文献   

11.
互联网上存在海量数据,如何在大量的信息中查找到有用信息就变成了一个至关重要的问题。语义网为解决这一问题带来了曙光。然而当今网络现状与语义网之间存在巨大差距,即海量非结构化的页面内容难直接转化为语义的知识。提出了一种基于文档内容的语义标注方法,利用本体所表达的语义环境,即本体知识相关词汇及其所处的语义上下文环境在文档中出现频率,实现对文档的语义标注。实验显示方法取得良好的效果,但受本体知识质量和标注文档质量两个因素影响较大。  相似文献   

12.
网页抓取器是爬虫系统的一个重要部分,其性能的好坏直接影响着搜索引擎的性能.网页抓取器可以分为网络层和应用层,而网络层是关键.基于选取样本页面、定义规则和网页抓取的三个步骤,在linux下使用epoll技术实现了多线程的网页抓取,方法快速有效.  相似文献   

13.
基于领域本体的语义标注方法研究   总被引:3,自引:0,他引:3  
介绍了语义Web.本体以及语义标注的基本概念,对语义标注方法以及现有技术工具进行了简单地说明和分析,提出了一种基于领域本体的语义标注方法,并结合石油产品领域的本体对该方法进行了实例说明.该方法通过分析文档的特征词汇,使用基于领域本体的空间向量模型方法建立词汇与本体概念之间的映射.采用这种方法对文档进行语义标注后,可以把文档隐含的语义信息显式的表现出来,这样数据库内部文档之间就具有了语义关联关系,为检索的智能推理提供基础.  相似文献   

14.
文中描述了一种基于OWL本体抽取出可以被语义Web Agent理解的语义数据的方法,在抽取过程中先将OWL本体模型转换成OSM本体,然后生成抽取规则,并进一步完善本体,最后将抽取出的数据加上语义标记,转换成语义WebAgent可以接收的RDF格式,从而可以促进语义Web的发展。  相似文献   

15.
网络信息的激增和多样化给有用信息的识别和获取带来了很多困难。本文通过对本体、Web挖掘、知识发现、概念提取、图形化等技术的集成,建立了基于本体的文档知识图形化分析模型,并以仪表领域为例,开发了相应的试验分析工具,使用户能够快速准确地识别所需要的资源,并对所拥有资源的有用性进行准确直观地判断。  相似文献   

16.
EDI电子数据交换作为一种信息技术,目前已经广泛应用在航运领域.然而由于各个国家乃至各个航运公司所用的EDI报文格式和系统都不相同,导致数据流通性差.为了解决航运领域信息共享存在的语义异构问题,本文将本体的概念引入到了航运领域之中,并且提出了一种基于XSLT转换技术和XPath路径语言的本体构建方法,实现了将航运业务的XML Schema结构文档中半自动化的转换成OWL语法的本体文档,建立了航运领域本体.实验表明,该方法能够大大提高本体的构建效率,并在一定程度上保证了本体的正确性.  相似文献   

17.
网络信息的激增和多样化给有用信息的识别和获取带来了很多困难。本文通过对本体、Web挖掘、知识发现、概念提取、图形化等技术的集成,建立了基于本体的文档知识图形化分析模型,并以仪表领域为例,开发了相应的试验分析工具,使用户能够快速准确地识别所需要的资源,并对所拥有资源的有用性进行准确直观地判断。  相似文献   

18.
In this paper, we present a temporal web data model designed for warehousing historical data from World Wide Web (WWW). As the Web is now populated with large volume of information, it has become necessary to capture selected portions of web information in a data warehouse that supports further information processing such as data extraction, data classification, and data mining. Nevertheless, due to the unstructured and dynamic nature of Web, the traditional relational model and its temporal variants could not be used to build such a data warehouse. In this paper, we therefore propose a temporal web data model that represents web documents and their connectivities in the form of temporal web tables. To represent web data that evolve with time, a visible time interval is associated with each web document. To manipulate temporal web tables, we have defined a set of web operators with capabilities ranging from extracting WWW information into web tables, to merging information from different web tables. We further illustrate the use of our temporal web data model using some realistic motivating examples.  相似文献   

19.
为了解决网络上不同系统之间连接的问题,提出了网络连接模型。针对网络连接模型中初始值无法由HTML 解析器从页面中直接获取,提出了基于本体推理的解决方案,即通过对网页进行本体分析,构建网页的本体模型,然后在 KAON2本体推理机中定义规则,推理出网络连接模型的初始值。实验以在线评测系统为例,结果证明,该方法具有很高的识别率,大大提高了网络连接模型的自动化程度。  相似文献   

20.
Multimedia is one of the important communication channels for mankind. Due to the advancement in technology and enormous growth of mankind, a vast array of multimedia data is available today. This has resulted in the obvious need for some techniques for retrieving these data. This paper will give an overview of ontology-based image retrieval system for asteroideae flower family domain. In order to reduce the semantic gap between the low-level visual features of an image and the high-level domain knowledge, we have incorporated a concept of multi-modal image ontology. So, the created asteroideae flower domain specific ontology would have the knowledge about the domain and the visual features. The visual features used to define the ontology are prevalent color, basic intrinsic pattern and contour gradient. In prevalent color extraction, the most dominant color from the images was identified and indexed. In order to determine the texture pattern for a particular flower, basic intrinsic patterns were used. The contour gradients provide the information on the image edges with respect to the image base. These feature values are embedded in the ontology at appropriate slots with respect to the domain knowledge. This paper also defines some of the query axioms which are used to retrieve appropriate information from the created ontology. This ontology can be used for image retrieval system in semantic web.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号