首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
一种基于领域本体的新术语扩充方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于领域本体的新术语扩充方法。结合传统基于统计和基于规则的方法,计算词语在文档中的影响程度,使用领域本体体现领域知识,通过在文档中识别出本体中概念计算文档及词语的领域相关度,获得术语候选项的推荐排序,对术语候选项结果进行优化。实验结果证明了该方法的有效性和可行性。  相似文献   

2.
本体构造就是利用各种数据源以半自动方式新建或扩充改编已有本体以构建一个新本体。现有的本体构造方法大都以大量领域文本和背景语料库为基础抽取大量概念术语,然后从中选出领域概念构造出一个本体。Cluster-Merge算法首先对领域文档先用k-means聚类算法进行聚类,然后根据文档聚类的结果来构造本体,最后根据本体相似度进行本体合并得到最终的输出本体。通过实验可证明用Cluster-Merge算法得出的本体可以提高查全率、查准率。  相似文献   

3.
为了消除自然语言对构件文本信息描述的二义性以及增强术语间的语义关系,文中采用领域本体的思想,给出了一个基于人工智能领域本体的软件构件聚类模型和基于该模型的聚类算法。该模型通过分析领域的共同概念,形成领域本体知识库,提供领域内一致认可的术语,用于匹配对构件文本描述所使用的自然语言。给出的算法通过与基于传统空间向量的K—Means算法分析比较,验证了该算法是有效的,实现了对软件构件更合理的聚类,提高了构件检索的效率和准确性。  相似文献   

4.
张鑫  陈梅  王翰虎  王嫣然 《微机发展》2011,(2):58-61,65
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。  相似文献   

5.
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法.该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web贞面中信息项的抽取路径.通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则.使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点.  相似文献   

6.
针对电力监控系统面临的网络安全问题实际需求, 开展了本体自动构建技术研究, 以现有的领域本体自动化构建技术为基础, 从非结构化文本数据提取出电网安全监测领域本体SafeAgent, 采用机器学习、自然语言处理、关联规则等方法抽取本体概念, 挖掘概念之间的关系, 完善了领域本体自动化构建方案. 经实验验证, 本文采用的方法能以较高准确率完成领域本体的自动化构建工作, 克服对人工以及专家知识的依赖.  相似文献   

7.
在研究文本倾向性识别方法的基础上,分别实现基于文本分类、基于语义规则模式和基于情感词的倾向性分析算法.研究情感本体构建和基于HowNet与主题领域语料的情感概念选择方法,两者结合能提高情感本体中概念的全面性和领域针对性.利用情感本体抽取特征词并判断其情感倾向度,结合句法规则及程度副词影响,用特征情感倾向度作为特征权重,采用机器学习的方法对主题网络舆情web文本进行倾向性分析.实验表明,其分析结果有更高的准确率和召回率,实现方案的普遍性和稳定性值得进一步研究.  相似文献   

8.
目前针对国内在中文环境下本体学习的研究才刚刚起步的现状,对本体学习和HowNet进行了简单介绍,提出了基于HowNet的中文本体学习的主要思路.当前,本体学习的研究重点在于概念及概念间关系抽取.采用文本语料作为输入,首先对文本进行预处理,然后基于HowNet生成了一个领域语义词典,在本体学习中加入领域核心概念本体,在概念关系抽取阶段,采用基于HowNet的语义相似度计算方法.实验证明,提出的本体学习方法能够有效改进概念和概念间关系抽取的准确度.  相似文献   

9.
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。  相似文献   

10.
随着网络上信息的飞速增长,网络已发展成为一个巨大的数据库,人们对快速准确地获取网页数据提出了更多的需求。目前,自然语言处理领域已经将网页信息抽取技术的研究作为一个重点。首先该文介绍了关于本体的一些基础知识,在此基础上提出并实现了一种基于领域本体的网页数据抽取方法。在该文中,利用领域本体的关键词、概念及关系来生成抽取规则,采用语法分析模块对输入的文档进行预处理,最后根据语法分析的机构和生成的抽取规则来对文档实现数据抽取。实验证明,该方法具有良好的性能。  相似文献   

11.
基于关系数据库的应急预案领域本体构建研究   总被引:1,自引:0,他引:1  
鉴于领域本体在数字化预案中扮演的日益重要的角色,本文提出了一种基于关系数据库(relation database,RDB)的自动生成应急预案领域本体的构建方法。该方法通过数据库逆向工程工具Rational Rose抽取关系数据库的逻辑和概念模型,采用查询数据库系统表的方法抽取其物理模型,分析关系数据模型(relation data model,RDM)的关系及其模式间的规范及非规范关系来定义转换规则。实验证明,该方法可以有效地自动进行关系数据库到领域本体的建模,提高应急预案领域本体的构建效率,加速应急预案数字化的进程。  相似文献   

12.
李江华  郑剑 《计算机应用》2012,32(10):2891-2894
为了能够以较高的准确率搜索到用户所需要的领域本体,在分析本体搜索需求和研究用户搜索行为的基础上,提出了一种基于用户行为的启发式本体搜索机制,利用不同用户由于领域认知不同,输入的具有领域共性的搜索关键词不同,实现用户搜索关键词的启发式扩展和搜索匹配度的提高。实验表明,使用该方法执行本体搜索具有较高的准确率和召回率。  相似文献   

13.
针对现有实例匹配方法存在的准确率和学习效率不高的问题,提出了一种新的基于遗传规划和主动学习的链接规则学习方法,并用于本体实例匹配。设计了更合理的链接规则表示,并针对链接规则的特点,对遗传规划的初始种群产生、适应度函数和进化算子进行了详细设计。提出了一种考虑样本相关性的主动学习采样策略,使得稀有样本被优先训练。实验结果表明,该方法不仅学习效率更高,而且能够学习出高质量的链接规则,取得了较好的本体实例匹配结果。  相似文献   

14.
本文提出知识网格环境下基于领域本体的智能检索模型,采用OWL DL语言对领域知识进行形式化描述,支持推理和深层语义检索."标注"和"查询优化"是检索的两个关键技术.通过规范的概念和概念间语义关系对文档片段进行标注,并针对"一词多义"问题提出"主题-概念"两阶段消歧算法."查询优化"过程中,基于OWL DL推理的优化算法实现查询概念的自动扩展,提高了查全率和查准率.基于以上方法,建立航天领域本体,利用网上数据库开放资源作为测试集进行评测.实验显示,与传统基于  相似文献   

15.
A symbolic approach to automatic multiword term structuring   总被引:1,自引:0,他引:1  
This paper presents a three-level structuring of multiword terms basing on lexical inclusion, WordNet similarity and a clustering approach. Term clustering by automatic data analysis methods offers an interesting way of organizing a domain’s knowledge structure, useful for several information-oriented tasks like science and technology watch, textmining, computer-assisted ontology population, Question Answering (Q–A). This paper explores how this three-level term structuring brings to light the knowledge structures from a corpus of genomics and compares the mapping of the domain topics against a hand-built ontology (the GENIA ontology). Ways of integrating the results into a Q–A system are discussed.  相似文献   

16.
中文领域术语自动抽取是中文信息处理中的一项基础性课题,并在自然语言生成、信息检索、文本摘要等领域中有广泛的应用。针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息出现概率知识库相结合的词语度筛选策略以及基于词频-逆文档频率(TF?IDF)的领域度筛选策略。运用此算法不但能抽取出领域的常见用词,还可以挖掘出领域新词。实验结果显示,基于如上方法构建的领域术语抽取系统的准确率为84.33%,所提方法能够有效支持中文领域术语的自动抽取。  相似文献   

17.
开放域问答系统通常可以借助一些数据冗余方法来提高问答准确性,而对于缺乏大规模领域语料的领域相关问答系统来说,准确理解用户的意图成为这类系统的关键。该文首先定义了一种带约束语义文法,与本体等语义资源相结合,可以在词汇级、句法级、语义级对自然语言句子的解析过程进行约束,解决自然语言理解歧义问题;然后给出了一个高效的文法匹配算法,其首先依据定义的各种约束条件预先过滤一些规则,然后依据提出的匹配度计算模型对候选的规则进行排序,找到最佳匹配。为了验证方法的有效性,将方法应用到两个实际的应用领域的信息查询系统。实验结果表明,本系统提出的方法切实有效,系统理解准确率分别达到了82.4%和86.2%,MRR值分别达到了91.6%和93.5%。  相似文献   

18.
提出一种基于本体的Deep Web数据源发现方法,采用网页分类、表单内容分类、表单结构分类方式,确定符合某领域的Deep Web查询接口。在网页分类和表单内容分类中引入本体的半自动构建和自动扩展模块,在表单结构分类中添加启发式规则。实验结果证 明,该方法能有效提高Deep Web数据源的查全率和查准率。  相似文献   

19.
VoIP enables new ways for communication. At the same time, it provides new means, in terms of transmitting bulk unsolicited messages and calls, namely SPam over Internet telephony (SPIT). In this paper, we propose a conceptual model, based on an underlying ontology, which describes the SPIT domain. The ontology provides capabilities, such as modeling the SPIT phenomenon in a SIP-based VoIP environment, a common understanding of SPIT domain, as well as reusable SPIT-related knowledge interoperability, aggregation and reasoning. We demonstrate that the proposed ontology, combined with a set of SPIT identification criteria, as its underlying axioms and rules, could enhance the correlation and management of SPIT incidents. It could also support SPIT detection, thus facilitating the better protection of VoIP environments in a holistic, cooperative, and effective way.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号