首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
远监督学习是适合大数据下关系抽取任务的一种学习算法.它通过对齐知识库中的关系实例和文本集中的自然语句,为学习算法提供大规模样本数据.利用本体进行关系实例的自动扩充,用于解决基于远监督学习的关系抽取任务中部分待抽取关系的实例匮乏问题.该方法首先通过定义关系覆盖率和公理容积率,来寻找与关系抽取任务关联性大的本体;然后,借助本体推理中的实例查询增加待抽取关系下的关系实例;最后,通过对齐新增关系实例和文本集中的自然语句,达到扩充样本的效果.实验结果表明:基于本体的远监督学习样本扩充方法能够有效完成样本匮乏的关系抽取任务,进一步提升远监督学习方法在大数据环境下的关系抽取能力.  相似文献   

2.
针对大多数本体构建工具只支持手工构建,造成本体构建效率极低、工作量大、容易出错、知识的动态及时更新和维护困难等问题,提出一种领域本体自动构建的框架系统,通过对企业已有数据库及相关领域中大量的知识进行本体学习,实现配置领域本体自动(或半自动)构建,给出不同数据源结构中的本体概念抽取、概念间语义关系抽取等关键技术。  相似文献   

3.
贾秀玲  文敦伟 《微机发展》2007,17(10):31-33
本体学习技术是利用本体工程技术和机器学习技术等众多学科技术来实现本体的自动半自动构建,可解决本体手工构建的不足。根据本体学习目前的研究现状,提出了一种从文本中半自动获取本体中分类关系的实现,讨论了本体学习中概念抽取和概念间分类关系抽取等关键技术。实现了本体中分类关系提取,对于非分类关系的提取还有待研究。  相似文献   

4.
刘柏嵩 《计算机工程》2008,34(8):229-231
提出一种通用的多策略本体学习框架,通过对Web上各专业领域文档集进行挖掘来实现本体自动构建。讨论本体学习中本体概念的抽取、概念之间语义关系的抽取和分类体系的自动构建等关键技术,通过实验对算法进行测试和评价。由于集成了多种机器学习算法,该方法在概念抽取和语义关系学习方面具有更高的准确性,采用通用本体WordNet和HowNet作为语料库,可适用于不同的专业领域。通过按需获取Web文档,该方法能实时生成本体。  相似文献   

5.
一种本体学习中分类关系提取方法的研究   总被引:2,自引:0,他引:2  
本体学习技术是利用本体工程技术和机器学习技术等众多学科技术来实现本体的自动半自动构建,可解决本体手工构建的不足。根据本体学习目前的研究现状,提出了一种从文本中半自动获取本体中分类关系的实现,讨论了本体学习中概念抽取和概念间分类关系抽取等关键技术。实现了本体中分类关系提取,对于非分类关系的提取还有待研究。  相似文献   

6.
本文探讨了如何利用领域文本集来自动构建领域本体的技术,以辅助知识工程师方便快捷地构建领域本体.文中提出一种利用概念之间的语义相似度,通过蚁群聚类算法对概念集进行聚类,最后利用知网的义原层次结构抽取分类关系的算法,通过非对称簇分析函数评价概念间的关联度,以提取非分类关系,最终生成领域本体.实验证明了该本体学习系统的有效性.  相似文献   

7.
目前针对国内在中文环境下本体学习的研究才刚刚起步的现状,对本体学习和HowNet进行了简单介绍,提出了基于HowNet的中文本体学习的主要思路.当前,本体学习的研究重点在于概念及概念间关系抽取.采用文本语料作为输入,首先对文本进行预处理,然后基于HowNet生成了一个领域语义词典,在本体学习中加入领域核心概念本体,在概念关系抽取阶段,采用基于HowNet的语义相似度计算方法.实验证明,提出的本体学习方法能够有效改进概念和概念间关系抽取的准确度.  相似文献   

8.
远程监督关系抽取作为关系抽取中常用的方法之一,其目的是通过远程监督自动构建大量数据进行文本的关系抽取,因此该项技术对降低人工标注数据成本从而提取更多文本信息有重要研究意义.针对传统的手工特征方法难以解决关系抽取的复杂语义问题,提出了大量基于深度学习的关系抽取方法,极大地推动了远程监督关系抽取的发展.为了进一步了解利用深度学习的方法处理远程监督关系抽取的问题,首先介绍了远程监督关系抽取的相关理论;然后从数据处理的角度分别对错误标注、长尾类数据和关系重叠这三类问题的处理方法进行了阐述,并对相关算法的特点进行分析;最后总结和提出了远程监督关系抽取的未来发展趋势.  相似文献   

9.
开发基于生物医学文献的抑郁症药物本体自动学习技术,对于抑郁症辅助诊疗有着重要的指导意义。概念抽取是面向文本的本体学习的基础。然而,现有的本体概念抽取算法在解决特定、细粒度领域的概念抽取问题时性能较差。借鉴传统的领域相关性及领域一致性的思想,综合使用对数似然比和领域关联函数进行抑郁症药物领域的概念抽取。实验结果表明,该算法能够降低抑郁症其他相关领域对概念抽取的影响,同时改善低频术语的领域隶属度计算,提高了准召率。  相似文献   

10.
从Web中提取中文本体非分类关系的方法   总被引:2,自引:0,他引:2  
为了有效地学习本体中的非分类关系以协助知识工程师构建领域本体,提出了一种在中文领域本体学习环境中自动获取概念之间非分类关系的方法,该方法以Web为数据源来提取候选关系并计算信息分布的统计特征,把动词作为发现非分类关系的中心点,把领域相关的动词作为种子来检索领域相关概念并用来标记相应的关系.该方法的学习结果是一个多级分类关系和非分类关系组成的语义体系.最后,通过对"癌"本体相应关系的提取及其性能分析,表明了该方法的学习结果和性能.  相似文献   

11.
张鑫  陈梅  王翰虎  王嫣然 《微机发展》2011,(2):58-61,65
为了解决网页信息的自动抽取,该文提出了一种基于视觉特征和领域本体的Web信息抽取算法。该算法以基于领域本体的信息抽取为基础,根据网页的视觉特征来准确划定信息抽取区域,然后结合DOM树技术和抽取路径的启发式学习,获得Web页面中信息项的抽取路径。通过信息项的抽取路径自动生成信息项的领域本体,通过信息项的领域本体解析出信息项的抽取规则。使用本算法来进行Web信息的抽取,具有查全率与查准率高、时间复杂度低、用户负担较轻和自动化程度高的特点。  相似文献   

12.
领域概念非分类关系的获取是本体学习的一项重要任务,提出了一种基于非监督学习的非分类关系自动获取方法。该方法首先通过关联规则获取特定领域概念对,然后将概念对之间的高频动词作为候选的非分类关系标签,接着利用VF*ICF度量法来确定非分类关系标签,最后通过对数似然比评估方法将得到的非分类关系标签分配给对应的领域概念对。实验结果表明该方法可以有效提高非分类关系抽取的准确率和召回率。  相似文献   

13.
传统的基于关键字的信息检索技术不能满足人们对信息查询的需求,语义网技术是解决这一问题最有前景的方法。本文设计与开发一个基于出版物领域本体的语义查询与推理系统,该系统构建了出版物领域本体,并构造该领域本体的查询语句和推理规则,给出语义查询和推理的结果,并对结果进行测试。结果验证了系统对语义查询和推理的可行性和有效性。   相似文献   

14.
一种改进的面向文本的领域概念筛选算法   总被引:1,自引:0,他引:1  
在语义技术及其应用中,本体学习是一个研究热点,而领域概念筛选则是本体学习的基础。对于领域概念筛选问题,领域一致度与领域相关度相结合的方法效果较好,却也存在信息描述不全的缺点,因此提出了一种针对此问题的改进的领域概念筛选算法。通过计算候选概念之间的语义相似度,识别出低频的具有同义关系和整体一部分关系的词语集,过滤掉部分冗余概念,然后采用改进的领域相关度和领域一致度相结合的公式进行筛选。实验表明,该方法提高了领域概念筛选的有效性。  相似文献   

15.
郑学伟 《微机发展》2014,(12):64-68
语义网的研究中基于领域本体的构建研究方法基本上还处于手工阶段,如何在本体的设计中实现自动构建仍然是目前需要解决的问题,而采用基于图的构建原理,应用MCL聚类的本体自动构建算法进行概念提取和关系运算。将领域文本文档映射为文档概念图,在关系运算中采用基于频繁信息子图的gSpan算法任意关系提取算法,得到基于OWL-DL描述的领域本体,并通过评价反馈机制进行闭环校正是研究的核心思想。  相似文献   

16.
Open ontology learning is the process of extracting a domain ontology from a knowledge source in an unsupervised way. Due to its unsupervised nature, it requires filtering mechanisms to rate the importance and correctness of the extracted knowledge. This paper presents OntoCmaps, a domain-independent and open ontology learning tool that extracts deep semantic representations from corpora. OntoCmaps generates rich conceptual representations in the form of concept maps and proposes an innovative filtering mechanism based on metrics from graph theory. Our results show that using metrics such as Betweenness, PageRank, Hits and Degree centrality outperforms the results of standard text-based metrics (TF-IDF, term frequency) for concept identification. We propose voting schemes based on these metrics that provide a good performance in relationship identification, which again provides better results (in terms of precision and F-measure) than other traditional metrics such as frequency of co-occurrences. The approach is evaluated against a gold standard and is compared to the ontology learning tool Text2Onto. The OntoCmaps generated ontology is more expressive than Text2Onto ontology especially in conceptual relationships and leads to better results in terms of precision, recall and F-measure.  相似文献   

17.
基于上下文的领域本体概念和关系的提取*   总被引:5,自引:1,他引:4  
目前本体学习的研究重点在于概念及关系的提取,概念提取领域一致度与领域相关度相结合的方法取得了比较好的效果,而关系提取则主要采用基于关联规则的方法。这种本体概念、关系学习方法由于只考虑词频,提取结果准确性欠缺。针对这种缺陷,在统计的基础上考虑了语义因素,利用词汇上下文计算概念的语义相似度并将其应用到概念与关系提取中。实验结果表明,词汇上下文与传统统计相结合的方法能够有效改进概念和关系提取的准确度。  相似文献   

18.
In recent years, much effort has been put in ontology learning. However, the knowledge acquisition process is typically focused in the taxonomic aspect. The discovery of non-taxonomic relationships is often neglected, even though it is a fundamental point in structuring domain knowledge. This paper presents an automatic and unsupervised methodology that addresses the non-taxonomic learning process for constructing domain ontologies. It is able to discover domain-related verbs, extract non-taxonomically related concepts and label relationships, using the Web as corpus. The paper also discusses how the obtained relationships can be automatically evaluated against WordNet and presents encouraging results for several domains.  相似文献   

19.
现有领域本体概念上下位关系抽取方法受到手工标注和特定模式的限制。针对该问题,提出一种基于层叠条件随机场的领域本体概念上下位关系抽取方法。以自由文本为抽取对象,采用两层条件随机场算法,将训练数据处理成条件随机场能识别的线性结构。低层条件随机场模型考虑词之间的长距离依赖,对词进行建模,识别出领域概念并对概念进行顺序组合,结合模板定义特征得到概念对;高层模型对成对概念进行上下位语义标注,识别出领域本体概念之间的上下位关系。采用真实语料进行实验,结果表明,该方法具有较好的识别效果。  相似文献   

20.
基于非结构化数据的本体学习研究   总被引:4,自引:2,他引:2       下载免费PDF全文
语义Web的创建需要一套共同的标准概念体系,即本体(Ontology)。而现在本体的构造手段仍然是以手工构造为主,效率和准确率都非常低,很容易导致知识获取的瓶颈。近年来,自动创建领域本体可以克服手工方法的不足,成为当前的研究热点之一;本体学习是自动或半自动构建本体的一系列方法和技术。提出了一种利用知网,基于非结构化数据的特定领域概念及其之间关系的提取算法,从军事领域选取4个种子概念:舰、导弹、机和炮,并通过实验测试了该算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号