首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 296 毫秒
1.
基于Web数据的本体概念抽取   总被引:1,自引:0,他引:1  
本体论(Ontology)在知识管理及语义网(Semantic Web)中越来越重要,但建造本体往往需要耗费大量的时间,且建造完成后本体的维护对知识管理者来说也是费时的工作。自动创建领域Ontology可以克服手工方法的不足,成为当前的研究热点之一;而概念是本体中最重要的组成部分之一,从半结构化的Web文档中自动抽取概念的效率和准确度的高低,直接决定了自动建造的本体的质量,提出一种自动的本体概念抽取模型,此模型不依赖于领域词典或核心本体,并且能达到快速有效地通过对中文Web文本挖掘自动地构建及更新领域本体概念的目的。  相似文献   

2.
刘柏嵩 《计算机工程》2008,34(8):229-231
提出一种通用的多策略本体学习框架,通过对Web上各专业领域文档集进行挖掘来实现本体自动构建。讨论本体学习中本体概念的抽取、概念之间语义关系的抽取和分类体系的自动构建等关键技术,通过实验对算法进行测试和评价。由于集成了多种机器学习算法,该方法在概念抽取和语义关系学习方面具有更高的准确性,采用通用本体WordNet和HowNet作为语料库,可适用于不同的专业领域。通过按需获取Web文档,该方法能实时生成本体。  相似文献   

3.
针对自动问答系统,介绍如何用事例推理模型(CBR)来解决中文自动问答问题。提出了范例文档库的表示结构,关键词的抽取方法,候选答案集的检索策略,最终答案的抽取算法,以及对答案的修正方法等。通过理论和实验分析表明,该模型运用在自动问答系统领域是可行的和具有广大的发展空间的。  相似文献   

4.
由于中文和英文在语法和句法等方面的差异,面向中文文本的本体学习方法尚存在一定困难。研究了面向中文文本的玉米病虫害本体学习方法。提出单字合并法,将其与TFIDF方法结合,进行概念抽取;将欧几里德距离与余弦距离加权平均计算概念相似度,进行概念关系抽取。从中国玉米网选取50篇领域文档,应用上述方法构建了玉米病虫害本体。  相似文献   

5.
中文领域术语自动抽取是中文信息处理中的一项基础性课题,并在自然语言生成、信息检索、文本摘要等领域中有广泛的应用。针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息出现概率知识库相结合的词语度筛选策略以及基于词频-逆文档频率(TF?IDF)的领域度筛选策略。运用此算法不但能抽取出领域的常见用词,还可以挖掘出领域新词。实验结果显示,基于如上方法构建的领域术语抽取系统的准确率为84.33%,所提方法能够有效支持中文领域术语的自动抽取。  相似文献   

6.
该文研究了一种基于多特征表示的本体概念挂载方法。以中国大百科知识体系作为本体体系结构,抽取网络知识库条目作为本体概念,通过分析条目中文本内容、语义标签和半结构化信息获得本体概念间层级关系。该文将中国大百科知识体系扩展为百万级概念的多领域中文本体,为进一步抽取本体概念的属性、概念之间的非层级关系以及支持问答服务等应用建立了良好的基础。实验证明该方法相对于单一特征方法能够提高11.8%的挂载精度。  相似文献   

7.
领域概念非分类关系的获取是本体学习的一项重要任务,提出了一种基于非监督学习的非分类关系自动获取方法。该方法首先通过关联规则获取特定领域概念对,然后将概念对之间的高频动词作为候选的非分类关系标签,接着利用VF*ICF度量法来确定非分类关系标签,最后通过对数似然比评估方法将得到的非分类关系标签分配给对应的领域概念对。实验结果表明该方法可以有效提高非分类关系抽取的准确率和召回率。  相似文献   

8.
中文专利文献中含有大量领域术语,对这些术语进行自动识别是信息抽取、文本挖掘等领域的重要任务。该文提出了基于专利文献标题的术语词性规则自动生成方法以及针对候选术语排序的TermRank算法。该方法首先从大量的中文专利文献标题中自动生成词性规则;然后利用生成的词性规则对中文专利文献正文部分进行规则匹配获得候选术语表;再利用提出的TermRank排序算法对候选术语表排序,最终得到术语列表。通过在9 725篇中文专利文献数据上实验,证实了该方法的有效性。
  相似文献   

9.
层次关系是中文文本概念间存在的最为重要的关系之一,对层次关系的正确判定是进行领域本体自动构建、文本数据挖掘等信息处理的基础研究内容。先将概念间可能存在的候选层次关系罗列出来,构建词性序列语义余弦相似度和关系词语余弦相似度混合的核函数分类器,将概念间层次关系的挖掘问题转化为分类问题;再通过对文本数据进行模板标注来训练分类器;最后输入预处理后的中文文本,使用核函数分类器对候选层次关系进行判定。以空军武器装备领域的中文文本为测试数据,通过实验表明,该方法简单可靠,具有较好的正确率和召回率。  相似文献   

10.
从Web中提取中文本体非分类关系的方法   总被引:2,自引:0,他引:2  
为了有效地学习本体中的非分类关系以协助知识工程师构建领域本体,提出了一种在中文领域本体学习环境中自动获取概念之间非分类关系的方法,该方法以Web为数据源来提取候选关系并计算信息分布的统计特征,把动词作为发现非分类关系的中心点,把领域相关的动词作为种子来检索领域相关概念并用来标记相应的关系.该方法的学习结果是一个多级分类关系和非分类关系组成的语义体系.最后,通过对"癌"本体相应关系的提取及其性能分析,表明了该方法的学习结果和性能.  相似文献   

11.
基于维基百科的领域历史沿革信息抽取   总被引:1,自引:0,他引:1  
赵佳鹏  林民 《计算机应用》2015,35(4):1021-1025
针对在软件工程的教学过程中,由于领域概念种类多、演变快,导致学生理解记忆困难的问题,提出了通过抽取软件工程领域历史沿革主题信息构建知识库的方法。该方法首先结合自然语言处理技术与Web信息抽取技术从维基百科的自由文本中抽取实体与实体关系构建候选集;再利用关键词抽取方法TextRank从候选集中抽取与历史沿革关系最密切的实体关系;最后以关键实体关系为核心,抽取邻近的时间实体与概念实体组成五元组构建了知识库。在抽取信息的过程中,结合文本的语义信息对TextRank算法进行了改进,提高了抽取的准确率。实验结果表明,该知识库能够将软件工程领域的概念按时序特征组织在一起,验证了所提方法的有效性。  相似文献   

12.
针对统计学方法在领域概念获取时缺少词语语义信息的问题,提出了一种结合语义相似度和改进近邻传播算法的领域概念自动获取方法。该方法通过互信息进行合成词提取,使用对数似然比避免对低频词的遗漏,利用HowNet和余弦相似度识别术语间同义词,采用改进的近邻传播算法获取领域概念集合。实验结果表明,该方法在准确率、召回率和困惑度变化率上比传统的方法都有较大提高。  相似文献   

13.
Key concept extraction is a major step for ontology learning that aims to build an ontology by identifying relevant domain concepts and their semantic relationships from a text corpus. The success of ontology development using key concept extraction strongly relies on the degree of relevance of the key concepts identified. If the identified key concepts are not closely relevant to the domain, the constructed ontology will not be able to correctly and fully represent the domain knowledge. In this paper, we propose a novel method, named CFinder, for key concept extraction. Given a text corpus in the target domain, CFinder first extracts noun phrases using their linguistic patterns based on Part-Of-Speech (POS) tags as candidates for key concepts. To calculate the weights (or importance) of these candidates within the domain, CFinder combines their statistical knowledge and domain-specific knowledge indicating their relative importance within the domain. The calculated weights are further enhanced by considering an inner structural pattern of the candidates. The effectiveness of CFinder is evaluated with a recently developed ontology for the domain of ‘emergency management for mass gatherings’ against the state-of-the-art methods for key concept extraction including—Text2Onto, KP-Miner and Moki. The comparative evaluation results show that CFinder statistically significantly outperforms all the three methods in terms of F-measure and average precision.  相似文献   

14.
为了提高特定领域核心概念抽取的效率,提出一种基于模糊贝叶斯决策的核心概念抽取方法。在特定领域内随机抽取大量文本并进行分词获取候选概念;然后采用TF-IDF算法计算候选概念的各项特征值,采用概念隶属度归一化处理候选概念特征值;最终通过贝叶斯决策计算候选概念为核心概念的概率。在财经领域相关数据集上进行文本核心概念抽取的实验结果表明,所提方法的F1值相比TextRank、LDA主题模型、word2vec词聚类模型、RNN、LSTM等的F1值有所提高。综合实验结果表明,基于模糊贝叶斯决策的核心概念抽取方法在核心概念抽取方面表现较好。  相似文献   

15.
本体的自动抽取问题是电子政务信息集成的核心问题之一。在本体的自动抽取过程中,FCA方法用于自动分析概念之间的关系,但它对概念间的同义词关系分析不够。基于这个原因,对FCA方法进行了优化,提出了SFCA算法。算法根据属性在概念中的重要性对属性赋权值,利用属性的权值计算两个概念的相似度,最终确定两个概念是否是同义词关系。通过对算法的实验结果的分析验证其是有效的,并给出了正确性证明。  相似文献   

16.
一种改进的面向文本的领域概念筛选算法   总被引:1,自引:0,他引:1  
在语义技术及其应用中,本体学习是一个研究热点,而领域概念筛选则是本体学习的基础。对于领域概念筛选问题,领域一致度与领域相关度相结合的方法效果较好,却也存在信息描述不全的缺点,因此提出了一种针对此问题的改进的领域概念筛选算法。通过计算候选概念之间的语义相似度,识别出低频的具有同义关系和整体一部分关系的词语集,过滤掉部分冗余概念,然后采用改进的领域相关度和领域一致度相结合的公式进行筛选。实验表明,该方法提高了领域概念筛选的有效性。  相似文献   

17.
现有领域本体概念上下位关系抽取方法受到手工标注和特定模式的限制。针对该问题,提出一种基于层叠条件随机场的领域本体概念上下位关系抽取方法。以自由文本为抽取对象,采用两层条件随机场算法,将训练数据处理成条件随机场能识别的线性结构。低层条件随机场模型考虑词之间的长距离依赖,对词进行建模,识别出领域概念并对概念进行顺序组合,结合模板定义特征得到概念对;高层模型对成对概念进行上下位语义标注,识别出领域本体概念之间的上下位关系。采用真实语料进行实验,结果表明,该方法具有较好的识别效果。  相似文献   

18.
本文利用文本分类中文本的特点提出了一种基于模糊集的同义词处理的新方法。本方法充分考虑不同文本类型中同义(近义) 词之间的差别,在训练中自动计算不同类型文本中特征词对其对应的同义概念的隶属度,从而实现了用模糊集来定义同义概念;然后应用同义概念来提取文本中的特征值。另外,本系统还利用模糊集来处理多义词的问题。文中给出了系统的处理算法。比较试验的结果表明该方法提高了分类的正确率,效果是令人满意的。整个系统达到了较高的自动化水平和较强的可移植性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号