首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 406 毫秒
1.
文章针对特定领域的中文文本建立了一个信息抽取模型,阐述了根据信息模板和领域特点进行概念分类的方法,介绍了采用隐马尔可夫统计模型进行自动概念标注的过程,提出了运用概念过滤、模板匹配方法进行抽取信息的思路。在模型基础上实现了一个信息抽取实验系统,并通过实验证明了此模型针对特定领域文本是有效的。  相似文献   

2.
目前针对国内在中文环境下本体学习的研究才刚刚起步的现状,对本体学习和HowNet进行了简单介绍,提出了基于HowNet的中文本体学习的主要思路.当前,本体学习的研究重点在于概念及概念间关系抽取.采用文本语料作为输入,首先对文本进行预处理,然后基于HowNet生成了一个领域语义词典,在本体学习中加入领域核心概念本体,在概念关系抽取阶段,采用基于HowNet的语义相似度计算方法.实验证明,提出的本体学习方法能够有效改进概念和概念间关系抽取的准确度.  相似文献   

3.
现有领域本体概念上下位关系抽取方法受到手工标注和特定模式的限制。针对该问题,提出一种基于层叠条件随机场的领域本体概念上下位关系抽取方法。以自由文本为抽取对象,采用两层条件随机场算法,将训练数据处理成条件随机场能识别的线性结构。低层条件随机场模型考虑词之间的长距离依赖,对词进行建模,识别出领域概念并对概念进行顺序组合,结合模板定义特征得到概念对;高层模型对成对概念进行上下位语义标注,识别出领域本体概念之间的上下位关系。采用真实语料进行实验,结果表明,该方法具有较好的识别效果。  相似文献   

4.
李贞  张卓  王黎明 《计算机科学》2017,44(8):207-215
随着网络中三维数据的涌现,三元概念分析的优势也逐渐体现出来。三元概念分析是较新的研究领域,具有广阔的发展前景。提出基于三元概念分析的文本分类方法,该方法是一种全新的构思理念,是三元概念分析在应用上的拓展。该算法的主要思路是:首先将数据集预处理为三元背景,同时将背景中的二值关系扩展为0-1间的模糊关系,其用于表示特定条件下属性对于对象的隶属度,并基于此构建三元概念,利用三元概念表示数据集中文本、特征词与类别之间的三元关系;然后结合模糊理论中的贴近度,类比得出三元概念间的相似度,并运用相似性度量计算出训练集中三元概念与新文本的相似值。实验结果表明,文中所提模型是有效的,且在特定的数据集上相较于机器学习Support Vector Machine(SVM)算法、K-Nearest Neighbor(KNN)算法、卷积神经网络(CNN)算法以及基于形式概念分析的分类模型均有更好的分类效果。  相似文献   

5.
基于本体的文本分类方法未考虑本体概念自身所含有的信息量及忽略本体推理功能。为此,以旅游领域为背景,提出一种基于领域本体的文本分类方法。该方法采用本体自身结构作为分类标准,通过计算特征项和本体概念间的语义关联度及结合本体的推理功能,将文本划分到合适的本体概念下作为概念的实例。实验结果证明,与传统方法相比,该方法的分类方法F1值至少提高8.7%。  相似文献   

6.
开发基于生物医学文献的抑郁症药物本体自动学习技术,对于抑郁症辅助诊疗有着重要的指导意义。概念抽取是面向文本的本体学习的基础。然而,现有的本体概念抽取算法在解决特定、细粒度领域的概念抽取问题时性能较差。借鉴传统的领域相关性及领域一致性的思想,综合使用对数似然比和领域关联函数进行抑郁症药物领域的概念抽取。实验结果表明,该算法能够降低抑郁症其他相关领域对概念抽取的影响,同时改善低频术语的领域隶属度计算,提高了准召率。  相似文献   

7.
付瑶  万静  邢立栋 《计算机应用研究》2020,37(3):708-711,730
针对特定领域内自动化识别既有概念和发现新概念的问题,提出一种基于条件随机场和信息熵的抽取方法。通过使用条件随机场对文本中的概念词进行边界预测,与词典中的概念对比,筛选出新概念的候选项并找出其大概位置,然后由互信息和左右熵分别判断概念窗口内的概念内部结合度和概念边界自由度,从而发现新的专业概念。实验表明,使用该方法进行概念发现比单独使用条件随机场的方法有更好的效果,基于字和词的模型概念发现的准确率分别提升了20.06%和46.54%。  相似文献   

8.
为了解决传统文本过滤以联,提出了一种基于概念格的文本过滤模型.在以传统的向量空问模型对文本进行表示的基础上,将文本与文本特征之间的关系以概念格的形式加以表示.设计了基于领域本体的概念相似度的计算方法,以概念相似度对概念之间的关联进行衡量.利用了概念格中的层次关系,设计了一个基于概念格的匹配过滤算法.实验结果表明,该模型...  相似文献   

9.
基于关联矩阵的主题概念选择算法研究   总被引:1,自引:0,他引:1  
主题概念抽取是文本自动处理中的一项重要工作。以往主题概念抽取中的加权算法较少考虑到主题概念间的相关信息,在一定程度上影响了主题概念抽取的质量。该文提出了一种基于关联矩阵的主题概念选择算法。该算法在概念语义关联矩阵的基础上,通过对矩阵中概念相关向量与文本向量距离的计算,得出候选主题概念相对于待标引文档的重要度,最后依据该重要度完成文本主题概念的选择。实验显示,该算法产生的自动标引结果比单纯按权重排序的方法更能表现文本的主题。  相似文献   

10.
为了提高中文领域本体概念抽取的自动化程度及准确率,提出了一种基于动态权值的多策略中文领域本体概念自动抽取方法。针对中文领域本体概念的特点,采用自动学习的规则学习模式,筛选出候选概念,将改进的DR&DC、TF-IDF和NC-Value三种策略融合,对候选概念进行领域归属度排序,将最终权重超过阈值的概念存入最终概念集合。实验证明了该方法抽取领域概念的可行性和有效性。  相似文献   

11.
Problems and an associated technique for developing a Bayesian approach to decision-making in the case of fuzzy data are presented. The concept of fuzzy and pseudofuzzy quantities is introduced and main operations with pseudofuzzy quantities are considered. The basic relationships and the principal concepts of the Bayesian decision procedure based on the modus-ponens rule are proposed. Some problems concerned with the practical realization of the fuzzy Bayesian method are considered.  相似文献   

12.
基于信息论的潜在概念获取与文本聚类   总被引:4,自引:3,他引:4  
李晓光  于戈  王大玲  鲍玉斌 《软件学报》2008,19(9):2276-2284
针对词、潜在概念、文本和主题之间的模糊关系,提出一种基于信息论的潜在概念获取与文本聚类方法.方法引入了潜在概念变量和主题变量。根据信息论中熵压缩编码理论,定义了一个全局目标函数,给出一种类似于确定性退火算法的求解算法,用以获得概念层次树以及在不同层次概念上的文本聚类结果,是一种双向软聚类方法.方法通过基于最短描述长度原则的概念选择方法,最终确定概念个数和对应的文本聚类结果.实验结果表明,所提出的方法优于基于词空间的文本聚类方法以及双向硬聚类方法.  相似文献   

13.
Key concept extraction is a major step for ontology learning that aims to build an ontology by identifying relevant domain concepts and their semantic relationships from a text corpus. The success of ontology development using key concept extraction strongly relies on the degree of relevance of the key concepts identified. If the identified key concepts are not closely relevant to the domain, the constructed ontology will not be able to correctly and fully represent the domain knowledge. In this paper, we propose a novel method, named CFinder, for key concept extraction. Given a text corpus in the target domain, CFinder first extracts noun phrases using their linguistic patterns based on Part-Of-Speech (POS) tags as candidates for key concepts. To calculate the weights (or importance) of these candidates within the domain, CFinder combines their statistical knowledge and domain-specific knowledge indicating their relative importance within the domain. The calculated weights are further enhanced by considering an inner structural pattern of the candidates. The effectiveness of CFinder is evaluated with a recently developed ontology for the domain of ‘emergency management for mass gatherings’ against the state-of-the-art methods for key concept extraction including—Text2Onto, KP-Miner and Moki. The comparative evaluation results show that CFinder statistically significantly outperforms all the three methods in terms of F-measure and average precision.  相似文献   

14.
基于聚类和MRF模型的场景文字提取方法   总被引:1,自引:0,他引:1       下载免费PDF全文
章天则  赵宇明 《计算机工程》2011,37(21):176-178,181
提出一种从自然场景中提取文本区域的方法。该方法包括候选文本区域的提取,以及候选区域是否为文字区域的判定。候选文字区域的提取,主要利用图像的纹理特征和HSL颜色空间信息,通过改进的模糊C均值聚类函数,结合拉普拉斯掩膜与计算最大梯度差来实现。由连通域边缘密度信息、形状信息的马尔科夫随机场模型,判定候选文字区域是否为文字区域。经ICDAR2003数据库测试结果表明,该方法具有较高的精确度。  相似文献   

15.
针对为检索服务的语义知识库存在的内容不全面和不准确的问题,提出一种基于维基百科的软件工程领域概念语义知识库的构建方法;首先,以SWEBOK V3概念为标准,从维基百科提取概念的解释文本,并抽取其关键词表示概念的语义;其次,通过概念在维基百科中的层次关系、概念与其它概念解释文本关键词之间的链接关系、不同概念解释文本关键词之间的链接关系构建概念语义知识库;接着, LDA主题模型分别和TF-IDF算法、TextRank算法相结合的两种方法抽取关键词;最后,对构建好的概念语义知识库用随机游走算法计算概念间的语义相似度;将实验结果与人工标注结果对比发现,本方法构建的语义知识库语义相似度准确率能够达到84%以上;充分验证了所提方法的有效性。  相似文献   

16.
从算法的角度,阐述将FCA的核心——概念格,应用于以图像底层特征为外延、VAD心情空间中的情感分类为内涵所构成的模糊形式背景中,给出了基于图像情感本体的模糊概念格的基本概念,根据模糊形式背景构建并维护相应模糊概念格,提出了今后的研究方向,为同课题组的其他研究提供支持。  相似文献   

17.
基于概念的文本类别特征提取与文本模糊匹配   总被引:15,自引:1,他引:15  
文本信息特征提取和文本分类是当前智能信息服务系统基础研究的重点。该文给出一种新的类别特征提取与文本匹配方法。首先对术语特征权进行了综合计算,然后基于概念网络术语—概念映射关系,将特征权由术语空间转换到概念空间并做权值限幅处理。在此基础上,通过对概念进行类内和类间的统计分析,得到类别特征的均值与方差两个向量,通过模糊距离计算来对文本进行类别匹配。该文方法克服了传统IDF方法缺点,能有效地从概念上提取文本类特征,提高文本自动分类的准确性。  相似文献   

18.
本体学习已成为计算机领域的一个研究热点,目前本体学习的研究重点在于概念及关系的提取。针对现有学习方法准确率不高,提出一种结合对数似然比(Log-Likelihood Ratio,LLR)的本体学习方法,采用对数似然比计算概念与领域及概念与概念之间的相关性,将其应用到概念与关系提取中。实验结果表明,结合对数似然比的学习方法能够有效改进概念和关系提取的准确度。  相似文献   

19.
概念与文档的语义相似度计算   总被引:1,自引:0,他引:1  
将本体作为背景知识引入到概念之间相似度和文档之间相似度的计算中。通过图模型表示本体中概念以及概念之间的语义关系,用来将一个概念和一个文档扩展为一个语义模糊集,并计算模糊集合之间的相似度。文档相似度的计算是在概念相似度计算的基础之上。在概念相似度的计算过程中引入了语义相似度矩阵以及基于共信息理论的模糊相似度方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号