首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 109 毫秒
1.
词语相似度计算方法分析   总被引:1,自引:0,他引:1  
词语相似度计算是自然语言处理、智能检索、文档聚类、文档分类、自动应答、词义排歧和机器翻译等很多领域的基础研究课题。词语相似度计算在理论研究和实际应用中具有重要意义。本文对词语相似度进行总结,分别阐述了基于大规模语料库的词语相似度计算方法和基于本体的词语相似度计算方法,重点对后者进行详细分析。最后对两类方法进行简单对比,指出各自优缺点。  相似文献   

2.
中文领域术语自动抽取是中文信息处理中的一项基础性课题,并在自然语言生成、信息检索、文本摘要等领域中有广泛的应用。针对领域术语抽取问题,采用基于规则和多种统计策略相融合的方法,从词语度和领域度两个角度出发,提出一种领域术语的抽取算法并构建出相应的抽取系统。系统流程包括基于左右信息熵扩展的候选领域术语获取、基于词性搭配规则与边界信息出现概率知识库相结合的词语度筛选策略以及基于词频-逆文档频率(TF?IDF)的领域度筛选策略。运用此算法不但能抽取出领域的常见用词,还可以挖掘出领域新词。实验结果显示,基于如上方法构建的领域术语抽取系统的准确率为84.33%,所提方法能够有效支持中文领域术语的自动抽取。  相似文献   

3.
专利领域中术语抽取结果的好坏决定了本体构建的质量。提出一种自动生成过滤词典并结合词汇密集度等影响因子的术语抽取方法。首先在分词和词性标注的基础上,对文献匹配词性规则算法生成的模板得到候选长术语和单词型短术语集合,然后利用文档一致度生成的过滤词典过滤部分候选长术语集,最后针对长术语的构成特点,将词汇密集度、文档差比、文档一致度三个术语因子加权平均作为整个长术语的术语权重值,并按值高低排序。在8000篇专利摘要文献的基准语料上进行实验,随机选取五组实验数据,平均准确率达到86%。结果表明该方法在领域术语抽取方面是行之有效的。  相似文献   

4.
基于领域本体综合考虑属性、语义距离、层次深度和调节因子等多种因素对词语相似度的影响,提出计算词语相似度的方法.实验证明,该方法充分利用了领域本体中概念的层次关系和属性特点,并把它们结合起来,利用词语之间的相似度对文本的向量空间模型进行扩展,达到了较好的文本分类效果.  相似文献   

5.
针对传统的论文检索方法缺乏语义理解,检索结果相关度不高的缺点,采用基于语义网络的文档语义表达模型,提出一种基于领域本体的检索方法。首先结合学科分类体系构建领域本体,并对论文文档进行语义索引;然后根据本体知识和索引信息构建基于语义网络的文档语义表达模型;最后改进用户查询与语义网络的相关度算法,综合关键词和语义的方法实现结果排序。实验结果表明,该方法能有效地提高论文检索的准确率和召回率。  相似文献   

6.
针对VSM不能揭示隐藏在不同特征词后面的相同概念语义、反映文档中的潜在语义关系、在相似度计算中精度较低的问题,提出一种基于领域本体的文档向量空间模型DOBVSM(domain ontology-based vector spacemodel)。该模型把领域本体中的概念扩展为文档特征词,并通过概念间的语义关系对特征词权重进行调整,最终建立包含语义关系的文档DOBVSM。通过实验分析表明:DOBVSM计算的文档相似度值更加发散,与专家评价值最为接近,能够较好地反映文档之间的相似情况。  相似文献   

7.
自动化地获取网络资源中的领域本体可以缩短本体的构建周期,但自动化的本体扩充还是本体工程中的一个挑战,其难点主要在于如何抽取术语并在新术语和已有本体之间建立映射关系。为此,提出了一个基于启发式规则的本体自动化扩充方法。该方法从网络资源中抽取自然语言文本,结合自然语言处理技术进行文本预处理,采用优先匹配对象属性的方式挖掘领域知识术语,然后通过启发式规则匹配术语的方式进行本体扩充,最后进行一致性检测。采用上述方法实现了一个基于Web的本体扩充工具。以城市景观信息核心本体作为研究案例进行了实验,结果显示本方法在扩充实例时具有较高的查准率和查全率,表明其具有有效性和可行性。  相似文献   

8.
本体映射的核心在于语义相似度算法,单一的概念相似度计算方法往往不利于提高相似度的精度。本文针对机械零部件领域本体(MPO)提出一种基于本体加权树的语义相似度算法OWSTS,利用MPO提取领域知识文档标题信息中的核心概念,并结合OWSTS算法来确定文档信息与查询式间的语义关联程度。该方法在GB_MPO智能信息检索系统中得到较好的应用。实验表明,该方法与基于TF*IDF的信息检索方法相比,检索性能有较大提高。  相似文献   

9.
中文核心领域本体构建的一种改进方法   总被引:1,自引:0,他引:1  
核心本体对最基本的领域知识建模,并在上位本体和领域本体之间建立联系。上位本体是领域无关的而核心本体是领域相关的,因此在自动创建中文核心本体过程中,映射中文核心术语到上位本体概念有很多的错误。本文提出的改进方法首先找到共享后缀术语集内被共享的术语条数更多、与各术语的意义更接近的上位概念; 然后用其来改进词集中的核心术语和概念之间的映射。实验证明,该方法有效的提高了核心本体自动创建的精确度。  相似文献   

10.
基于玉米本体的语义检索系统   总被引:1,自引:0,他引:1       下载免费PDF全文
采用形式概念分析方法由词汇-文件关系表构造概念格并进行约简,建立玉米种植本体。提出基于领域本体的语义标注方法,改进现有的权值计算方法以获得特征词,经句法分析生成RDF三元组。实现基于领域本体的用户查询处理和查询推荐算法,研制面向玉米种植的语义检索系统,并选取100篇玉米种植文档作为实验文本集合进行对比实验,结果表明,该语义检索系统在查准率和查全率上均优于基于关键字的检索方法。  相似文献   

11.
针对民航突发事件应急管理领域本体的自动更新问题,提出了基于LDA的领域本体概念获取方法。以文本信息作为数据源,采用NLPIR自适应分词与过滤方法获取候选术语集,设计了领域本体的LDA主题模型,通过吉布斯采样进行LDA模型训练与主题推断,实现了领域本体核心概念的相关术语提取;基于LDA主题概率分布研究了语义关系识别规则的构建方法,给出了概念及其相关术语语义关系的识别与实现过程。实验效果表明,该方法可以有效解决大规模领域本体概念的自动更新问题,为大数据环境下民航突发事件跨媒体信息的共享与推理提供了良好的数据支持。  相似文献   

12.
领域知识的表达形式最终体现在词汇的领域性上,因此对领域词及其部件的领域度分析是一个关键。该文在分词的基础上,对各个领域语料进行分析,利用词语之间的关系,引入链接分析方法分析词语在各个领域中的使用重要性,并通过词语在各个领域中的使用差异性计算其领域度,从而达到领域分析的目的,获取某个领域的领域部件词。该文采用以上方法在军事、娱乐等领域进行了实验,实验结果表明该方法相对于当前常用的tf×idf方法和Bootstrapping方法,可以更有效地进行领域分析获取领域部件词。  相似文献   

13.
为了解决已有信息抽取系统中方法不具有重用性及不能抽取语义信息的问题,提出了一个基于领域本体的面向主题的Web信息抽取框架.对Web中文页面,借助外部资料,利用本体解析信息,对文件采集及预处理中的源文档及信息采集、文档预处理、文档存储等技术进行了分析设计,提出了文本转换中的分词及词表查询和命名实体识别算法,并给出了一种知识抽取方案.实验结果表明,该方法可以得到性能较高的抽取结果.  相似文献   

14.
郑学伟 《微机发展》2014,(12):64-68
语义网的研究中基于领域本体的构建研究方法基本上还处于手工阶段,如何在本体的设计中实现自动构建仍然是目前需要解决的问题,而采用基于图的构建原理,应用MCL聚类的本体自动构建算法进行概念提取和关系运算。将领域文本文档映射为文档概念图,在关系运算中采用基于频繁信息子图的gSpan算法任意关系提取算法,得到基于OWL-DL描述的领域本体,并通过评价反馈机制进行闭环校正是研究的核心思想。  相似文献   

15.
基于领域本体的语义标注方法研究   总被引:3,自引:0,他引:3  
介绍了语义Web.本体以及语义标注的基本概念,对语义标注方法以及现有技术工具进行了简单地说明和分析,提出了一种基于领域本体的语义标注方法,并结合石油产品领域的本体对该方法进行了实例说明.该方法通过分析文档的特征词汇,使用基于领域本体的空间向量模型方法建立词汇与本体概念之间的映射.采用这种方法对文档进行语义标注后,可以把文档隐含的语义信息显式的表现出来,这样数据库内部文档之间就具有了语义关联关系,为检索的智能推理提供基础.  相似文献   

16.
针对VSM不能揭示文档中特征词间的潜在语义关系,相似度计算准确性较低的问题,结合本体模型的结构特点,从语义重合度、语义距离以及本体结构等因素综合考虑概念间的相似度计算,提出了一种基于领域本体的文档向量空间模型。该模型通过构建概念间的语义相似度矩阵对特征词权值进行调整,建立包含语义关系的标准(学生)答案的向量空间模型,并用"VSM模型+余弦值"算法评估学生答案和标准答案的相似度。实验表明,与传统方法相比,该方法提高了评测效果及准确率。  相似文献   

17.
本文利用本体丰富的语义知识和语法结构及其共享性,构建了电子商务领域的本体知识库,用于解决数据的结构异构和语义异构问题。同时开发了面向电子商务领域本体知识库的汉语自动分词系统。结果表明,引入本体知识库能在一定程度上提高词语切分的正确率。  相似文献   

18.
针对民航突发事件领域本体关系抽取准确率低的问题,提出了一种结合注意力机制与双向门控循环单元(BiGRU)的关系抽取模型。首先查询预先训练的词向量矩阵,将文本中每个词语映射为向量表示;其次构建BiGRU,得到词语序列的上下文语义信息;然后在词语层面和句子层面分别引入注意力机制,为表达语义关系更重要的词语和句子分配更大的权重;最后进行模型的训练与优化。将该模型应用在民航突发事件领域本体的关系提取中,实验结果表明该模型相较于其他方法具有更好的提取效果,验证了该模型的有效性,为民航突发事件领域本体关系的自动获取提供了新的方法支持。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号