首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 203 毫秒
1.
从自然语言处理的角度来看,现有的主观题评分算法都以相似度计算为核心的,没有考虑语义对立度问题.提出了一种基于中文分词技术、相似度计算和对立度计算的新的主观题评分算法.对主观题评分算法的以下三个方面进行了重点研究:怎样改进中文分词算法中的歧义切分的方法;怎样引入参数限制计算中分数过高或过低;怎样设计一个融合相似度计算和对立度计算的主观题分数的计算公式.  相似文献   

2.
文本相似度计算在专利信息分析系统中有着广泛的应用前景.传统的基于向量空间模型的文本相似度计算方法,一方面未能很好地考虑上下文信息对词语语义的约束,导致不能对不同语境中词语的语义进行有效区分;另一方面使用词典作为计算相似度的依据具有领域相关性,在特定领域未能给出有效的语义理解.提出一种使用领域本体作为文本相似度计算基础的方法,该方法中使用语义消歧来解决上下文对于词语语义的影响;使用领域本体概念意义相同关系来计算文本相似度.实验结果显示本方法的准确度相对于现有典型的相似度计算方法有所提高.  相似文献   

3.
提出一种基于上下文多元信息实现文档相似度计算的方法,该方法首先抽取文档的特征词,对具有相同(或相近)意义特征词的文档,分别获得特征词在上下文中同现词的词性、语义信息、位置关系、平均同现概率等多元信息,以量化形式描述成一个相似函数;然后分别从两两文档的相似函数中得到文档的相似度评价值,作为衡量文档相似程度的重要依据.利用该评价方法,使用NTCIR-3中的跨语言信息检索数据集中的中文文档,对初始检索文档的顺序重新排列,实验结果表明,该方法分别将前10个最佳召回文档和前100个最佳召回文档的平均精确度提高了15.45%~18.49%和11.96%~15.35%在另一组有关相同网页信息的实验中,几组不同类别文档相似度F1-measure平均值均在95%以上.  相似文献   

4.
《南昌水专学报》2016,(1):56-60
提出一种歧义字段与其所在句子语义联系为依据的中文分词交叉歧义处理方法。该方法模拟人浏览句子按照语义和词语相关度寻找消歧证据的经验,通过比较计算歧义字段与整个句子的语义相似度和语义相关度,提出基于语义扩展度的中文分词交叉歧义处理算法,进而提高分词准确率,与经典的ICTCLAS分词系统相比,切分准确率和召回率均有很大提高。  相似文献   

5.
将语义相似度计算模型定义为域、概念、属性组成的三维空间模型,并结合领域本体集,从概念格理论的角度考虑了该模型对语义相似度计算的影响.该模型通过对不同的向量加不同的权值来调节其对语义相似度计算的贡献,使计算结果达到最优,从而提高语义相似度计算的准确度.实验结果表明,与单方面计算相似度的方法相比,该方法能有效地提高语义相似度计算的查全率和查准率.  相似文献   

6.
在利用大规模英汉双语平行语料库进行双向双语翻译词典建设时发现:由于错误累计问题.现有词对齐技术无法直接获取质量较高的双语词汇知识.由此提出一种基于HowNet以及WordNet进行相似度计算,然后设定相似度阈值来进行词义过滤的方法.实验结果表明该方法行之有效.并对HowNet以及WordNet相似度计算方法进行了基于实际应用的对比与探讨后得出:HowNet在语义区分上粒度更细因此其召回率较高,WordNet则具有更高的精确率.  相似文献   

7.
针对流程相似度计算研究中注重流程结构而缺乏兼顾流程语义的问题,以及现有相似度计算方法在计算复杂度上的不足,提出一种基于流程综合特征提取的相似度计算模型.基于流程基本控制结构分析,提出边权重标注方法以扩展现有流程结构,提取流程结构特征;定义流程高层语义模型及其对应特征提取方法;融合了节点集、边集相似度,给出新的流程结构相似度定义,利用集合关系和向量空间模型计算流程语义相似度;通过加权实现综合流程相似度评价,并采用权重参数调节的方式实现了同已有相似度计算方法的自适应转化.将本文模型与典型相似度计算方法进行了实验对比,结果表明,面向综合特征提取的流程相似度计算方法更具普适性,同时具有更高效的计算能力.  相似文献   

8.
深入讨论了基于向量空间模型以及基于潜在语义分析的微博搜索排序算法,以新浪微博为例,通过建立实验系统,利用新浪微博公共开放平台提供的API获取实验数据,通过一个实验样例阐述向量空间模型和潜在语义分析的处理过程。新浪微博现有排序方法通常不能提供按照相关性排序的满意结果。利用向量空间模型以及潜在语义分析方法,构建"索引词-博文"矩阵,对博文进行分词和向量化。衡量博文和查询的相关度转化成计算博文向量和查询向量之间的相似度。把对博文和查询的处理简化为向量空间中向量的运算。由实验得知基于潜在语义分析的微博搜索排序算法有效地提高了博文的检索效率。  相似文献   

9.
在语义相似度计算中,以往的研究侧重于从正向计算语义的相似性,即通过概念间的路径长度、包含的信息量以及特征等计算概念之间的相关性,从而得到更高的相似性计算结果,而这些结果往往与人类判断的结果偏差较大.然而,在语义相似度的计算过程越来越趋近于模拟人类思考过程的趋势下,考虑语义之间的相异性就变得十分重要.鉴于此,本研究从反向考虑提出了一种将语义之间的相异性加入到语义相似度计算的方法.该方法通过WordNet语料库特有的层次结构深度挖掘概念之间的反义关系,然后用4种不同的策略分别将反义关系代表的相异性以反义因子的形式与已有的方法相结合,通过复现已有方法并将其与反义因子结合进行实验得到最终的语义相似度结果.针对提出的基于相异性的语义相似度计算模型,进一步对模型的参数和相关系数进行了分析和讨论.实验结果表明提出的模型相较于其他方法与人类判断结果具有更高的相关系数,并且该模型可以很好地提升已有的基于路径距离的语义相似度计算方法的准确性.  相似文献   

10.
现有的基于语义依存的汉语句子相似度算法仅考虑了基于核心词的有效搭配对,根据两个句子有效搭配对的对应词是否是相同词和同义词将匹配权重简单地处理为0,0.5和1,而且未考虑不直接依存于核心词的其他词语,导致在计算句子相似度时区分度较低.改进算法通过综合计算核心词、关键词的语义相似度来确定更为精确的匹配权重,并且将不直接依存于核心词的其他词语对句子的影响也纳入句子相似度计算,以期达到全面刻画句子语义、提高算法的准确率和区分度的目的.实验结果表明改进算法比原算法具有更高的准确率以及更好的对句子的区分能力.  相似文献   

11.
结合本体论和统计方法的跨语言信息检索模型   总被引:1,自引:0,他引:1  
为了更有效地提高跨语言信息检索的性能,结合本体论和统计方法的特性,提出一种混合的跨语言信息检索模型.在该语言模型的结构上,提出一种本体描述框架,构造了一个形式化的语言本体知识表示,通过典型语料学习,融合了语法、语义、句法等多元信息,建立了源语言本体知识库.在跨语言信息检索的实际应用中,利用本体表示,获得初始的检索文档集,再基于源语言本体知识库,对全部候选文档重新排序,以提高TopN排列的精确度.利用NTCIR-3Workshop中的中英文跨语言信息检索数据集对该语言模型进行了评价,相关实验结果表明,该方法取得了较满意的实验效果.  相似文献   

12.
传统话题自动检测一般采用向量空间模型进行文本相似度计算,这种方法单纯依靠特征词进行话题检测,忽略了词之间的概念及由此而引发的概念相似度。针对此问题,文章首先对网络新闻文本进行事件元素提取,并将事件元素特征词分解为概念集合,通过计算概念集合的内积空间得到词之间的相似度,进而根据词相似度计算文本相似度,最后根据概念相似度计算实现话题的自动检测。实验结果表明,本方法能够有效提高话题检测的准确率和召回率。  相似文献   

13.
针对现有领域情感词典在情感和语义表达等方面的不足,提出一种基于词向量的领域情感词典构建方法。利用25万篇新闻语料和10万余条酒店评论数据,训练得到word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;利用TF-IDF值在词汇重要程度的度量作用,在酒店评论中获得9 860个领域候选情感词汇;通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感词极性分类和文本情感分析任务中,试验结果表明,Senti2vec能实现情感词的语义表示和情感表示;基于特定领域语料的语义相似计算,使得提取的情感特征更具有领域特性,同时不受候选情感词集范围的约束。  相似文献   

14.
WordNet中的综合概念语义相似度计算方法   总被引:1,自引:0,他引:1  
作为语义异构问题的基础,概念间语义相似度计算已成为研究热点,对此,提出一种基于WordNet的综合概念语义相似度计算方法. 该方法不仅集成了传统的基于语义距离的算法和基于信息内容的算法,而且引入了深度、密度因子和语义重合度来进行综合分析,并针对综合算法中权值难以确定的问题,引入主成分分析改进权值分配方法. 实验结果表明,改进后的方法计算的相似度与人工判断的相似度相关性较高,有效改善了概念语义相似度计算的准确性.  相似文献   

15.
针对传统的搜索引擎对于自然语言理解方面存在的问题,文章研究了一种新的基于自然语言处理技术和相似度计算的智能搜索引擎的模型.其核心技术是基于自然语言处理的中文分词技术、语义相似度和对立度等理论,将这些概念理论结合起来,从用户习惯的思考角度,结合DotLucene开源全文搜索引擎建立一个智能的搜索引擎.研究表明,该模型在对已经收录的文档有着86.1%的查准率.该智能搜索引擎较好的对查询语句的实现了理解,能够对用户的提问做出正确的回答.  相似文献   

16.
视频内容安全分析,是多媒体内容安全的重要研究领域和热点问题。本文提出一种Web新闻视频内容语义分析方法,该方法在新闻视频故事单元分割的基础上,根据ASR(Automatic Speech Recognition)识别的脚本在语音上的相似性,通过计算拼音相似度的方法来获取语义关键词。然后,利用Web获得与脚本相似的网页,从而得到新闻片段比较准确的内容语义。通过对TRECVID2005内中文新闻视频CCTV4_NEWS进行的实验表明,提出的方法是可行的。  相似文献   

17.
针对医学文本缺乏可量化数据结构,基于关键词模型的文本处理方法不适用的问题,在研究词之间潜在语义关联和关键词树结构的基础上,构造了一种基于潜在语义树的语义分析模型用于医学文本的数据挖掘。进一步地将隐含主题与潜在语义的研究相关联,设计出一种基于潜在狄利克雷分配和潜在语义树模型的文本处理方法,可针对不同类型的医学文本生成有一定可读性的自动批注。该方法形成的自动批注主观性低,其准确度和可读性均高于关键词模型的处理结果,可辅助医生进行医学文本的批注和分类,从而减轻其工作量。程序结果表明,该方法目前可应用于对医学图像所见形成诊断意见、对病人病历进行摘要形成和对病症描述给出对症处方等方面,批注的语义匹配度可达67.7%,文本的平均可读性为60.02%。  相似文献   

18.
目前基于How Net的词语语义相似度计算多是根据上下位关系计算语义距离的方法,其结果与人的主观认识存在差异。提出了一种词语语义相似度计算的改进方法,在原有方法基础上,同时考虑影响词语相似度的多种因素,如How Net中义原的深度和密度等,进而挖掘义原间关系,改进原有计算方法。实验结果表明,利用所提出的改进方法计算的词语语义相似度更加贴合人的主观认识。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号