首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
研究了单词语义相似性计算方法,其中基于知识的方法和基于语料的方法是两种主要方法。这两种方法及其融合方法都把单词看成一个整体,主要利用单词外部信息进行语义相似性计算。近些年,出现了一些利用单词内部信息进行单词语义相似性计算的工作,它们使用汉字、部首、词根、词缀等来计算单词语义相似性。利用单词的内部结构解析,解决从细粒度到粗粒度的语义相似性推导,最终计算出单词间的语义相似性是单词语义相似性计算的必然阶段。当从外部信息转向内部信息时,可以改善已有单词语义相似性计算的性能,尤其是为低频词或未登录词的准确语义相似性计算提供了可能性。  相似文献   

2.
词语相似度的计算是人工智能领域的一个基础性的研究课题,它在自然语言处理,QA平台的搭建、语义消歧、文本的聚类和分类这些问题有着很广泛的应用.提出一种基于同义词词林的中文单词相似度计算方法,通过两个单词在词林树中相距的路径长,以及所在分支词义密度来计算两个中文单词间的相似度,并通过观察计算相似性的结果和人主观感觉的相似性的结果的皮尔逊线性相关系数来评价该方法.  相似文献   

3.
现今的图像搜索引擎主要利用图像周围文本信息为图像排序,根据图像内容重排序可以进一步提高搜索性能。图像相似性的度量对重排序算法的性能至关重要。然而已有的相似性度量没有考虑针对不同的查询,图像的相似性应该不同。提出一种与查询相关的相似性度量方法,将基于全局特征的相似性,基于局部特征的相似性,以及视觉单词同时出现率融合到一个迭代算法中,挖掘出与查询相关的图像信息,计算图像相似性。在Bing图像搜索引擎上的实验结果证明本文提出的相似性度量方法优于基于全局特征,局部特征,或它们线性组合的相似性。  相似文献   

4.
李博  杨丹  邓林 《自动化学报》2011,37(6):665-673
针对移动机器人视觉闭环检测中,基于视觉字典本的场景外观表征性能受制于有限单词个数以及算法效率低的不足,本文对机器人视觉特征分层量化,构建视觉字典树, 计算树节点的TF-IDF熵作为对应视觉单词的权重,生成图像--单词逆向文档索引.为消除视觉字典本的单尺度量化误差,并克服基于字典树投影路径的平面匹配模式中不 区分不同层次节点的区分度对闭环检测的影响,本文融合字典树低层单词的强表征性和高层单词的强鲁棒性,提出由下而上逐层计算图像间相似性增量的金字塔得分匹 配方法.将不同时刻相似性大于阈值的图像位置提取为候选闭环,通过后验确认操作剔除误正闭环.在移动机器人视觉闭环检测实验中,本文算法提高了图像相似性计算 的效率和准确性,提高了闭环检测的准确率和召回率.  相似文献   

5.
基于图的直方图及路径相似性的图匹配方法   总被引:1,自引:0,他引:1  
针对图结构在一些非刚性变换下谱特征不稳定等问题,提出一种基于几何关系直方图及路径相似性的图结构信息的描述方法,并在此基础上利用谱分析方法实现图的顶点匹配.首先通过图的直方图给出了一种图顶点的特征描述并初始化候选匹配关系,再基于最短路相似性给出一种匹配关系之间的亲和性的度量,最后采用谱方法求解2个特征点集之间对应关系,实现图的顶点的匹配.与传统的描述方法不同,该方法是利用图的直方图及路径相似性来描述图的结构信息,结构简单,信息描述充分.实验结果表明,文中方法对于一些扰动前后的图的匹配具有较高的匹配准确度.  相似文献   

6.
为优化文本聚类效果,提出一种基于单词超团理论的文本聚类方法.利用文档中单词的关联模式来评估文档间的相似度,将单词超团作为文档向量辅助信息,以图划分的方式进行聚类分析.对不同聚类方法的结果进行比较,证明基于单词超团的文本聚类方法能提高文本聚类的准确性.  相似文献   

7.
编码器-解码器结构是神经机器翻译最常用的一种框架,许多新型结构都基于此框架进行设计以改善翻译性能。其中,深度自注意力网络是非常出色的一种网络结构,其利用了自注意力机制来捕获全局的语义信息。然而,这种网络却不能有效地区分每个单词的相对位置,例如,依赖单词究竟位于目标单词的左边还是右边,也不能够捕获当前单词的局部语义。为了缓解这类问题,该文提出了一种新型的注意力机制,叫做混合注意力机制。该机制包含了对自注意力网络设计的多种不同的特定掩码来获取不同的语义信息,例如,全局和局部信息,以及左向或者右向信息。最后,该文提出了一个压缩门来融合不同类型的自注意力网络。在三个机器翻译数据集上的实验结果表明,该文方法能够取得比深度自注意力网络更好的结果。  相似文献   

8.
为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语—文本关系矩阵,并作为文本模型。采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联,以此解决维吾尔语词义模糊的问题,并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验,结果表明该方法能够准确有效地检测出相似性。  相似文献   

9.
针对目前蛋白质交互关系识别主要以单句为依据、因标注数据缺乏而导致训练集规模小等不足,提出一种以关系相似性分析为框架、基于大规模文本的蛋白质交互关系自动识别方法.首先通过对大规模生物医学文本数据库的自动搜索获取描述蛋白质对的句子集合,然后分别从单词、短语结构、依赖关系3个角度抽取特征,建立向量空间模型来表示一对蛋白质之间的关系,最后根据两个向量之间的相似性对关系作出判断.所需训练数据直接取自现有蛋白质交互网络,无需任何额外的人工标注.实验表明,基于关系相似性的蛋白质交互关系自动识别取得了较高的精度(F-score 74.2%).  相似文献   

10.
在英文TTS(text to speech)系统中,需要根据文本中每一个单词的发音来合成语音.由于在真实文本的处理中,无论词典规模如何大,都不可能包括文本中的每一个单词,所以需要使用某种算法来预测词典中未登录单词的发音.介绍了一种基于实例学习的方法,并在一个大规模的英语词典上进行了性能评测.结果表明,这种方法的单词发音正确率可以达到70.1%,显著地超过以往报导的其他自动预测方法.  相似文献   

11.
wordlattice是与词图(wordgraph)结构类似但是结构没有词图致密的在小任务语音识别的情况下较为常见的一种中间输出结构,给出了在wordlattice结构上的语音识别置信度估计的一种算法。以lattice结构中的连接弧作为计算单元,给出了利用前后向算法高效计算lattice中每个弧的词后验概率及以其为基础计算每个词的置信度的算法。  相似文献   

12.
汉语词语边界自动划分的模型与算法   总被引:10,自引:1,他引:9  
在引入词形和汉字结合点等概念基础上,文中分别描述了一个基于字串构词能力的词形模型和一个基于词语内部、外部汉字结合度的汉字结合点模型,并采用线性插值方法 两种模型融合于一体进行汉词语边界划分。在分析汉语切分候选择空间的基础上,文中还给出了相应的优化搜索算法。与一般的统计方法相比,文中方法的参数可直接从未经加工粗语料中得到,具有较强的适应能力,初步试验表明该方法是有效和可靠的。  相似文献   

13.
同义词挖掘是自然语言处理领域中的一个基础任务,而同义词对的判别是该任务的一个重要部分。传统两大类方法,基于分布式表示和基于模板的方法,分别利用了语料的全局统计信息和局部统计信息,只能在精确率和召回率中权衡。随着预训练词向量技术的发展,基于分布式表示的方法存在一种简单高效的方案,即直接对预训练好的词向量计算相似度,将此表示为语义相似度。然而,这样的思路并没有利用到现有的同义词对这一外部知识。该文提出基于《同义词词林》的词向量微调方法,利用同义词对信息,增强预训练词向量的语义表示。经过实验,该微调方法能很好地完成同义词对的判别。  相似文献   

14.
在软件开发全生命周期中,需求跟踪在管理需求及其相关制品方面扮演着重要的角色.由于手工跟踪费时且易出错,一些基于信息检索(information retrieval,IR)和基于机器学习(machine learning,ML)的解决方案被提出.其中,不需要大量标签数据的无监督的机器学习方法越来越受到关注.在已提出的解决方案中,大多数都是针对词法和语义信息进行建模,而忽略了文本制品间的词共现分布和词序信息.因此,提出利用基于图挖掘扩展学习的增强需求跟踪链接恢复方法GeT2Trace.其核心思想是利用图网络中的词共现信息和词序信息来增强制品中隐含的语义信息,进而更全面、更准确地对制品中所包含的语义进行表示.在5个公共数据集上进行了评估,结果表明提出的方法优于已有基线.使用图形信息扩展需求为无监督的需求跟踪解决方案提供了新的见解,改进的跟踪链接性能验证了GeT2Trace的有用性和有效性.  相似文献   

15.
目前基于词嵌入的卷积神经网络文本分类方法已经在情感分析研究中取得了很好的效果。此类方法主要使用基于上下文的词嵌入特征,但在词嵌入过程中通常并未考虑词语本身的情感极性,同时此类方法往往缺乏对大量人工构建情感词典等资源的有效利用。针对这些问题,该文提出了一种结合情感词典和卷积神经网络的情感分类方法,利用情感词典中的词条对文本中的词语进行抽象表示,在此基础上利用卷积神经网络提取抽象词语的序列特征,并用于情感极性分类。该文提出的相关方法在中文倾向性分析评测COAE2014数据集上取得了比目前主流的卷积神经网络以及朴素贝叶斯支持向量机更好的性能。  相似文献   

16.
信息检索中相关文档的排序一直是一个至关重要的问题。本文提出一种基于主题词对的文档重排方法,使得检索结果在保持召回率的前提下提高精确率。主题词对意指能够共同表征同一主题的两个词语,其中一个来自于查询,另一个来自于文档,两者之间具有紧密的联系。本文中,主题词对的选择采用概率潜在语义索引的方法,并根据主题词对在文档中的分布状况对其进行重排。对NTCIR-5中文信息检索的文档集合进行测试,采用trec标准评估方法,结果表明采用该方法使得精确率在rigid和relax结果集上分别提高了53.6% 和55.8%。  相似文献   

17.
提出一种基于词内部模式的新词识别算法,该算法在重复串查找的基础上,结合词内部模式的特征提出改进位置成词概率和首尾单字成词概率的加权,依次判断互信息、邻接类别等统计量,对新词进行识别。通过不同的实验对比发现,该算法在一定程度上能有效提取新词。  相似文献   

18.
复制检测就是检测文档之间是否存在雷同现象,并将检测结果报告给用户。文章算法将复制检测技术指纹比对法和词频统计法结合起来,首先对文本进行预处理如滤除介词、冠词等,采用指纹比对法判断自然段落之间的相似性;然后将一个自然段视为一个小的整体来构成整个文档,采用基于词频的加权统计法判断全文的相似性。  相似文献   

19.
随着近些年深度学习的兴起,词语在计算机中的表示有了重大突破;而长期以来关键词提取算法均以词语作为特征进行计算,效果并不理想。因此,本文提出了一种基于深度学习工具word2vec的关键词提取算法。该算法首先使用word2vec将所有词语映射到一个更抽象的词向量空间中;然后基于词向量计算词语之间的相似度,最终通过词语聚类得到文章关键词。实验表明该算法对于篇幅长文章的关键词提取的准确率要明显高于其他算法。  相似文献   

20.
一种基于生语料的领域词典生成方法   总被引:7,自引:0,他引:7  
为了实现准确分词,实用的汉语信息处理系统都需有其专用的领域词典.针对现有词典构造方法存在的不足,本文提出了一种领域词典的构造方法;利用通用词典对领域生语料进行分词处理,并提出了基于切分单元的最大匹配算法,从而得到候选词串集,然后利用规则对其进行优化,最终生成领域词典.词典的生成过程基本上是自动完成的,人工干预少,易于更新;目前.本方法生成的领域词典已经应用于我们自主开发的“基于Web的智能答疑系统”中,并取得了较好的效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号