首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 265 毫秒
1.
针对汉语语句表意灵活复杂多变的特点,提出一种基于语义与情感的句子相似度计算方法,从表意层面计算句子相似度。该方法使用哈工大LTP平台对句子进行预处理,提取词语、词性、句法依存标记与语义角色标记,将语义角色标注结果作为句中语义独立成分赋予相似度权重系数,综合句法依存关系与词法关系计算两句相同标签语义独立成分相似度得到部分相似度,加权计算部分相似度得到句子整体相似度。另外,考虑到情感与句式因子,在整体相似度的基础上对满足条件的两句计算情感减益与句式减益。实验结果表明,该方法能有效提取出句子语义独立成分,从语义层面上计算句子相似度,解决了信息遗漏与句子组成成分不一致的问题,提高了句子相似度计算的准确率与鲁棒性。  相似文献   

2.
为提高句子相似度的准确率,从结构相似度出发,提出基于词性及词性依存关系的句子结构相似度计算方法。该方法从正向和逆向比较句子的词性序列,获得2个句子词性及词性依存关系的最优匹配,从而计算句子结构相似度。实验结果表明,该方法能使句子结构相似度计算更合理。  相似文献   

3.
文中主要研究了自动问答系统的句子相似度的几种常见算法,基于统计的VSM算法、语义相似度算法、结构的相似度算法,并在此基础上进行改进,提出了一种新的句子相似度算法,提高了自动问答系统的查全率和查准率.主要研究了分词、标注词性和权值、计算词语的相似度,进而计算句子的加权相似度,最后从FAQ中抽取相似度比较高的句子以及答案给用户.最后通过实验进行验证,这种新的句子相似度算法在一定程度上提高了自动问答系统的查全率和查准率,并具有一定的合理性  相似文献   

4.
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。  相似文献   

5.
在语义角色标注过程中,经常需要检索相似的已标注语料,以便进行参考和分析。现有方法未能充分利用动词及其支配的成分信息,无法满足语义角色标注的相似句检索需求。基于此,本文提出一种新的汉语句子相似度计算方法。该方法基于已标注好语义角色的语料资源,以动词为分析核心,通过语义角色分析、标注句型的相似匹配、标注句型间相似度计算等步骤来实现句子语义的相似度量。为达到更好的实验效果,论文还综合比较了基于知网、词向量等多种计算词语相似度的算法,通过分析与实验对比,将实验效果最好的算法应用到句子相似度计算的研究中。实验结果显示,基于语义角色标注的句子相似度计算方法相对传统方法获得了更好的测试结果。  相似文献   

6.
基于多特征融合的句子语义相似度计算   总被引:2,自引:0,他引:2       下载免费PDF全文
赵臻  吴宁  宋盼盼 《计算机工程》2012,38(1):171-173
传统的句子相似度计算方法只关注句子的某个特征,导致召回率和准确率的不均衡。针对该问题,提出一种基于多特征的句子相似度计算方法(MFS)。该方法加入包含词性和位置信息的词权重,并综合考虑词的语义和句子结构。实验结果表明,与其他方法相比,MFS方法的F1值较高。在基于实例的问答系统中,使用MFS方法得到的MRR值也较高。  相似文献   

7.
在人工智能火热的今天,智能解题逐渐成为一大研究热点。研究基于知识关联和推理的选择类问题求解,尝试解决问题理解和相似问题发现两方面内容。针对问题理解,使用TextRank和词性标注两种方法完成关键信息提取,并使用word2vec词聚类的结果完成关键信息扩展;针对相似问题发现,首先根据问题理解生成的关键信息,从已有题库中抽取候选问题集,然后结合word2vec生成的词向量分别使用基于BM25变体、词项向量加权、改进的编辑距离三种方法计算句子相似度,并根据相似度大小,确定答案选择,最终完成问题求解。在地理选择题解答的相关实验中,获得了最高75.88%的平均准确率,也验证了问题求解的可行性。  相似文献   

8.
一种PST_LDA中文文本相似度计算方法   总被引:3,自引:1,他引:2  
为了降低中文文本相似度计算方法的时间消耗,提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集,分别用LDA方法和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。  相似文献   

9.
句子语义相似度计算   总被引:1,自引:0,他引:1       下载免费PDF全文
句子或文本片段相似度计算在与Web相关的任务中起着越来越重要的作用。在基于概念之间的语义相似度基础之上,提出一种句子语义相似度的计算方法SSBS并进行了相关的实验。与其他方法相比,SSBS方法在特征的量化过程中不仅考虑两个句子的概念对之间的语义相似度和字符串编辑距离,还考虑了不同词性的概念对句子相似度的影响。  相似文献   

10.
改进的VSM算法及其在FAQ中的应用   总被引:2,自引:0,他引:2       下载免费PDF全文
郑诚  李清  刘福君 《计算机工程》2012,38(17):201-204
现有的句子相似度算法的准确率较低。为此,提出一种改进的向量空间模型算法。在传统的向量空间模型中添加语义信息和句法信息,将其运用到句子相似度计算中,设计实现金融领域的FAQ自动问答系统,通过改进算法在FAQ中进行句子相似度计算,获取用户问题的答案。实验结果证明,该算法具有较高的准确率。  相似文献   

11.
针对高棉语分词及词性标注问题,提出一种基于层叠条件随机场模型的自动分词及词性标注方法。该方法由三层条件随机场模型构成: 第一层是分词模型,该模型以字符簇为粒度,结合上下文信息与高棉语的构词特点构建特征模板,实现对高棉语句子的自动分词;第二层是分词结果修正模型,该模型以词语为粒度,结合上下文信息与高棉语中命名实体的构成特点构建特征模板,实现对第一层分词结果的修正;第三层是词性标注模型,该模型以词语为粒度,结合上下文信息与高棉语丰富的词缀信息构建特征模板,实现对高棉语句子中的词语进行自动标注词性。基于该模型进行开放测试实验,最终准确率为95.44%,结果表明该方法能有效解决高棉语的分词和词性标注问题。  相似文献   

12.
蒙古文自动词性标注方面的研究工作较少,制约了对蒙古文的机器翻译、语法分析及语义分析等领域的深入研究。针对于此,提出了加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法。实验表明,加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法对蒙古文的未登录词、集内词、总体词自动词性标注的准确率分别达到了71.276 6%、99.148 2%、95.301 0%,说明此方法可以较好地进行蒙古文的自动词性标注。  相似文献   

13.
维吾尔语自动标注是维吾尔语信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性是词的重要的语法信息,假如一个词的词性无法确定或一个词给予错误的词性,对后续句法分析造成直接的影响。本文使用感知器训练算法和viterbi算法对维吾尔语进行词性标注,并在词性标注时利用词的上下文信息作为特征。实验结果表明,该方法对维吾尔语词性标注有良好的效果。  相似文献   

14.
针对目前汉语兼类词标注的准确率不高的问题,提出了规则与统计模型相结合的兼类词标注方法。首先,利用隐马尔可夫、最大熵和条件随机场3种统计模型进行兼类词标注;然后,将改进的互信息算法应用到词性(POS)标注规则的获取上,通过计算目标词前后词单元与目标词的相关性获得词性标注规则;最后,将获取的规则与基于统计模型的词性标注算法结合起来进行兼类词标注。实验结果表明加入规则算法之后,平均词性标注准确率提升了5%左右。  相似文献   

15.
多层次结构句子相似计算的应用研究   总被引:1,自引:0,他引:1  
金春霞 《计算机应用与软件》2009,26(10):180-182,202
汉语句子的相似度计算是中文信息处理中的一个关键问题,也是自动阅卷系统中文字类主观题自动阅卷急需解决的核心问题.在词性、词义以及句子深层结构的基础上提出一种多层次结构句子相似度算法.该算法在自动阅卷系统中的应用能优化文字类主观题的自动评阅功能,提高自动批改的效率及准确性,具有较强的实用价值,并在实际的应用中已取得了较好的效果.  相似文献   

16.
程传鹏  杨要科 《计算机应用》2011,31(12):3275-3277
针对自动文摘的信息冗余问题,提出了一种冗余语句消除的方法。利用《同义词词林》来定义词语语义距离计算公式,根据词语的相似度,建立主题词和主题句之间的一一对应关系,借用编码理论中海明距离的理论,得到了文摘中主题句的相似度,设置阈值过滤掉相似度较高的主题句,从而实现了主题句的约简。实验结果证明,该方法提高了文摘的精度。  相似文献   

17.
为弥补传统的语义标注方法在词语或句子成分之间关系描述方面的不足,该文提出了一种基于本体和依存句法的非结构化文本语义关系标注算法。算法以句子为单位,综合POS(Part of Speech)、语义辞典、语言学特征等因素对句子中词汇的语义关系进行识别,利用词语间的依存关系对词语进行语义组合,从而实现词汇语义关系标注。结合语义标注过程中的语义匹配度、语义丰富度等特征,设计了评价算法,用以衡量标注结果的正确性。实验结果表明,该标注算法能获得较高的准确率,在大规模语料下效果尤为显著。  相似文献   

18.
文章提出了基于RoughSets的汉语兼类词初始标注规则的获取方法,并通过模糊神经网络(FNN)进行优化,最后再进行简化获取模糊规则;文章以人工标注过的句子作为训练集和测试集,得出了训练集左3、左4、右3、右4个兼类词标注规则库;对同样的训练集和测试集,采用统计二元模型进行标注后,再利用该方法(粗糙模糊神经网络方法,简称RSFNN)进行二次标注,结果表明RSFNN方法优于统计二元模型方法。最后实例说明汉语兼类词词性标注规则的获取方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号