首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 156 毫秒
1.
在归纳常见的句子相似度计算方法后,基于《人民日报》3.4万余份文本训练了用于语义相似度计算的词向量模型,并设计了一种融合词向量的多特征句子相似度计算方法。该方法在词方面,考虑了句子中重叠的词数和词的连续性,并运用词向量模型测量了非重叠词间的相似性;在结构方面,考虑了句子中重叠词的语序和两个句子的长度一致性。实验部分设计实现了4种句子相似度计算方法,并开发了相应的实验系统。结果表明:提出的算法能够取得相对较好的实验结果,对句子中词的语义特征和句子结构特征进行组合处理和优化,能够提升句子相似度计算的准确性。  相似文献   

2.
句子语义相似度的研究在自然语言处理等领域发挥着重要的作用。针对现有汉语句子相似度研究中存在的语义特征难以分析以及语序影响的问题,提出了一种基于DTW和匈牙利算法相结合的语义句子相似度处理模型。模型首先使用Word2vec深度学习模型训练百度新闻语料,得到200维的包含语义特征的词向量词典,并建立词向量空间,根据词向量组成的多维空间曲线,通过计算句子曲线之间相互转换的距离和复杂度来表示句子语义相似度,模型采用了DTW矩阵和改进的匈牙利算法,并对DTW矩阵做最短路径规划。实验结果表明,与现有的夹角余弦相似度等句子相似度计算方法相比,该方法在语序较乱但语义相近的情况下也能得到较为准确的相似度结果值。  相似文献   

3.
中文情感分析模型的文本表示通常只采用词粒度信息,这会导致模型在特征提取时丧失字粒度的特性,同时常用的分词方法的分词结果过于精简,也一定程度上限制了文本表示的丰富度。对此,提出了一种融合字粒度特征与词粒度特征的中文情感分析模型,采用全模式分词得到更丰富的词序列,经词嵌入后将词向量输入Bi-LSTM中提取全文的语义信息,并将隐层语义表示与对应字向量进行初步融合,增强词级信息的鲁棒性;另一方面将字向量输入多窗口卷积,捕捉更细粒度的字级特征信息。最后将字词粒度特征进一步融合后输入分类器得到情感分类结果,在2个公开数据集上的性能测试结果表明,该模型相比同类模型有更好的分类性能。  相似文献   

4.
为提高自然语言处理任务中文本相似度检测的准确率,提出一种改进双向长短期记忆网络(Bi-LSTM)的文本相似度计算方法。将输入的句子转换成多个单词向量,通过Bi-LSTM提取出每个单词向量的最佳词特征,引入注意力机制,减小非关键因素的影响;采用多层相似加权对两个句子分别从词与词、句子与句子、词与句子3个层面进行多层比较,加权得到其最终的相似度;基于SMTeuroparl、MSRvid和MSRpar这3个数据集对所提方法的性能进行评估。实验结果表明,相比于其它方法,所提方法的文本相似度计算更佳,适用于处理复杂的长文本。  相似文献   

5.
提出一种基于同义词词林的句子语义相似度方法,借助同义词词林来计算句子的词形相似度,使用向量距离法得到句子间的词序相似度。同时,对句子进行语义依存句法分析。通过对词形、词序、语义依存相似度加权结合获得句子之间的最终相似度。将该方法应用于常问问题问答系统(Frequency Asked Questions, FAQ)的问句匹配。实验结果表明,该方法在问句匹配上相比传统方法具有更高的准确率。  相似文献   

6.
田星  郑瑾  张祖平 《计算机科学》2018,45(7):186-189
通过对传统Jaccard算法的研究和改进,提出了一种基于词向量的Jaccard句子相似度算法。传统的Jaccard算法以句子的字面量为特征,因而在语义层面的相似度计算方面受到了一定的限制。而随着深度学习的兴起,尤其是词向量的提出,词语在计算机中的表示有了突破性的进展。该算法首先通过训练将每个词语映射为语义层面的高维向量,然后计算各个词向量之间的相似度,高于阈值α的作为共现部分,最终计算句子的相似度。实验表明,相较于传统的Jaccard算法,该算法在短文本相似度计算的准确率上有较明显的提升。  相似文献   

7.
基于潜在语义分析的汉语问答系统答案提取   总被引:24,自引:0,他引:24  
为了解决在汉语问答系统答案提取时,由于词的同义或多义现象而导致的“漏提”或“错提”等问题,提出了一种基于潜在语义分析(LSA)的问题和答案句子相似度计算方法.它利用空间向量模型作为问题和句子的表示方法,借助于潜在语义分析理论,对大量问答作句子语料统计分析,构建了一个潜在的词一句子语义空间,从而消除了词之间的相关性,并在语义空间上实现了问题与答案句子相似度计算,有效地解决了词的同义和多义问题.最后结合问题类型和相似度计算结果,对汉语基于事实的简单陈述问题进行了答案句子提取实验.答案提取的MRR值达到了0.47,明显优于空间向量模型.结果说明该方法具有很好的效果.  相似文献   

8.
句子相似度的计算在自然语言处理的各个领域中都占有很重要的地位。文中深入分析了现有的一些句子相似度计算的方法,这些方法各自从词特征、词义特征或句法特征等某一侧面描述了句子相似的情况,未能全面地描述一个句子的完整信息。文中提出了一种新的基于多特征的汉语句子相似度的计算模型。该方法在基于词的基础上,从句子中词的表层到词的逻辑联系,从句子的局部结构到整体结构,用句子的区分度、相同词的相似度、长度相似度、词性相似度及词序相似度五个方面来综合考虑两个句子相似度的计算。实验结果表明,该方法合理、简便、可行。  相似文献   

9.
个人微博是现在流行的社交工具,因其数量繁杂而对用户浏览产生困扰。本文将语义相似度大的微博聚类以 方便用户浏览。主要研究工作如下:1. 使用python 中的jieba 分词对个人微博进行分词预处理并去除停用词;2. 将分词数据集 利用CBOW模型训练词语向量;3. 用词语向量表示个人微博句子向量;4. 个人微博句子向量表示成空间中的分布点,使用改进 的曼哈顿句子算法计算距离即个人微博间的相似度。5. 使用改进的clarans 算法聚类。实验表明本文的方法与传统聚类算法 如划分法、层次法、密度法等有明显的提高。  相似文献   

10.
利用《知网》计算词语的语义相似度,通过提取关键词进行文本相似度计算.将文本分词并过滤停用词后,结合词语的词性、词频和段频计算词语的权值,以便提取文本的关键词,通过计算关键词之间的相似度来计算文本之间的相似度值.实验结果与对比值进行差异显著性分析表明,本文提出的方法相比传统的语义算法和向量空间模型算法,其精确性有了进一步的提高.  相似文献   

11.
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。  相似文献   

12.
基于HowNet和PMI的词语情感极性计算   总被引:1,自引:0,他引:1       下载免费PDF全文
王振宇  吴泽衡  胡方涛 《计算机工程》2012,38(15):187-189,193
基于语料库的点互信息(PMI)计算方法依赖于语料库的完善性,基于HowNet的计算方法则依赖于知网相似度计算的准确性。为克服2种方法的局限性,提出一种HowNet和PMI相融合的词语极性计算方法,利用知网进行同义词扩展,降低情感词在语料库中出现频率低所带来的问题。实验结果表明,该方法的微平均和宏平均性能比传统方法提升约5%。  相似文献   

13.
及时有效地处理负面在线评论能提高企业的声誉和维护消费者对企业的信任,而面对大量的负面在线评论,企业很难在短期内及时有效回复.根据在线评论是短文本的特点,运用基于句子相似度的负面在线评论进行案例推理处理.针对负面在线评论句子相似度计算问题,抽取句子中评价对象词和评价词作为关键词,同时考虑评价词的修饰词和句子语义依存关联对.除提出的关键词、修饰词、语义依存分析关联对三个特征外,再融入句子中的公共词、语义等两个特征,提出一种融合公共词、关键词、修饰词、语义、语义依存分析关联对等五个特征的句子相似度计算方法,检索相似负面评论句子的案例.通过实验验证,融入多特征的句子相似度计算优于常见句子相似度计算方法,其准确率为83.3%,有效地检索案例句子集并自动推荐回复方案.  相似文献   

14.
李晓  解辉  李立杰 《计算机科学》2017,44(9):256-260
word2vec利用深度学习的思想,可以从大规模的文本数据中自动学习数据的本质信息。因此,借助哈尔滨工业大学的LTP平台,设计利用word2vec模型将对句子的处理简化为向量空间中的向量运算,采用向量空间上的相似度表示句子语义上的相似度。此外,将句子的结构信息添加到句子相似度计算中,并就特殊句式对算法进行了改进,同时考虑到了词汇之间的句法关系。实验结果表明,该方法更准确地揭示了句子之间的语义关系,句法结构的提取和算法的改进解决了复杂句式的相似度计算问题,提高了相似度计算的准确率。  相似文献   

15.
基于预训练表示模型的英语词语简化方法   总被引:1,自引:0,他引:1  
词语简化是将给定句子中的复杂词替换成意义相等的简单替代词,从而达到简化句子的目的. 已有的词语简化方法只依靠复杂词本身而不考虑其上下文信息来生成候选替换词, 这将不可避免地产生大量的虚假候选词. 为此, 提出了一种基于预语言训练表示模型的词语简化方法, 利用预训练语言表示模进行候选替换词的生成和排序. 基于预语言训练表示模型的词语简化方法在候选词生成过程中, 不仅不需要任何语义词典和平行语料, 而且能够充分考虑复杂词本身和上下文信息产生候选替代词. 在候选替代词排序过程中, 基于预语言训练表示模型的词语简化方法采用了5个高效的特征, 除了常用的词频和词语之间相似度特征之外, 还利用了预训练语言表示模的预测排名、基于基于预语言训练表示模型的上、下文产生概率和复述数据库PPDB三个新特征. 通过3个基准数据集进行验证, 基于预语言训练表示模型的词语简化方法取得了明显的进步, 整体性能平均比最先进的方法准确率高出29.8%.  相似文献   

16.
语句相似度计算在主观题评判中的应用   总被引:1,自引:0,他引:1  
于淼  王日宏 《计算机应用》2008,28(12):3254-3256
在网络考试系统中对主观题自动评判运用自然语言识别技术是计算机领域的一个研究热点。结合中文分词方法,在基于《知网》知识库的词语相似度算法的基础上,运用数学上求解最优指派问题的匈牙利算法建立句子和句群的相似度计算模型,并根据句子相似度值给出主观题正确分数评判。  相似文献   

17.
组合歧义消解是分词中的关键问题之一,直接影响到分词的准确率。为了解决越南语组合歧义对分词的影响问题,结合越南语组合型词的特点,提出了一种基于集成学习的越南语组合歧义消解方法。该方法首先通过人工选取越南语组合歧义词,构建出越南语组合歧义字段库,对越南语语料与越南语组合词词典进行匹配,抽取出越南语组合歧义字段;其次,采用三类分类器引入越南语词频特征和上下文信息,构建三类分类器消解模型,得到三类分类器消解结果;最后,计算出各分类器权值,通过阈值对越南语组合歧义进行最终分类。实验表明,所提方法的正确率达到了83.32%,与消歧结果最好的单个分类器相比准确率提高了5.81%。  相似文献   

18.
A set of words labeled with their prior emotion is an obvious place to start on the automatic discovery of the emotion of a sentence, but it is clear that context must also be considered. It may be that no simple function of the labels on the individual words captures the overall emotion of the sentence; words are interrelated and they mutually influence their affect-related interpretation. It happens quite often that a word which invokes emotion appears in a neutral sentence, or that a sentence with no emotional word carries an emotion. This could also happen among different emotion classes. The goal of this work is to distinguish automatically between prior and contextual emotion, with a focus on exploring features important in this task. We present a set of features which enable us to take the contextual emotion of a word and the syntactic structure of the sentence into account to put sentences into emotion classes. The evaluation includes assessing the performance of different feature sets across multiple classification methods. We show the features and a promising learning method which significantly outperforms two reasonable baselines. We group our features by the similarity of their nature. That is why another facet of our evaluation is to consider each group of the features separately and investigate how well they contribute to the result. The experiments show that all features contribute to the result, but it is the combination of all the features that gives the best performance.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号