共查询到19条相似文献,搜索用时 62 毫秒
1.
藏文词性标注是藏文信息处理的基础,在藏文文本分类、自动检索、机器翻译等领域有广泛的应用。该文针对藏文语料匮乏,人工标注费时费力等问题,提出一种基于词向量模型的词性标注方法和相应算法,该方法首先利用词向量的语义近似计算功能,扩展标注词典;其次结合语义近似计算和标注词典,完成词性标注。实验结果表明,该方法能够快速有效地扩大了标注词典规模,并能取得较好的标注结果。 相似文献
2.
通过对传统Jaccard算法的研究和改进,提出了一种基于词向量的Jaccard句子相似度算法。传统的Jaccard算法以句子的字面量为特征,因而在语义层面的相似度计算方面受到了一定的限制。而随着深度学习的兴起,尤其是词向量的提出,词语在计算机中的表示有了突破性的进展。该算法首先通过训练将每个词语映射为语义层面的高维向量,然后计算各个词向量之间的相似度,高于阈值α的作为共现部分,最终计算句子的相似度。实验表明,相较于传统的Jaccard算法,该算法在短文本相似度计算的准确率上有较明显的提升。 相似文献
3.
4.
为进一步提高文本相似度计算的准确性,在系统相似函数的架构下,提出了基于词向量的文本相似函数WDS(Word Documents Similarity)及其优化算法FWDS(Fast Word Documents Similarity)。该函数将文本词语集合对应的词向量集合看作系统,将词语对应的词向量看作系统的元素,则两个文本相似度就是两个向量集合的相似度。在具体计算时,以第一个向量集合为标准进行两个向量集合的对齐操作,同时计算相似元与非相似元的多个参数。实验结果表明,随着文本长度的增加,与WMD和WJ算法相比,WDS表现出了较高的命中率。 相似文献
5.
语义关系识别是对文档进行处理识别出包含的语义关系的过程,是构建本体重要组成部分之一.在石油领域本体的构建过程中,由于石油领域的文档具有组合词多的特点,语义关系识别更加困难.目前使用的语义识别算法主要是基于关联规则的识别算法,但此类算法没有领域针对性.通过分析石油文档的特点,提出一种基于改进词向量的石油文档语义关系识别算法,以连续词袋(Continuous Bag-Of-Words,CBOW)模型为基础,对石油专业术语进行扩展训练,引入负采样和二次采样技术提高训练准确率和效率,利用向量特征训练支持向量机(Support Vector Mechine,SVM)分类器进行语义关系识别.实验结果表明,该方法训练的词向量能够准确识别石油领域的语义关系,在石油领域具有明显的优势. 相似文献
6.
针对How Net语义词典对词项收录数量的有限性在一定程度上制约文本相似度运算准确性的问题,提出一种词项语义维度映射的方法。从词项词性的角度出发,按词性对短文本中词项进行切分,按词性特征对短文本之间进行词项归并,构建词性向量,依据词频和 How Net语义词典,词项完成词性向量中权值映射,将短文本之间相似度运算转换为词性向量之间相似度运算。将该算法运用于信箱测试数据集,实验结果表明,该算法提高了文本相似度运算的准确率和相似度平均值。 相似文献
7.
一种基于词义向量模型的词语语义相似度算法 总被引:1,自引:0,他引:1
针对基于词向量的词语语义相似度计算方法在多义词、非邻域词和同义词三类情况计算准确性差的问题, 提出了一种基于词义向量模型的词语语义相似度算法.与现有词向量模型不同, 在词义向量模型中多义词按不同词义被分成多个单义词, 每个向量分别与词语的一个词义唯一对应.我们首先借助同义词词林中先验的词义分类信息, 对语料库中不同上下文的多义词进行词义消歧; 然后基于词义消歧后的文本训练词义向量模型, 实现了现有词向量模型无法完成的精确词义表达; 最后对两个比较词进行词义分解和同义词扩展, 并基于词义向量模型和同义词词林综合计算词语之间的语义相似度.实验结果表明本文算法能够显著提升以上三类情况的语义相似度计算精度. 相似文献
8.
该文提出了一种综合知网与同义词词林的词语语义相似度计算方法。知网部分根据义原层次结构的特征,采用了顶部平缓而底部陡峭的曲线单调递减的边权重策略,改进了现有的义原相似度算法;词林部分采用以词语距离为主要因素、分支节点数和分支间隔为微调节参数的方法,改进了现有的词林词语相似度算法。然后再根据词语的分布情况,采用综合考虑知网与同义词林的动态加权策略计算出最终的词语语义相似度。该方法充分利用了词语在知网与词林中的语义信息,极大地扩充了可计算词语的范围,同时也提高了词语相似度计算的准确率。 相似文献
9.
10.
句子语义相似度的研究在自然语言处理等领域发挥着重要的作用.针对现有汉语句子相似度研究中存在的语义特征难以分析以及语序影响的问题,提出了一种基于DTW和匈牙利算法相结合的语义句子相似度处理模型.模型首先使用Word2vec深度学习模型训练百度新闻语料,得到200维的包含语义特征的词向量词典,并建立词向量空间,根据词向量组... 相似文献
11.
12.
13.
汉语词语间语义相似是词语间的基本关系之一,文章提出了一种基于知网和知识图的词语语义相似度计算的方法,通过改进传统的知识图表示方式,根据知网中概念项的抽取结果对词语的义项进行表示,用词图的相似度来表示相应词语的语义相似度。实验结果表明该算法对词语间语义相似度计算是有效的。 相似文献
14.
针对传统基于wordnet的词汇语义相似度计算方法中隔离抽象词汇和具象词汇,以及片面依赖上下义关系的不足,提出了基于交通领域知识网络的词汇语义相似度计算方法.基于上下义、工具-工具对象、部件-整体等概念关系准则构建了交通词汇的知识网络图谱,提出了修正的平均路径长度参量计算网络中词汇的语义相似度,得到更高的语义一致性结果.实验表明,在Finkelstein的353对词汇集上,本文算法能够获得比传统方法更符合人工判断的语义相似度. 相似文献
15.
16.
17.
把词素作为基本资源,从语义上寻找他们组合成词的规律,可以辅助自然语言理解。该文首先参照《现代汉语词典》和知网标注了二字词的词素意义,继而从意合结构、意根分布、意指方式、意变类型四个角度标注了词素间的词化意义,最后综合词素意义和词化意义,在定量统计的基础上建立了一个二字词的语义描写体系。通过对论坛及《现代汉语词典》的新词进行实验,我们发现二字词的语义构词研究在普通未登录词的理解中具有一定的应用价值。
相似文献
相似文献
18.
该文提出了一种规则和藏字语法分析相结合的藏字自动校对算法, 不使用藏字字典和大规模语料库。通过研究藏字构字语法,得到藏字的结构特征,进而对藏字的字母组合进行分段处理,简化藏字构字复杂度,研究出各分段部分的构字规则,然后按照规则进行字的校对。实验表明,系统对现代藏文字的查错率达100%。 相似文献
19.
词向量是一种词语的数字化的表达。基于神经网络模型,利用语料中词语之间的上下文关系这一约束条件,通过大量训练得到词向量。词向量在表达词的语义上的表现给人以无限的希望与想象空间,基于词向量的文本分类、人机对话、智能检索等得到了广泛的研究。该文针对校园信息查询的特定应用,建立了所涉及词语的分类本体,除了利用语料中词语上下文关系外,还将本体知识作为约束条件进行词向量的训练,增强了词向量的语义表达。基于skip-gram模型,采用多任务的神经网络训练方法,在自己收集的语料上训练得到了针对领域的词向量。实验表明,基于领域知识的增强约束词向量能够更准确地表达词的语义信息。 相似文献