共查询到10条相似文献,搜索用时 31 毫秒
1.
汉语词语语义相似度计算,在中文信息处理的多种应用中扮演至关重要的角色。基于汉语字本位的思想,我们采用词类、构词结构、语素义等汉语语义构词知识,以“语素概念”为基础,计算汉语词语语义相似度。这种词义知识表示简单、直观、易于拓展,计算模型简洁、易懂,采用了尽可能少的特征和参数。实验表明,该文方法在典型“取样词对”上的表现突出,其数值更符合人类的感性认知,且在全局数据上也表现出了合理的分布规律。 相似文献
2.
基于百度百科的词语相似度计算 总被引:1,自引:1,他引:0
词语相似度计算是自然语言处理的关键技术之一,是一个被广泛研究的基础课题.传统的词语相似度量方法大多是基于语义知识和基于语料库统计的方法,即这两类方法需要具有层次关系组织的语义词典和大规模的语料库.提出了一种新的基于百度百科的词语相似度量方法,通过分析百度百科词条信息,从表征词条的解释内容方面综合分析词条相似度,并定义了词条间的相似度计算公式,通过计算部分之间的相似度得到整体的相似度.实验结果表明,与已有的相似度计算方法对比,提出的算法更加有效合理. 相似文献
3.
4.
该文基于70年跨度的历时报刊语料库,使用九种统计方法计算了词语历年的使用情况,并通过对稳定性、覆盖度和时间区分性能的考察筛选获得了规模为3 013词的历时稳态词候选词集。该词集中动词与名词各占约三分之一(其余为形容词、副词与虚词),平均词长约1.7字,前密后疏地分布于历时语料库总频序表的前7 609位,覆盖了总语料的近九成。该部分词语中包含大量构造句子结构的核心词语。它们塑造了稳态词在词长和词类上的特性。稳态词的提取可以加深对语言生活底层与基础词汇的认识,对汉语教学、中文信息处理和语言规划都具有重要意义。 相似文献
5.
国内利用知网计算中文词语相似度通常采用基于义原距离和深度的方法,计算结果依赖于公式的设计和参数的选取.针对词语相似度的计算,文章提出采用知网义原信息量来计算中文词语相似度,根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算义原信息量,从词语概念的主类义原信息量、义原及其角色关系的信息量及义原结点相似度三个方面来综合计算词语的相似度,与刘群和知网在线的方法进行比较,实验结果显示本文方法与人的判断更为接近. 相似文献
6.
7.
针对传统语素方法对于种子词语数量的依赖和传统图方法召回率较低的问题,提出一种将词语间语素关系融入到图模型中,并结合词语同义关系进行中文褒贬词典半监督构建的方法。首先利用语素模型计算词语间语素相似度;然后利用同义词林和双语词典资源,构建词语间同义关系;最后将二种关系结合,并利用标签传播(LP)算法进行词语的褒贬分类。实验结果表明,所提方法具有较高的准确率和召回率,微平均F1值最高可达92.8%;并降低了对种子词语数量的依赖,当种子词语数量仅为100时,微平均F1值依然可达到84.1%。除此之外,所提方法还具有快速收敛的特性。 相似文献
8.
一种改进的本体语义相似度计算及其应用 总被引:5,自引:1,他引:5
词语相似度研究,是知识表示以及信息检索领域中的一个重要内容.词语相似度的计算方法一般是利用大规模的语料库来统计.本体给词语间相似度计算带来了新的机会.利用本体结构上的ISA关系,提出了本体内部概念之间的相似度计算方法.实验结果表明,该方法能充分利用本体特点来计算相关概念之间的相似度.结合一个简单本体,介绍了如何计算概念间的相似度,及其在智能检索系统中的应用. 相似文献
9.
鉴于词语表达形式与词语语义的多样性,词语语义相似度计算是自然语言处理、智能检索、文档聚类等领域的一个研究热点。文中根据词语表达方式的特点,在基于词语语义词典和基于大规模语料库这两种计算词语语义相似度方法的基础之上,提出一种改进的主观和客观相结合的词语相似度计算方法。从方法论的角度,本算法既融合了主观经验主义思想也融合了客观的理性主义思想,使得词语语义相似度的计算结果能够更加准确。实验结果表明采用文方法是有效的,能够显著提高词语语义相似度计算结果的准确性。 相似文献
10.
为了提高短文本语义相似度计算的准确率,提出一种新的计算方法:将文本分割为句子单元,对句子进行句法依存分析,句子之间相似度计算建立在词语间相似度计算的基础上,在计算词语语义相似度时考虑词语的新特征——情感特征,并提出一种综合方法对词语进行词义消歧,综合词的词性与词语所处的语境,再依据Hownet语义词典计算词语语义相似度;将句子中词语之间的语义相似度根据句子结构加权平均得到句子的语义相似度,最后通过一种新的方法——二元集合法——计算短文本的语义相似度。词语相似度与短文本相似度的准确率分别达到了87.63%和93.77%。实验结果表明,本文方法确实提高了短文本语义相似度的准确率。 相似文献