共查询到15条相似文献,搜索用时 265 毫秒
1.
国内利用知网计算中文词语相似度通常采用基于义原距离和深度的方法,计算结果依赖于公式的设计和参数的选取.针对词语相似度的计算,文章提出采用知网义原信息量来计算中文词语相似度,根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算义原信息量,从词语概念的主类义原信息量、义原及其角色关系的信息量及义原结点相似度三个方面来综合计算词语的相似度,与刘群和知网在线的方法进行比较,实验结果显示本文方法与人的判断更为接近. 相似文献
2.
词语语义相似度计算在很多自然语言处理相关领域都有着广泛应用.基于知网的现有词语语义相似度计算方法未深入考虑同棵义原层次树的义原距离、义原深度、义原密度及主次关系的影响,致使相似度计算结果并不够精确.针对该问题,提出一种词语语义相似度改进算法,通过分析知网中的义项表达式和义原层次树,用集合的加权平均值代替了义项相似度最大... 相似文献
3.
4.
5.
《计算机应用与软件》2013,(7)
在中文信息处理中,词语相似度计算是一项基础而又核心的研究课题。基于《知网》的描述语言结构,改进了现有词语相似度计算方法。该方法考虑了词语的词性在相似度计算中的作用,同时对词语的第一义原作比对,减少了抽象义原的决定作用,改进了其他义原描述式的相似度计算方法,减少了搜索时间。实验证明,该方法提高了计算效率和计算结果的准确率,使词语相似度计算结果比较合理。 相似文献
6.
提出了一种简单有效的词语语义相似度的计算方法,该方法利用《知网》中提取的1500多个义原,首先定义义原的距离,考虑到义原的深度、密度及参数对相似度的影响因素,定义了词语相似度。通过实例分析,该方法是行之有效地。 相似文献
7.
8.
词语相似度计算在文本分类、问答系统、机器翻译、文本聚类等有着广泛的应用。词语相似度计算的研究工作一般都是基于《知网》的义原的层面上,根据义原之间的距离和义原本身的层次深度,进行词语相似度的计算。基于以上研究,提出了一种新的改进的词语相似度算法,首先根据义项中各类义原的个数不同,提出了一种新的变系数义项相似度计算方法;其次从词性的角度,认为词语义项中的不同词性对词语相似度的贡献度不同,剔除不同词性义项之间的组合。实验结果证明,改进的算法结果在原有基础上得到较好的提升,大幅度降低了相似度计算的复杂度,提高了运算效率。 相似文献
9.
为了解决基于VSM方法在进行短文本分类时存在的严重数据稀疏问题,提出了基于语义与最大匹配度的短文本分类方法.以《知网》为知识源,设计了基于义原距离、义原深度与区域密度的义原相似度计算方法,实现基于词类的词语相似度计算;提出了基于语义与最大匹配度的方法计算短文本相似度,应用KNN算法进行短文本分类.实验结果表明,该方法与基于语义、基于AD_NB等方法相比,正确率、召回率和F值均得到了明显的提高. 相似文献
10.
中文实体描述短文本具有词语稀疏、语义离散、用词随意等特点。本文分析《知网》义原网络和词语相似度的关系,提出了短文本间语义相似度部分和短文本分类部分相结合的实体描述短文本间相似度计算方法。语义相似度部分分析《知网》义原网络和词语间相似度的关系,在计算词语间相似度和短文本间相似度的过程中弱化了浅层《知网》义原影响并均衡了义原权重,使义原相似度计算结果更加合理。短文本分类部分将短文本分解为义原向量,根据特定领域短文本的义原分布情况进行短文本分类。两部分结合得到实体描述短文本间相似度。本文方法的有效性在百度知识图谱数据分析竞赛任务1的测试结果中得到了证明。 相似文献
11.
提出一种基于知网与搜索引擎的词汇语义相似度计算方法。利用义原在层次体系树的深度、密度、信息量优化义原的相似性计算。将逐点共有信息(PMI)算法与归一化谷歌距离(NGD)算法结合优化基于搜索引擎的词汇语义相似度计算。将词汇的词性作为权重因子融合知网与搜索引擎的词汇相似度计算结果。实验结果表明,与基于知网和基于搜索引擎的语义相似度计算方法相比,所提出的方法在NLPCC测试集上的平均相似度更接近于测试集的评测标准,在汽车票务领域的词汇相似度计算中具有较好的应用效果。 相似文献
12.
针对当前基于《知网》的词汇语义相似度计算方法没有充分考虑知识库描述语言对概念描述的线性特征的情况,提出一种改进的词汇语义相似度计算方法。首先,充分考虑概念描述式中各义原之间的线性关系,提出一种位置相关的权重分配策略;然后,将所提出的策略结合二部图最大权匹配进行概念相似度计算。实验结果表明,采用改进方法得到的聚类结果F值较对比方法平均提高了5%,从而验证了改进方法的合理性和有效性。 相似文献
13.
基于词汇语义计算的文本相似度研究 总被引:7,自引:0,他引:7
基于《知网》的词汇语义计算方法揭示了词汇间的语义信息。根据文本的向量空间模型描述形式,采用了基于《知网》的词汇语义计算方法来计算两篇文章向量的相关性,并用最大匹配算法来获得这两篇文章的相似度,通过该计算过程达到揭示文本所蕴涵概念的目的,并用实验对该方法的有效性进行了验证,提出了今后的改进方向。 相似文献
14.