首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
提出一种基于知网与搜索引擎的词汇语义相似度计算方法。利用义原在层次体系树的深度、密度、信息量优化义原的相似性计算。将逐点共有信息(PMI)算法与归一化谷歌距离(NGD)算法结合优化基于搜索引擎的词汇语义相似度计算。将词汇的词性作为权重因子融合知网与搜索引擎的词汇相似度计算结果。实验结果表明,与基于知网和基于搜索引擎的语义相似度计算方法相比,所提出的方法在NLPCC测试集上的平均相似度更接近于测试集的评测标准,在汽车票务领域的词汇相似度计算中具有较好的应用效果。  相似文献   

2.
针对当前《知网》的词语语义描述与人们对词汇的主观认知之间存在诸多不匹配的问题,在充分利用丰富的网络知识的背景下,提出了一种融合《知网》和搜索引擎的词汇语义相似度计算方法。首先,考虑了词语与词语义原之间的包含关系,利用改进的概念相似度计算方法得到初步的词语语义相似度结果;然后,利用基于搜索引擎的相关性双重检测算法和点互信息法得出进一步的语义相似度结果;最后,设计了拟合函数并利用批量梯度下降法学习权值参数,融合前两步的相似度计算结果。实验结果表明,与单纯的基于《知网》和基于搜索引擎的改进方法相比,融合方法的斯皮尔曼系数和皮尔逊系数均提升了5%,同时提升了具体词语义描述与人们对词汇的主观认知之间的匹配度,验证了将网络知识背景融入到概念相似度计算方法中能有效提高中文词汇语义相似度的计算性能。  相似文献   

3.
针对三维模型语义检索应用,提出一种三维模型语义自动标注方法,建立三维模型内容特征和语义特征之间的映射关系。首先,利用基于深度信息的特征提取方法计算三维模型形状特征描述符,在单位立方体的六个面上正交投影后获取六幅深度缓存图像,提取图像二维傅立叶变换后的270维低频系数作为三维模型内容特征。其次,针对语义词汇之间相似度计算需要,提出一种语义相似度计算方法,采用本体层次结构的深度、宽度、同义词集密度信息计算词汇信息量,定义语义词汇间的信息量关系,得到语义相似度。再次,利用语义排歧策略消除语义词汇二义性,提高语义词汇相似度计算的准确性。最后,融合三维模型内容特征相似度计算和本体语义相似度计算方法,利用样本库中相似模型包含的词汇概率信息和模型内容相似度值,计算待标注模型的语义描述信息。通过模型标注实验,验证了该方法的准确性。  相似文献   

4.
该文提出了一种字形相似度计算方法,旨在解决汉字中相似字形(称作形似字)的识别和查找问题。首先,提出了汉字拆分方法,并构建了偏旁部首知识图谱;然后,基于图谱和汉字的结构特点,提出2CTransE模型,学习汉字实体语义信息的表示;最后,将输出的实体向量用于汉字字形的相似度计算,得到目标汉字的形似字候选集。实验结果表明,该文所提出的方法对于不同结构汉字的字形相似度计算有一定效果,所形成的汉字部件组成库,为之后字形计算的相关研究提供了行之有效的数据集。同时,也拓宽了日语等类汉语语言文字字体相似度计算的研究思路。  相似文献   

5.
基于知识图的汉语词汇语义相似度计算   总被引:2,自引:1,他引:1  
提出了一种基于知识图的汉语词汇相似度计算方法,该方法以《知网》2005版为语义知识资源,以知识图为知识表示方法,在构造词图的基础上,以知网中的语义关系为依据对词汇概念中的义原进行分类,通过计算不同类型义原的相似度得到概念的相似度;为了对词汇相似度计算方法进行客观评价,设计了词汇相似度计算方法的量化评价模型;采用该模型对所提出的计算方法进行评价,试验结果证明此方法的有效度为89.1%。  相似文献   

6.
提出一个深层次的问句语义分析算法,实现问句从文字空间到语义空间的映射。在问句语义分析算法的基础上,提出面向海量问答数据的检索模型,该模型采用搜索引擎的检索技术,利用问句语义分析的结果,将问句相似度计算结合到信息检索过程中,既保证了检索的效率又保证了检索的精度。  相似文献   

7.
针对大规模考试管理中存在相似试卷识别的困难,提出一种试卷相似度自动评估算法。参考现有知网词汇语义相似度计算方法,结合试卷相似度计算领域特点,改进词汇语义相似度计算方法,提出试题相似度和试卷相似度计算模型,实现对试卷相似度的自动评估,提高了大规模考试管理的工作效率。通过抽取各专业部分试卷进行相似度自动评估测试,测试结果与人工评估结果基本一致,达到预期目标。  相似文献   

8.
针对大规模考试管理中存在相似试卷识别的困难,提出一种试卷相似度自动评估算法.参考现有知网词汇语义相似度计算方法,结合试卷相似度计算领域特点,改进词汇语义相似度计算方法,提出试题相似度和试卷相似度计算模型,实现对试卷相似度的自动评估,提高了大规模考试管理的工作效率.通过抽取各专业部分试卷进行相似度自动评估测试,测试结果与人工评估结果基本一致,达到预期目标.  相似文献   

9.
基于本体论和词汇语义相似度的Web服务发现   总被引:122,自引:2,他引:120  
Web服务的大量涌现对服务发现提出了挑战,UDDI上基于关键词和简单分类的服务发现机制已经不能很好满足需要.该文在分析现有相关研究的基础上,提出了基于本体论和词汇语义相似度的Web服务发现方法.通过构建Web服务本体,给出一个明晰的Web服务发现的研究对象,指出可对Web服务进行的几种相似度计算,并对其中的词汇语义相似度计算进行详细讨论.文中具体给出两种词汇语义相似度计算方法,其中第一种方法计算词汇语义相似度基于词语间距离度量,第二种方法计算词汇语义相似度则建立在义原相似度基础上.引入本体论和词汇语义相似度,为Web服务相似度计算、Web服务发现提供了一种有效可行的方法.  相似文献   

10.
一种基于云端信息保护的汉字计算模型   总被引:1,自引:0,他引:1  
提出了一种基于信息内容保护的信息安全模型。该模型利用将汉字笔画抽象为有向图的方法,设计了汉字笔画图抽象的具体方案,实现了对汉字字形结构的动态描述;建立了动态汉字字形描述库,设计了汉字字形的生成算法,实现了汉字字形的Web存储和特征字形的客户端输出。所提模型为汉字信息的云端存储和云端数据安全性保护提供了一种解决方案,不仅有助于汉字信息的安全保护,而且有助于汉字认知计算、语义计算等深度汉字信息计算。  相似文献   

11.
研究了单词语义相似性计算方法,其中基于知识的方法和基于语料的方法是两种主要方法。这两种方法及其融合方法都把单词看成一个整体,主要利用单词外部信息进行语义相似性计算。近些年,出现了一些利用单词内部信息进行单词语义相似性计算的工作,它们使用汉字、部首、词根、词缀等来计算单词语义相似性。利用单词的内部结构解析,解决从细粒度到粗粒度的语义相似性推导,最终计算出单词间的语义相似性是单词语义相似性计算的必然阶段。当从外部信息转向内部信息时,可以改善已有单词语义相似性计算的性能,尤其是为低频词或未登录词的准确语义相似性计算提供了可能性。  相似文献   

12.
基于语义信息的中文短信文本相似度研究   总被引:1,自引:0,他引:1       下载免费PDF全文
在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加权,给出2篇短信文本相似度的计算方法。实验结果表明,该方法在F-度量值上优于TF-IDF算法及词语语义相似度算法。  相似文献   

13.
语义相似度计算就是把词语间语言学上的信息映射为0到1之间的数值。基于知识本体的语义相似度计算方法,利用知识本体提供的信息,建立词语关系和语义相似度之间的函数关系,该方法可解释性强、使用简单,成为语义相似度计算的一类重要方法。提出了一种基于《同义词词林》的语义相似度计算模型,该模型运用遗传算法探索了《同义词词林》语义编码与语义相似度之间的内在联系,建立了更符合《同义词词林》中所蕴含的语义相似信息的函数关系式。该方法使用遗传算法搜索知识与语义相似度的函数表达式,克服了先验模型中函数形式及调节参数的局限性,所得计算结果与人工判定结果的皮尔逊相关系数为0.8645,为使用人工智能方法挖掘自然语言处理中的规律提供了一种新的思路和方法。  相似文献   

14.
语言模型的建立对挖掘句子内部语义信息有着直接的影响,为了提高中文命名实体识别率,字的语义表示是关键所在。针对传统的中文命名实体识别算法没有充分挖掘到句子内部的隐藏信息问题,该文利用LSTM提取经过大规模语料预训练生成的字向量特征,同时将词向量预测矩阵传入到字向量特征提取阶段,通过矩阵运算融合为词向量特征,并进一步利用CNN提取词语之间的空间信息,将其与得到的词向量特征整合到一起输入语言模型XLnet(Generalized autoregressive pretraining for language understanding)中,然后经过BiGRU-CRF输出最优标签序列,提出了CAW-XLnet-BiGRU-CRF网络框架。并与其他的语言模型作了对比分析,实验结果表明,该框架解决了挖掘内部隐藏信息不充分问题,在《人民日报》1998年1月份数据集上的F1值达到了95.73%,能够较好地应用于中文命名实体识别任务。  相似文献   

15.
提出了一种基于《知网》的汉语未登录词语义相似度计算方法。该方法首先参照意合网络理论构造了语义关系匹配函数;接着在用概念图表示未登录词语义信息的基础上,根据节点在语义表示中的作用不同对其分类;然后应用匹配函数对弧、节点对及节点对集进行分类;最后设计了未登录词的整体相似度、不同类型节点对及节点对集相似度的计算方法。该方法能够合理分类未登录词的语义信息并能将其充分利用到计算过程中,实验结果证明此方法是有效的。  相似文献   

16.
语句相似度计算在主观题评判中的应用   总被引:1,自引:0,他引:1  
于淼  王日宏 《计算机应用》2008,28(12):3254-3256
在网络考试系统中对主观题自动评判运用自然语言识别技术是计算机领域的一个研究热点。结合中文分词方法,在基于《知网》知识库的词语相似度算法的基础上,运用数学上求解最优指派问题的匈牙利算法建立句子和句群的相似度计算模型,并根据句子相似度值给出主观题正确分数评判。  相似文献   

17.
基于知识图的汉语词语间语义相似度计算   总被引:2,自引:0,他引:2  
语义相似是词语间的基本关系之一,汉语词语间语义相似的研究对于许多自然语言处理的应用具有重要的指导意义。提出了一种基于知识图的词语间语义相似度计算的方法,把知识图这种属于语义网络范畴的知识表示方法应用于汉语信息处理中。实验结果表明该方法对词语间语义相似度计算是有效的。  相似文献   

18.
An efficient method is introduced to represent large Arabic texts in comparatively smaller size without losing significant information. The proposed method uses the distributional semantics to build the word-context matrix representing the distribution of words across contexts and to transform the text into a vector space model (VSM) representation based on word semantic similarity. The linguistic features of the Arabic language, in addition to the semantic information extracted from different lexical-semantic resources such as Arabic WordNet and named entities’ gazetteers are used to improve the text representation and to create word clusters of similar and related words. Distributional similarity measures have been used to capture the words’ semantic similarity and to create clusters of similar words. The conducted experiments have shown that the proposed method significantly reduces the size of text representation by about 27 % compared with the stem-based VSM and by about 50 % compared with the traditional bag-of-words model. Their results have shown that the amount of dimension reduction depends on the size and shape of the windows of analysis as well as on the content of the text.  相似文献   

19.
提出一种基于知网的汉语普通未登录词语义分析模型,该模型以概念图为知识表示方法,以2005版知网为语义知识资源,首先参照知网知识词典对普通未登录词进行分词;然后综合利用知网中的知识词典等知识,通过词性序列匹配消歧法、概念图相容性判定消歧法、概念图相容度计算消歧法及语义相似度计算消歧法对中文信息结构进行消歧;最后根据所选择的中文信息结构生成未登录词的概念图,从而实现未登录词的语义分析。该模型在语义分析过程中一方面确定了未登录词中每个已登录词的词义,另一方面构造了该未登录词的语义信息,实验结果证明它可以作为普通未登录词语义分析的原型系统。  相似文献   

20.
句子相似度的计算在自然语言处理的各个领域占有很重要的地位,一些传统的计算方法只考虑句子的词形、句长、词序等表面信息,并没有考虑句子更深层次的语义信息,另一些考虑句子语义的方法在实用性上的表现不太理想。在空间向量模型的基础上提出了一种同时考虑句子结构和语义信息的关系向量模型,这种模型考虑了组成句子的关键词之间的搭配关系和关键词的同义信息,这些信息反应了句子的局部结构成分以及各局部之间的关联关系,因此更能体现句子的结构和语义信息。以关系向量模型为核心,提出了基于关系向量模型的句子相似度计算方法。同时将该算法应用到网络热点新闻自动摘要生成算法中,排除文摘中意思相近的句子从而避免文摘的冗余。实验结果表明,在考虑网络新闻中的句子相似度时,与考虑词序与语义的算法相比,关系向量模型算法不但提高了句子相似度计算的准确率,计算的时间复杂度也得到了降低。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号