首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 15 毫秒
1.
基于相似度分析的拼写校正器   总被引:4,自引:0,他引:4  
吴炜  周闻钧  王力生 《计算机科学》2004,31(Z2):304-305
1引言 本文尝试通过分析单词之间的相似度确定用户输入的单词的正确形式.目前,拼写检查器一般是通过单词匹配来检索正确的单词,这样往往造成把属于同一词根的单词因为时态不同而认为是两个完全不同的单词.本文通过相似度来聚类属于同一词根的单词,只要适当地调整相似度的最小阈值就可以把属于同一词根而因时态变化造成的"异形"词聚类在同一类,然后在同一类中按相似性从大到小排列,返回前三个单词作为候选单词供用户参考.  相似文献   

2.
国内利用知网计算中文词语相似度通常采用基于义原距离和深度的方法,计算结果依赖于公式的设计和参数的选取.针对词语相似度的计算,文章提出采用知网义原信息量来计算中文词语相似度,根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算义原信息量,从词语概念的主类义原信息量、义原及其角色关系的信息量及义原结点相似度三个方面来综合计算词语的相似度,与刘群和知网在线的方法进行比较,实验结果显示本文方法与人的判断更为接近.  相似文献   

3.
针对网络考试系统中主观题自动评分面临的困难和问题,提出一种基于中文分词技术结合语句相似度的主观题自动判分算法.该算法利用字典与统计相结合技术将语句切分成具有独立意义的单词,通过计算词与词之间的相似度,并结合词形、词序和语句长度等多层次相似度计算得到整句的相似度.利用语句相似度计算结合改进关键字匹配算法得到最终分值.经课题中多媒体简答题的测试,结果表明了该算法的有效性.  相似文献   

4.
研究了单词语义相似性计算方法,其中基于知识的方法和基于语料的方法是两种主要方法。这两种方法及其融合方法都把单词看成一个整体,主要利用单词外部信息进行语义相似性计算。近些年,出现了一些利用单词内部信息进行单词语义相似性计算的工作,它们使用汉字、部首、词根、词缀等来计算单词语义相似性。利用单词的内部结构解析,解决从细粒度到粗粒度的语义相似性推导,最终计算出单词间的语义相似性是单词语义相似性计算的必然阶段。当从外部信息转向内部信息时,可以改善已有单词语义相似性计算的性能,尤其是为低频词或未登录词的准确语义相似性计算提供了可能性。  相似文献   

5.
为提高自然语言处理任务中文本相似度检测的准确率,提出一种改进双向长短期记忆网络(Bi-LSTM)的文本相似度计算方法。将输入的句子转换成多个单词向量,通过Bi-LSTM提取出每个单词向量的最佳词特征,引入注意力机制,减小非关键因素的影响;采用多层相似加权对两个句子分别从词与词、句子与句子、词与句子3个层面进行多层比较,加权得到其最终的相似度;基于SMTeuroparl、MSRvid和MSRpar这3个数据集对所提方法的性能进行评估。实验结果表明,相比于其它方法,所提方法的文本相似度计算更佳,适用于处理复杂的长文本。  相似文献   

6.
设计了一种基于依存关系与同义词词林相结合的语义相似度计算方法。该方法通过依存关系分别提取两个文本的关系路径,同时基于同义词词林计算两个文本之间关系路径的语义相似度。在计算两个文本之间的语义相似度时,使用语言技术平台(language technology platform,LTP)对文本进行中文分词以及获取文本的依存关系图,从中提取关系路径,从而可以结合关系路径和同义词词林计算两个文本之间的语义相似度。通过实验,获得的平均偏差率为13.83%。实验结果表明,结合依存关系与同义词词林的语义相似度方法在准确率上相比较基于同义词词林的语义相似度和基于依存关系的语义相似度有了一定的提高。  相似文献   

7.
在归纳常见的句子相似度计算方法后,基于《人民日报》3.4万余份文本训练了用于语义相似度计算的词向量模型,并设计了一种融合词向量的多特征句子相似度计算方法。该方法在词方面,考虑了句子中重叠的词数和词的连续性,并运用词向量模型测量了非重叠词间的相似性;在结构方面,考虑了句子中重叠词的语序和两个句子的长度一致性。实验部分设计实现了4种句子相似度计算方法,并开发了相应的实验系统。结果表明:提出的算法能够取得相对较好的实验结果,对句子中词的语义特征和句子结构特征进行组合处理和优化,能够提升句子相似度计算的准确性。  相似文献   

8.
王凤玲 《计算机工程》2011,37(18):164-166
分析中文缩略语的构词方式,定义2个词之问的词形相似度,提出一种基于最长字符串匹配的相似度计算方法,探讨该方法在中文报道关系识别系统中的应用.实验结果表明,该相似度计算方法能够改善中文报道关系识别系统的性能,使系统的归一化检测开销降低12.96%,取得较好的识别效果.  相似文献   

9.
新词识别作为自然语言处理的基础任务之一,为构建中文词典、分析词语情感倾向等提供了支持。然而,目前的新词识别方法没有考虑针对谐音新词的识别,导致谐音新词识别的准确率不高。为了解决这一问题,提出一种基于拼音相似度的中文谐音新词发现方法,引入新旧词拼音比较来提高谐音新词识别的准确率。首先,对文本进行预处理,计算平均互信息(AMI)以判定候选词的内部结合度,并使用改进邻接熵确定候选新词的边界;然后,将保留下的词转换成发音相近的汉语拼音与中文词典中的旧词拼音进行相似度比较,并保留最相似的比较结果;最后,若比较结果超过阈值,则将结果中的新词作为谐音新词,对应的旧词即为谐音新词的原有词。在自建的微博数据集上的实验结果表明,与BNshCNs(Blended Numeric and symbolic homophony Chinese Neologisms)、依存句法与语义信息结合的相似性计算模型(DSSCNN)相比,所提方法的准确率、召回率和F1分数分别提高了0.51和5.27个百分点、2.91和6.31个百分点以及1.75和5.81个百分点。可见所提方法具有更好的中文谐音新词识别效果。  相似文献   

10.
词语相似度计算是信息处理技术中的一个关键问题,主要研究用什么样的方法来计算或比较两个词语的相似性.词语相似度计算可以从广义与狭义两方面考虑,文中从狭义的角度对词语相似度计算进行了研究,通过对语素相似度、字序相似度和词长相似度的分析,提出了一种基于语素、字序和词长的综合词语相似度计算方法.通过词语相似度计算可以修正用户提问中错字、漏字、多字等情况,并且通过实验给出了词语相似度计算中参数的参考值.实验结果验证了该计算方法的有效性.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号