首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 154 毫秒
1.
一种基于语义体系的同义词识别研究   总被引:6,自引:0,他引:6  
针对基于字面和词素相似度识别同义词的不足之处,首次引入《同义词词林》(以下简称《词林》),作为语义体系,提出了基于《词林》语义体系的同义词识别算法,并进行了词汇问的语义相似度度量,实现了同义词识别。实验结果表明,此方法在效率上远高于基于字面、词素相似度识别方法。  相似文献   

2.
现有的基于语义依存的汉语句子相似度算法仅考虑了基于核心词的有效搭配对,根据两个句子有效搭配对的对应词是否是相同词和同义词将匹配权重简单地处理为0,0.5和1,而且未考虑不直接依存于核心词的其他词语,导致在计算句子相似度时区分度较低.改进算法通过综合计算核心词、关键词的语义相似度来确定更为精确的匹配权重,并且将不直接依存于核心词的其他词语对句子的影响也纳入句子相似度计算,以期达到全面刻画句子语义、提高算法的准确率和区分度的目的.实验结果表明改进算法比原算法具有更高的准确率以及更好的对句子的区分能力.  相似文献   

3.
基于实体词语义相似度的中文实体关系抽取   总被引:1,自引:1,他引:0  
为了探索语义相似度在中文实体关系抽取上的作用,提出由实体词在《同义词词林》中的5层编码构建成的《同义词词林》编码树和由关系实例中的实体词,各个类别中所有实体词计算相似度后求得的平均值构建成的实体词语义相似度树2种新特征,并连同已有的《同义词词林》编码、实体类型信息共4种特征探究其对抽取性能的影响。单一特征的试验中,实体类型特征效果最好,F值达到了小类84.9、大类83.2;组合特征的试验中,实体类型和《同义词词林》编码树的组合特征效果最好,大类小类的F值都比实体类型特征提高了2.5,3种组合特征性能不升反降。试验结果表明《同义词词林》编码树是对实体类型的有效补充,但过多的特征会造成信息冗余,使抽取性能下降。  相似文献   

4.
为了解决目前复合型日志无法被模板提取算法正确解析的问题,设计新的模板提取算法CLEA来处理复合型日志的模板提取. 该算法使用符号将所有日志划分为集群,基于Drain模板提取算法提取每个集群各自的日志模板,存储并缓存模板提取结果,在更新集群的同时更新缓存的模板;将差异度计算引入简单共有词算法中,增强简单共有词算法对模板中不同词语的敏感度,计算模板之间的相似度;设计BMerge算法,利用该算法对相似度大于阈值的模板进行合并,获取并输出合并日志作为最终结果. 在相似度算法中引入差异度计算,增强算法对模板中不同词语的敏感度,并设计BMerge算法对模板进行合并,输出无损日志作为结果. 所提方法适用于处理复合型日志,且正确率较高.  相似文献   

5.
针对词语相似度这一问题,在大规模语料库上,通过分布相似对汉语词相似进行了研究.实现了一个词相似计算平台,可灵活组合各种计算词相似算法,新增加语料库可以被增量式用于计算;对比研究了基于距离的度量和基于概率的度量2类算法的性能,通过和人工创建的黄金标准进行比较,基于概率的度量算法要优于基于距离的度量算法.  相似文献   

6.
为解决中文同义词词林无法用做上下文相关的复述语料问题,提出了一种词汇级复述方法。在中文大语料库环境下,根据给定的上下文,提取复述目标词和复述候选词;建立词、句融合的分层概率统计模型,给出了计算句、词复述相似度的5项特征值,用以训练二元分类器,并对候选复述词进行筛选。实验结果证明:1)基于大语料库数据挖掘,获取候选复述词提取方法具有实用价值,每个目标词给定的上下文句子中获取3.1个正确复述词;2)利用二元分类器对复述确认是有效的,精确率达到0.65;3)提取的复述中,有32%在《中文同义词扩展词林》无法查出,有效扩展了传统同义词复述方法。  相似文献   

7.
针对向量空间模型忽略词语出现位置和词序的缺点,结合科技文献结构明显分层的特点,本文提出了基于N层向量空间模型的文本相似度计算方法.该算法首先用N层向量空间模型表示查询短语和科技文献,其次在词频角度上和词序角度上分别计算两者间的相似度,最后得出整体的文本相似度.将本文算法应用于中、朝、英对照科技文献多语种检索模块测试其有效性,测试结果表明,本文设计的文本相似度计算方法算法性能较好,与传统的向量空间模型余弦相似度算法相比,查准率提高了2.7%,MRR提高了2.02%.  相似文献   

8.
基于PageRank算法的汉语同义词自动识别   总被引:2,自引:0,他引:2  
同义词的自动发现和识别在信息检索领域有着重要的研究意义和应用价值.为了提高同义词自动识别的效率,本文提出了基于PageRank算法的汉语同义词自动识别方法.该方法把词汇之间解释与被解释的关系看成是一种超链接,把PageRank值看成是体现词汇之间语义相似性的衡量指标,然后根据语义相似度的大小识别同义词.通过算法提取测试,结果表明:利用基于PageRank算法来自动发现和识别同义词具有可行性和实用性.  相似文献   

9.
针对现有相同产品特征识别方法受限于词典覆盖率或语料规模的不足,提出一种基于多维相似度和情感词扩充的识别方法。通过双向长短时记忆条件随机场(bi-directional long short-term memory and conditional random field, Bi-LSTM-CRF)模型抽取产品特征的扩充情感词,综合特征词的语素相似度、同义词林相似度和TF-IDF(term frequency-inverse document frequency)余弦相似度,采用K-medoids聚类算法,识别相同的产品特征。试验结果表明,在手机和笔记本数据集上,该方法的最大调整兰德指数分别达到0.579和0.595 9,而最小熵值分别达到0.782 6和0.745 7,均优于结合语素的调整Jaccard相似度、Word2Vec相似度和基于二分K-means的Word2Vec相似度三种基线试验方法。  相似文献   

10.
简单命题的语义识别是进行自然命题逻辑推理的重要基础之一,知网在中文词汇和句子的相似度计算方面扮演着越来越重要的角色。在对领域命题进行了预处理后,针对简单命题的句型结构和构成成分的特点,通过改进义原相似度、词语相似度、句子相似度的计算方法,提出了一种基于知网的、新的句子相似度计算方法。实验表明:该方法可以简单而有效地计算词语相似度;在句子相似度计算时,可以减少助动词、修饰词的影响,更适合判断两个命题是否高度相似。  相似文献   

11.
PageRank模型在中文情感词极性判别中的应用   总被引:1,自引:1,他引:0  
针对倾向性分析任务重的基础性工作——情感词的极性判断工作,提供了一种基于PageTank模型的情感词极性判断方法.由待判别情感词和少量中子情感词构成图中的节点,利用知网(HowNet)语义资源计算词语间的语义想死度,进而得到图中节点间边的权重.通过PageRank模型的引入,综合利用有标种子情感词和无标待判别情感词实现对无标情感词的极性判别.与传统的基于HowNet的情感词判别方法相比,PageRank模型的引入使情感词判别的准确率平均提高10%左右,充分验证了所提方法的可行性.  相似文献   

12.
从自然语言处理的角度来看,现有的主观题评分算法都以相似度计算为核心的,没有考虑语义对立度问题.提出了一种基于中文分词技术、相似度计算和对立度计算的新的主观题评分算法.对主观题评分算法的以下三个方面进行了重点研究:怎样改进中文分词算法中的歧义切分的方法;怎样引入参数限制计算中分数过高或过低;怎样设计一个融合相似度计算和对立度计算的主观题分数的计算公式.  相似文献   

13.
专业领域词汇相似度计算是词汇语义相似度计算中的重要问题.通过分析专业领域词汇的构词特点,并结合领域本体概念模型,提出一种专业领域词汇相似度计算算法(domain ontology and morphology based algorithm,DOMBA).该算法将专业领域词汇构词法与领域本体的概念相似度影响因子相结合,融于词汇相似度计算中.实验结果表明,词汇相似度计算结果符合客观实际的判断认识,DOMBA算法可有效应用于专业领域词汇相似度计算中.  相似文献   

14.
自动组卷中试题去重技术研究   总被引:3,自引:0,他引:3  
针对大规模题库中存在相似试题的问题,提出一种自动识别相似试题的方法.在知网词汇语义相似度模型的基础上,引入领域词汇对其进行改进,并且提出一种试题去重模型,来实现试题相似度的计算,解决了题库中相似和重复试题的自动识别问题,提高了相似试题识别的准确率.综合随机抽取法和试探回溯法两种组卷算法的优点,提出一种基于相似试题识别的组卷算法,提高了组卷的质量.实验表明试题相似度识别准确率达96%,非常接近人工判断结果,该方法不仅可以从同一试题类型内部,还可在不同类型之间消除相似试题.该方法已在C语言上机考试中进行了应用.  相似文献   

15.
对不同语言的句对齐文献资料进行分析,提出了基于多语主题模型的跨语言文献相似度的计算方法.首先,对收集整理的不同语言(中文、英文、韩文)文献构建数据模型,通过分词、分词结果修正及选择、词权重计算等预处理工作构造词项-文档矩阵.其次,建立多语主题语义空间,将译成3种不同语言的文献映射到语义空间,在语义空间中每一主题都由3种语言构成.最后,通过其语义空间中对应的主题计算比较不同语言间的文献相似度.实验结果显示,不同语言之间的文献相似度可以直接在语义空间中计算,且相似度计算的准确性在90%以上,验证了本文方法在跨语言文献相似度计算时的有效性.  相似文献   

16.
为了提高元搜索引擎排序结果的质量,提出了成员引擎特征的主题Hub值表示和基于主题Hub值的结果排序算法.特征学习算法利用一组主题关联词对成员引擎的特征进行学习,并表示为主题Hub值的形式.排序算法根据主题Hub值计算结果的全局相关度对结果进行排序.实验结果表明,该模型取得了更好的排序质量.  相似文献   

17.
本文在SPI测量变形物体三维位相的原理上,选用马赫-泽德干涉系统,提出了用一个干涉图法,实现了散斑干涉图三维位相测试的新方法。用CCD分别接收物体变形前后的散斑图,将两幅散斑图相减得到变形物体的散斑干涉条纹图。应用MAT LAB软件编程对散斑干涉图进行二维FFT运算,获得变形物体的三维位相。由三维位相分布可以判读物体的三维变形,进而为后续分析物体的三维应力奠定基础。实验表明,该方法简单、速度快,一个干涉图法可减少震动对测试结果的影响,精度容易达到λ/10。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号