首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 968 毫秒
1.
针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法( GCSSA)。该方法在基于hownet(“知网”)语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。  相似文献   

2.
针对中文词语相似度计算的问题,根据信息论中两个事物相似度计算的思想,提出一种基于知网义原信息量和义原及其角色关系的中文词语相似度计算方法,利用知网分类体系计算出词语义原信息量,根据义原信息量计算出词语概念间主类义原的相似度,结合词语概念中义原及其角色关系相似度及义原结点相似度来综合计算词语的相似度,与刘群、知网在线的方法及人工判断的相似度值进行了比较,实验结果显示该方法与人的判断更接近。  相似文献   

3.
马慧芳  刘文  李志欣  蔺想红 《电子学报》2019,47(6):1331-1336
短文本相似度计算在社会网络、文本挖掘和自然语言处理等领域中起着至关重要的作用.针对短文本内容简短、特征稀疏等特点,以及传统的短文本相似度计算忽略类别信息等问题,提出一种融合耦合距离区分度和强类别特征的短文本相似度计算方法.一方面,在整个短文本语料库中利用两个共现词之间的距离计算词项共现距离相关度,并以此来对词项加权从而捕获词项间内联和外联关系,得到短文本的耦合距离区分度相似度;另一方面,基于少量带类别标签的监督数据提取每类中强类别区分能力的特征项作为强类别特征集合,并利用词项的上下文来对强类别特征语义消歧,然后基于文本间包含相同类别的强类别特征数量来衡量文本间的相似度.最后,本文结合耦合距离区分度和强类别特征来衡量短文本的相似度.经实验证明本文提出的方法能够提高短文本相似度计算的准确率.  相似文献   

4.
随着互联网时代的数据爆炸,在短文本信息数量迅速增长的环境下,为了更好地进行中文本摘要模型的计算,本文针对短文本的文本特征提取和相似度计算进行了深入研究。本文将优化的TF-IDF模型和Word2Vec模型结合起来,进而提出一种兼顾短文本统计特征和语义特征的合并加权Word2Vec和TF-IDF的文本特征提取算法,将文本进行向量化表示;随后,在文本的相似度算法中,基于短文本的特征,选取了余弦相似度算法,对短文本间相似度值进行了有效计算。实验结果表明,使用TF-IDF和Word2Vec结合模型与传统单个模型相比,生成出的文摘准确性更高,质量更好。  相似文献   

5.
一种基于知网的主观题阅卷算法   总被引:1,自引:0,他引:1  
通过分析知网中词语表示方法提出了一种新型的义原相似度计算方法进而获得词语相似度的计算公式,以词语相似度计算为基础提出了主观题阅卷算法的设计与实现.实验结果证明,该算法能够较好的评阅学生答案中语义正确的内容,这在提高系统阅卷的正确性方面具有一定的意义.  相似文献   

6.
基于知网语义相似度计算的文本特征提取   总被引:2,自引:0,他引:2  
互联网中存在着大量的文本信息,而对于这些文本信息的监管还存在着很大的盲区,如何从互联网的大量信息中进行相关舆情分析、预测及管控足信息安全领域中的新课题,其中文本特征的有效提取是研究内容之一。文章基于知网中语义词语语义相似度的计算方法提出一套建立在之上的语句语义相似度的计算方法,并用此方法提取出文本的特征。  相似文献   

7.
词语语义相似度计算方法的研究是当前智能信息服务系统研究的重点,它在多个领域都有着充分的应用。本文是在其他学者的研究基础上,基于《知网》提出了一种语义相似度的改进算法。这种算法不仅考虑了"义原"在描述概念时的作用,同时也考虑到了符号在描述概念过程中的作用。实验证明这种算法更加合理。  相似文献   

8.
词语的情感极性判别是文本情感分析的前提和基础.本文针对如何判别中文词语的情感极性,提出了一种基于图的半监督学习方法.该方法将词语看成图中的节点,链接节点的边的权重由《知网》 2008提供的词语间的语义相似度决定.少量已知情感极性的词语作为标签,通过标签传递算法来判别大量未知词语的情感极性.实验结果表明该方法比传统的基于知网的词语情感极性判别方法有较高的正确率.  相似文献   

9.
人工智能与知识工程知网在词语相似度计算方面的应用   总被引:6,自引:0,他引:6  
本论文讨论利用知网从中文语义的角度计算词语相似度。计算文档之间的相关性已经成为解决信息处理问题的根本之道。分析待处理的文档和用户信息需求的语义,从语义的层面上,计算它们之间的相关性.为实现更深层次的信息处理做准备。因此从词义的角度对词语相似度的计算就成了首先要解决的问题。可以说词语相似度的计算是实现数据挖掘、信息过滤、信息分类、信息检索等信息处理的前提。  相似文献   

10.
针对在传统语义融合的文本相似度算法设计与实现中由于汉语语义复杂存在容易形成局部极小值而得不到全局最优、训练次数较多、学习效率降低、隐节点的选取缺乏理论依据等问题,提出一种改进算法。首先在把握文本相似度算法内涵和分类情况的基础上,通过调整数字识别方向、选取合适的数据来源,依据图像识别技术和算法深度学习的共性需求,从语义融合角度提出以核心词为节点进行文本相似度计算;然后通过多特征融合向量空间模型对特征项的类间分布问题进行分析,最终通过加权计算得到文本相似度。从算法实现效果来看,相较于传统算法能够获得更高文本分类准确度,改进基于文本相似度算法的语言处理技术更加高效、准确。  相似文献   

11.
基于知网的词语语义相关度计算   总被引:1,自引:0,他引:1  
现有的词语语义相关度算法大多单纯依赖于语义相似度算法,没有充分利用词语间的语义关系,导致其存在局限.在充分挖掘词语间的隐含语义关系基础上,将语义关系应用于语义关联度的计算,最终将语义相似度以及语义关联度结合起来,提出了语义相关度算法.实验结果表明,使用该计算方法得出的语义相关度更加合理,符合人的直观感觉.  相似文献   

12.
关键词提取在文本相似度计算得到应用。传统的关键词提取方法忽略文本中的未登录词以及缺乏对词语语义的理解。针对科技项目申请书,研究提出一种基于未登录词识别与语义的关键词提取方法。应用Lucene和统计相融合的方法进行分词,并识别未登录词作为申请书关键词的一部分;依据社会网络理论构建词语语义相似度网络,并计算词语关联度提取申请书其他关键词。实验结果表明,与传统的关键词提取方法相比,新方法能提取更准确的关键词,有更好的科技项目相似性检查效果。  相似文献   

13.
方面提取是情感分析中的关键步骤,随着互联网的快速发展,短文本数据迅猛增加,对短文本数据加以整理和利用极为重要.本文针对短文本的特殊性,提出了短文本模型WESM.与现有模型不同的是,本文引入了词汇共现网络,丰富了词汇的上下文信息,针对中文数据,引入了cw2vec模型,能够充分利用中文词语的语义信息;为了提高短文本的上下文语义缺失,引入了自注意力机制,能够丰富模型的上下文语义信息,提高方面词汇权重,在词汇聚类过程中,降低了非方面词汇的影响.相较于传统方面提取算法性能有着显著的提升.  相似文献   

14.
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法 TF-IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。  相似文献   

15.
基于VSM的文本聚类忽略了文本关键词稀疏带来的相似度漂移问题和关键词之间的语义信息和各维度之间的关系,致使文本的相似度计算不精确,文中对相似度计算方法TF—IDF进行了改进,并提出一种新的聚类方法,利用分布式估计算法和禁忌搜索算法进行聚类,融合分布式估计算法的收敛速度快和禁忌搜索算法能跳出局部搜索的优点,首先对文本进行预处理,然后用分布式估计算法和禁忌搜索算法聚类,既能快速聚类又能防止聚类收敛到局部最优。测试结果表明这种算法行之有效。  相似文献   

16.
本体中的复杂网络特性研究   总被引:3,自引:3,他引:0  
从复杂网络的视角研究语义网中本体的拓扑结构,通过分析不同领域本体中类与子类所形成的类图关系,及其表现出的网络特性,发现这种类图在无向网络的意义下具有无标度特性,为本体结构相似度等计算提供了新方法。  相似文献   

17.
词语是文本中的情感表达的最小单位,而词语语义的情感倾向性分析是文本情感分类的基础.利用中文情感词构建出一个基础情感词典来判断未知情感词的情感极性.本文即是在HOWNET情感词语集的基础上,利用义原相似度算法,构建了中文基础情感词典,并提出以信息融合方法,将此词典与同济大学的褒贬词典进行整合,建立了特定情感词与特定情感标注以及相应的情感权值的映射关系,实验结果表明,该方法取得不错的分类效果.  相似文献   

18.
针对大规模考试管理中存在相似试卷识别的困难,提出一种试卷相似度自动评估算法.参考现有知网词汇语义相似度计算方法,结合试卷相似度计算领域特点,改进词汇语义相似度计算方法,提出试题相似度和试卷相似度计算模型,实现对试卷相似度的自动评估,提高了大规模考试管理的工作效率.通过抽取各专业部分试卷进行相似度自动评估测试,测试结果与...  相似文献   

19.
由于电力调度过程中存在大量重复性电力文本,导致语义识别结果形式与理想形式差距较大。针对该问题,提出了基于改进Bert-AutoML的电力文本语义识别算法。采用基于词块的粒度划分方式,提取电力文本字粒度语义特征。计算语义序列与命名实体数据库中语义的相似度,获取多个对应语义序列,构建电力文本语义识别模型。使用自动机器学习法训练模型文本输入,计算输入向量和电力文本库中向量匹配度。结合字符掩码训练策略,将掩盖的内容与背景相联系,得到最终语义识别结果。实验结果表明,该算法语义识别结果呈现段落-结构形式,排列整齐且简洁,与理想识别结果一致。  相似文献   

20.
面向短文本的动态组合分类算法   总被引:4,自引:2,他引:2       下载免费PDF全文
闫瑞  曹先彬  李凯 《电子学报》2009,37(5):1019-1024
 短文本分类是网络内容安全的一种主要方法.然而,短文本固有的关键词特征稀疏和样本高度不均衡等特点,使得难以直接使用现有针对长文本的分类算法.本文提出了一种针对短文本的动态组合分类算法.首先构造出一种树状组合分类器结构,可有效缓解短文本特征稀疏和样本高度不均衡对分类性能的影响;进一步,提出了一种动态调整策略来训练组合分类器,可以根据样本的分布特点自适应地调整分类器的组合结构.测试实验表明,相对于传统的单一分类方法和集成分类方法,动态组合分类算法在短文本分类中可以获得更好的准确率和召回率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号