首页 | 本学科首页   官方微博 | 高级检索  
检索     
共有20条相似文献,以下是第1-20项 搜索用时 765 毫秒

1.  一种结合词项语义信息和TF-IDF方法的文本相似度量方法  被引次数:1
   黄承慧  印鉴  侯昉《计算机学报》,2011年第34卷第5期
   传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高TF-IDF值的重要词项.借助外部词典分析词项之间的语义相似度,结合该文提出的词项相似度加权树以及文本语义相似度定义计算两篇文本之间的相似度.最后利用文本相似度在基准文本数据集合上进行聚类实验.实验结果表明文中提出的方法在基于F-度量值标准上优于TF-IDF以及另一种基于词项语义相似性的方法.    

2.  语义分析与词频统计相结合的中文文本相似度量方法研究*  被引次数:2
   华秀丽  朱巧明  李培峰《计算机应用研究》,2012年第29卷第3期
   基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。    

3.  一种自发性口语评测文本语义相似度评分特征提取方法  
   宋阳  王岚《集成技术》,2013年第1期
   自发性口语评测中如何提取文本语义相似度评分特征是一个非常困难的问题。针对这个问题本文采用基于词网络(WordNet)的Lesk算法计算词与词之间的语义相似度,在词义相似度的基础上提出了词与文本之间的语义相似度算法,提出了一种完整的基于词网络的文本语义相似度评分特征提取方法。实验利用该方法在考生答案与标准答案之间中提取文本语义相似度评分特征,并利用该特征与老师评分进行相关度分析,实验结果表明该算法可以有效的表征考生答案和标准答案之间的文本语义相似度。    

4.  基于语义信息的中文短信文本相似度研究  被引次数:1
   刘金岭  宋连友  范玉虹《计算机工程》,2012年第38卷第13期
   在传统TF-IDF模型基础上分析中文短信文本中特征词的语义信息,提出一种中文短信文本相似度度量方法。对短信文本进行预处理,计算各词语的TF-IDF值,并选择TF-IDF值较高的词作为特征词,借助向量空间模型的词语向量相似度,结合词语相似度加权,给出2篇短信文本相似度的计算方法。实验结果表明,该方法在F-度量值上优于TF-IDF算法及词语语义相似度算法。    

5.  基于语义和TF-IDF的项目相似度计算方法  
   赵士杰  陈秋《计算机时代》,2015年第5期
   基于统计的TF-IDF相似度计算方法由于不考虑词语的语义信息,不能准确地反映文本间的相似性.针对该问题,提出一种结合语义理解和TF-IDF的科技项目相似度计算方法.在项目分词的基础上,利用《知网》计算两个项目间的特征项语义相似度,基于TF-IDF计算每个特征项的权重,然后针对权重大于给定阈值的特征项进行加权进而计算得到项目相似度值.实验结果表明,该方法效果优于单纯的TF-IDF和语义理解的方法.    

6.  基于子树匹配的文本相似度算法  被引次数:1
   张佩云 陈传明 黄 波《模式识别与人工智能》,2014年第3期
   为降低文本向量维度,提高文本间语义相似度度量性能,综合利用统计方法与语义词典的优势,提出一种文本相似度算法.基于文本生成元数据特征向量,减少向量空间维度,设计基于子树匹配的文本相似度算法,借助子树加速对文本相似度的计算,并通过将文本元数据特征向量与子树进行相似度语义匹配,提高文本相似度计算时语义相似度度量的准确性.该算法考虑到对元数据中同义词的语义理解,加强文本之间相似度度量时的语义覆盖能力.实验结果表明文中所提出的方法是可行和有效的.    

7.  基于CFN的相似度计算在实例机器翻译中的应用  
   杨立波《电脑开发与应用》,2011年第24卷第6期
   在信息检索,文本挖掘以及基于实例的机器翻译中,相似度计算都是一个关键问题。在实例机器翻译中,相似度计算一般是基于字符、词的匹配以及向量空间模型,但基于句子语义结构的相似度研究还不多见。借助了汉语框架语义网(Chinese FrameNet,简称CFN)的场景语义描述优势,提出了一种新的面向EBMT进行实例相似度计算的方法。该方法主要基于CFN从句子整体结构相似和各语义块内部相似两个角度来度量句子相似度,将这两部分的相似度结果进行凸组合作为待翻译句子与候选实例之间的相似度值。实验结果表明,与传统方法相比,所提出的这种方法是有效的。    

8.  基于语义词典和词频信息的文本相似度计算  
   董苑  钱丽萍《计算机科学》,2017年第44卷第Z11期
   为了克服传统的文本相似算法缺乏综合考虑语义理解和词语出现频率的缺点,在基于语义词典的词语相似度计算的基础上,提出了一种基于语义词典和词频信息的文本相似度(TSSDWFI)算法。通过计算两文本词语间的扩展相似度,找出文本词语间最大的相似度配对,从而计算出文本间的相似度。这种相似度计算方法利用语义词典,既考虑了不同文本间词语的相似度关系,又考虑了词语在各自文本中的词频高低。实验结果表明,与传统的语义算法和基于空间向量的文本相似度计算方法相比,TSSDWFI算法计算的文本相似度的准确度有了进一步提高。    

9.  一种基于《知网》的文本语义相似度的计算方法  
   孙滨刘林《计算机与数字工程》,2014年第2期
   论文提出一个基于语义的文本间的相似度算法,以文本的特征词相似度为基础,来计算文本间的相似度,利用聚类算法对文本簇进行聚类.实验结果证明基于知网的文本语义相似度方法在对文本相似度计算以及文本聚类方面,能有效提高聚类的效果.    

10.  结合语义扩展度和词汇链的关键词提取算法  
   刘端阳  王良芳《计算机科学》,2013年第40卷第12期
   针对影响关键词提取质量的一词多义现象、同义词现象以及文章主题准确全面表达的难点,提出了一种基于语义的关键词提取算法KESELC,利用《同义词词林》语义词典和统计信息计算语义相似度和相关度,进而得出语义扩展度及其计算方法,将语义扩展度和词汇链方法相结合,对文本分别作预处理、多义词词义消歧、同义词合并、词汇链构建、有效特征选取及对权重综合计算的处理,提取出的关键词不仅避免了同义词冗余表达,而且较准确全面地覆盖文本的主题。通过实验对比分析,验证了基于KESELC的方法比基于TFIDF的方法以及基于词汇链的方法具有较优的提取效果,具有一定的实际应用价值。    

11.  一种基于最大权匹配计算的信息检索方法  
   朱征宇  苑昆峰  陈杏环《计算机工程与应用》,2007年第43卷第33期
   基于《知网》的词汇语义计算方法,提出了一种基于向量空间模型的文本信息检索新方法。方法的基本技术思想是通过计算关键词的语义相似度,并采用最大权匹配方法来计算查询向量和文本向量的相似度,作为相关文本的检索依据。该方法基于全局最优,使文本和查询向量中各词条的相似度总和最大,从而可以从整体上提高文本信息检索的准确率。论文还通过原型实验对该方法的有效性进行了验证。    

12.  一种基于本体的概念语义相似度计算研究  被引次数:2
   姜华《计算机应用与软件》,2009年第26卷第7期
   概念的语义相似度研究,是知识表示以及信息检索领域中的一个重要内容.通过分析两种传统的语义相似度计算方法,对它们存在的问题进行改进,提出了一种综合的基于本体的概念语义相似度计算方法.该方法结合本体网络特征和语义距离计算中的多种语义影响因素,充分利用本体中概念的语义信息计算概念间的语义相似度.实验结果比较合理,验证了该方法的有效性.    

13.  结合词性的短文本相似度算法及其在文本分类中的应用  
   黄贤英  李沁东  刘英涛《电讯技术》,2017年第57卷第1期
   针对基于语义的短文本相似度计算方法在短文本分类中准确率较低这一问题,提出了结合词性的短文本相似度算法( GCSSA)。该方法在基于hownet(“知网”)语义的短文本相似度计算方法的基础上,结合类别特征词并添加关键词词性分析,对类别特征词和其他关键词的词性信息给定不同关键词以不同的权值系数,以此区别各种贡献度词项在短文本相似度计算中的重要程度。实验表明,该算法进行文本相似度计算后应用于短文本分类中较基于hownet的短文本分类算法在准确率宏平均和微平均上提升4%左右,有效提高了短文本分类的准确性。    

14.  基于多重启发式规则的中文文本特征值提取方法  被引次数:2
   邹娟  周经野  邓成  刘玲《计算机工程与科学》,2006年第28卷第8期
   本文根据中文文本的特点,以一种新的同义概念来替代传统的词为单位,并给出了同义概念之间权值的全新计算方法。我们不仅考虑了文本中词汇概率信息,还结合文本语义等多方面来提取文本特征值,从而提出了一种基于多重启发式规则的中文文本特征值提取方法,并给出了特征值提取模型和算法。通过与传统特征值提取方法的比较实验,证明本文中提出的特征值提取方法能有效地提高文本分类正确率,并达到了有效降低特征向量维数的目的。    

15.  基于Wikipedia的短文本语义相关度计算方法  
   王荣波  谌志群  周建政  李治  高飞《计算机应用与软件》,2015年第32卷第1期
   语义相关度计算是自然语言处理领域的研究热点.现有的以文本相似度计算代替文本相关度计算的方法存在不足之处.提出从语形相似性和组元相关性两个方面来综合度量短文本之间的语义相关性,并提出2个以Wikipedia作为外部知识库的短文本相关度计算算法:最大词语关联法和动态组块法.在一个网络短文本测试集上对算法进行测评.实验结果表明,该算法与典型相似度计算算法比较,在正确率方面提高了20%以上.    

16.  基于GVSM的文本相似度算法研究  
   郑小波  郑诚  尹莉莉《微型机与应用》,2011年第30卷第3期
   提出了一种基于WordNet和GVSM的文本相似度算法,通过语义的路径长度和路径深度计算两个词的语义相似度,结合改进的GVSM模型计算文本相似度,并对基于TFIDF-VSM模型和本文方法进行了比较.实验结果表明,该算法取得了更好的准确率和效率.    

17.  一种基于HNC理论的文本相似度算法  
   袁晓峰《计算机时代》,2014年第11期
   计算文本相似度常用基于向量空间计算夹角余弦的方法,该方法忽视了同一文本中词与词之间的语义相似度,因而造成了文本表示模型的高维性以及计算的高复杂性。为此,提出了一种文本相似度算法,利用HNC理论先计算特征词之间的语义相似度,进行必要的降维,进一步计算每个文本向量中的TF*IDF值,最后计算两个向量的空间夹角余弦值并将其作为两个文本之间的相似度。将实验结果与直接计算余弦值的结果比较发现,改进后的算法中VSM的维数明显比改进前小得多,改进后的算法提高了召回率和准确率。因此,改进后的算法是切实有效的。    

18.  基于语义相似度的情感特征向量提取方法  
   林江豪  周咏梅  阳爱民  陈锦《计算机科学》,2017年第44卷第10期
   针对现有情感特征在语义表达和领域拓展等方面的不足,提出了一种基于语义相似度的情感特征向量提取方法。利用25万篇sogou新闻语料和50万条微博语料,训练得到Word2vec模型;选择80个情感明显、内容丰富、词性多样化的情感词作为种子词集;通过计算候选情感词与种子词的词向量之间的语义相似度,将情感词映射到高维向量空间,实现了情感词的特征向量表示(Senti2vec)。将Senti2vec应用于情感近义词和反义词相似度分析、情感词极性分类和文本情感分析任务中,实验结果表明Senti2vec能实现情感词的语义表示和情感表示。基于大规模语料的语义相似计算,使得提取的情感特征更具有领域拓展性。    

19.  一种基于语义和统计特征的中文文本特征表示方法  被引次数:4
   赵鹏  耿焕同  蔡庆生《小型微型计算机系统》,2007年第28卷第7期
   基于关键词集的中文文本特征表示方法难以准确表示文本语义信息,从而导致聚类质量较差.为了解决这个问题,本文将本体论和词共现模型的思想引入到中文文本的特征表示中,并在此基础上提出了一种基于语义和统计特征的中文文本特征表示方法.本方法在统计特征的基础上加入了基于知网和特征项共现的语义特征,实验结果表明该方法更加准确地表示了中文文本的语义信息,使得中文文本自动聚类的质量提高了近18%.    

20.  改进的基因术语间语义相似度计算方法  
   张玉芳  徐安龙《计算机应用》,2012年第32卷第5期
   目前,基于混合方法的相似度计算对影响语义相似度的因素分析不全面.针对这个问题,提出了基于多个影响术语语义相似度度量因素的综合方法.该方法结合语义层次,语义距离和局部语义密度,充分运用本体的语义信息来计算基因术语间的语义相似度.实验结果表明,该方法与人工打分的相关系数更高.    

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号