首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 662 毫秒
1.
论文提出一个基于语义的文本间的相似度算法,以文本的特征词相似度为基础,来计算文本间的相似度,利用聚类算法对文本簇进行聚类.实验结果证明基于知网的文本语义相似度方法在对文本相似度计算以及文本聚类方面,能有效提高聚类的效果.  相似文献   

2.
基于子树匹配的文本相似度算法   总被引:1,自引:0,他引:1  
为降低文本向量维度,提高文本间语义相似度度量性能,综合利用统计方法与语义词典的优势,提出一种文本相似度算法.基于文本生成元数据特征向量,减少向量空间维度,设计基于子树匹配的文本相似度算法,借助子树加速对文本相似度的计算,并通过将文本元数据特征向量与子树进行相似度语义匹配,提高文本相似度计算时语义相似度度量的准确性.该算法考虑到对元数据中同义词的语义理解,加强文本之间相似度度量时的语义覆盖能力.实验结果表明文中所提出的方法是可行和有效的.  相似文献   

3.
董苑  钱丽萍 《计算机科学》2017,44(Z11):422-427
为了克服传统的文本相似算法缺乏综合考虑语义理解和词语出现频率的缺点,在基于语义词典的词语相似度计算的基础上,提出了一种基于语义词典和词频信息的文本相似度(TSSDWFI)算法。通过计算两文本词语间的扩展相似度,找出文本词语间最大的相似度配对,从而计算出文本间的相似度。这种相似度计算方法利用语义词典,既考虑了不同文本间词语的相似度关系,又考虑了词语在各自文本中的词频高低。实验结果表明,与传统的语义算法和基于空间向量的文本相似度计算方法相比,TSSDWFI算法计算的文本相似度的准确度有了进一步提高。  相似文献   

4.
袁晓峰 《计算机时代》2014,(11):40-41,43
计算文本相似度常用基于向量空间计算夹角余弦的方法,该方法忽视了同一文本中词与词之间的语义相似度,因而造成了文本表示模型的高维性以及计算的高复杂性。为此,提出了一种文本相似度算法,利用HNC理论先计算特征词之间的语义相似度,进行必要的降维,进一步计算每个文本向量中的TF*IDF值,最后计算两个向量的空间夹角余弦值并将其作为两个文本之间的相似度。将实验结果与直接计算余弦值的结果比较发现,改进后的算法中VSM的维数明显比改进前小得多,改进后的算法提高了召回率和准确率。因此,改进后的算法是切实有效的。  相似文献   

5.
设计了一种基于依存关系与同义词词林相结合的语义相似度计算方法。该方法通过依存关系分别提取两个文本的关系路径,同时基于同义词词林计算两个文本之间关系路径的语义相似度。在计算两个文本之间的语义相似度时,使用语言技术平台(language technology platform,LTP)对文本进行中文分词以及获取文本的依存关系图,从中提取关系路径,从而可以结合关系路径和同义词词林计算两个文本之间的语义相似度。通过实验,获得的平均偏差率为13.83%。实验结果表明,结合依存关系与同义词词林的语义相似度方法在准确率上相比较基于同义词词林的语义相似度和基于依存关系的语义相似度有了一定的提高。  相似文献   

6.
近年来,LDA(Latent Dirichlet()al.location)主题模型通过挖掘文本的潜在语义主题进行文本表示,为短文本的相似度计算提供了新思路。针对短文本特征稀疏,应用LDA主题模型易导致文本相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征融合的短文本相似度算法。该方法融合了主题相似度因子ST(Similarity Topic)和词语共现度因子CW(Co-occurrence Words),建立了联合相似度模型以规约不同ST区间下CW对ST产生的约束或补充条件,并最终权衡了准确性更高的相似度结果。对改进后的算法进行文本聚类实验,结果表明改进后的算法在F度量值上取得了一定程度的提升。  相似文献   

7.
一种结合词项语义信息和TF-IDF方法的文本相似度量方法   总被引:14,自引:0,他引:14  
黄承慧  印鉴  侯昉 《计算机学报》2011,34(5):856-864
传统的文本相似度量方法大多采用TF-IDF方法把文本建模为词频向量,利用余弦相似度量等方法计算文本之间的相似度.这些方法忽略了文本中词项的语义信息.改进的基于语义的文本相似度量方法在传统词频向量中扩充了语义相似的词项,进一步增加了文本表示向量的维度,但不能很好地反映两篇文本之间的相似程度.文中在TF-IDF模型基础上分...  相似文献   

8.
为了更好地提高短文本语义相似度分析能力,提出了基于神经网络和组合语义的短文本语义相似度分析算法。利用神经网络构建词义表示模型,结合局部和全局上下文信息学习词语在实际语境下的表示;通过句法分析,得到文本的依存关系,并依此构建组合关系树,使用组合语义模型得到整个文本的语义表示;通过计算两个语义表示结果之间的相似性来计算文本的语义相似度。实验分析结果表明,该方法能够在一定程度上提高文本语义分析能力。  相似文献   

9.
利用《知网》计算词语的语义相似度,通过提取关键词进行文本相似度计算.将文本分词并过滤停用词后,结合词语的词性、词频和段频计算词语的权值,以便提取文本的关键词,通过计算关键词之间的相似度来计算文本之间的相似度值.实验结果与对比值进行差异显著性分析表明,本文提出的方法相比传统的语义算法和向量空间模型算法,其精确性有了进一步的提高.  相似文献   

10.
张志颖  任越 《计算机仿真》2021,38(12):172-175,340
云制造资源功能匹配受到高计算量的影响,导致匹配性能大大降低.为了提高云制造资源功能匹配性能,提出了基于文本-语义相似度的云制造资源功能匹配.将云制造资源的概念进行抽象化,通过定义类别与属性之间的关系,构建云制造资源本体模型,利用处理函数对云制造资源进行归一化处理,得到多维功能匹配向量;根据文本向量和语义向量的位置关系,分析影响向量之间关系的主要因素,计算云制造资源文本向量与语义向量之间的相似度,通过从输入输出匹配和前提效果匹配两个方面,计算了云制造资源功能之间的相似度,实现云制造资源功能的匹配.实验结果表明,基于文本-语义相似度的云制造资源功能匹配方法在匹配效率和匹配精度方面,具有较高的匹配性能.  相似文献   

11.
跨语言文档聚类主要是将跨语言文档按照内容或者话题组织为不同的类簇。该文通过采用跨语言词相似度计算将单语广义向量空间模型(Generalized Vector Space Model, GVSM)拓展到跨语言文档表示中,即跨语言广义空间向量模型(Cross-Lingual Generalized Vector Space Model,CLGVSM),并且比较了不同相似度在文档聚类下的性能。同时提出了适用于GVSM的特征选择算法。实验证明,采用SOCPMI词汇相似度度量算法构造GVSM时,跨语言文档聚类的性能优于LSA。  相似文献   

12.
针对现有的空间向量模型在进行文档表示时忽略词条之间的语义关系的不足,提出了一种新的基于关联规则的文档向量表示方法。在广义空间向量模型中分析词条的频繁同现关系得到词条同现语义,根据关联规则分析词条之间的关联相关性,挖掘出文档中词条之间的潜在关联语义关系,将词条同现语义和关联语义线性加权对文档进行表示。实验结果表明,与BOW模型和GVSM模型相比,采用关联规则文档向量表示的文档聚类结果更准确。  相似文献   

13.
社区发现是复杂网络研究中的一项重要研究内容,基于节点相似度的凝聚方法是一种典型的社区发现方法。针对现有节点相似度计算方法中存在的不足,提出一种基于多层节点的节点相似度计算方法,该方法既可以有效地计算节点之间的相似度,又可以解决节点相似度相同时的节点合并选择问题。进一步基于这种改进的节点相似度计算方法和团体之间的连接紧密度度量准则构建社区发现模型,并在真实世界的网络上进行社区发现实验。与GN算法、Fast Newman算法和改进的标签传播算法的实验结果相比,该模型可以更加准确地找到各个社区的成员。  相似文献   

14.
基于距离和曲率特征的三维模型检索研究   总被引:1,自引:0,他引:1       下载免费PDF全文
针对采用单一特征描述基于内容的三维模型检索时检索精度不高的问题,结合全局描述的距离特征和局部描述的曲率特征,提出一种新的三维模型检索算法,通过距离特征相似性和曲率特征相似性的加权和,确立模型新的相似度匹配。仿真实验结果表明,相对于单一形状特征的模型检索,该检索算法能够获得更准确的检索效果。  相似文献   

15.
Slope One算法就是一种基于项目的协同过滤推荐算法,它对项目属性内和属性间依赖耦合关系的考虑较为欠缺,推荐效果并不理想。基于此,本文提出一种基于耦合关系的加权Slope One算法。该算法构造了项目属性耦合关系模型和用户属性耦合关系模型,采取用户耦合相似度和项目耦合相似度对加权Slope One算法进行改进。本算法在Movielens数据集上进行验证表明具有较高的推荐准确度。  相似文献   

16.
基于项目属性和云填充的协同过滤推荐算法   总被引:2,自引:0,他引:2  
传统协同过滤推荐算法中经常因用户评分矩阵极端稀疏而导致相似性度量方法不准,推荐质量不高,针对这一问题,提出一种基于项目属性和云填充的协同过滤推荐算法。利用云模型对用户评分矩阵进行填充,在填充矩阵基础上,利用传统的相似性计算方法得到项目之间的评分相似性,同时结合项目属性,计算项目的属性相似性,通过加权因子得到项目的最终相似性,从而形成一种新的相似性度量方法。实验结果表明, 提出的算法可有效解决传统方法中由于数据稀疏所导致的相似性度量不准确的问题, 并显著地提高了算法的推荐精度。  相似文献   

17.
协同过滤算法一般根据用户的评价信息来推测用户的喜好,但受到数据稀疏问题的影响,很多时候无法得到较为理想的推荐结果;除此之外,一般协同推荐算法忽略了用户兴趣的动态变化;文中提出的算法主要融合了相似度传递、用户兴趣迁移、隐语义模型等用以解决上述问题。首先提出了基于项目相似度的协同推荐算法。该算法深入研究了改进的余弦相似度方法,在执行过程中首先需要对项目进行信任关系建模,基于此来传递相似度,然后将这两部分相似度关系进行加权得到新的项目相似关系,可以将其应用到项目的评分中。其次,提出了基于用户兴趣迁移的隐语义模型推荐算法。该算法引入时间函数,重构用户的兴趣模型,实现对传统模型的修正,然后再使用梯度下降法来求解。最后,采用线性融合的办法,将以上两种算法进行融合。实验对比结果表明,混合推荐算法的推荐准确率较原先的算法有了较大的提高,因为它可以对丢失的信息进行补充,对于用户兴趣的变化能够较好的适应,同时大大弱化了数据的稀疏导致的一系列负面影响。  相似文献   

18.
提出了一种藏语句多特征融合的主观题自动评分算法,构建了关键词词形相似度计算模型、词序相似度计算模型、句子长度相似度计算模型和句子语义相似度计算模型。该算法将计算模型与最大相似度矩阵相结合,计算主观题的标准答案与学生答案之间句子、段落的相似度,最终做出自动评分。实验结果表明,与其他方法比较,该算法能有效降低平均误差值。  相似文献   

19.
在实际的数据迁移项目中,为了解决数据映射的问题,需要确定两个工作流模型之间的相似度。从工作流模型的相似性方面进行分析阐述,提出了基于Petri网的工作流模型展开树的路径序列相似性算法,首先采用深度优先搜索算法和动态规划算法对模型进行搜索,其次通过提出的算法获取展开树的所有路径序列,最后利用编辑距离算法计算两个模型序列之间的两两相似度,进而完成模型相似性计算,相较于其他的主流相似度算法,主要优点在于可以精确计算得到模型部分结构和行为相似度,可以更好的确定流程间映射,从而找到数据映射的解决方法。实验结果表明:该方法较主流的基于模型结构和行为相似性算法,计算合理性和准确性有很大提升。  相似文献   

20.
量化非对称相似关系是处理不完备信息系统的重要工具之一.本文针对非对称关系中明显相似的对象分类不合理的问题,定义了动态量化非对称相似关系,提出带有自动阈值调节的动态量化非对称相似关系模型,根据实际数据自动确定其阈值,使之更加灵活和合理.并采用快速排序提高知识约筒过程中相容类的计算效率.通过实例验证了该算法处理不完备知识约简的有效性.最后,应用该模型解决了地下空间信息化施工的不完备知识约简问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号