首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 62 毫秒
1.
关系推荐是微博提高用户关注量的重要渠道,主要目的是为用户推荐和当前用户相似的用户。相似用户计算方法的研究是近期研究的热点。从共同粉丝的角度,设计和实现了一种相似用户计算方法,取到优质用户的所有关注后,两两结合,生成关注对,以余弦相似度计算公式为依据,计算关注对之间的粉丝相似度。  相似文献   

2.
面对大量样本特征时很多分类器无法取得较好的分类效果,样本数有限导致贝叶斯算法无法获得精确的联合概率分布估计,在样本局部构建高质量分类器需要有效的样本相似性度量指标. 针对以上问题,提出了一种基于余弦相似度进行实例加权改进的朴素贝叶斯分类算法. 算法考虑特征对分类的决策权重不同,使用余弦相似度度量样本的相似性,选出最优训练样本子集,用相似度值作为训练样本的权值来训练修正后的贝叶斯模型进行分类. 基于UCI数据集的对比实验结果表明,提出的改进算法易于实现且具有更高的平均分类准确率.  相似文献   

3.
基于TF-IDF和余弦相似度的文本分类方法   总被引:1,自引:0,他引:1  
文本分类是文本处理的基本任务。大数据处理时代的到来致使文本分类问题面临着新的挑战。研究者已经针对不同情况提出多种文本分类算法,如KNN、朴素贝叶斯、支持向量机及一系列改进算法。这些算法的性能取决于固定数据集,不具有自学习功能。该文提出一种新的文本分类方法,包括三个步骤: 基于TF-IDF方法提取类别关键词;通过类别关键词和待分类文本关键词的相似性进行文本分类;在分类过程中更新类别关键词改进分类器性能。仿真实验结果表明,本文提出方法的准确度较目前常用方法有较大提高,在实验数据集上分类准确度达到90%,当文本数据量较大时,分类准确度可达到95%。算法初次使用时,需要一定的训练样本和训练时间,但分类时间可下降到其他算法的十分之一。该方法具有自学习模块,在分类过程中,可以根据分类经验自动更新类别关键词,保证分类器准确率,具有很强的现实应用性。  相似文献   

4.
语义异构问题已成为目前异构数据集成领域的研究热点,本体由于其自身的优势而被用于解决语义异构。该文讨论了基于相似度的本体映射方法,着重介绍了基于语法距离、基于WordNet语义字典以及基于结构的相似度计算,最后提出了本体映射生成算法,旨在解决语义异构中本体映射问题。  相似文献   

5.
传统的用户相似度计算方法中每个项目的权重是相同的,然而分析传统推荐算法和现实情形,用户间共同高评分项目的权重应该高于用户间共同低评分项目的权重,并且传统用户相似度计算方法没有考虑项目间的类群关系。针对上述问题,提出了一种给项目加权的方法,从而得到考虑项目相似权重的用户相似度计算方法。通过在MovieLens数据集上进行实验,与基于传统用户相似度计算方法的协同过滤算法比较,实验结果表明,考虑了项目相似度权重的协同过滤算法能显著提高评分预测的准确性和推荐系统的质量。  相似文献   

6.
为了能更为准确地计算两个语句之间的语义相似度;提出了一种基于分段语义比较的语句相似度计算方法.将语句分成主干部分和修饰部分,并根据设定的语法规则,对修饰部分进行更为细致的划分;计算语义相似度时,将计算过程分为两部分:主干部分计算、修饰部分计算,并赋以不同权值;能够按照语法和语义结构,更为合理、细致地计算出两个语句之间的语义相似程度.实验结果表明了该方法的能够取得较好的计算结果.  相似文献   

7.
生成对抗模仿学习(generative adversarial imitation learning, GAIL)是一种基于生成对抗框架的逆向强化学习(inverse reinforcement learning, IRL)方法,旨在从专家样本中模仿专家策略.在实际任务中,专家样本往往由多模态策略产生.然而,现有的GAIL方法大部分假设专家样本产自于单一模态策略,导致生成对抗模仿学习只能学习到部分模态策略,即出现模式塌缩问题,这极大地限制了模仿学习方法在多模态任务中的应用.针对模式塌缩问题,提出了基于余弦相似度的多模态模仿学习方法 (multi-modal imitation learning method with cosine similarity,MCS-GAIL).该方法引入编码器和策略组,通过编码器提取专家样本的模态特征,计算采样样本与专家样本之间特征的余弦相似度,并将其加入策略组的损失函数中,引导策略组学习对应模态的专家策略.此外,MCS-GAIL使用新的极小极大博弈公式指导策略组以互补的方式学习不同模态策略.在假设条件成立的情况下,通过理论分析证明了MCS-GAIL的收敛...  相似文献   

8.
张帆  钟金宏  黄玲 《计算机工程》2010,36(23):66-68
在领域本体中,概念间往往存在多条路径,现有的基于语义距离的方法只考虑最短距离的路径,不能完全体现出概念间的相似度。基于此,提出一种基于加权语义距离的概念相似度计算方法。该方法搜索出两概念间的所有路径,以所有路径的加权平均距离代替最短距离来计算相似度,并综合考虑节点深度、公共父节点对相似度的影响。实验表明,该方法计算出的概念相似度能够更准确地体现出概念间的相似程度。  相似文献   

9.
根据概念相似信息,文中提出了一种新的文本相似度计算方法.新方法首先将文本转换为词向量空间模型,然后将词分解为概念集合,通过计算概念间的内积空间,得到词之间的相似度,最后根据词之间的相似度,计算文本相似性.文中的主要工作包括:1)提出了一种新的词相似度计算公式;2)提出了一种新的基于词相似度的文本相似计算方法;3)成功的将该方法应用到WEB新闻相似查询中;4)通过实验证明算法的有效性.  相似文献   

10.
针对信噪比较低或因噪声干扰造成的谱图质量较差时,传统加权点积方法由于不能有效利用谱峰分布规律和不同质量区间谱峰在谱图识别中的作用而易出现相似度较低、假阳性或假阴性等问题,提出了基于分段加权的点积相似度方法。首先利用谱峰的分布规律合理地确定各个质量区间的范围,依据不同的质量区间在谱图识别中的作用设置不同的质量数(mass/z)权重值和丰度权重值,然后按赋予的权重值计算谱图相似度,以甲基磷酸二甲酯谱图为例研究了合理确定各分段权重的方法。采用该方法在NIST08标准参考谱库(191 000张谱图)中检索1000多张谱图的准确性实验表明,与传统加权点积方法相比谱图识别的准确度提高了16.2%;通过质谱仪得到样品的实测谱图在参考谱库中检索结果表明,该方法能有效提高谱图匹配的相似度和准确度,与传统加强点积方法相比,不同浓度的八氟奈谱图相似度平均提高了2.3%;采用该方法处理同分异构体化合物,如邻二甲苯数据时,提高了相似化合物的选择性。  相似文献   

11.
在时间序列相似性研究领域已经发展了多种方法用于时间序列的表示,以达到降低序列维度的目的.作为一种经典的时域-频域转换方法,离散余弦变换目前已经在图形图像处理等领域得到了广泛的应用.将此方法应用于时间序列的表示上,在变换后的数据上进行相似性查询等操作.实验表明,相对以前的方法,这种方法具有明显的性能提升.  相似文献   

12.
传统的协同过滤推荐算法存在数据稀疏情况下分类准确性低的问题,针对于此提出一种基于改进余弦相似度的协同过滤推荐算法,将数据经嵌入层转换为特征矩阵,将对其计算后得到的改进余弦相似度矩阵和单位矩阵之间的均方误差作为损失函数,从而提高推荐算法在数据稀疏情况下的分类准确性。实验结果表明,该算法的AUC和对数损失函数指标均优于基线模型FM、FFM和DeepFM模型。  相似文献   

13.
离群数据挖掘是数据挖掘领域中的重要分支之一.将聚类迭代的思想应用到离群数据挖掘中,给出一种基于大熵值变化区域和余弦相似度的离群迭代算法OIALEVCS.该算法首先针对离群挖掘特点,使用大熵值变化区域来选择初始候选离群对象;其次在每次迭代过程中,利用对海量高维数据有效的余弦相似度作为离群度量因子,搜索每个邻域内最离群的对象作为新的候选离群对象,直至迭代收敛;最后采用晚型星、高红移类星体、类星体三个天体光谱数据集,实验验证了算法有效性和可行性.由于该算法充分利用了大熵值变化区域来选择初始候选离群对象,因而进一步加速了迭代收敛的速度,提高了离群挖掘精确度.  相似文献   

14.
近年来,基于常见问题集的问答系统被广泛的应用到各个领域,而问句相似度计算是基于常见问题集的问答系统的核心模块,因此问句相似度计算方法变得越加重要。该文对问句相似度计算方法进行了综述,分别介绍了各个方法,同时对比了各个方法,最后指出了今后本领域的研究方向。  相似文献   

15.
提出了一种综合多特征的句子相似度计算方法,该方法分别从句子的句法、词汇语义、词形三个方面来度量句子的相似度,最后将这三个方面加权整合计算得到句子的相似度。本方法综合考虑了句子的深层和表层信息,并对句子进行了词汇扩展,从而使句子相似度计算更加准确。  相似文献   

16.
针对当前主要的汉语句子相似度计算方法存在的问题,通过对大量的中文语句进行构式语义分析,提取构式语块特征,构建构式义特征库,并提出了一种基于构式语块的中文句子相似度计算方法.该方法最大化语块粒度,缩小语义理解间隙.在计算时,首先,通过自上而下语块分析方法,利用HMM学习算法,对复杂多样的汉语句子进行构式语块识别;然后,采用自底向上的计算方式,获取得到构式块间的相似度;最后,计算得出句子间的相似度量值.对比句子相似度实验结果表明,论文提出的计算方法优于其他算法.  相似文献   

17.
针对现有句子语义相似度计算由于缺乏语义结构信息导致精度低的问题,该文在依存关系树的基础上,提出了一种基于多头注意力机制Tree-LSTM(multi-head attention Tree-LSTM,MA-Tree-LSTM)的句子语义相似度计算方法。首先,MA-Tree-LSTM将外部具有指导意义的特征作为输入,再将输入结合多头注意力机制作用在Tree-LSTM树节点的所有孩子节点上,为每个孩子节点赋予不同的权重值,从而实现多头注意力机制和Tree-LSTM的融合;其次,将三层的MA-Tree-LSTM应用于句子语义相似度计算并实现句子对的相互指导,从而得到句子对语义特征的多层表示;最后联合多层的语义特征建立句子对语义相似度计算模型,从而实现句子对间相关的语义结构特征的充分利用。该文提出的方法鲁棒性强,可解释性强,对句子单词的顺序不敏感,不需要特征工程。在SICK和STS数据集上的实验结果表明,基于MA-Tree-LSTM的句子语义相似度计算的精度优于非注意力机制的Tree-LSTM方法以及融合了多头注意力机制的BiLSTM方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号