首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 210 毫秒
1.
针对传统推荐算法忽略用户社交影响、研究角度不全面和缺乏物理解释等问题,提出一个融合社交行为和标签行为的推荐算法。首先用引力模型计算社交网络中用户节点之间的吸引力来度量用户社交行为的相似性;其次通过标签信息构建用户喜好物体模型,并使用引力公式计算喜好物体之间的引力来度量标签行为的相似性。最后,引入变量融合两方面信息,获取近邻用户,产生推荐。采用Last.fm数据集进行实验研究,结果说明推荐算法的准确率和召回率更高。  相似文献   

2.
一种基于质心与本体的文本分类方法   总被引:1,自引:0,他引:1  
针对传统的TFIDF模型计算根集(root set)文档特征权重的不适应性,提出了计算文档特征权重的新方法--TFIDF-2模型.另外,给出3种启发式规则用于获取根集文档的质心向量.通过计算文档与质心之间的相似度进行文本分类只是质心的一个初步应用.在这个过程中,提出了一种计算文档与质心之间相似度的新方法.通过一系列的对比实验,分析验证了此种分类方法比传统的分类算法更准确、更高效.最后,验证了将本体与质心相结合提取未标识数据集中相关文档的有效性.  相似文献   

3.
针对已有的多标签分类算法在设计过程中忽略标签之间关联性,导致分类精度降低的问题,提出基于双层结构的多标签优序选择分类(DLMC-OS)算法。通过二次信息交互实现标签间的关联性,解决链式分类模型随机性影响分类精度的问题。DLMC-OS构建一个双层结构的分类模型:第一层采用典型的二元独立分类模型实现对实例的第一次分类,与第二层进行标签信息的交互;第二层构建带有更新过程的链式分类模型,用链来传递和更新标签信息,实现分类信息的二次交互。提出构建具有最大权重的标签生成树(MWT-OS)算法,寻求标签优序,解决链式分类模型随机选择类标号序列训练二值分类器导致分类精度降低的问题。在9组基准数据集上与相关算法的比较验证了该算法的有效性。  相似文献   

4.
随着互联网和信息技术的发展,大量的多标签文本数据快速产生。在文本分类中如何确定合适的分类数目以及如何更加准确地辨别文档的标签是亟待解决的问题。提出的HL_LDA模型通过层次狄利克雷过程自动确定分类的数目,通过发掘多标签文档的标签之间的层次信息提高分类的质量。实验结果表明在不同类型的数据集中,和经典的LDA,SVM等方法相比,HL_LDA在精度,F1-score等评估指标上明显优于现有的方法。  相似文献   

5.
用于多标记学习的K近邻改进算法*   总被引:1,自引:0,他引:1  
张顺  张化祥 《计算机应用研究》2011,28(12):4445-4446
ML-KNN是应用KNN算法思想解决多标记学习问题的一种算法,但存在时间复杂度高和少数类分类精度低的问题.提出一种加权ML-KNN算法WML-KNN,通过取样和加权的方法,在降低算法时间复杂度的同时提高少数类的分类精度.实验表明,WML-KNN算法性能优于其他常用多标记算法.  相似文献   

6.
基于简单树匹配算法的Web页面结构相似性度量   总被引:1,自引:0,他引:1  
网页结构相似性的度量是Web信息处理中的一项重要任务,在数据抽取和搜索引擎等研究领域有着潜在的重要研究价值.好的相似性度量方法可以提高数据抽取的准确率和速度,还可以提高搜索引擎的速度,提高返回数据的质量,减少大量冗余数据占据的存储空间.实现该任务的已有算法往往存在着计算复杂度过高的问题,针对这一问题研究HTML文档标签特点,减少传统算法中使用的算子,进而采用简单树匹配算法来计算Web文档之间的结构相似度.简单树匹配不允许结点的替换和跨层匹配,从而大大提高了算法的运行效率.实验结果表明,所提出的方法不论在速度还是精度上都优于著名的Bag of XPaths方法.  相似文献   

7.
李文进  熊小峰  毛伊敏 《计算机应用》2014,34(11):3268-3272
基于Parzen窗的朴素贝叶斯在区间不确定性数据分类中存在计算复杂度高、空间需求大的不足。针对该问题,提出一种改进的区间不确定性数据分类方法IU-PNBC。首先采用Parzen窗估计区间样本的类条件概率密度函数(CCPDF);然后通过代数插值得到类条件概率密度函数的近似函数;最后利用近似代数插值函数计算样本的后验概率, 并用于预测。通过人工生成的仿真数据和UCI标准数据集验证了算法假设的合理性以及插值点数对IU-PNBC算法分类精度的影响。实验结果表明,当插值点数大于15时,IU-PNBC算法的分类精度趋于稳定,且插值点数越多,算法分类精度越高;该算法可以避免原Parzen窗估计对训练样本的依赖, 并有效降低计算复杂度;同时由于该算法具有远低于基于Parzen窗的朴素贝叶斯的运行时间和空间需求, 因此适合解决数据量较大的区间不确定性数据分类问题。  相似文献   

8.
通过评议文档与专家库的专家学术专长匹配,可以输出领域相关的候选专家列表,是同行评议中专家遴选和专家推荐的重要参考依据.针对学术专长匹配存在语义鸿沟、无法反映专家和评议文档多源信息间语义关联的问题,首先对专家信息和评议文档的多源信息进行语义特征抽取,融合多类特征进行表示学习,利用卷积神经网络设计专家特征抽取器ExpFeat和评议特征抽取器RevFeat,采用词嵌入方法和注意力机制对专家专长标签、评议文档关键词、学科分类树语义特征进行抽取和融合,生成具有“小同行”特征的专家和评议文档语义特征向量表示,解决多类信息源间不同学术分类标准造成的语义差异,反映内在语义联系,利用低维稠密向量表达语义信息,降低匹配复杂度.然后,根据专家语义特征表示和评议文档语义特征表示进行学术专长语义匹配,将专家和评议文档特征向量映射到相同语义空间,计算向量间余弦相似度衡量语义相似性,引入负例专家进行模型训练,通过softmax函数计算最大化正例专家概率优化特征提取器参数,进一步提升语义差异的捕捉能力,解决专家信息和评议文档之间的语义鸿沟问题,提升专家匹配效果.最后,在开源的论文评审数据集和项目评审数据集上进行了实验...  相似文献   

9.
近年来谱聚类算法在模式识别和计算机视觉领域被广泛应用,而相似性矩阵的构造是谱聚类算法的关键步骤。针对传统谱聚类算法计算复杂度高难以应用到大规模图像分割处理的问题,提出了区间模糊谱聚类图像分割方法。该方法首先利用灰度直方图和区间模糊理论得到图像灰度间的区间模糊隶属度,然后利用该隶属度构造基于灰度的区间模糊相似性测度,最后利用该相似性测度构造相似性矩阵并通过规范切图谱划分准则对图像进行划分,得到最终的图像分割结果。由于区间模糊理论的引入,提高了传统谱聚类的分割性能,对比实验也表明该方法在分割效果和计算复杂度上都有较大的改善。  相似文献   

10.
针对当前大多数基于特征工程和机器学习的专利分类方法存在准确性低以及泛化能力差的问题,提出一种基于注意力感知深度学习模型的多标签专利分类方法。该文将输入数据表示为文本图的形式,并利用图注意力卷积网络学习构建的文本图,并通过引入BiLSTM层作为新的聚合函数来表征文本图各节点的差异性和代表的语义信息设计了一个非局部二阶注意层用于捕捉专利文档中的远程和细粒度的语义信息,消除因国际专利分类标签跨域引起的语义模糊;使用Softmax分类器来完成多标签专利的分类任务。所提方法在多标签专利分类任务具有良好的分类精度,相对于其他分类方法,性能有所提高。  相似文献   

11.
Existing multi-label support vector machine (Rank-SVM) has an extremely high computational complexity and lacks an intrinsic zero point to determine relevant labels. In this paper, we propose a novel support vector machine for multi-label classification through both simplifying Rank-SVM and adding a zero label, resulting into a quadratic programming problem in which each class has an independent equality constraint. When Frank-Wolfe method is used to solve our quadratic programming problem iteratively, our entire linear programming problem of each step is divided into a series of sub-problems, which dramatically reduces computational cost. It is illustrated that for famous Yeast data set our training procedure runs about 12 times faster than Rank-SVM does under C++ environment. Experiments from five benchmark data sets show that our method is a powerful candidate for multi-label classification, compared with five state-of-the-art multi-label classification techniques.  相似文献   

12.
刘云  肖添  肖雪 《计算机与数字工程》2022,50(2):243-246,260
多标签学习是分类任务中一个重要研究方向,如何保证高分类精度是关键要素.论文提出基于相似度的多标签分类算法SMLC.该算法首先构建实例相似度函数,再采用并行计算方式算出相似值,最后通过加权计算类标签集合权重或者学习阈值方法预测类标签集合.仿真结果表明,与RankSVM、ML-KNN算法对比,SMLC在多标签分类任务的多个...  相似文献   

13.
图像在日常生活中广泛存在,图像分类具有重要的现实意义。针对当前多标签图像分类中因神经网络模型复杂以及提取到的图像特征信息不足而导致分类准确率较低、计算复杂度高等问题,提出一种融合卷积神经网络与交互特征的多标签分类方法,即MLCNN-IF模型。MLCNN-IF模型主要分成2步,首先参考传统CNN基本结构搭建一个仅有9层的轻量级神经网络(MLCNN),用于处理图像数据并提取特征;其次基于MLCNN提取的特征,通过交互特征方法产生各独立特征的组合特征,以此获得新的更丰富的特征集。实验结果表明,MLCNN-IF模型对比Alex Net、Goog Le Net和VGG16在4种多标签图像数据集上取得了更好的分类结果,其准确率和精准率分别平均提高9%和4.8%;同时MLCNN网络结构相对更简洁,有效降低了模型参数量和时间复杂度。  相似文献   

14.
在多标签行人属性识别的问题中,为了充分利用标签之间的相关性,解决传统方法识别准确率低和效率慢的问题,提出了一个多标签卷积神经网络。该网络在一个统一的网络框架下识别行人多个属性。把行人的多个属性看作是一个序列,然后构建了一个时序分类模型。提出的方法不仅避免了复杂的多输入MLCNN网络,也不需要多次训练单标签分类模型。实验结果表明,本文方法准确率均优于SIFT+SVM和多输入的MLCNN模型,平均准确率达到了90.41%。  相似文献   

15.
良好的特征表达是提高模型性能的关键,然而当前在多标记学习领域,特征表达依然采用人工设计的方式,所提取的特征抽象程度不高,包含的可区分性信息不足。针对此问题,提出了基于卷积神经网络的多标记分类模型ML_DCCNN,该模型利用卷积神经网络强大的特征提取能力,自动学习能刻画数据本质的特征。为了解决深度卷积神经网络预测精度高,但训练时间复杂度不低的问题,ML_DCCNN利用迁移学习方法缩减模型的训练时间,同时改进卷积神经网络的全连接层,提出双通道神经元,减少全连接层的参数量。实验表明,与传统的多标记分类算法以及已有的基于深度学习的多标记分类模型相比,ML_DCCNN保持了较高的分类精度并有效地提高了分类效率,具有一定的理论与实际价值。  相似文献   

16.
针对多标签文本分类问题,提出基于频繁项集的多标签文本分类算法——MLFI。该算法利用FP-growth算法挖掘类别之间的频繁项集,同时为每个类计算类标准向量和相似度阈值,如果文本与类标准向量的相似度大于相应阈值则归到相应的类别,在分类结束后利用挖掘到的类别之间的关联规则对分类结果进行校验。实验结果表明,该算法有较高的分类性能。  相似文献   

17.
提出了一种基于关联规则的多类标算法(MLAC).利用多类标FP-tree来分解组合生成多类标规则.并通过组合多重关联规则分类器进行分类预测,降低了由高维属性带来的高计算复杂度,有效地提高了算法的性能和效率.针对多类标数据集的实验结果表明,MLAC算法在性能和效率等方面均优干ML-KNN等多类标分类算法.  相似文献   

18.
Classifier chains for multi-label classification   总被引:5,自引:0,他引:5  
The widely known binary relevance method for multi-label classification, which considers each label as an independent binary problem, has often been overlooked in the literature due to the perceived inadequacy of not directly modelling label correlations. Most current methods invest considerable complexity to model interdependencies between labels. This paper shows that binary relevance-based methods have much to offer, and that high predictive performance can be obtained without impeding scalability to large datasets. We exemplify this with a novel classifier chains method that can model label correlations while maintaining acceptable computational complexity. We extend this approach further in an ensemble framework. An extensive empirical evaluation covers a broad range of multi-label datasets with a variety of evaluation metrics. The results illustrate the competitiveness of the chaining method against related and state-of-the-art methods, both in terms of predictive performance and time complexity.  相似文献   

19.
针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号