首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 375 毫秒
1.
一种基于随机游走模型的多标签分类算法   总被引:5,自引:0,他引:5  
在数据挖掘领域,传统的单分类和多分类问题已经得到了广泛的研究.但是多标签数据的普遍存在性和重要性直到近些年来才逐渐得到人们的关注.在多标签分类问题中,由于标签相关性的存在,传统的单分类和多分类问题的解决方法,无法简单地应用于多标签分类问题.文中提出了一种基于随机游走模型的多标签分类算法,称为多标签随机游走算法.首先,将多标签数据映射成为多标签随机游走图.当输入一个未分类数据时,建立一个多标签随机游走图系列.而后,对图系列中的每个图应用随机游走模型,得到遍历每个顶点的概率分布,并将这个点概率分布转化成每个标签的概率分布.最后,基于多标签随机游走算法,文中给出了一种新的阈值学习算法.真实数据集上的实验表明,多标签随机游走算法可以有效地解决多标签分类问题.  相似文献   

2.
基于标签传播的社区发现算法因其时间效率高而得到广泛关注。针对该算法因标签传播的随机性导致其社区划分准确度难以保证的问题,提出一种基于随机游走的改进算法。首先,引入随机游走思想,计算得到一种衡量网络节点间相似度的矩阵;其次,在标签传播过程中,当邻居节点中标签出现频率存在多个最高时,不是随机选择一个,而是选择相似度最高的邻居节点所拥有的标签来更新,避免了标签在社区之间的任意传播;最后,用不同的真实网络进行测试,结果表明在社区发现中该算法比原始标签传播算法取得更好的表现。  相似文献   

3.
针对海陆遥感图像存在对比度低、斑点噪声、弱边界等问题,提出一种基于随机游走的弱交互式水边线提取改进算法.将色彩和梯度特征引入到随机游走算法中,利用l2-范数与高斯权函数相结合构造一种新的相似度矩阵,以获得一个加权图.给出标签种子点,借助于电路模拟与组合Dirichlet问题计算图中节点间电势值,并根据电势值的大小进行分类,从而提取到高质量的水边线.仿真实验结果表明,与传统算法相比,改进的算法具有很强的抗干扰能力,对于遥感图像水边线的提取更精确,特别对于弱边缘的水边线有良好的提取能力.  相似文献   

4.
目前大多数图卷积(GC N)关注于提取局部特征信息,忽略了全局特征,使得标签不能有效地传播到整个图上.对此,设计一种可以用于半监督节点分类任务的深度池化对偶图神经网络(DPDNN).该网络引入池化机制,将结构相似的节点聚合为超节点,扩大节点的接收域.通过随机游走得到图全局信息的潜在表示,使用随机游走模型与GC N进行协同训练,从而补充GC N模型在获取整个图拓扑结构信息上的能力.实验结果表明,该网络模型与现有方法相比提高了分类精度,在少量数据标记时效果更为明显.  相似文献   

5.
针对传统标签传播算法准确率较低的问题,提出一种基于深度游走模型的改进标签传播算法。以社会网络作为深度游走模型的输入,通过深度随机游走的方式对网络中的节点进行采样得到随机序列,并基于Skip Gram模型对其进行神经网络训练。运用层次Softmax对Skip Gram模型进行求解,得到节点的特征向量后在邻居节点之间计算节点相似度,将其作为标签传播概率的权重进行标签的传播迭代,最终得到社区发现的结果。在6个真实网络数据集和合成数据集上进行实验,结果表明,与传统标签传播算法相比,该改进算法具有较高的准确率,尤其对于节点个数在100以上的真实网络,Q值提高10%以上。  相似文献   

6.
孙琛琛  申德荣  寇月  聂铁铮  于戈 《软件学报》2016,27(9):2303-2319
实体识别是数据质量的一个重要方面,对于大数据处理不可或缺.已有的实体识别研究工作聚焦于数据对象相似度算法、分块技术和监督的实体识别技术,而非监督的实体识别中匹配决定的问题很少被涉及.提出一种面向实体识别的聚类算法来弥补这个缺失.利用数据对象及其相似度构建带权重的数据对象相似图.聚类过程中,利用相似图上重启式随机游走来动态地计算类簇与结点的相似度.聚类的基本逻辑是,类簇迭代地吸收离它最近的结点.提出数据对象排序方法来优化聚类的顺序,提高聚类精确性;提出了优化的随机游走平稳概率分布计算方法,降低聚类算法开销.通过在真实数据集和生成数据集上的对比实验,验证了该算法的有效性.  相似文献   

7.
本文就社会标签系统中的个性化推荐算法进行了研究,提出一种基于万有引力和随机游走的个性化推荐算法,。针对现有推荐算法缺乏物理学解释和单纯依靠用户评分等问题,该算法创新性把万有引理原理引入推荐系统,定义了项目的万有引力及其计算方法,并以项目间万有引力大小来衡量项目间的相似度,从而得到项目相关图。然后,令用户兴趣点在项目相关图上进行随机游走,计算它在图上各节点的稳定概率,并以此作为用户和各节点亲密程度的度量值,该值高者就可能是用户喜欢的项目,从而推荐给用户。实验结果说明新算法较其他的相关推荐算法可以获得更高的推荐性能。  相似文献   

8.
传统的二部图随机游走算法主要采用基于共同项目的相似度计算,并且项目之间、用户之间的影响程度是对称的,这种对称信息不能体现用户兴趣,推荐精度不高。为了提高推荐准确性,提出一种基于用户兴趣度的二部图随机游走方法。采用共同项目和用户打分项目数量的共同性质体现用户兴趣度,分析信息的不对称性,并在二部图中随机游走。实验表明,基于用户兴趣度的二部图随机游走算法提高了预测准确率和命中率。  相似文献   

9.
卢春红  王杰华 《控制工程》2021,28(5):938-943
通过使高维空间的数据相似度按概率分布,在邻域嵌入后仍然保持相同的概率分布来实现非线性降维,随机邻域嵌入方法已成功应用于过程监测.然而,这种方法仅仅关注了数据成对样本之间的局部相似关系,忽视了远距离样本之间的非近邻关系.针对这个问题,提出了信息增强的随机邻域嵌入方法,利用基于几何测距的随机邻域概率分布度量样本之间的局部相...  相似文献   

10.
为了解决现有的多标签传播社区划分算法采用的随机顺序策略导致形成的社区划分结果不稳定和社区质量不够高的问题,提出了一种基于节点综合相似度的多标签传播社区划分算法MLPA-NCS。以节点潜在影响力的降序作为节点选择顺序,解决社区结果划分不稳定问题。根据节点的主题相似度和链接相关度计算出节点综合相似度,并以节点综合相似度降序作为更新节点标签时对邻近节点遍历的顺序,提高所划分社区的质量。采用真实数据集和人工网络数据,对多个算法进行对比实验,结果表明算法有效可行,社区划分结果更稳定,社区质量也更高。  相似文献   

11.
在多标记分类问题中,每个样本可以同时与多个标记类别相关,其中一些标记之间可能具有相关性,充分利用这些标记相关性,可优化分类性能.因此,文中利用标记的频繁项集对标记相关性进行挖掘,提出针对基于邻域粗糙集的多标记属性约简算法进行改进的特征选择算法,并进一步将训练样本根据特征之间的相似性进行聚类,结合局部样本上的标记相关性,进行属性约简及分类.在5个多标记分类数据集上的实验验证文中算法的有效性.  相似文献   

12.
针对标签随着时间变化的动态多标签文本分类问题,提出了一种基于标签语义相似的动态多标签文本分类算法。该算法在训练阶段,首先按照标签固定训练得到一个基于卷积神经网络的多标签文本分类器,然后以该分类器的倒数第二层的输出为文本的特征向量。由于该特征向量是在有标签训练得到的,因而相对于基于字符串即文本内容而言,该特征向量含有标签语义信息。在测试阶段,将测试文档输入训练阶段的多标签文本分类器获取相应的特征向量,然后计算相似性,同时乘以时间衰减因子修正,使得时间越近的文本具有较高的相似性。最后,采用最近邻算法分类。实验结果表明,该算法在处理动态多标签文本分类问题上具有较优的性能。  相似文献   

13.
国际疾病分类(ICD)是用于临床目的和健康管理的分类工具,是卫生统计数据的建立基础,在其庞大的分类体系中,含有与疾病健康问题和临床治疗相关的分类和对应的代码。针对在国际疾病分类的庞大标签空间中的多标签分类问题,提出一种端到端的深度学习方法。采用改进的图注意力网络对标签空间进行建模,基于注意力重构的多标签分类器进行分类。在标签空间建模中,结合国际疾病分类中手术与操作分类的层次结构,构建出三种不同的图结构,利用图注意力网络将标签空间的结构信息融入到模型中,从而利用标签之间的依赖关系进行多标签文本分类。所提出的方法与实际应用场景有着紧密联系。实验表明,在临床国际疾病分类数据集上,相比于传统文本分类和其他标签空间建模方法,所提方法在分类性能上有明显的提升。  相似文献   

14.
随着大数据技术的快速发展,多标签文本分类在司法领域也催生出诸多应用.在法律文本中通常存在多个要素标签,标签之间往往具有相互依赖性或相关性,准确识别这些标签需要多标签分类方法的支持.因此,文中提出融合标签关系的法律文本多标签分类方法.方法构建标签的共现矩阵,利用图卷积网络捕捉标签之间的依赖关系,并结合标签注意力机制,计算法律文本和标签每个词的相关程度,得到特定标签的法律文本语义表示.最后,融合标签图构建的依赖关系和特定标签的法律文本语义表示,对文本进行综合表示,实现文本的多标签分类.在法律数据集上的实验表明,文中方法获得较好的分类精度和稳定性.  相似文献   

15.
In this paper, a bottom-up salient object detection method is proposed by modeling image as a random graph. The proposed method starts with portioning input image into superpixels and extracting color and spatial features for each superpixel. Then, a complete graph is constructed by employing superpixels as nodes. A high edge weight is assigned into a pair of superpixels if they have high similarity. Next, a random walk prior on nodes is assumed to generate the probability distribution on edges. On the other hand, a complete directed graph is created that each edge weight represents the probability for transmitting random walker from current node to next node. By considering a threshold and eliminating edges with higher probability than the threshold, a random graph is created to model input image. The inbound degree vector of a random graph is computed to determine the most salient nodes (regions). Finally, a propagation technique is used to form saliency map. Experimental results on two challenging datasets: MSRA10K and SED2 demonstrate the efficiency of the proposed unsupervised RG method in comparison with the state-of-the-art unsupervised methods.  相似文献   

16.
多标签图像分类是多标签数据分类问题中的研究热点.针对目前多标签图像分类方法只学习图像的视觉表示特征,忽略了图像标签之间的相关信息以及标签语义与图像特征的对应关系等问题,提出了一种基于多头图注意力网络与图模型的多标签图像分类模型(ML-M-GAT).该模型利用标签共现关系与标签属性信息构建图模型,使用多头注意力机制学习标签的注意力权重,并利用标签权重将标签语义特征与图像特征进行融合,从而将标签相关性与标签语义信息融入到多标签图像分类模型中.为验证本文所提模型的有效性,在公开数据集VOC-2007和COCO-2014上进行实验,实验结果表明, ML-M-GAT模型在两个数据集上的平均均值精度(mAP)分别为94%和82.2%,均优于CNN-RNN、ResNet101、MLIR、MIC-FLC模型,比ResNet101模型分别提高了4.2%和3.9%.因此,本文所提的ML-M-GAT模型能够利用图像标签信息提高多标签图像分类性能.  相似文献   

17.
多标签学习广泛应用于文本分类、标签推荐、主题标注等.最近,基于深度学习技术的多标签学习受到广泛关注,针对如何在多标签学习中有效挖掘并利用高阶标签关系的问题,提出一种基于图卷积网络探究标签高阶关系的模型TMLLGCN.该模型采用GCN的映射函数从数据驱动的标签表示中生成对象分类器挖掘标签高阶关系.首先,采用深度学习方法提...  相似文献   

18.
针对多标签学习中实例标签的缺失补全和预测问题,本文提出一种基于正则化的半监督弱标签分类方法(简称SWCMR),方法同时兼顾实例相似性和标签相关性.SWCMR首先根据标签相关性对弱标签实例的缺失标签进行初步预估,然后利用弱标签实例和无标签实例构造邻域图,从实例相似性和标签相关性角度构建基于平滑性假设的正则化项,接下来利用预估后的弱标签实例结合无标签实例训练半监督弱标签分类模型.在多种公共多标签数据集上的实验结果表明,SWCMR提高了分类性能,尤其是标签信息较少时,分类效果提升更显著.  相似文献   

19.
基于联合概率的多标签分类算法   总被引:1,自引:0,他引:1  
何朋  周丽娟 《计算机应用》2015,35(3):659-662
针对多标签k邻域(ML-kNN)算法忽略了多个标签间可能存在的相关性的问题,提出了一种基于联合概率的RML-kNN多标签分类算法。首先,在样本空间遍历求得每个标签的先验概率;其次,根据样本k邻域内某个标签的概率分布计算在该标签取值的条件下样本k邻域内有m个该标签出现的条件概率;然后,提出使用多个标签在k邻域的联合概率分布作为多标签分类模型的方法,并在样本空间进行计算;最后,以最大化后验概率的方法推导出RML-kNN多标签分类模型。理论分析和实验论证表明,在SubSet Accuracy上最高达到0.9612,相比ML-kNN最多有2.25%的提升;在Hamming Loss上比RM-kNN有明显降低,最低达到0.0022;在Micro-FMeasure上最高可达到0.9767,相比ML-kNN最高可有2.88%的提升。实验结果表明,RML-kNN充分考虑了标签间相关性,分类效果优于ML-kNN算法。  相似文献   

20.
Fisher Score (FS)是一种快速高效的评价特征分类能力的指标,但传统的FS指标既无法直接应用于多标记学习,也不能有效处理样本极值导致的类中心与实际类中心的误差。提出一种结合中心偏移和多标记集合关联性的FS多标记特征选择算法,找出不同标记下每类样本的极值点,以极值点到该类样本的中心距离乘以半径系数筛选新的样本,从而获得分布更为密集的样本集合,以此计算特征的FS得分,通过整体遍历全体样本的标记集合中的每个标记,并在遍历过程中针对具有更多标记数量的样本自适应地赋以标记权值,得到整体特征的平均FS得分,以特征的FS得分进行排序过滤出目标子集实现特征选择目标。在8个公开的多标记文本数据集上进行参数分析及5种指标性能比较,结果表明,该算法具有一定的有效性和鲁棒性,在多数指标上优于MLNB、MLRF、PMU、MLACO等多标记特征选择算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号