首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 421 毫秒
1.
波段选择是数据降维的有效手段,但有限的标记样本影响了监督波段选择的性能。提出一种利用图Laplacian和自训练策略实现半监督波段选择的方法。该方法首先定义基于图的半监督特征评分准则以产生初始波段子集,接着在该子集基础上进行分类,采用自训练策略将部分可信度较高的非标记样本扩展至标记样本集合,再用特征评分准则对波段子集进行更新。重复该过程,获得最终波段子集。高光谱波段选择与分类实验比较了多种非监督、监督和半监督方法,实验结果表明所提算法能选择出更好的波段子集。  相似文献   

2.
白艺娜  汪西莉 《计算机应用》2013,33(9):2606-2609
针对基于图的半监督流形正则化图像分类算法需要大量无标记样本训练分类器,空间和时间复杂度高,甚至不能处理大规模图像,且对背景或目标复杂的图像分类错误率较高的问题,提出了结合均值漂移(mean shift)的基于图的半监督流形正则化图像分类算法。该方法对基于图的半监督流形正则化分类算法的改进主要体现在两方面,首先是通过mean shift算法对图像进行了平滑,以平滑后的图像作为分类对象;其次不是利用所有无标记样本,而是只采用少量无标记样本。实验结果表明:图像的平滑使得目标和背景区域的特征更为一致,从而利用较少的样本就可以提高分类器的正确率;同时大大降低了算法的复杂度,使得基于图的半监督分类算法用于分类大规模图像成为可能。  相似文献   

3.
提出一种针对弱标记的多标记数据集成学习分类方法,它通过采用基于相似性成对约束投影的方法来处理数据,更好地利用了弱标记样本的特征,从而提高了分类性能。  相似文献   

4.
在实际的分类任务中,无标记样本数量充足而有标记样本数量稀少的情况经常出现,目前处理这种情况的常用方法是半监督自训练分类算法。提出了一种基于数据密度的半监督自训练分类算法,该算法首先依据数据的密度对数据集进行划分,从而确定数据的空间结构;然后再按照数据的空间结构对分类器进行自训练的迭代,最终得到一个新的分类器。在UCI中6个数据集上的实验结果表明,与三种监督学习算法以及其分别对应的自训练版本相比,提出的算法分类效果更好。  相似文献   

5.
针对不完备弱标记数据的学习问题,提出基于粗糙集理论的半监督协同学习模型.首先定义不完备弱标记数据的半监督差别矩阵,提出充分、具有差异性的约简子空间获取算法.然后在有标记数据集上利用各约简子空间训练两个基分类器.在无标记数据上,各分类器基于协同学习的思想标注信度较大的无标记样本给另一分类器学习,迭代更新直至无可利用的无标记数据.UCI数据集实验对比分析表明,文中模型可以获得更好的不完备弱标记数据的分类学习性能,具有有效性.  相似文献   

6.
标记传播是使用最广泛的半监督分类方法之一。基于共识率的标记传播算法(Consensus Rate-based Label Propagation,CRLP)通过汇总多个聚类方法以合并数据各种属性得到的共识率来构造图。然而,CRLP算法与大多数基于图的半监督分类方法一样,在图中将每个标记样本视为同等重要,它们主要通过优化图的结构来提高算法的性能。事实上,样本不一定是均匀分布的,不同的样本在算法中的重要性也是不同的,并且CRLP算法容易受聚类数目和聚类方法的影响,对低维数据的适应性不足。针对这些问题,文中提出了一种基于加权样本和共识率的标记传播算法(Label Propagation Algorithm Based on Weighted Samples and Consensus-Rate,WSCRLP)。WSCRLP算法首先对数据集进行多次聚类,以探索样本的结构,并结合共识率和样本的局部信息构造图;然后为不同分布的标记样本分配不同的权重;最后基于构造的图和加权样本进行半监督分类。在真实数据集上的实验表明,WSCRLP算法对标记样本进行加权和构造图的方法可以显著提高分类准确率,在84%的实验中都优于对比方法。相比CRLP算法,WSCRLP算法不仅具有更好的性能,而且对输入参数具有鲁棒性。  相似文献   

7.
吕佳 《计算机应用》2012,32(12):3308-3310
针对在求解半监督多标记分类问题时通常将其分解成若干个单标记半监督二类分类问题从而导致忽视类别之间内在联系的问题,提出基于局部学习的半监督多标记分类方法。该方法避开了多个单标记半监督二类分类问题的求解,采用“整体法”的研究思路,利用基于图的方法,引入基于样本的局部学习正则项和基于类别的拉普拉斯正则项,构建了问题的正则化框架。实验结果表明,所提算法具有较高的查全率和查准率。  相似文献   

8.
针对传统图转导(GT)算法计算量大并且准确率不高的问题,提出一个基于C均值聚类和图转导的半监督分类算法。首先,采用模糊C均值(FCM)聚类算法先对未标记样本预选取,缩小图转导算法构图数据集的范围;然后,构建k近邻稀疏图,减少相似度矩阵的虚假连接,进而缩减了构图的时间,通过标记传播的方式得出初选未标记样本的标记信息;最后,结合半监督流形假设模型利用扩充的标记数据集以及剩余未标记数据集进行分类器的训练,进而得出最终的分类结果。在Weizmann Horse数据集下,所提算法分类准确率均达到96%以上,和传统仅使用图转导的分类方法相比,解决了对初始标记集的依赖性问题,将准确率至少提高了10%;将所提算法直接运用到兵马俑数据集,分类准确度也达到95%以上,明显高于传统的图转导算法。实验结果表明,基于C均值聚类和图转导的半监督分类算法,在图像分类方面有较好的分类效果,对图像的精准分类具有研究意义。  相似文献   

9.
郭涛  李贵洋  兰霞 《计算机工程》2012,38(13):163-165,168
在分类器训练过程中,无标记数据的引入容易产生噪音,从而降低分类精度。为此,提出一种基于图的置信度估计半监督协同训练算法。利用样本数据自身的结构信息,计算无标记样本所属类别概率。采用多分类器对无标记数据进行置信度估计,以提高无标记数据挑选标准,减少噪音数据的引入。在UCI数据集上的对比实验验证了该算法的有效性。  相似文献   

10.
付治  王红军  李天瑞  滕飞  张继 《软件学报》2020,31(4):981-990
聚类是机器学习领域中的一个研究热点,弱监督学习是半监督学习中一个重要的研究方向,有广泛的应用场景.在对聚类与弱监督学习的研究中,提出了一种基于k个标记样本的弱监督学习框架.该框架首先用聚类及聚类置信度实现了标记样本的扩展.其次,对受限玻尔兹曼机的能量函数进行改进,提出了基于k个标记样本的受限玻尔兹曼机学习模型.最后,完成了对该模型的推理并设计相关算法.为了完成对该框架和模型的检验,选择公开的数据集进行对比实验,实验结果表明,基于k个标记样本的弱监督学习框架实验效果较好.  相似文献   

11.
Web日志作为服务器的记录文件,记录了网站最重要的信息,随着大数据时代数据量的骤然增加,提出一种应对大数据量的数据挖掘算法,更有效地分析日志文件迫在眉睫。用户聚类是在对日志文件进行数据预处理的基础上,建立用户会话序列矩阵,进而对其进行聚类分析,论文针对K-Means算法在选取初始中心点上存在的问题,以及在构建用户会话矩阵后存在的孤立点的问题,提出了一种密度参数和KCR算法的优化算法-ICKM算法,该算法利用密度参数最大的对象作为第一中心点,随后从数据集中将此对象删除,利用KCR算法寻找下一个中心点,算法借助MapReduce计算框架,提高大数据环境下的数据处理速度,通过实验表明,ICKM算法在寻找初始中心点以及用户聚类上具有较高的准确度,在处理大数据量的数据集时,有较好的的运算速度。  相似文献   

12.
一种基于大密度区域的模糊聚类算法   总被引:1,自引:0,他引:1  
针对模糊C-均值(FCM)算法对初始聚类中心和噪声数据敏感的缺陷,提出一种基于大密度区域的模糊聚类算法.该算法首先利用大密度区域以及样本的密度值变化方法,选取初始聚类中心以及候选初始聚类中心,并依据初始聚类中心与候选初始聚类中心的距离,确定初始聚类中心点,从而有效的克服了随机给定初始聚类中心容易使算法收敛到局部极小的缺陷;其次,分别利用密度函数为样本加权和引用改进的隶属度函数进行优化,有效地提高了模糊聚类的抗噪性;最后实验验证了算法在初始聚类中心的确定,聚类效果和抗噪性方面具有良好的效果.  相似文献   

13.
基于标签传播的社区发现算法(LPA)以其简单高效得到了广泛的研究,然而当社区结构模糊时,LPA得到的是一个单一的社区,这是无意义的.模块化标签传播算法(LPAm)则倾向于将网络划分为度数相近的社区且存在解极限问题.为此提出基于模块密度的标签传播(LPAd)算法,该算法通过对模块密度优化进行标签标记和传播,以避免过大社区的形成,且生成的社区满足Radicchi等人提出的弱社区定义.多个真实数据集和人工网络数据的实验结果表明,本文算法在不改变算法复杂度的情况下提高了所发现社区的质量,与现有的若干基于标签传播的社区发现算法相比,取得了改进的效果.  相似文献   

14.
针对密度峰值聚类算法存在数据集密度差异较大时,低密度区域聚类中心难以检测和参数敏感的问题,提出了一种新型密度极值算法。引入自然邻居概念寻找数据对象自然近邻,定义椭圆模型计算自然稳定状态下数据局部密度;计算数据对象余弦相似性值,用余弦相似性值来更新数据对象连通值,采用连通值划分高低密度区域和离群点;构造密度极值函数找到高低密度不同区域聚类中心点;将不同区域非聚类中心点归并到离其最近的聚类中心所在簇中。通过在合成数据集和UCI公共数据集实验分析:该算法比其他对比算法在处理密度分布差异较大数据集上取得了更好的结果。  相似文献   

15.
传统基于划分的聚类算法需要人工给定聚类数,且由于算法采取刚性划分,可能会导致将较大或延伸状的聚类簇分割的现象,导致错误的聚类结果。密度峰聚类是近年提出的一种新的基于密度的聚类算法,该算法不需要预先指定聚类数目,且能够发现非球形簇。将密度峰思想引入基于划分的聚类算法,提出一种基于密度峰和划分的快速聚类算法(DDBSCAN),该算法首先获取一组簇的核心对象(密度峰),用于描述簇的“骨骼”,而后将周围的点划分到最近的核心对象,最后通过判断划分边界处的密度情况合并簇。实验证明,该算法能有效地适应任意形状、大小不一的数据集,与传统基于密度的聚类算法相比收敛速度更快。  相似文献   

16.
SUDBC:一种基于空间单元密度的快速聚类算法   总被引:3,自引:0,他引:3  
随着数据规模越来越大,要求聚类算法有很高的执行效率,很好的扩展性,能发现任意形状的聚类以及对噪音数据的不敏感性.提出了一种基于空间单元密度的快速聚类算法SUDBC,该算法首先将被聚类的数据划分成若干个空间单元,然后基于空间单元密度将密度超过给定阈值的邻居单元合并为一个类.实验结果验证了SUDBC算法具有处理任意形状的数据和对噪音数据不敏感的特点.  相似文献   

17.
基于数据场的改进DBSCAN聚类算法   总被引:1,自引:0,他引:1  
DBSCAN(density based spatial clustering of applications with noise)算法是一种典型的基于密度的聚类算法。该算法可以识别任意形状的类簇,但聚类结果依赖于参数Eps和MinPts的选择,而且对于一些密度差别较大的数据集,可能得不到具有正确类簇个数的聚类结果,也可能将部分数据错分为噪声。为此,利用数据场能较好描述数据分布,反映数据关系的优势,提出了一种基于数据场的改进DBSCAN聚类算法。该算法引入平均势差的概念,在聚类过程中动态地确定每个类的Eps和平均势差,从而能够在一些密度相差较大的数据集上得到较好的聚类结果。实验表明,所提算法的性能优于DBSCAN算法。  相似文献   

18.
罗剑 《计算机工程》2011,37(17):46-48,60
将面向大规模数据集的基于网格重心的分箱核密度估计理论扩展到数据流应用领域,在引入密度衰减技术的基础上,指出对于演化数据流以网格重心取代网格离散数据点集合的分箱核密度估计方法的近似误差是可控的,由此构造多维演化数据流核密度估计算法。实验结果表明,该方法在保持足够计算精度的同时能够精确捕获数据流的实时演化行为。  相似文献   

19.
一种基于网格密度的自适应聚类分析算法*   总被引:1,自引:0,他引:1  
在结合基于密度和基于网格的聚类算法优点的基础上,提出一种新的聚类算法.该算法能够在海量、高纬数据下发现任意形状的聚类并对噪声数据不敏感,具有较低的时间和空间复杂性及较高的识别率.通过实验对该算法进行了性能比较和测试,显示了它在各方面的优越性.  相似文献   

20.
刘玥波  张伟杰 《计算机仿真》2021,38(1):269-272,286
社交网络数据的庞大规模与复杂结构增加了目标数据获取难度,为此,提出一种社交网络数据动态聚类调度算法,根据节点密度值计算节点距离值,得到Z-score标准化后的密度-距离值,将标签分配给密度-距离较大值的对应节点,完成中心点识别,构建标签种子区域,按照降序密度-距离值更新标签,优先把标签分配至重要节点,实现社交网络数据的动态聚类,提取动态迁移负载特征量,获取数据通频带特征分布,利用输出的耦合特征量与迭代函数方程,达成数据均衡调度。采用准确率、标准互信息、模块度以及兰德指数指标,评价算法的处理效果,实验结果表明,所提算法具有显著的动态聚类优越性,提高了数据传输均衡性,具有有效性,满足实际应用需求。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号