首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 562 毫秒
1.
统计显著性标记的聚类分析算法与网络实现   总被引:6,自引:0,他引:6  
聚类分析方法应用广泛,但过程及结果缺乏可靠的统计学检验,数学上不严格.另外,用于聚类分析的数据分布类型复杂多样,往往无法确定,而经典统计检验方法设定了各种统计前提和假设,应用依据不足.鉴于此,本研究用随机化方法对分类进行统计显著性检验,建立了具有统计显著性标记的聚类分析算法,用于对若干个样品进行有显著性标记的聚类分析. 该算法包括数据加权与规范化,计算距离测度,系统聚类,及随机化统计检验等过程.在该算法中,有14种距离测度、5种系统聚类方法、3种数据规范化方法及指标加权与否可供选择.随机化检验不需统计前提和假设,适用于各种统计问题.算法用Java语言网络化实现, 包含6个类和一个HTML文件.可通过网络在多种Java兼容的浏览器上实现算法共享. 以水稻田无脊椎动物多样性的调查数据,对该算法进行了对比分析,给出了选择距离测度的一些原则.  相似文献   

2.
由于需要大量堆栈操作和反复搜索像素邻域,一次扫描算法往往效率不高.基于轮廓跟踪的连通域标记算法先跟踪目标的封闭轮廓,再线扫描轮廓内的像素,以减少像素邻域搜索及堆栈访问的次数,提高算法的效率.本文提出的基于轮廓跟踪的连通域标记算法,屏弃堆栈访问,并采用高效的轮廓跟踪算法,以提高算法的效率.本算法与其它连通域算法相比,具有效率更高、稳定性好等优点.  相似文献   

3.
在实际应用中,容易获取大量的未标记样本数据,而样本数据是有限的,因此,半监督分类算法成为研究者关注的热点.文中在协同训练Tri-Training算法的基础上,提出了采用两个不同的训练分类器的Simple-Tri-Training方法和对标记数据进行编辑的Edit-Tri-Training方法,给出了这三种分类方法与监督分类SVM的分类实验结果的比较和分析.实验表明,无标记数据的引入,在一定程度上提高了分类的性能;初始训练集和分类器的选取以及标记过程中数据编辑技术,都是影响半监督分类稳定性和性能的关键点.  相似文献   

4.
成鹏  汪西莉 《计算机工程》2011,37(12):166-169
提出一种基于相似度融合的主动支持向量机算法,利用未标记样本和标记样本,结合支持向量机的方法实现主动学习.实验结果表明,该算法与普通主动学习的支持向量机相比,在保证分类器性能的情况下,可以减少标记样本的数目,抑制孤立样本对分类器的影响;在相同标记样本数目的情况下,该算法具有较高的分类精度.  相似文献   

5.
李延超  肖甫  陈志  李博 《软件学报》2020,31(12):3808-3822
主动学习从大量无标记样本中挑选样本交给专家标记.现有的批抽样主动学习算法主要受3个限制:(1)一些主动学习方法基于单选择准则或对数据、模型设定假设,这类方法很难找到既有不确定性又有代表性的未标记样本;(2)现有批抽样主动学习方法的性能很大程度上依赖于样本之间相似性度量的准确性,例如预定义函数或差异性衡量;(3)噪声标签问题一直影响批抽样主动学习算法的性能.提出一种基于深度学习批抽样的主动学习方法.通过深度神经网络生成标记和未标记样本的学习表示和采用标签循环模式,使得标记样本与未标记样本建立联系,再回到相同标签的标记样本.这样同时考虑了样本的不确定性和代表性,并且算法对噪声标签具有鲁棒性.在提出的批抽样主动学习方法中,算法使用的子模块函数确保选择的样本集合具有多样性.此外,自适应参数的优化,使得主动学习算法可以自动平衡样本的不确定性和代表性.将提出的主动学习方法应用到半监督分类和半监督聚类中,实验结果表明,所提出的主动学习方法的性能优于现有的一些先进的方法.  相似文献   

6.
半监督学习方法通过少量标记数据和大量未标记数据来提升学习性能.Tri-training是一种经典的基于分歧的半监督学习方法,但在学习过程中可能产生标记噪声问题.为了减少Tri-training中的标记噪声对未标记数据的预测偏差,学习到更好的半监督分类模型,用交叉熵代替错误率以更好地反映模型预估结果和真实分布之间的差距,并结合凸优化方法来达到降低标记噪声的目的,保证模型效果.在此基础上,分别提出了一种基于交叉熵的Tri-training算法、一个安全的Tri-training算法,以及一种基于交叉熵的安全Tri-training算法.在UCI(University of California Irvine)机器学习库等基准数据集上验证了所提方法的有效性,并利用显著性检验从统计学的角度进一步验证了方法的性能.实验结果表明,提出的半监督学习方法在分类性能方面优于传统的Tri-training算法,其中基于交叉熵的安全Tri-training算法拥有更高的分类性能和泛化能力.  相似文献   

7.
为了提高显著性检测的鲁棒性,增加全局信息和局部信息的联系,提出一种基于稀疏表示和标签传播的显著性检测算法.首先将复杂数据集进行简洁的表达,获得数据间更深层次的全局联系,并利用稀疏表示理论定义邻接矩阵,突破以往具有共同边界的限制,将处于同一子空间的数据点定义为邻居;其次利用图像中每个区域间的相似度计算权值矩阵并构建图模型,然后经过有效筛选部分边界区域获得背景标签;最后基于上述算法获得的图模型和背景标签,应用标签传播算法预测未标记区域的标签信息,获得最终的显著性图.在多个公开的显著性数据库上进行实验,验证了文中算法的有效性.  相似文献   

8.
针对麻雀搜索算法(spar row search algori thm,SSA)存在收敛速度慢、稳定性差和易陷入局部最优等问题,提出融合差分进化和混合多策略的麻雀搜索算法(DEH-SSA)。引入反向学习初始化以增加种群的多样性,避免陷入局部最优;加入非线性权重因子改进麻雀发现者的位置更新公式以平衡算法的局部和全局搜索能力,使算法的收敛速度加快;融合差分进化和精英策略增强SSA算法的全局搜索能力并提高算法的收敛精度。在10个基准测试函数上与其它群智能算法进行比较实验,其结果表明,DEH-SSA具有更高的收敛精度、更快的收敛速度和更好的稳定性,通过Wilcoxon秩和检验方法也验证了DEH-SSA算法具有更好的显著性差异。  相似文献   

9.
多标记分类器链中标记的预测顺序具有随机性,导致学习性能下降,容易造成错误信息的传递.考虑到标记的顺序性,文中提出基于多标记重要性排序的分类器链算法.该算法将标记间相互作用程度的大小作为衡量标记重要程度的依据,在标记相关性的基础上,按照重要性进行标记排序,并将排序结果作为分类器链算法中分类器的顺序,从而解决多标记预测顺序的问题.实验表明,相比现有方法,文中算法在多个数据集上能更稳定有效地分类多标记.  相似文献   

10.
一种利用关联规则挖掘的多标记分类算法   总被引:2,自引:0,他引:2  
刘军煜  贾修一 《软件学报》2017,28(11):2865-2878
多标记学习广泛存在于现实生活中,是当今机器学习领域的研究热点.在多标记学习框架中,每个对象由一个示例构成,但可能同时属于多个类别标记,并且各个标记之间相互关联,所以挖掘多标记之间的关联性对于多标记学习框架具有重要的意义.首先对经典的关联规则算法进行改进,提出了基于矩阵分治的频繁项集挖掘算法,并证明了该算法挖掘频繁项集的正确性;进而将该算法应用于多标记学习框架中,分别提出了基于全局关联规则挖掘和局部关联规则挖掘的多标记分类算法;最后对所提出的算法与现有多标记算法进行实验对比,结果表明,算法在5种不同的评价准则下能够取得更好的效果.  相似文献   

11.
郭涛  李贵洋  兰霞 《计算机工程与设计》2012,33(9):3584-3587,3621
针对协同训练算法对无标记数据挑选效率较低,导致噪声数据引入问题,提出了基于图的置信度估计半监督协同训练算法(CESL).利用样本数据自身的结构信息,显式计算无标记样本所属类别概率.同时,采用了多分类器隐式对无标记数据进行置信度估计,以提高无标记数据挑选标准.将显示计算和隐式估计结合对无标记数据进行选择,减低噪音数据的引入,更新分类器.在UCI数据集上的对比实验表明了该算法的有效性.  相似文献   

12.
郭涛  李贵洋  兰霞 《计算机工程》2012,38(13):163-165,168
在分类器训练过程中,无标记数据的引入容易产生噪音,从而降低分类精度。为此,提出一种基于图的置信度估计半监督协同训练算法。利用样本数据自身的结构信息,计算无标记样本所属类别概率。采用多分类器对无标记数据进行置信度估计,以提高无标记数据挑选标准,减少噪音数据的引入。在UCI数据集上的对比实验验证了该算法的有效性。  相似文献   

13.
Semi-supervised learning has attracted a significant amount of attention in pattern recognition and machine learning. Most previous studies have focused on designing special algorithms to effectively exploit the unlabeled data in conjunction with labeled data. Our goal is to improve the classification accuracy of any given supervised learning algorithm by using the available unlabeled examples. We call this as the Semi-supervised improvement problem, to distinguish the proposed approach from the existing approaches. We design a metasemi-supervised learning algorithm that wraps around the underlying supervised algorithm and improves its performance using unlabeled data. This problem is particularly important when we need to train a supervised learning algorithm with a limited number of labeled examples and a multitude of unlabeled examples. We present a boosting framework for semi-supervised learning, termed as SemiBoost. The key advantages of the proposed semi-supervised learning approach are: 1) performance improvement of any supervised learning algorithm with a multitude of unlabeled data, 2) efficient computation by the iterative boosting algorithm, and 3) exploiting both manifold and cluster assumption in training classification models. An empirical study on 16 different data sets and text categorization demonstrates that the proposed framework improves the performance of several commonly used supervised learning algorithms, given a large number of unlabeled examples. We also show that the performance of the proposed algorithm, SemiBoost, is comparable to the state-of-the-art semi-supervised learning algorithms.  相似文献   

14.
15.
在许多模式识别任务中,研究者常常使用有标记样本的信息,而忽略无标记样本信息,但在现实生活中有标记样本的获得可能需要花费大量的人力、物力、财力,而无标记数据的获得却相对容易得多。如何利用无标记的数据来增强分类器的性能成为近年来模式识别中的研究热点。在以往的半监督增强学习中,主要是根据无标记样本和有标记样本的相似度来利用无标记样本的,相似度主要使用欧氏距离来度量,而欧氏距离只反映样本间的空间位置关系,没有反映样本间的流形信息。因此,提出了基于测地距离的半监督增强学习算法,从而可以反映样本空间的流形信息。多个数据库上的实验结果表明提出算法的有效性。  相似文献   

16.
一种进化半监督式模糊聚类的入侵检测算法   总被引:3,自引:0,他引:3       下载免费PDF全文
在入侵检测系统中,未知标签数据容易获得,标签数据较难获得,对此提出了一种基于进化半监督式模糊聚类入侵检测算法。算法利用标签数据信息担任染色体的角色,引导非标签数据每个模糊分类的进化过程,能够使用少量的标签数据和大量未知标签数据生成入侵检测系统分类器,可处理模糊类标签,不易陷入局部最优,适合并行结构的实现。实验结果表明,算法有较高的检测率。  相似文献   

17.
This paper presents a method for effectively using unlabeled sequential data in the learning of hidden Markov models (HMMs). With the conventional approach, class labels for unlabeled data are assigned deterministically by HMMs learned from labeled data. Such labeling often becomes unreliable when the number of labeled data is small. We propose an extended Baum-Welch (EBW) algorithm in which the labeling is undertaken probabilistically and iteratively so that the labeled and unlabeled data likelihoods are improved. Unlike the conventional approach, the EBW algorithm guarantees convergence to a local maximum of the likelihood. Experimental results on gesture data and speech data show that when labeled training data are scarce, by using unlabeled data, the EBW algorithm improves the classification performance of HMMs more robustly than the conventional naive labeling (NL) approach.  相似文献   

18.
对于建立动态贝叶斯网络(DBN)分类模型时,带有类标注样本数据集获得困难的问题,提出一种基于EM和分类损失的半监督主动DBN学习算法.半监督学习中的EM算法可以有效利用未标注样本数据来学习DBN分类模型,但是由于迭代过程中易于加入错误的样本分类信息而影响模型的准确性.基于分类损失的主动学习借鉴到EM学习中,可以自主选择有用的未标注样本来请求用户标注,当把这些样本加入训练集后能够最大程度减少模型对未标注样本分类的不确定性.实验表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

19.
基于有监督学习的射频指纹定位方法是室内高精度无线定位技术的一个研究热点. 针对有监督学习方法存在训练数据集采集代价较高的问题, 本文提出了一种基于半监督学习的室内无线定位算法. 该算法采用基于Laplacian矩阵谱分解的方法获取训练数据在特征向量空间上的表示, 然后通过有标记数据在特征向量空间上的标记对齐, 实现对未标记数据的标记. 实验结果表明, 仅需少量的有标记数据(20%左右), 便能以较高的精度(80%左右)实现对未标记数据的标记, 从而有效降低了训练开销.  相似文献   

20.
桑凤娟  张贵仓 《计算机工程》2012,38(20):124-127
边界Fisher判别分析算法因采用一维向量表示而无法很好保持图像的空间几何结构,且无法利用大量未标记样本信息.为此,提出一种基于张量的半监督判别分析算法.采用二维张量表示人脸空间中的样本图像,揭示流形的内在几何结构,利用有判别信息的标记样本和大量未标记样本,使数据在投影空间的类间分离度最大,同时保证高维空间中不相邻的点在低维空间中也不相邻.在PIE和FERET人脸库上的实验结果表明,该算法能够获得较高的识别率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号