首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 158 毫秒
1.
基于seeds集和频繁项集挖掘的半监督聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
半监督聚类在无监督学习中通过对少量监督信息的有效利用提高聚类性能。提出一种基于seeds集的半监督聚类算法,它采用Apiori算法对初始seeds集和扩大规模后seeds集的数据进行频繁项集挖掘,使得数据中存在的噪音数据和误标记数据得到净化、修正,以改善seeds集质量,提高聚类性能。该算法使用带权χ2测试这一数学模型作为分类规则度量指标,以对无标记数据进行类标签值预测。实验结果显示,所提出的结合了频繁项集挖掘和带权χ2测试的基于seeds集的半监督聚类算法不仅改善了seeds集质量,也提高了预测结果的精确度,优化了聚类性能。  相似文献   

2.
半监督学习方法通过少量标记数据和大量未标记数据来提升学习性能.Tri-training是一种经典的基于分歧的半监督学习方法,但在学习过程中可能产生标记噪声问题.为了减少Tri-training中的标记噪声对未标记数据的预测偏差,学习到更好的半监督分类模型,用交叉熵代替错误率以更好地反映模型预估结果和真实分布之间的差距,并结合凸优化方法来达到降低标记噪声的目的,保证模型效果.在此基础上,分别提出了一种基于交叉熵的Tri-training算法、一个安全的Tri-training算法,以及一种基于交叉熵的安全Tri-training算法.在UCI(University of California Irvine)机器学习库等基准数据集上验证了所提方法的有效性,并利用显著性检验从统计学的角度进一步验证了方法的性能.实验结果表明,提出的半监督学习方法在分类性能方面优于传统的Tri-training算法,其中基于交叉熵的安全Tri-training算法拥有更高的分类性能和泛化能力.  相似文献   

3.
由于缺少监督数据,传统的基于聚类算法的入侵检测系统存在误报率高、检测率低等问题。针对这种情况,提出基于模拟退火和半监督K均值聚类的入侵检测方法。该方法首先利用少量标记入侵类型的网络数据改进聚类初始化过程,在K均值聚类算法中引入半监督学习,然后利用模拟退火算法跳出局部极值的能力与半监督K均值聚类算法结合以得到全局最优聚类,最后根据标记数据确定聚类类别,并应用于入侵行为的检测。基于KDDCUP99的对比实验表明,该方法利用监督数据和模拟退火算法改进了聚类算法,能够有效提高入侵检测的准确率。  相似文献   

4.
胡翰  李永忠 《计算机仿真》2010,27(3):140-142,150
针对网络环境,提出了一种新的半监督聚类入侵检测算法,将主动学习策略应用于半监督聚类过程中,利用少量的标记数据,生成用于初始化算法的种子聚类,通过辅助聚类过程,根据网络数据的特点,检测已知和未知攻击。主动学习策略查询网络中未标记数据与标记数据的约束关系,对标记数据可以快速获得k个不相交的非空近邻集,经检测结果证明,改进了算法的性能,且表明了算法的可行性及有效性。  相似文献   

5.
基于Seed集的半监督核聚类   总被引:2,自引:1,他引:1       下载免费PDF全文
提出了一种新的半监督核聚类算法——SKK-均值算法。算法利用一定数量的标记样本构成seed集,作为监督信息来初始化K-均值算法的聚类中心,引导聚类过程并约束数据划分;同时还采用了核方法把输入数据映射到高维特征空间,并用核函数来实现样本之间的距离计算。在UCI数据集上进行了数值实验,并与K-均值算法和核-K-均值算法进行了比较。  相似文献   

6.
针对集成自训练算法随机初始化有标记样本容易在迭代中局部过拟合,不能很好地泛化到样本原始空间结构和集成自训练算法用WKNN分类器做数据剪辑时没有考虑到无标记样本对待测样本类别判定有影响的问题,提出结合近邻密度和半监督KNN的集成自训练算法。该算法用近邻密度方法选取初始化的已标注样本,避免已标注样本周围[k]个近邻样本成为已标注候选集。这样使初始化的已标注样本间的距离尽量分散,以更好地反应样本原始空间结构。同时在已标注样本候选集中选取密度最大的样本作为已标注样本。为了提高数据剪辑的性能,用半监督KNN代替WKNN,弥补WKNN做数据剪辑的时候只考虑到了有标记样本对待测样本类别的影响,而没有利用待测样本周围的无标记样本的问题,在UCI数据集上的对比实验验证了提出算法的有效性。  相似文献   

7.
吕佳  黎隽男 《计算机应用》2018,38(1):110-115
针对自训练方法在迭代中选出的置信度高的无标记样本所含信息量不大和自训练方法容易误标记无标记样本的问题,提出了一种结合半监督聚类和数据剪辑的Naive Bayes自训练方法。该自训练方法在每次迭代的时候,首先利用少量的有标记样本和大量的无标记样本进行半监督聚类,从而选出聚类隶属度高的无标记样本作Naive Bayes分类;然后利用数据剪辑技术来过滤掉聚类隶属度高而被Naive Bayes误分类的无标记样本。该数据剪辑技术能够同时利用有标记样本和无标记样本信息进行噪声过滤,解决了传统数据剪辑技术的性能可能因有标记样本数量匮乏而下降的问题。通过在UCI数据集上的对比实验,证明了所提算法的有效性。  相似文献   

8.
张雁  吴保国  吕丹桔  林英 《计算机工程》2014,(6):215-218,229
半监督学习和主动学习都是利用未标记数据,在少量标记数据代价下同时提高监督学习识别性能的有效方法。为此,结合主动学习方法与半监督学习的Tri-training算法,提出一种新的分类算法,通过熵优先采样算法选择主动学习的样本。针对UCI数据集和遥感数据,在不同标记训练样本比例下进行实验,结果表明,该算法在标记样本数较少的情况下能取得较好的效果。将主动学习与Tri-training算法相结合,是提高分类性能和泛化性的有效途径。  相似文献   

9.
多标记学习主要用于解决因单个样本对应多个概念标记而带来的歧义性问题,而半监督多标记学习是近年来多标记学习任务中的一个新的研究方向,它试图综合利用少量的已标记样本和大量的未标记样本来提高学习性能。为了进一步挖掘未标记样本的信息和价值并将其应用于文档多标记分类问题,该文提出了一种基于Tri-training的半监督多标记学习算法(MKSMLT),该算法首先利用k近邻算法扩充已标记样本集,结合Tri-training算法训练分类器,将多标记学习问题转化为标记排序问题。实验表明,该算法能够有效提高文档分类性能。  相似文献   

10.
李乐  王斐 《计算机应用研究》2021,38(5):1387-1392
针对现有基于K-means的半监督聚类算法存在的共同问题,即对离群点敏感、在非凸数据集与不平衡数据集上表现差,提出了一种基于层次策略的散布种子半监督中心聚类算法。首先通过基于影响空间的样本边缘因子将数据集分为核心层与边缘层,然后应用一种改进的K-medoids算法完成核心层聚类,最后采用一种递进半监督分配策略对边缘层进行分配得到最终聚类结果。算法通过层次策略解决了离群点干扰问题、半监督子簇聚类及合并策略实现了在不同分布数据集上有效聚类。通过与几种半监督聚类方法在人工数据集以及真实数据集上进行的对比实验证明,该算法能够解决现存问题,提升了聚类性能与鲁棒性。  相似文献   

11.
基于自适应数据剪辑策略的Tri-training算法   总被引:1,自引:0,他引:1  
邓超  郭茂祖 《计算机学报》2007,30(8):1213-1226
Tri-training能有效利用无标记样例提高泛化能力.针对Tri-training迭代中无标记样例常被错误标记而形成训练集噪声,导致性能不稳定的缺点,文中提出ADE-Tri-training(Tri-training with Adaptive Data Editing)新算法.它不仅利用RemoveOnly剪辑操作对每次迭代可能产生的误标记样例识别并移除,更重要的是采用自适应策略来确定RemoveOnly触发与抑制的恰当时机.文中证明,PAC理论下自适应策略中一系列判别充分条件可同时确保新训练集规模迭代增大和新假设分类错误率迭代降低更多.UCI数据集上实验结果表明:ADE-Tri-training具有更好的分类泛化性能和健壮性.  相似文献   

12.
Tri-Training是一种半监督学习算法,在少量标记数据下,通过三个不同的分类器,从未标记样本中采样并标记新的训练数据,作为各分类器训练数据的有效补充。但由于错误标记样本的存在,引入了噪音数据,降低了分类的性能。论文在Tri—Training算法中分别采用DE-KNN,DE-BKNN和DE-NED三种数据编辑技术,识别移除误标记的数据。通过对六组UCI数据集的实验,分析结果表明,编辑技术的引入是有效的,三种方法的使用在一定程度上提升了Tri-Training算法的分类性能,尤其是DE-NED方法更为显著。  相似文献   

13.
半监督的自动聚类   总被引:1,自引:0,他引:1  
潘章明 《计算机应用》2010,30(10):2614-2617
基于进化算法的自动聚类方法在处理聚类结构比较松散的数据集时,存在聚类准确性不高、收敛速度慢的缺陷,为此提出一种半监督的自动聚类算法。该算法从调整染色体的解码过程入手,首先从染色体中分离出聚类数和所有的质心,然后使用最近邻规则滤去部分偏离数据集分布区域的无效质心,最后嵌入先验信息辅助K-均值方法对剩余的质心聚类,进一步优化染色体的解码结果。实验结果表明,该算法对聚类结构紧密或松散的数据集均可给出较精确的聚类结果。  相似文献   

14.
半监督的仿射传播聚类   总被引:4,自引:0,他引:4       下载免费PDF全文
仿射传播聚类算法快速、有效,可以解决大数据集的聚类问题,但当数据的聚类结构比较松散时,聚类准确性不高。该文提出了半监督的仿射传播聚类算法,在迭代过程中嵌入了有效性指标以监督和引导算法向最优聚类结果的方向运行。实验结果表明,该方法对于聚类结构比较紧密和松散的数据集,均可以给出较为准确的聚类结果。  相似文献   

15.
基于分类的半监督聚类方法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于分类的半监督聚类算法。充分利用了数据集中的少量标记对象对原始数据集进行粗分类,在传统k均值算法的基础上扩展了聚类中心点的选择方法;用k-meansGuider方法对数据集进行粗聚类,在此基础上对粗聚类结果进行集成。在多个UCI标准数据集上进行实验,结果表明提出的算法能有效改善聚类质量。  相似文献   

16.
曹卫东  许志香 《计算机应用》2019,39(7):1979-1984
针对基于监督学习的入侵检测算法需要的大量有标签数据难以收集,无监督学习算法准确率不高,且对R2L及U2R两类攻击检测率低等问题,提出一种高效的半监督多层次入侵检测算法。首先,利用Kd-tree的索引结构,利用加权密度在高密度样本区选择K-means算法的初始聚类中心;然后,将聚类之后的数据分为三个类簇,将无标签类簇和混合类簇借助Tri-training采用加权投票规则扩充有标签数据集;最后,利用二叉树形结构设计层次化分类模型,在NSL-KDD数据集上进行了实验验证。结果表明半监督多层次入侵检测模型能够在利用少量有标签数据的情况下,对R2L及U2R的检测率分别达到49.38%、81.14%,有效提高R2L及U2R两类攻击的检测率,从而降低系统的漏报率。  相似文献   

17.
王朔琛  汪西莉 《计算机应用》2015,35(10):2974-2979
半监督复合核支持向量机在构造聚类核时,普遍存在复杂度高、不适于大规模图像分类的问题;且K均值(K-means)图像聚类的参数难以估计。针对上述问题,提出基于均值漂移(Mean-Shift)参数自适应的半监督复合核支持向量机图像分类方法。结合Mean-Shift对像素点进行聚类分析以避免K-means图像聚类的局限性;利用图像的结构特征自适应算法参数以避免算法的波动性;由Mean-Shift结果构造Mean Map聚类核以增强同一聚类中的样本属于同一类别的可能性,使复合核更好地指导支持向量机对图像分类。实验验证了改进的聚类算法和参数取值方法可以更好地获取图像的聚类信息,使算法对普通图像和加噪图像的分类正确率较对比的半监督算法一般情况下提高1~7个百分点,且对于较大规模图像也有一定适用性,能够更高效、更稳定地进行图像分类。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号