首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
一种结合主动学习的半监督文档聚类算法   总被引:1,自引:0,他引:1  
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法.  相似文献   

2.
网络中的社团结构检测问题已被广泛研究,但当网络中的噪音不断增加时,已有的社团结构检测方法的性能下降较快.为解决此问题,文中将成对约束形式的先验信息结合现有的社团结构检测方法,通过先验信息引导极值优化社团发现过程,提出基于网络结构极值优化的半监督社团划分方法.实验表明,相对已有方法,文中方法能提高社团划分准确度,且在噪音网络中也显示出较好性能.  相似文献   

3.
有监督的距离度量学习算法研究进展   总被引:1,自引:0,他引:1  
沈媛媛  严严  王菡子 《自动化学报》2014,40(12):2673-2686
近年来, 距离度量学习已成为计算机视觉和模式识别等领域最为活跃的研究课题之一. 如何利用训练数据学习得到有效的距离度量来衡量目标之间的相似性是该类研究的关键问题. 针对有监督的距离度量学习问题,目前已提出了大量的研究算法. 结合近年已发表相关文献对有监督的距离度量学习算法进行了详细的介绍和讨论. 根据样本信息利用方式的不同, 将其划分成基于成对约束和非成对约束的距离度量学习算法, 重点介绍了一些常用的典型算法, 分析了每种算法的原理和优缺点, 最后是未来发展方向和趋势的展望.  相似文献   

4.
为了解决半监督聚类先验知识少、聚类偏差大的问题,提出了基于成对约束的主动半监督聚类算法.引入主动学习算法,增加约束集的信息量以使聚类效果更好;利用该约束集建立投影矩阵映射数据到低维空间,便于计算并提高聚类效果.算法中提出闭包替代思想,试图简化样本空间,以期获得降低聚类偏差的可能.由于聚类算法的实施对象是低维数据,成对约束集信息量大,聚类的时间效率以及性能均可保证.实验结果表明,采用主动学习的半监督聚类算法聚类效果提升显著,高效合理.  相似文献   

5.
针对半监督聚类学习算法中缺乏主动学习的缺陷,提出一种纠错式主动学习成对约束方法.算法通过寻找一般聚类算法自身难以发现的成对约束信息,同时避免这部分约束信息之间本身的关系,将其引入谱聚类算法,利用该监督信息调整谱聚类中点与点之间的距离矩阵对两点间距离进行排序,采用双向寻找的方法,使得学习器即使接收到没有标记的数据也能进行主动学习.实验分析表明,所提出算法能够获得较为满意的聚类效果.  相似文献   

6.
钟将  刘龙海  梁传伟 《计算机工程》2011,37(13):183-186
在主动选取成对约束方法的基础上,提出一种基于成对约束的主动半监督文本聚类方法.利用潜在语义索引方法对文本特征空间进行降维,在聚类过程中,采用构造的约束选取方法主动地选取成对约束信息,并利用选取的成对约束信息指导文本聚类.实验结果表明,该方法能利用少量的监督信息提高文本聚类的分类准确率.  相似文献   

7.
基分类器的差异性对于集成学习来说至关重要,从直观上讲,对约束重采样有潜力获得比对样本重采样更好的多样性。文中在典型相关分析算法基础上,通过引入成对约束作为监督信息对样本进行特征抽取从而形成新的训练数据。算法中集成学习的思想主要体现在成对约束的选取上,对约束进行随机重采样以获得具有多样性的基分类器。在多特征手写体数据集以及人脸数据集(Yale和AR)上进行实验考察该算法随选取的约束比例变化的情况,结果表明该方法获得比传统集成学习方法更好的性能。  相似文献   

8.
黄华  郑佳敏  钱鹏江 《计算机应用》2018,38(11):3119-3126
当不同类别的样本严重重叠在分类边界时,由于聚类假设不能很好地反映出数据的真实分布,基于聚类假设的半监督分类方法的性能,可能比与之对立的监督分类方法更差。针对上述不安全的半监督分类问题,提出了调整聚类假设联合成对约束半监督分类方法(ACA-JPC-S3VM)。一方面,它将单个未标记样本到数据分布边界的距离融入到模型的学习中,能够一定程度上缓解此类情况下算法性能的下降程度;另一方面,它将成对约束信息引入,弥补了模型对监督信息利用方面的不足。在UCI数据集上的实验结果表明,ACA-JPC-S3VM方法的性能绝不会低于支持向量机(SVM),且在标记样本数量为10时的平均准确率较SVM高出5个百分点;在图像分类数据集上的实验结果表明,直推式支持向量机(TSVM)等半监督分类方法出现了不同程度的不安全学习情形(即性能相近或低于SVM),而ACA-JPC-S3VM却能安全地学习。因此,ACA-JPC-S3VM具有更好的安全性与正确性。  相似文献   

9.
半监督学习方法主要通过学习少量标记样本和大量未标记样本知识来提高学习效果,然而目前许多半监督方法注重在未标记样本的利用上深耕,忽略了对标记样本等监督信息的继续研究。鉴于此,结合流形正则化框架提出了一种流形与成对约束联合正则化半监督分类方法(semi-supervised classification method based on joint regularization of manifold and pairwise constraints,SSC-JRMPC)。SSC-JRMPC从两个方面进行研究:一方面该方法继承了流形正则化框架中的特点,将经验风险和结构风险最小化,以及对整个数据的内在数据分布进行运用;另一方面,通过将样本标签转化为成对约束的形式,并把这些扩展的知识并入到目标公式中来进一步探索监督信息包含的知识,一定程度上提高了SSC-JRMPC算法的分类准确性。通过在真实数据集上的实验,验证了上述优点。  相似文献   

10.
半监督维数约简是指借助于辅助信息与大量无标记样本信息从高维数据空间找到一个最优低维判别空间,便于后续的分类或聚类操作,它被看作是理解基因序列、文本与人脸图像等高维数据的有效方法。提出一个基于成对约束的半监督维数约简一般框架(SSPC)。该方法首先通过使用成对约束和无标号样本的内在几何结构学习一个判别邻接矩阵;其次,新方法应用学到的投影将原来高维空间中的数据映射到低维空间中,以至于聚类内的样本之间距离变得更加紧凑,而不同聚类间的样本之间距离变得尽可能得远。所提出的算法不仅能找到一个最佳的线性判别子空间,还可以揭示流形数据的非线性结构。在一些真实数据集上的实验结果表明,新方法的性能优于当前主流基于成对约束的维数约简算法的性能。  相似文献   

11.
肿块是乳腺癌在X线图像上的一个主要表现。提出了一种肿块自动检测算法。该方法包括四个步骤:在图像预处理阶段,去除背景、标记、胸肌和噪声,图像分割和图像增强;利用Kmean方法找到感兴趣区域(ROI);提取能够表征肿块的特征;利用极限学习机(Extreme Learning Machine,ELM)分类器去除假阳性,将图像中的肿块和非肿块分离开来。通过对MIAS数据库中乳腺X线图像的测试实验,得到的检测肿块的准确率为93.5%。  相似文献   

12.
乳腺X线图像肿块大小不一,固定参数的传统标记分水岭算法无法实现乳腺X线图像肿块的有效检测。针对此问题,文中提出了一种结合形状特征和改进型标记分水岭的乳腺X线图像肿块检测方法。在计算前景标记时,结合标记的形状特征判定前景标记,通过对前景标记进行形态学膨胀并提取边缘以获得背景标记,利用改进型自适应参数标记分水岭算法实现肿块检测。实验结果表明,文中算法通过结合形状特征,自适应地选择合适的形态学参数,使得肿块检测准确率高于传统标记分水岭算法。  相似文献   

13.
K-Hub聚类算法是一种有效的高维数据聚类算法,但是它对初始聚类中心的选择非常敏感,并且对于靠近类边界的实例往往不能正确聚类.为了解决这些问题,提出一种结合主动学习和半监督聚类的K-Hub聚类算法.运用主动学习策略学习部分实例的关联限制,然后利用这些关联限制指导K-Hub的聚类过程.实验结果表明,基于主动学习的K-Hub聚类算法能有效提升K-Hub的聚类准确率.  相似文献   

14.
针对网络故障检测中利用先验知识不足和多数谱聚类算法需事先确定聚类数的问题,提出一种新的基于成对约束信息传播与自动确定聚类数相结合的半监督自动谱聚类算法。通过学习一种新的相似性测度函数来满足约束条件,改进NJW聚类算法,对非规范化的Laplacian矩阵特征向量进行自动谱聚类,从而提高聚类性能。在UCI标准数据集和网络实测数据上的实验表明,该算法较相关比对算法聚类准确率更高,可满足网络故障检测的实际需要。  相似文献   

15.
类别不平衡数据是指不同类别的样本数目差异很大,AUC(area under the ROC curve)是衡量不平衡数据分类器性能的一个重要指标,由于AUC不可微,研究者提出了众多替代成对损失函数优化AUC。成对损失的样本对数目为正负样本数目的乘积,大量成对损失较小的正负样本对影响了分类器的性能。针对这一问题,提出了一种加权的成对损失函数WPLoss,通过赋予成对损失较大的正负样本对更高的损失权重,减少大量成对损失较小的正负样本对的影响,进而提升分类器的性能。在20newsgroup和Reuters-21578数据集上的实验结果验证了WPLoss的有效性,表明WPLoss能够提升面向不平衡数据的分类器性能。  相似文献   

16.
为进一步提高个性化标签推荐性能,针对标签数据的稀疏性以及传统方法忽略隐藏在用户和项目上下文中潜在标签的缺陷,提出一种基于潜在标签挖掘和细粒度偏好的个性化标签推荐方法。首先,提出利用用户和项目的上下文信息从大量未观测标签中挖掘用户可能感兴趣的少量潜在标签,将标签重新划分为正类标签、潜在标签和负类标签三类,进而构建〈用户,项目〉对标签的细粒度偏好关系,在缓解标签稀疏性的同时,提高对标签偏好关系的表达能力;然后,基于贝叶斯个性化排序优化框架对细粒度偏好关系进行建模,并结合成对交互张量分解对偏好值进行预测,构建细粒度的个性化标签推荐模型并提出优化算法。对比实验表明,提出的方法在保证较快收敛速度的前提下,有效地提高了个性化标签的推荐准确性。  相似文献   

17.
Mass detection is a very important process for breast cancer diagnosis and computer aided systems. It can be very complex when the mass is small or invisible because of dense breast tissue. Therefore, the extraction of suspicious mass region can be very challenging. This paper proposes a novel segmentation algorithm to identify mass candidate regions in mammograms. The proposed system includes three parts: breast region and pectoral muscle segmentation, image enhancement and suspicious mass regions identification. The first two parts have been examined in previous studies. In this study, we focused on suspicious mass regions identification using a combination of Havrda & Charvat entropy method and Otsu's N thresholding method. An open access Mammographic Image Analysis Society (MIAS) database, which contains 59 masses, was used for the study. The proposed system obtained a 93% sensitivity rate for suspicious mass regions identification in 56 abnormal and 40 normal images.  相似文献   

18.
入侵检测系统已经成为网络安全技术的重要组成部分。然而,传统的异常入侵检测技术需要通过对大量训练样本的学习才能达到较高的检测精度,而大量训练样本集的获取在现实网络环境中是比较困难的。本文研究在网络入侵检测中采用基于支持向量机(SVM)的主动学习算法,解决训练样本获取代价过大带来的问题。通过基于SVM的主动学习算
算法与传统的被动学习算法的对比实验说明,主动学习算法能有效地减少学习样本数及训练时间,能有效地提高入侵检测系统的分类性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号