首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 166 毫秒
1.
半监督聚类算法通常利用标注数据优化类别描述参数(如类的中心),然后通过类别描述参数划分无标注数据的类别,但是没有考虑标注数据对其周围无标注数据的类别划分的直接作用。文中提出一种双向选择调整策略,在根据类别描述参数对数据进行类别划分之后,利用标注数据调整其周围未标注数据的类别标签,从而提高类别划分的准确度。该方法根据标注数据周围的数据密度来动态确定数据调整范围,并采用新的相似度计算方法提高被调整的数据准确度。文中利用双向选择调整策略改进了基于多项式模型的半监督聚类算法和半监督模糊聚类算法,并使用多个标准数据集进行实验。实验结果表明改进的算法有效提高了半监督聚类的准确性。  相似文献   

2.
针对微视频语义标注问题,本文提出一种基于半监督聚类的微视频标注方法。文中从事件驱动的角度,以镜头事件为单位,用事件组来标注微视频。进一步构造半监督K-means聚类算法,优化目标函数,使得最终的聚类结果既体现类间的低耦合及类内的高聚合,又体现类内局部的数据分布密度。该聚类算法实现了诸如微视频等多属性异构数据的聚类,提高了微视频标注效果。实验结果表明本文所提微视频标注方法具有很强的语义表达能力,本文的聚类方法也具有很强的聚类准确度。  相似文献   

3.
一种特征加权的聚类算法框架   总被引:3,自引:0,他引:3  
高滢  刘大有  徐益 《计算机科学》2008,35(10):152-154
为了考虑数据各维特征对聚类的不同贡献,并把有监督特征评价方法应用到无监督分类问题中,提出一种特征加权的聚类算法框架.该框架首先通过某种聚类算法对数据聚类,然后,根据聚类结果,采用有监督特征评价方法学习各维特征的权值,再根据特征权值重新聚类,之后再次学习特征权值,该过程反复迭代,直至算法收敛或达到指定的迭代次数.欧几里德空间内基于距离、基于密度的聚类算法均适用于本框架.基于本框架,采用模糊C均值聚类算法(FCM)、密度聚类算法(DBSCAN),并通过信息增益特征评价、ReliefF特征评价方法,对多个UCI数据集进行了实验,验证了该框架的有效性.  相似文献   

4.
双重高斯混合模型的EM算法的聚类问题研究   总被引:2,自引:0,他引:2  
岳佳  王士同 《计算机仿真》2007,24(11):110-113
EM算法是参数估计的重要方法,其算法核心是根据已有的数据来迭代计算似然函数,使之收敛于某个最优值.半监督聚类是利用少部分标签的数据辅助大量未标签的数据进行的聚类分析.文章介绍了一种基于双重高斯混合模型的EM算法,在无监督学习中增加一些已标记的样本,利用已标记的样本得到初始参数,研究了半监督条件下的双重高斯混合模型的EM聚类算法.实验表明,该算法较无监督学习而言,提升了样本的识别率,有良好的聚类性能.这种算法模型也可以作为一种基础模型,具有一定的应用领域.  相似文献   

5.
一种基于谱聚类的半监督聚类方法   总被引:7,自引:1,他引:6  
司文武  钱沄涛 《计算机应用》2005,25(6):1347-1349
半监督聚类利用少部分标签的数据辅助大量未标签的数据进行非监督的学习,从而提高聚类的性能。提出一种基于谱聚类的半监督聚类算法,其利用标签数据的信息,调整点与点之间的距离所形成的距离矩阵,而后基于被调整的距离矩阵进行谱聚类。实验表明,该算法较之于已提出的半监督聚类算法,获得了更好的聚类性能。  相似文献   

6.
付治  王红军  李天瑞  滕飞  张继 《软件学报》2020,31(4):981-990
聚类是机器学习领域中的一个研究热点,弱监督学习是半监督学习中一个重要的研究方向,有广泛的应用场景.在对聚类与弱监督学习的研究中,提出了一种基于k个标记样本的弱监督学习框架.该框架首先用聚类及聚类置信度实现了标记样本的扩展.其次,对受限玻尔兹曼机的能量函数进行改进,提出了基于k个标记样本的受限玻尔兹曼机学习模型.最后,完成了对该模型的推理并设计相关算法.为了完成对该框架和模型的检验,选择公开的数据集进行对比实验,实验结果表明,基于k个标记样本的弱监督学习框架实验效果较好.  相似文献   

7.
为处理高维稀疏的大规模文档数据,提出一种基于强类别特征近邻传播(SCFAP)的半监督文本聚类算法.聚类过程中,利用少量带类别标签的监督数据,提取具有强类别区分能力的特征项以构建更有效的样本间相似性测度.并在每轮迭代完成后将类别确定性程度最高的未标记样本转移到已标注集,使算法执行效率提高.实验结果表明,这种改进对于近邻传播算法的性能和准确度的提升有较大帮助,在Reuter-21578和20Newsgroups两个相异数据集上,SCFAP算法表现较好的适用性.综合考察聚类微平均Fμ指标和类簇纯度Pt指标,该算法在少量监督信息辅助下能快速获得较好的聚类结果.  相似文献   

8.
目的 随着实际应用场景中海量数据采集技术的发展和数据标注成本的不断增加,自监督学习成为海量数据分析的一个重要策略。然而,如何从海量数据中抽取有用的监督信息,并该监督信息下开展有效的学习仍然是制约该方向发展的研究难点。为此,提出了一个基于共识图学习的自监督集成聚类框架。方法 框架主要包括3个功能模块。首先,利用集成学习中多个基学习器构建共识图;其次,利用图神经网络分析共识图,捕获节点优化表示和节点的聚类结构,并从聚类中挑选高置信度的节点子集及对应的类标签生成监督信息;再次,在此标签监督下,联合其他无标注样本更新集成成员基学习器。交替迭代上述功能块,最终提高无监督聚类的性能。结果 为验证该框架的有效性,在标准数据集(包括图像和文本数据)上设计了一系列实验。实验结果表明,所提方法在性能上一致优于现有聚类方法。尤其是在MNIST-Test(modified national institute of standards and technology database)上,本文方法实现了97.78%的准确率,比已有最佳方法高出3.85%。结论 该方法旨在利用图表示学习提升自监督学习中监督信息捕获...  相似文献   

9.
通常无监督算法在对高光谱数据进行聚类时仅使用光谱信息,忽略了空间信息,使得聚类准确率较低.针对上述问题提出一种基于深度谱空网络和无监督判别极限学习的高光谱图像聚类算法.利用深度谱空网络对高光谱数据进行光谱特征和空间特征的分层交叉学习,通过反复学习获得深度空谱特征,为后续无监督聚类提供方便.在三种高光谱图像上进行实验,结果表明,该算法获得的聚类效果优于其他基于极限学习机的方法和其他无监督方法.  相似文献   

10.
半监督聚类就是利用样本的监督信息来帮助提升无监督学习的性能。在半监督聚类中,成对约束(must-link约束和cannot-link约束)作为样本的先验知识被广泛地使用。凝聚层次聚类(AHC)也叫合成聚类,是层次聚类法的一种。提出了一种基于成对约束的半监督凝聚层次聚类算法(PS-AHC),该算法利用成对约束来改变聚类簇之间的距离,使聚类簇之间的距离更真实。在UCI数据集上的实验表明,PS-AHC能有效地提高聚类的准确率,是一种有前景的半监督聚类算法。  相似文献   

11.
一种高效的用于文本聚类的无监督特征选择算法   总被引:14,自引:0,他引:14  
特征选择虽然非常成功地应用于文本分类,但却很少用于文本聚类,这是因为那些高效的特征选择方法通常都是有监督的特征选择算法,它们因为需要类信息而无法直接应用于文本聚类.为了能将这些方法应用到文本聚类上,提出了一种新的无监督特征选择算法:基于K—Means的特征选择算法(KFS).这个算法通过在不同K—Means聚类结果上使用有监督特征选择的方法,成功地选择出了最为重要的一小部分特征,使文本聚类的性能提高了近15%.  相似文献   

12.
在文本分类中获得有类别标记训练样本的代价是很高昂的,本文针对这个问题对传统的模糊聚类方法进行改进,提出模糊划分聚类方法FPCM,将聚类的无监督性和样本的先验知识结合起来,通过相似度度量聚类相关文本,取得比较客观的簇和少量标记文本,为监督学习找到分类依据,并结合朴素贝叶斯增量学习方式进行分类器的学习.本文进一步用估计分类误差损失的方法平衡选取候选样本,提高了分类准确率,实现了应用范围更加广泛的无标记文本分类学习模型.  相似文献   

13.
微学习资源爆炸式的增长带来了大量未经组织处理的文本资源,大量以碎片化形式呈现的微学习资源为学习者的使用带来极大的不便。为让学习者能在碎片化的资源中找到适合于个性化学习的内容,对以文本形式的微学习资源进行聚类是很有必要的。为此,尝试将经过改进的密度峰值算法应用于微学习单元文本聚类。针对密度峰值算法在该领域聚类时存在向量空间高维稀疏、全局一致性不足、截断距离敏感、选择密度峰值中心需要人工监督等问题,使用潜在语义分析模型(LSA)建模,并提出2点改进:其一,针对聚类要求重新定义局部密度,并引入密度敏感距离作为聚类的判据,通过解决截断距离敏感性问题来解决聚类分配时全局一致性问题;其二,用线性拟合寻找野值点来自动寻找密度峰值中心,以实现非人工监督的峰值中心选取问题。微学习单元真实数据集上的实验验证结果表明,本文所提算法比原密度峰值算法以及其他经典聚类算法更适合于微学习单元文本聚类。  相似文献   

14.
We set out in this study to review a vast amount of recent literature on machine learning (ML) approaches to predicting financial distress (FD), including supervised, unsupervised and hybrid supervised–unsupervised learning algorithms. Four supervised ML models including the traditional support vector machine (SVM), recently developed hybrid associative memory with translation (HACT), hybrid GA-fuzzy clustering and extreme gradient boosting (XGBoost) were compared in prediction performance to the unsupervised classifier deep belief network (DBN) and the hybrid DBN-SVM model, whereby a total of sixteen financial variables were selected from the financial statements of the publicly-listed Taiwanese firms as inputs to the six approaches. Our empirical findings, covering the 2010–2016 sample period, demonstrated that among the four supervised algorithms, the XGBoost provided the most accurate FD prediction. Moreover, the hybrid DBN-SVM model was able to generate more accurate forecasts than the use of either the SVM or the classifier DBN in isolation.  相似文献   

15.
基于多示例的K-means聚类学习算法   总被引:1,自引:1,他引:0       下载免费PDF全文
谢红薇  李晓亮 《计算机工程》2009,35(22):179-181
多示例学习是继监督学习、非监督学习、强化学习后的又一机器学习框架。将多示例学习和非监督学习结合起来,在传统非监督聚类算法K-means的基础上提出MIK-means算法,该算法利用混合Hausdorff距离作为相似测度来实现数据聚类。实验表明,该方法能够有效揭示多示例数据集的内在结构,与K-means算法相比具有更好的聚类效果。  相似文献   

16.
开放关系抽取(Open Relation Extraction, OpenRE)旨在从开放域语料库中抽取关系事实。大多数OpenRE方法通常局限于无监督方法提取命名实体之间的关系模式,然后将语义等价的模式聚类成一个关系簇,但由于缺少监督信息且聚类精度较低,影响了最终的关系抽取效果。为了进一步提高聚类性能,该文提出一种无监督集成聚类框架(Unsupervised Ensemble Clustering,UEC),它将无监督集成学习与基于信息度量的多步聚类算法相结合自主创建高质量伪标签,并以此作为监督信息改进关系特征的学习,从而引导聚类过程,获得更好的标签质量,最后通过多次迭代聚类发现文本中的关系类型。在FewRel和NYT-FB数据集上的实验结果表明,该文方法优于其他主流的基线OpenRE模型,F1值分别达到了65.2%和67.1%。  相似文献   

17.
基于支持向量机与无监督聚类相结合的中文网页分类器   总被引:74,自引:0,他引:74  
提出了一种将支持向量机与无监督聚类相结合的新分类算法,给出了一种新的网页表示方法并应用于网页分类问题。该算法首先利用无监督聚类分别对训练集中正例和反例聚类,然后挑选一些例子训练SVM并获得SVM分类器,任何网页可以通过比较其与聚类中心的距离决定采用无监督聚类方法或SVM分类器进行分类。该算法充分利用了SVM准确率高与无监督聚类速度快的优点。实验表明它不仅具有较高的训练效率,而且有很高的精确度。  相似文献   

18.
基于文档标引图模型的文本相似度策略   总被引:2,自引:1,他引:1       下载免费PDF全文
文档标引图是一种基于短语的图结构文本特征表示模型,能更加全面、准确地表达文本特征信息,实现渐增的文本聚类和信息处理。该文基于文档标引图特征模型,提出文档相似度计算加法策略和乘法策略,采用变换函数对文档相似度值进行调整,增强文档之间的可区分性,改进文本聚类和分类等处理的性能,实例证明了策略的有效性。  相似文献   

19.
As a data mining method, clustering, which is one of the most important tools in information retrieval, organizes data based on unsupervised learning which means that it does not require any training data. But, some text clustering algorithms cannot update existing clusters incrementally and, instead, have to recompute a new clustering from scratch. In view of above, this paper presents a novel down-top incremental conceptual hierarchical text clustering approach using CFu-tree (ICHTC-CF) representation, which starts with each item as a separate cluster. Term-based feature extraction is used for summarizing a cluster in the process. The Comparison Variation measure criterion is also adopted for judging whether the closest pair of clusters can be merged or a previous cluster can be split. And, our incremental clustering method is not sensitive to the input data order. Experimental results show that the performance of our method outperforms k-means, CLIQUE, single linkage clustering and complete linkage clustering, which indicate our new technique is efficient and feasible.  相似文献   

20.
一种新的半监督入侵检测算法   总被引:3,自引:0,他引:3  
宋凌  李枚毅  李孝源 《计算机应用》2008,28(7):1781-1783
针对无监督学习的入侵检测算法准确度不高、监督学习的入侵检测算法训练样本难以获取的问题,提出了一种粒子群改进的K均值半监督入侵检测算法,利用少量的标记数据生成正确样本模型来指导大量的未标记数据聚类,对聚类后仍未能标记的数据采用粒群优化的K均值聚类,有效提高分类器的分类准确性,并实现了对新类型攻击的检测。实验结果表明,算法的整体检测效果明显优于基于无监督学习和监督学习的检测算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号