共查询到20条相似文献,搜索用时 78 毫秒
1.
对尽量少的样本进行人工标注并获得较好的分类性能是图像分类应用的一个关键问题。针对标注样本选择,提出了一种综合样本不确定性度量和代表性度量的主动学习样本选择准则。基于最优标号和次优标号(Best vs.second-best,BvSB)的主动学习方法构建不确定性度量,利用分层聚类(Hierarchical Clustering,HC)方法得到数据集的分层聚类树,然后依据聚类树结构和已标注样本在其中的分布信息定义每个未标注样本的代表性度量。将新方法与随机样本选择以及BvSB主动学习方法进行了比较,对1个光学图像集和1个全极化SAR数据集分类问题的实验结果显示,新方法性能稳定,优于其他两种方法。 相似文献
2.
主动学习已经被证明是一种成功的机器学习算法,最主要的缺点是它只注重样本的标签信息而忽略了样本的分布信息.因此带来的后果就是稳定性差,容易陷入局部最优解,同时对初始样本的选择非常敏感.论文将稀疏子空间聚类与主动学习相结合,首先利用稀疏子空间聚类找到原始数据的分布信息,然后利用该信息指导主动学习选取初始样本,使样本标注更加有效,提高了主动学习的效率,同时降低了主动学习对初始样本的敏感度.最后通过多组仿真实验证明,本方法可以有效的改善主动学习的性能. 相似文献
3.
主动学习是一种机器学习方法,需要选择最有价值的样本进行标注。目前,主动学习在应用时面临着一些挑战,其依赖分类器的先验假设,这容易导致分类器性能意外下降,同时需要一定规模的样本作为启动条件。聚类可以降低问题规模,是主动学习的一种有效手段。为此,结合密度聚类边界采样,开展主动学习方法的研究。针对容易产生分类错误的聚类边界区域,通过计算样本密度,提出一种密度峰值聚类边界点采样方法;在此基础上,给出密度熵的定义,并利用密度熵对聚类边界区域进行启发式搜索,提出一种基于聚类边界采样的主动学习方法。试验结果表明,与文献中的5种主动学习算法相比,该算法能够以更少标记量获得同等甚至更高的分类性能,是一种有效的主动学习算法;在标记不足,无标签样本总量20%的情况下,算法在Accuracy、F-score等指标上取得较好的结果。 相似文献
4.
K-Hub聚类算法是一种有效的高维数据聚类算法,但是它对初始聚类中心的选择非常敏感,并且对于靠近类边界的实例往往不能正确聚类.为了解决这些问题,提出一种结合主动学习和半监督聚类的K-Hub聚类算法.运用主动学习策略学习部分实例的关联限制,然后利用这些关联限制指导K-Hub的聚类过程.实验结果表明,基于主动学习的K-Hub聚类算法能有效提升K-Hub的聚类准确率. 相似文献
5.
传统的聚类算法在考虑类与类之间的连通性特征和近似性特征上往往顾此失彼。首先给出类边界点和类轮廓的基本定义以及寻求方法,然后基于类间连通性特征和近似性特征的综合考虑,拟定一些类间相似性度量标准和方法,最后提出一种基于类轮廓的层次聚类算法。该算法能够有效处理任意形状的簇,且能够区分孤立点和噪声数据。通过对图像数据集和Iris标准数据集的聚类分析,验证了该算法的可行性和有效性。 相似文献
6.
基于层次划分的最佳聚类数确定方法 总被引:20,自引:0,他引:20
确定数据集的聚类数目是聚类分析中一项基础性的难题.常用的trail-and-error方法通常依赖于特定的聚类算法,且在大型数据集上计算效率欠佳.提出一种基于层次思想的计算方法,不需要对数据集进行反复聚类,它首先扫描数据集获得CF(clusteringfeature,聚类特征)统计值,然后自底向上地生成不同层次的数据集划分,增量地构建一条关于不同层次划分的聚类质量曲线;曲线极值点所对应的划分用于估计最佳的聚类数目.另外,还提出一种新的聚类有效性指标用于衡量不同划分的聚类质量.该指标着重于簇的几何结构且独立于具体的聚类算法,能够识别噪声和复杂形状的簇.在实际数据和合成数据上的实验结果表明,新方法的性能优于新近提出的其他指标,同时大幅度提高了计算效率. 相似文献
7.
BTS(Best Two Step)聚类算法是结合层次聚类和划分聚类算法的两步聚类算法。层次聚类算法类与类之间不可以对象交换,很容易造成聚类质量不高的结果。而划分聚类对于初始值的设定以及异常噪声数据都很敏感,所以我们研究提出了BTS算法,实验证明BTS算法可达到高质量的聚类效果。 相似文献
8.
一种结合主动学习的半监督文档聚类算法 总被引:1,自引:0,他引:1
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法. 相似文献
9.
提出了一种新的基于PCA和K-均值聚类的有监督二叉分裂层次聚类方法PCASHC,用K-均值聚类进行逐次二叉聚簇分裂,选择PCA第一主成分相距最远样本点作为K-均值聚类初始聚簇中心,解决了K-均值聚类初始中心随机选择导致结果不确定的问题,用聚簇样本类别方差作为聚簇样本不纯度控制聚簇分裂水平,避免过拟合,可学习到合适的聚类数目。用四组UCI标准数据集对其进行了10折交叉验证分类误差检验,与另外七种分类器相比说明PCASHC有较高的分类精度。 相似文献
10.
聚类问题是近几年来机器学习和数据挖掘领域研究的热点问题,由于获取大量监督信息费时费力,目前国内外研究的重点是如何获得少量但对聚类性能提高显著的监督信息,再加上实际问题中存在的动态模糊性,故本文提出一种结合主动学习的动态模糊聚类算法DF-DBSCAN,通过引入动态模糊等价关系、动态模糊信任测度和动态模糊似然测度这3个约束信息来指导DBSCAN的聚类过程,以提高聚类的性能。实验结果表明,DF-DBSCAN算法不仅解决了实际问题中存在的动态模糊性数据的描述和表示问题,而且能够高效地进行数据聚类,显著地提高聚类性能。
相似文献
11.
利用传统方法预测母线负荷时,通常选取离待测日相近的一段时间作为历史相似日进行模型训练,没有考虑其天气情况、星期类型、节假日等因素的影响,相似日与待测日特征相差较大。为解决以上问题,提出一种基于层次聚类(HC)和极限学习机(ELM)的母线负荷预测算法。首先使用层次聚类法将母线历史日负荷进行聚类,然后对层次聚类得出的聚类结果建立决策树,其次根据待测日的温度、湿度、星期和节假日类型等日属性在决策树中匹配出训练极限学习机预测模型的历史日负荷,最后建立极限学习机预测模型,对待测日母线日负荷进行预测。对两条不同母线的负荷进行了预测,与传统单一的极限学习机相比,所提算法的平均绝对百分比误差(MAPE)分别降低了1.4和0.8个百分点。实验结果表明,所提算法预测母线负荷具有更高的预测精度和稳定性。 相似文献
12.
高光谱图像监督分类中,为了避免休斯效应需要大量的训练样本,但在实际应用中对样本进行标注成本非常高,因此,得到高质量的训练样本显得十分重要。提出一种基于主动学习的高光谱图像分类方法,通过对区域关注度的统计,有效地结合图像光谱和空间特性,基于主动学习方法获取信息量较大的训练样本,从而较大幅度提高了分类的精确度。实验结果表明,所提算法比传统的随机取样监督分类法和主动学习方法在分类精确度上有较大的优势。 相似文献
13.
针对现有的基于蛋白质相互作用(PPI)网络的蛋白质功能预测方法预测精度不高、易受数据噪声影响的问题,提出一种基于机器学习(层次聚类、主成分分析和多层感知器)的蛋白质功能预测方法HPMM。该方法综合考虑蛋白质宏观和微观层面的信息,将蛋白质家族、结构域和重要位点信息作为顶点属性整合到PPI网络中以减轻网络中数据噪声的影响。首先,基于层次聚类和主成分分析进行特征提取,得到功能模块和属性主成分特征,然后训练多层感知器模型,建立多特征与多功能之间的映射关系以用于功能预测。在三个分别被分子功能(MF)、生物过程(BP)和细胞组件(CC)注释的人类PPI网络上进行测试,对HPMM、余弦迭代算法(CIA)和有向PPI网络基因本体术语传播(GoDIN)算法的功能预测效果进行比较分析。实验结果表明,相比CIA和GoDIN这两种完全基于PPI网络的方法,HPMM的精确度与F值更高。 相似文献
14.
Hewijin Christine Jiau Yi-Jen Su Yeou-Min Lin Shang-Rong Tsai 《Journal of Intelligent Information Systems》2006,26(2):185-207
Clustering has been widely adopted in numerous applications, including pattern recognition, data analysis, image processing,
and market research. When performing data mining, traditional clustering algorithms which use distance-based measurements
to calculate the difference between data are unsuitable for non-numeric attributes such as nominal, Boolean, and categorical
data. Applying an unsuitable similarity measurement in clustering may cause some valuable information embedded in the data
attributes to be lost, and hence low quality clusters will be created. This paper proposes a novel hierarchical clustering
algorithm, referred to as MPM, for the clustering of non-numeric data. The goals of MPM are to retain the data features of
interest while effectively grouping data objects into clusters with high intra-similarity and low inter-similarity. MPM achieves
these goals through two principal methods: (1) the adoption of a novel similarity measurement which has the ability to capture
the “characterized properties” of information, and (2) the application of matrix permutation and matrix participation partitioning
to the results of the similarity measurement (constructed in the form of a similarity matrix) in order to assign data to appropriate
clusters. This study also proposes a heuristic-based algorithm, the Heuristic_MPM, to reduce the processing times required
for matrix permutation and matrix partitioning, which together constitute the bulk of the total MPM execution time.
An erratum to this article is available at . 相似文献
15.
结合改进主动学习的SVD-CNN弹幕文本分类算法 总被引:1,自引:0,他引:1
为解决传统卷积神经网络(CNN)模型使用池化层进行文本特征降维会损失较多文本语义信息的问题,提出一种基于奇异值分解(SVD)算法的卷积神经网络模型(SVD-CNN)。首先,采用改进的基于密度中心点采样的主动学习算法(DBC-AL)选择对分类模型贡献率较高的样本进行标注,以低标注代价获得高质量模型训练集;然后,结合SVD算法建立SVD-CNN弹幕文本分类模型,使用奇异值分解的方法代替传统CNN模型池化层进行特征提取和降维,并在此基础上完成弹幕文本分类任务;最后,使用改进的梯度下降算法(PSGD)对模型参数进行优化。为了验证改进算法的有效性,使用多种弹幕数据样本集,对提出的模型与常用的文本分类模型进行对比实验。实验结果表明,改进的算法能够更好地保留文本语义特征,保证训练过程的稳定性并提高了模型的收敛速度,在不同的弹幕文本上较传统算法具有更好的分类性能。 相似文献
16.
Kazumasa Ozawa 《Pattern recognition》1983,16(2):201-211
The nearest neighbors relation (NNR) is defined in terms of a given asymmetric matrix of similarities of data items. This paper presents a new clustering algorithm, called CLASSIC, based on an iteratively defined nested sequence of NNRs. CLASSIC has been applied to various types of gestalt clustering problems. For CLASSIC applications in which asymmetric similarities are not available a priori, this paper also introduces a method for obtaining asymmetric similarities from Euclidean distances. This method has been used in the detection of gestalt clusters by CLASSIC. 相似文献
17.
梁斌梅 《计算机工程与应用》2009,45(32):117-119
孤立点检测是数据挖掘过程的重要环节,提出了基于层次聚类的孤立点检测(ODHC)方法。ODHC方法基于层次聚类结果进行分析,对距离矩阵按簇间距离从大到小检测孤立点,可检测出指定离群程度的孤立点,直到达到用户对数据的集中性要求。该方法适用于多维数据集,且算法原理直观,用户友好,对孤立点的检测准确率较高。在iris、balloon等数据集上的仿真实验结果表明,ODHC方法能有效地识别孤立点,是一种简单实用的孤立点检测方法。 相似文献
18.
基于层次聚类的差异化属性约简算法 总被引:1,自引:0,他引:1
属性约简是粗糙集用于数据分析的一个重要概念,提出了一个计算差异化属性约简的算法。利用自底向上的聚合层次聚类方法对决策表的条件属性集进行聚类,得到条件属性集的k个划分,然后对这k个属性子集进行后处理操作而得到k个有较大差异的约简属性集。实验结果表明了算法的有效性。 相似文献
19.
提出一种基于复杂学习分类系统(XCS)的密度聚类方法,可以用于对任意形状且带有噪声的二维数据进行聚类分析。此方法称为DXCSc,主要包括以下三个过程:1)基于学习分类系统,对输入数据生成规则种群,并对规则进行适当压缩;2)将已经生成的规则视为二维数据点,进而基于密度聚类思想对二维数据点进行聚类;3)对密度聚类后的规则种群进行适当聚合,生成最终的规则种群。在第一个过程中,采用学习分类系统框架生成规则种群并进行适当约减。第二个过程认为种群的各规则簇中心比它们的邻居规则具有更高的密度,并且与密度更高的规则间距离更大。在第三个过程中,采用图分割方法对相关重叠簇进行适当聚合。在实验中,将所提方法与K-means、近邻传播聚类算法(AP)、Voting-XCSc等算法进行了比较,实验结果表明,所提方法在精度方面优于对比算法。 相似文献
20.
引入信息增益的层次聚类算法 总被引:3,自引:0,他引:3
层次聚类分析是模式识别和数据挖掘领域中一个非常重要的研究课题,具有广泛的应用前景。受决策树学习中选择最佳分类属性的启发,提出一种引入信息增益的层次聚类方法,该方法利用信息增益指导层次聚类中的属性加权,从而提高聚类结果质量。在UCI数据集上的实验结果表明,该算法性能明显优于原层次聚类算法。 相似文献