共查询到20条相似文献,搜索用时 233 毫秒
1.
一种结合主动学习的半监督文档聚类算法 总被引:1,自引:0,他引:1
半监督文档聚类,即利用少量具有监督信息的数据来辅助无监督文档聚类,近几年来逐渐成为机器学习和数据挖掘领域研究的热点问题.由于获取大量监督信息费时费力,因此,国内外学者考虑如何获得少量但对聚类性能提高显著的监督信息.提出一种结合主动学习的半监督文档聚类算法,通过引入成对约束信息指导DBSCAN的聚类过程来提高聚类性能,得到一种半监督文档聚类算法Cons-DBSCAN.通过对约束集中所含信息量的衡量和对DBSCAN算法本身的分析,提出了一种启发式的主动学习算法,能够选取含信息量大的成对约束集,从而能够更高效地辅助半监督文档聚类.实验结果表明,所提出的算法能够高效地进行文档聚类.通过主动学习算法获得的成对约束集,能够显著地提高聚类性能.并且,算法的性能优于两个代表性的结合主动学习的半监督聚类算法. 相似文献
2.
半监督聚类就是利用样本的监督信息来帮助提升无监督学习的性能。在半监督聚类中,成对约束(must-link约束和cannot-link约束)作为样本的先验知识被广泛地使用。凝聚层次聚类(AHC)也叫合成聚类,是层次聚类法的一种。提出了一种基于成对约束的半监督凝聚层次聚类算法(PS-AHC),该算法利用成对约束来改变聚类簇之间的距离,使聚类簇之间的距离更真实。在UCI数据集上的实验表明,PS-AHC能有效地提高聚类的准确率,是一种有前景的半监督聚类算法。 相似文献
3.
4.
一种基于谱聚类的半监督聚类方法 总被引:6,自引:1,他引:6
半监督聚类利用少部分标签的数据辅助大量未标签的数据进行非监督的学习,从而提高聚类的性能。提出一种基于谱聚类的半监督聚类算法,其利用标签数据的信息,调整点与点之间的距离所形成的距离矩阵,而后基于被调整的距离矩阵进行谱聚类。实验表明,该算法较之于已提出的半监督聚类算法,获得了更好的聚类性能。 相似文献
5.
谱聚类算法是基于谱图划分理论的一种机器学习算法,它能在任意形状的样本空间上聚类且收敛于全局最优解。但是传统的谱聚类算法很难正确发现密度相差比较大的簇,参数的选取要靠多次实验和个人经验。结合半监督聚类的思想,在给出一部分监督信息的前提下,提出了一种基于共享近邻的成对约束谱聚类算法(Pairwise Constrained Spectral Clustering Based on Shared Nearest Neighborhood,PCSC-SN)。PCSC-SN算法是用共享近邻去衡量数据对之间的相似性,用主动约束信息找到两个数据点之间的关系。在数据集UCI上做了一系列的实验,实验结果证明,与传统的聚类算法相比,PCSC-SN算法能够获得更好的聚类效果。 相似文献
6.
现有的半监督聚类集成方法能利用先验信息,使集成的准确性、鲁棒性和稳定性得到提高,但在集成阶段加入成对约束信息时,只考虑了给定的约束信息而忽视了约束点与被约束点的邻域点之间的关系.针对此问题,提出了一种基于数据相关性的半监督模糊聚类集成方法.该方法首先利用半监督模糊聚类算法建立集成信息矩阵,并将其转换为相似性矩阵;然后,利用已知的约束信息及约束点与被约束点的邻域点之间的关系来修改相似性矩阵;最后,利用图划分算法得到最终的聚类结果.真实数据上的实验结果表明,提出的方法可以有效提高聚类质量. 相似文献
7.
为了解决半监督聚类先验知识少、聚类偏差大的问题,提出了基于成对约束的主动半监督聚类算法.引入主动学习算法,增加约束集的信息量以使聚类效果更好;利用该约束集建立投影矩阵映射数据到低维空间,便于计算并提高聚类效果.算法中提出闭包替代思想,试图简化样本空间,以期获得降低聚类偏差的可能.由于聚类算法的实施对象是低维数据,成对约束集信息量大,聚类的时间效率以及性能均可保证.实验结果表明,采用主动学习的半监督聚类算法聚类效果提升显著,高效合理. 相似文献
8.
通过学习数据集的低维流形结构,给出一种流形距离测度;结合成对约束信息,调整数据的相似度矩阵,将其作为近邻传播算法的输入,提出了基于流形距离的半监督近邻传播聚类算法(SAP-MD)。通过在UCI标准数据集上的仿真实验表明,SAP-MD算法相比于仅利用成对约束信息的聚类算法,在聚类性能上有很大提高。 相似文献
9.
魏曰海 《电脑编程技巧与维护》2013,(24):97-97,100
对于所提出的建立在成对约束基础之上的半监督凝聚层次聚类算法,对聚类簇进行半监督处理的最主要目的在于借助于对样本监督信息的合理应用,达到提高样本在无监督状态下学习性能的目标.在现阶段的技术条件支持下,以半监督聚类分析为核心,建立在must link以及cannot link基础之上的约束关系被广泛地应用于样本聚类分析的过程当中.从这一角度上来说,为了使聚类簇与聚类簇之间的距离关系表述更加的真实与精确,就要求通过对成对约束关系的综合应用,实现对聚类簇距离的有效调整与优化. 相似文献
10.
极大熵聚类(MEC)目标函数中缺乏成对约束的有效信息表达,在拥有少量成对约束的情况下,可能导致有效监督信息的浪费.在MEC的基础上,文中提出基于成对约束的交叉熵半监督聚类算法.利用样本交叉熵表达成对约束信息,并作为惩罚项引入至MEC的目标函数中,通过拉格朗日最优化处理目标函数,得出聚类中心与隶属度的迭代公式.实验表明,文中算法能有效利用少量的成对约束监督信息提高聚类性能,在实际数据应用中性能较好 相似文献
11.
直觉模糊C-均值聚类算法研究 总被引:2,自引:0,他引:2
鉴于直觉模糊集理论作为模糊理论的推广已得到广泛的应用,研究了将模糊C-均值聚类推广为直觉模糊C-均值聚类(IFCM)的途径和方法,分析了现有的几种IFCM算法,并提出了一种基于直觉模糊集的模糊C-均值聚类算法.该算法首先定义了直觉模糊集之间的距离;然后构造了聚类的目标函数;最后给出了聚类算法步骤.将算法用于目标识别,实验结果表明了算法的有效性. 相似文献
12.
一种人工免疫算法优化的高有效性模糊聚类图像分割 总被引:1,自引:0,他引:1
针对传统模糊聚类初值敏感、易陷入局部最优的缺陷,将具有良好勘探和开采能力的人工免疫算法用于模糊聚类的优化并提出了相应的图像分割算法.利用改进的Hausdorff距离提出一种新的抗体浓度评价算子并定义了相应的免疫算子,简化了免疫操作,增强了算法自适应寻优能力.采用最近提出的一种有效性函数作为聚类适应度函数,以人工免疫算法寻优,从而自适应地确定聚类数日与中心,实现自动图像分割.仿真实验表明,该算法可以实现图像的自动高有效性分割. 相似文献
13.
传统的基于密度的带噪声空间数据聚类算法主要存在以下问题:聚类只对具有数值属性的数据有效,而对具有非数值属性的数据失效;参数设置困难且聚类结果对参数较为敏感;聚类的度量以绝对密度值为标准,无法发现密度等级不同的聚类结果.针对以上问题,提出一种面向混合属性数据的、基于相对密度的聚类算法 RDBC M,同时提出解决这类问题的增量式聚类算法,并从理论和仿真实验两方面分析、验证了算法的有效性和加速效果. 相似文献
14.
针对氧化铝蒸发过程出口浓度在线检测问题,提出一种基于灰色关联分析和核模糊聚类相结合的多支持向量机蒸发过程建模方法.该方法采用灰色关联分析提取影响出口浓度较大的变量,再用核模糊聚类算法将样本划分成不同的子类,并对各子类构建的支持向量机模型的输出综合加权得到最终输出.对蒸发过程生产数据进行实验,并与核模糊聚类最小二乘支持向量机(KFCM-LSSVM)相比较,结果表明新模型鲁棒性较强、精度较高、泛化性更好,可以用于蒸发过程的优化控制. 相似文献
15.
针对现有直觉模糊聚类方法大都未考虑属性(指标)权重,计算过于复杂且计算结果为实数的问题,提出一种基于新直觉模糊相似度的聚类方法,计算结果为直觉模糊数,运用直觉模糊熵得到属性权重,构造了一种考虑属性权重的直觉模糊相似度公式,得到直觉模糊相似矩阵,设计了风险参数,决策者根据自己风险偏好选择风险参数进行聚类.最后通过算例验证了所提出方法的可行性和合理性. 相似文献
16.
17.
在将图像中的多种颜色或灰度量化成数目较少的颜色或灰度的过程中,存在着计算过于复杂、量化后图像偏差较大等问题,鉴于此,提出基于邻域灰度值聚类的图像色彩量化方法.首先结合邻域像素的灰度和空间信息对像素进行一维灰度化;然后采用基于像素灰度加权系数的改进模糊 均值聚类算法对像素进行聚类.分析和实验表明,该方法可以减少量化计算的复杂度,保持图像的整体层次,量化后图像偏差较小,对图像处理具有一定的实用价值. 相似文献
18.
19.
20.
基于密度的聚类算法具有挖掘任意形状聚类结果和处理“噪声”数据等优势,同时也存在无法处理高维和密度分布不均匀数据的缺陷;鉴于此,给出了节点优先级导向的聚类算法.首先建立数据集的有向K邻居图:然后用K-最近邻核密度估计方法获得数据对象的局部信息,并在图中迭代地传播,以产生数据对象的优先级;最后以该优先级为导向从图中搜索聚类结果.实验结果表明,该算法适合处理高维、密度分布不均匀的数据. 相似文献