首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
李展  彭进业  温超 《计算机科学》2011,38(7):235-239
多示例学习中,包由多个示例组成,有明确标记,而示例标记却不确定。已有聚类研究都针对单示例、单标记,因而无法直接应用于多示例问题。基于推土机距离(earth mover's distance, EMD)提出了一种新的多示例聚类算法ECMIL。该方法首先利用欧式距离计算包内示例相似度,将相似示例合并;然后将需要度量距离相似性的包内示例分别看作供货者和消费者,计算货物拥有量和货物需求量;对推土机距离无法供货问题,通过增大满足条件供货者的权值加以解决;最后使用k-mcdoids算法进行聚类。在基准数据集MUSK, Corcl和SIVAI上进行实验,表明EC-MIL算法是有效的。  相似文献   

2.
传统的基于欧氏距离和K-means聚类算法的空值估计算法容易因为欧氏距离对量纲的敏感性和初始聚类中心对K-means聚类效果的影响产生估值误差。将层次聚类算法和K-means聚类算法有机结合起来的H-K聚类算法克服了K-means算法对初始聚类中心的敏感性,从而改善了聚类效果。与欧氏距离不同,马氏距离可以避免量纲的影响。为此提出一种改进的空值估计算法,将H-K聚类应用到空值估计算法中进行聚类,在聚类时采用马氏距离代替欧氏距离,在聚类后使用多元线性回归法计算样本中的空值。实验结果表明改进后的空值估计算法使得估计值的绝对误差率(MAER)得到降低。  相似文献   

3.
随着聚类技术的发展.对不同密度的数据集的聚类需求也越来越迫切。为了解决不同密度数据集的聚类问题,提出一种基于距离和密度的多阶段聚类算法MCDD。该算法主要采用多阶段密度处理技术提取不同密度的聚类,同时使用密度因子提高聚类的精度.最后通过使用距离阈值的方法去除孤立点和噪声数据。实验表明,该算法在扩展性方面表现良好.对任意形状和大小的聚类都可以很好地处理,并能够很好地识别出孤立点或噪声,在处理多密度聚类方面有很好的精度。  相似文献   

4.
文本聚类是自然语言处理中的一项重要研究课题,主要应用于信息检索和Web挖掘等领域。其中的关键是文本的表示和聚类算法。在层次聚类的基础上,提出了一种新的基于边界距离的层次聚类算法,该方法通过选择两个类间边缘样本点的距离作为类间距离,有效地利用类的边界信息,提高类间距离计算的准确性。综合考虑不同词性特征对文本的贡献,采用多向量模型对文本进行表示。不同文本集上的实验表明,基于边界距离的多向量文本聚类算法取得了较好的性能。  相似文献   

5.
基于满意聚类的多模型建模方法   总被引:11,自引:0,他引:11  
从系统输入输出数据出发, 首先在GK模糊聚类算法的基础上, 提出一种模糊满意聚类算法, 该算法能快速对系统进行用户满意的模糊划分 ;继而将其引入多模型建模过程中, 满意的系统划分数目即对应多模型个数, 然后针对不同的聚类建立起相应的子系统模型, 全局系统可视为各子模型的加权组合 ;最后通过几个典型实例验证了模糊满意聚类及基于此的多模型建模方法的有效性、准确性和快速性.  相似文献   

6.
基于最大最小距离法的多中心聚类算法   总被引:19,自引:0,他引:19  
周涓  熊忠阳  张玉芳  任芳 《计算机应用》2006,26(6):1425-1427
针对k-means算法的缺陷,提出了一种新的多中心聚类算法。运用两阶段最大最小距离法搜索出最佳初始聚类中心,将原始数据集分割成小类后用合并算法形成最终类,即用多个聚类中心联合代表一个延伸状或者较大形状的簇。仿真实验表明:该算法能够智能地确定初始聚类种子个数,对不规则状数据集进行有效聚类, 聚类性能显著优于k-means算法。  相似文献   

7.
在现有多种距离度量和传统谱聚类算法的基础上,提出了一种新的基于有效距离的谱聚类算法(spectral clustering based on effective distance,SCED)。SCED算法通过稀疏重构系数来构建样本与样本之间的有效距离,从而代替传统谱聚类算法中的欧氏距离,进行样本之间的相似度评估。与传统距离度量相比,有效距离不仅利用了样本对之间的距离信息,同时考虑了目标样本与其他所有相关样本之间的距离信息,因而该距离度量具有全局特性。在UCI标准数据集上的实验结果表明,SCED算法能有效提高聚类效果。  相似文献   

8.
针对模糊聚类中普遍存在的聚类个数需要事先给定和收敛速度慢等问题,在原有聚类方法的基础上提出一种改进满意聚类算法。用该算法快速确定系统的模糊划分数目,进而用支持向量机算法建立每个聚类的子模型,将输入变量对各类别的隶属度作为权值,将多个子模型用加权方式组合。工业仿真实例验证了基于该方法的多模型建模方法的有效性、准确性和快速性。  相似文献   

9.
杜洁  马燕  黄慧 《计算机应用》2022,42(5):1472-1479
密度峰值聚类(DPC)算法对于密度多样、形状复杂的数据集不能准确选择聚类中心,同时基于局部引力的聚类(LGC)算法参数较多且需要手动调参。针对这些问题,提出了一种基于局部引力和距离的聚类算法(LGDC)。首先,利用局部引力模型计算数据点的集中度(CE),根据集中度确定每个数据点与高集中度的点之间的距离;然后,选取具有高集中度值和高距离值的数据点作为聚类中心;最后,基于簇的内部点集中度远高于边界点的集中度的思想,分配其余数据点,并且利用平衡k近邻实现参数的自动调整。实验结果表明,LGDC在4个合成数据集上取得了更好的聚类效果;且在Wine、SCADI、Soybean等真实数据集上,LGDC的调整兰德系数(ARI)指标相较DPC、LGC等算法平均提高了0.144 7。  相似文献   

10.
孙芯宇  吴江  蒲强 《计算机应用》2016,36(5):1313-1318
针对由不稳定聚类估计的相关模型影响检索性能的问题,提出了基于稳定性语义聚类的相关模型(SSRM)。首先利用初始查询前N个结果文档构成反馈数据集;然后探测数据集中稳定的语义类别数量;接着从稳定性语义聚类中选择与用户查询最相似的语义类别估计SSRM;最后通过实验对模型的检索性能进行了验证。对TREC数据集5个子集的实验结果显示,SSRM相比相关模型(RM)、语义相关模型(SRM),平均准确率(MAP)性能最少提高了32.11%和0.41%;相比基于聚类的文档模型(CBDM)、基于LDA的文档模型(LBDM)和Resampling等基于聚类的检索方法,MAP性能最少提高了23.64%,19.59%和8.03%。实验结果表明,SSRM有利于改善检索性能。  相似文献   

11.
基于新的距离度量的K-Modes聚类算法   总被引:5,自引:1,他引:4  
传统的K-Modes聚类算法采用简单的0-1匹配差异方法来计算同一分类属性下两个属性值之间的距离, 没有充分考虑其相似性. 对此, 基于粗糙集理论, 提出了一种新的距离度量. 该距离度量在度量同一分类属性下两个属性值之间的差异时, 克服了简单0-1匹配差异法的不足, 既考虑了它们本身的异同, 又考虑了其他相关分类属性对它们的区分性. 并将提出的距离度量应用于传统K-Modes聚类算法中. 通过与基于其他距离度量的K-Modes聚类算法进行实验比较, 结果表明新的距离度量是更加有效的.  相似文献   

12.
牛科  张小琴  贾郭军 《计算机工程》2015,41(1):207-210,244
无监督学习聚类算法的性能依赖于用户在输入数据集上指定的距离度量,该距离度量直接影响数据样本之间的相似性计算,因此,不同的距离度量往往对数据集的聚类结果具有重要的影响。针对谱聚类算法中距离度量的选取问题,提出一种基于边信息距离度量学习的谱聚类算法。该算法利用数据集本身蕴涵的边信息,即在数据集中抽样产生的若干数据样本之间是否具有相似性的信息,进行距离度量学习,将学习所得的距离度量准则应用于谱聚类算法的相似度计算函数,并据此构造相似度矩阵。通过在UCI标准数据集上的实验进行分析,结果表明,与标准谱聚类算法相比,该算法的预测精度得到明显提高。  相似文献   

13.
详细分析了non-metric距离对传统聚类算法的影响,提出了用有向图和有向树描述的聚类模型.基于该模型,给出了能对具有non-metric距离特征的数据进行有效聚类的算法.在实际的购物篮数据集上进行了验证;实验结果表明,所提算法在保证聚类效率的同时,大幅度提高了聚类质量.  相似文献   

14.
基于可行模型集合方法的多模型切换控制   总被引:1,自引:0,他引:1  
王建  张珩 《控制工程》2004,11(3):197-200
对含参数跳变的一类具有有界干扰的多输入多输出系统,为改善系统的瞬态响应性能,采用由多个固定模型和两个自适应模型组成的多模型,并引入切换指标函数构成多模型切换控制器。为克服多模型方法计算量大的缺点,采用可行模型集合方法,给出了可行模型应满足的必要条件。应用这一必要条件,对系统的多个模型进行检验,可快速缩小模型可行集合的范围,再通过切换指标函数,在可行模型集合中选择正确的控制器,从而在不降低系统响应性能的前提下,提高计算速度。  相似文献   

15.
异常值检测是数据挖掘领域中的核心问题,在工业生产中也有着广泛的应用。准确高效的异常值检测方法能够及时反映出工业系统运行状态,为相关人员提供参考,而传统的异常值检测方法无法很好地检测出变化模式复杂、变化范围小、具有流数据特性的数据中的异常值。因此,本文提出了一种新的针对该类型数据的异常值检测方法:首先通过对数据进行聚类划分,将相似的数据进行归类,从而将原本复杂的数据分布拆解成为每个聚类下简单数据分布的叠加;然后使用核密度估计假设检验的方法对待检测数据进行异常值检测。在标准数据集和真实数据上的实验结果表明,该方法相比于传统的异常值检测方法在检测精度上有一定的提升。  相似文献   

16.
在多目标进化算法的研究中,解群体的多样性和运行效率是最重要的两个指标。在进化算法中一般采用构造非支配集的方法来保持算法的运行效率和解集的分布性;采用聚类技术来计算和维持解群体的分布性和多样性。文章提出了用庄家法构造非支配集和基于个体距离的聚类方法的多目标进化算法。经试验证明,该算法能够趋近到Pareto最优解,并且能保证较好的分布度。  相似文献   

17.
谱聚类算法受到度量中尺度因子的影响,同时传统谱聚类算法通过欧氏距离度量样本间相似性也不准确。针对上述问题,提出一种基于传递距离的谱聚类算法。算法首先通过改进传统谱聚类中的度量方式,用基于传递距离的度量方式度量样本间相似性,并构建传递矩阵,接着用传递矩阵做相似度变换构建拉普拉斯矩阵,最终通过求特征值和特征向量完成聚类。基于传递距离的谱聚类算法在人工数据集及UCI数据集上均取得了良好的聚类结果,具有较好的鲁棒性和有效性。  相似文献   

18.
本文研究加速K-medoids聚类算法,首先以PAM(Partitioning Around Medoids)、TPAM(Triangular Inequality Elimination Criteria PAM)算法为基础,给出两个加速引理,并基于中心点之间距离不等式提出两个新加速定理.同时,以On+K2)额外内存空间开销辅助引理、定理的结合而提出加速SPAM(Speed Up PAM)聚类算法,使得K-medoids聚类算法复杂度由OKn-K2)降低至O((n-K2).在实际及人工模拟数据集上的实验结果表明,相对PAM、TPAM、FKMEDOIDS(Fast K-medoids)等参考算法均有改进,运行时间比PAM至少提升0.828倍.  相似文献   

19.
基于流形距离的人工免疫半监督聚类算法   总被引:1,自引:1,他引:0  
将流形距离作为样本间相似性的基本度量测度,加入成对约束信息,通过近部传播得出新的度量矩阵。把聚 类问题转化为一优化数学模型。采用克隆选择算法求解这个优化模型,得出最后的聚类结果,通过人工数据集和UCI 标准数据集验证了这种方法具有较高的准确性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号