首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 343 毫秒
1.
闫伟  张浩  陆剑峰 《控制与决策》2006,21(5):563-566
离群数据挖掘是数据挖掘的重要内容.利用蚁群算法鲁棒性强的优点,改进了聚类方法.在此基础上,将聚类分析和蚁群算法某些参数相结合,提出一种基于聚类的离群指数新定义,成功地实现了离群数据挖掘过程并编程实现.采用此方法对流程企业的大量历史数据进行分析,从而起到了对设备运行优化和故障预警的作用.  相似文献   

2.
针对典型K-Means算法随机选取初始中心点导致的算法迭代次数过多的问题,采取数据分段方法,将数据点根据距离分成k段,在每段内选取一个中心作为初始中心点,进行迭代运算;为寻找最优的聚类数目k,定义了新的聚类有效性函数-聚类指数,包含聚类紧密度和聚类显著度两个指标,通过最优化聚类指数,在[1, n ]内寻找最优的k值。在IRIS数据集进行的仿真实验结果表明,算法的迭代次数明显减少,寻找的最优k值接近数据集的真实情况,算法有效性得到了验证。  相似文献   

3.
k-LDCHD--高维空间k邻域局部密度聚类算法   总被引:7,自引:0,他引:7  
聚类是数据挖掘领域的一项重要课题,高维空间聚类以数据分布稀疏、噪声数据多、“差距趋零现象”而成为难点.在分析现有聚类算法不足的基础上,引入k邻域点集、k邻域半径等概念,提出一种高维空间单参数k邻域局部密度聚类算法k—PCLDHD;为了提高算法的效率,进一步定义了参考距离等概念,并采用“双参考数据点”对数据集中的数据对象进行预处理,以减少扫描数据集的开销。提出k—PCLDHD的优化算法k—LDCHD.理论分析和实验结果表明,算法可以有效解决高维空间聚类问题,算法是有效可行的.  相似文献   

4.
针对基于模糊C均值聚类(fuzzy C-means,FCM)算法框架的竞争聚集聚类(competitive agglomeration,CA)算法中模糊指数m被限定为2的问题,提出了一种更为普适的模糊聚类新算法.该算法首先在FCM算法框架的基础上引入熵指数约束条件,构造了基于熵指数约束的模糊C均值聚类(entropy index constraint FCM,EIC-FCM)算法,成功地将模糊指数m1的约束条件转换为熵指数0r1的约束条件,经分析该算法具备与经典FCM算法等效的聚类性能.其后进一步在EIC-FCM算法的框架下融入竞争学习机制得到基于熵指数约束的竞争聚集聚类(entropy index constraint CA,EICCA)算法,该算法由于使用(0,1)范围的熵指数约束而不再受到模糊指数仅为2的限制,增强了算法的适应性且更具普适性的特征.在模拟数据集以及UCI数据集上的实验结果同样表明,EICCA方法较之经典的CA算法性能更为优越,参数的选择更为灵活.  相似文献   

5.
针对现有的增量聚类算法对参数敏感度较高、时空复杂度较高等问题,提出了一种基于代表点的增量聚类算法。首先采用代表点聚类算法对静态的数据库进行聚类;然后根据新增加的节点与已存的代表点之间的关系,判断是否将其添加到已存的代表点所属的类簇中,或是提升为新的代表点;最后,再次采用代表点聚类算法对其进行聚类。实验结果证明,该算法对参数的敏感性低、效率高、占用空间小。  相似文献   

6.
为了提高演化数据聚类的平滑度,提出了一种演化数据聚类框架。该框架综合考虑不同时间点的历史数据对当前时刻的演化数据聚类的影响,将指数衰减思想应用于平滑正则项中,然后将谱聚类算法应用于该框架,得到基于指数衰减的演化谱聚类算法。实验结果表明,该算法有效地提高了演化数据聚类的平滑度。  相似文献   

7.
密度峰值聚类算法(Density Peaks Clustering,DPC),是一种基于密度的聚类算法,该算法具有不需要指定聚类参数,能够发现非球状簇等优点。针对密度峰值算法凭借经验计算截断距离[dc]无法有效应对各个场景并且密度峰值算法人工选取聚类中心的方式难以准确获取实际聚类中心的缺陷,提出了一种基于基尼指数的自适应截断距离和自动获取聚类中心的方法,可以有效解决传统的DPC算法无法处理复杂数据集的缺点。该算法首先通过基尼指数自适应截断距离[dc],然后计算各点的簇中心权值,再用斜率的变化找出临界点,这一策略有效避免了通过决策图人工选取聚类中心所带来的误差。实验表明,新算法不仅能够自动确定聚类中心,而且比原算法准确率更高。  相似文献   

8.
模糊C均值( FCM)聚类算法最终形成的聚类质量会受到初始值的设定、簇的个数选定及参数选择等多方面因素的影响。文中对最近发表的5种代表性聚类有效性指数在不同的数据维数、聚类个数和参数等条件下对FCM的聚类有效性评价结果进行对比分析。实验结果表明基于类内紧致度和类间离散度比值的聚类有效性指数对数据维度及噪声较为鲁棒,基于隶属度的聚类有效性指数不适于高维数据等,上述结果可帮助研究人员在不同的应用环境下选择合适的模糊聚类有效性函数。  相似文献   

9.
传统谱聚类算法受高斯核尺度参数的影响较大,对噪声点较为敏感,并且不能利用先验信息指导聚类过程。针对以上问题,提出了一种基于路径相似度测量的鲁棒性谱聚类算法(RPB-SC)。该算法将路径聚类与谱聚类算法相结合,通过定义高斯核的邻域加权尺度因子计算相似度,再用路径聚类思想对全局相似度进行调节,同时通过成对限制先验信息辅助聚类搜索。在人工数据集和真实数据集上的实验表明,新提出的算法能有效减弱高斯核尺度参数的影响,增强对噪声点的鲁棒性,提高聚类性能。  相似文献   

10.
基于小波特征和模拟退火的遥感图象快速聚类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
不同遥感对象,光谱曲线的突变点位置差异很大,不同尺度的小波变换可有效提取这些突变特征,在此基础上,用小波特征相关系数描述像素的近似程度,取代一般聚类算法以欧氏距离为基础的聚类概念,聚类结果可准确反映遥感对象内容,基于小波特征抽取和模拟退火的多光谱遥感图象快速聚类算法,通过扩展频段,增加特征点的个数以丰富类的特性,对空间数据进行均匀抽样产生聚类空间,采用模拟退火技术和逐步降低聚类规模的方法,快速实现全局最优的聚类中心,类内评价最优代表作为聚类中心,保证类特性的持续性和强壮性,而且解决了K-means聚类的参数选择问题,最后采用TM多光谱遥感图象进行参数分析和算法比较,验证了该算法分类快速准确,且参数控制灵活,因此基于小波特征抽取和模拟退火的多光谱遥感图象快速聚类算法有较好的应用前景。  相似文献   

11.
加权聚类分析在设备运行监控中的应用   总被引:3,自引:0,他引:3  
论文采用数据挖掘中的聚类分析算法对流程企业的大量而正常的历史数据进行分析,首先采用基于欧几里德距离的加权K-means算法建立了参数的聚类模型,然后用相关系数法计算每个簇团中的参数和中心参数的相似度,得到了相似度阈值。以此为基础,可以对设备的运行状况进行监控,从而起到设备运行优化和故障预警的作用。  相似文献   

12.
基于相似孤立系数的孤立点检测算法   总被引:1,自引:0,他引:1  
基于聚类的孤立点检测算法得到的结果比较粗糙,不够准确。针对该问题,提出一种基于相似孤立系数的孤立点检测算法。定义相似距离以及相似孤立点系数,给出基于相似距离的剪枝策略,根据该策略缩小可疑孤立点候选集,并降低孤立点检测算法的计算复杂度。通过选用公共数据集Iris、Labor和Segment—test进行实验验证,结果表明,该算法在发现孤立点、缩小候选集等方面相比经典孤立点检测算法更有效。  相似文献   

13.
由于实际问题中用户的行为模式存在多样性和不可预知性,传统异常检测方法采用提前设定正常模式或异常模式进行学习变得非常困难。针对这个问题,本文提出一种基于k-均值聚类的自适应异常检测方法,称为OD_KC方法。该方法设置不同的聚类个数对无标签的样本集进行k-均值聚类,通过构造测度函数,以衡量聚类结果的抱团性和分离性,从而获得最佳的聚类结果,同时自动得到那些被划分为很小规模的类的样本作为异常模式样本。基于k-均值的异常检测方法具有很强的自主性和自适应性,特别地,当样本分布模式复杂时,也能得到较为优秀的检测结果,具有较好的异常检测能力。实验结果表明,基于k-均值聚类的异常检测技术能够得到较好的检测结果。  相似文献   

14.
近年来,混合型数据的聚类问题受到广泛关注。作为处理混合型数据的一种有效方法,K-prototype聚类算法在初始化聚类中心时通常采用随机选取的策略,然而这种策略在很多实际应用中难以保证聚类结果的质量。针对上述问题,采用基于离群点检测的策略来为K-prototype算法选择初始中心,并提出一种新的混合型数据聚类初始化算法(initialization of K-prototype clustering based on outlier detection and density, IKP-ODD)。给定一个候选对象,IKP-ODD通过计算其距离离群因子、加权密度以及与已有初始中心之间的加权距离来判断候选对象是否是一个初始中心。IKP-ODD通过采用距离离群因子和加权密度,防止选择离群点作为初始中心。在计算对象的加权密度以及对象之间的加权距离时,采用邻域粗糙集中的粒度邻域熵来计算每一个属性的重要性,并根据属性重要性的大小为不同属性赋予不同的权重,有效地反映不同属性之间的差异性。在多个UCI数据集上的实验表明,相对于现有的初始化方法,IKP-ODD能够更好地解决K-prototype聚类的初始化问题。  相似文献   

15.
随着聚类技术的发展.对不同密度的数据集的聚类需求也越来越迫切。为了解决不同密度数据集的聚类问题,提出一种基于距离和密度的多阶段聚类算法MCDD。该算法主要采用多阶段密度处理技术提取不同密度的聚类,同时使用密度因子提高聚类的精度.最后通过使用距离阈值的方法去除孤立点和噪声数据。实验表明,该算法在扩展性方面表现良好.对任意形状和大小的聚类都可以很好地处理,并能够很好地识别出孤立点或噪声,在处理多密度聚类方面有很好的精度。  相似文献   

16.
NJW在离群数据挖掘中的应用研究   总被引:2,自引:2,他引:0       下载免费PDF全文
最近几年,谱聚类思想开始用于数据挖掘领域,并取得了较好的效果;离群数据挖掘是对离群点进行检测,发掘出有用知识。将谱聚类中的NJW算法成功应用到离群数据挖掘领域,并结合离群指数的概念,提出了一种适合离群数据挖掘的谱聚类算法。与原有的基于聚类的离群检测算法相比,具有更好的效率和适应性。实验验证了所提算法的有效性和可行性。  相似文献   

17.
一种PST_LDA中文文本相似度计算方法   总被引:3,自引:1,他引:2  
为了降低中文文本相似度计算方法的时间消耗,提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集,分别用LDA方法和PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。  相似文献   

18.
针对现有的离群数据检测算法时间复杂度过高,且检测质量不佳的不足,提出一种新的基于改进的OPTICS聚类和LOPW的离群数据检测算法。首先,使用改进的OPTICS聚类算法对原始数据集进行预处理,筛选由聚类形成的可达图得到初步离群数据集;然后,利用新定义的基于P权值的局部离群因子LOPW计算初步离群数据集中对象的离群程度,计算距离时引入去一划分信息熵增量确定属性的权重,提高离群检测准确性。实验结果表明,改进后的算法不仅提高了运算效率,而且提高了对离群数据检测的精确度。  相似文献   

19.
为了深入挖掘校园无线网络轨迹行为数据信息,采用基于密度的聚类方法对校园内用户的轨迹行为进行特征聚类。由于基于密度的聚类算法通常采用距离作为相似性度量方式,为了有效衔接此类聚类算法,先将用户相似度矩阵通过转换函数转变为距离矩阵。引入离群点检测算法,将离群点检测算法与聚类算法相结合,减少参数的输入个数,增加聚类的聚合程度。改进后的聚类算法可以有效检测出数据轨迹的异常,帮助高校通过对学生上网记录的处理找到浏览信息与大部分同学不一致的人,缩小目标范围,进行有针对性的处理。通过定性分析和实验对比验证,确定两种基于离群点检测的共享最近邻的快速搜索密度峰值聚类适用于校园无线网络行为轨迹相似度矩阵的处理,邓恩指数等聚类内部指标及整体性能优于同类算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号