首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到15条相似文献,搜索用时 546 毫秒
1.
《工程科学学报》2019,(5):682-693
针对分类数据,通过数据对象在属性值上的集中程度定义了新的基于属性值集中度的类内相似度(similarity based on concentration of attribute values,CONC),用于衡量聚类结果中类内各数据对象之间的相似度;通过不同类的特征属性值的差异程度定义了基于强度向量差异的类间差异度(dissimilarity based on discrepancy of SVs,DCRP),用于衡量两个类之间的差异度.基于CONC和DCRP提出了新的分类数据聚类有效性内部评价指标(clustering validation based on concentration of attribute values,CVC),它具有以下3个特点:(1)在评价每个类内相似度时,不仅依靠类内各数据对象的特征,还考虑了整个数据集的信息;(2)采用几个特征属性值的差异评价两个类的差异度,确保评价过程不丢失有效的聚类信息,同时可以消除噪音的影响;(3)在评价类内相似度及类间差异度时,消除了数据对象个数对评价过程的影响.采用加州大学欧文分校提出的用于机器学习的数据库(UCI)进行实验,将CVC与类别效用(category utility,CU)指标、基于主观因素的分类数据指标(categorical data clustering with subjective factors,CDCS)指标和基于信息熵的内部评价指标(information entropy,IE)等内部评价指标进行对比,通过外部评价指标标准交互信息(normalized mutual information,NMI)验证内部评价效果.实验表明相对其他内部评价指标,CVC指标可以更有效地评价聚类结果.此外,CVC指标相对于NMI指标,不需要数据集以外的信息,更具实用性.  相似文献   

2.
针对分类数据, 通过数据对象在属性值上的集中程度定义了新的基于属性值集中度的类内相似度(similarity based on concentration of attribute values, CONC), 用于衡量聚类结果中类内各数据对象之间的相似度; 通过不同类的特征属性值的差异程度定义了基于强度向量差异的类间差异度(dissimilarity based on discrepancy of SVs, DCRP), 用于衡量两个类之间的差异度.基于CONC和DCRP提出了新的分类数据聚类有效性内部评价指标(clustering validation based on concentration of attribute values, CVC), 它具有以下3个特点: (1)在评价每个类内相似度时, 不仅依靠类内各数据对象的特征, 还考虑了整个数据集的信息; (2)采用几个特征属性值的差异评价两个类的差异度, 确保评价过程不丢失有效的聚类信息, 同时可以消除噪音的影响; (3)在评价类内相似度及类间差异度时, 消除了数据对象个数对评价过程的影响.采用加州大学欧文分校提出的用于机器学习的数据库(UCI)进行实验, 将CVC与类别效用(category utility, CU)指标、基于主观因素的分类数据指标(categorical data clustering with subjective factors, CDCS)指标和基于信息熵的内部评价指标(information entropy, IE)等内部评价指标进行对比, 通过外部评价指标标准交互信息(normalized mutual information, NMI)验证内部评价效果.实验表明相对其他内部评价指标, CVC指标可以更有效地评价聚类结果.此外, CVC指标相对于NMI指标, 不需要数据集以外的信息, 更具实用性.   相似文献   

3.
针对经典K–means算法对不均衡数据进行聚类时产生的“均匀效应”问题,提出一种基于近邻的不均衡数据聚类算法(Clustering algorithm for imbalanced data based on nearest neighbor,CABON)。CABON算法首先对数据对象进行初始聚类,通过定义的类别待定集来确定初始聚类结果中类别归属有待进一步核定的数据对象集合;并给出一种类别待定集的动态调整机制,利用近邻思想实现此集合中数据对象所属类别的重新划分,按照从集合边缘到中心的顺序将类别待定集中的数据对象依次归入其最近邻居所在的类别中,得到最终的聚类结果,以避免“均匀效应”对聚类结果的影响。将该算法与K–means、多中心的非平衡K_均值聚类方法(Imbalanced K–means clustering method with multiple centers,MC_IK)和非均匀数据的变异系数聚类算法(Coefficient of variation clustering for non-uniform data,CVCN)在人工数据集和真实数据集上分别进行实验对比,结果表明CABON算法能够有效消减K–means算法对不均衡数据聚类时所产生的“均匀效应”,聚类效果明显优于K–means、MC_IK和CVCN算法。   相似文献   

4.
提出基于集合差异度的聚类算法.算法通过定义的集合差异度和集合精简表示,直接进行一个集合内所有对象总体差异程度的计算,而不必计算两两对象间的距离,并且在不影响计算精确度的情况下对分类属性高维数据进行高度压缩,只需一次数据扫描即得到聚类结果.算法计算时间复杂度接近线性.实例表明该算法是有效的.  相似文献   

5.
由于时间序列数据具有高维度、动态性等特点,这就导致传统的数据挖掘技术很难有效的对其进行处理,为此,提出了一种基于多维时间序列形态特征的相似性动态聚类算法(similarity dynamical clustering algorithm based on multidimensionalshape features for time series,SDCTS).首先,提取多维时间序列的特征点以实现降维,然后,根据多维时间序列的斜率、长度和幅值变化的形态特征定义了一种新的时间序列相似性度量标准,进而提出无需人为给定聚类个数的多维时间序列动态聚类算法.实验结果表明,与其他算法相比,此算法对时间序列具有良好的聚类效果.  相似文献   

6.
提出了一种基于遗传算法(GA)和模糊C均值(FCM)算法的岩体结构面混合聚类方法.利用GA的全局搜索性能,求得初始聚类中心;在此基础上利用FCM算法,根据精度要求再作进一步求解.该方法避免了人为划定分类界限的主观性,消除了FCM聚类算法的局部最优的弱点,解决了采用普通遗传算法聚类时搜索速度和聚类精度的矛盾.结合实测数据,对应用该方法进行结构面组识别的步骤、参数选取、分组有效性、优势方位的判定进行了分析和讨论.  相似文献   

7.
武森  王蔷  姜敏  魏青 《工程科学学报》2013,35(8):1093-1098
针对部分聚类算法对数据输入顺序敏感的问题,定义了不干涉序列指数,提出了应用不干涉序列指数对分类数据进行加权排序的方法,并基于该方法对受数据输入顺序影响的CABOSFV_C分类数据高效聚类算法进行改进,提出了考虑加权排序的聚类算法(CABOSFV_CSW),消除了算法对数据输入顺序的敏感性.采用UCI基准数据集进行实验,发现应用加权升序排序的CABOSFV_CSW算法在处理分类数据时,聚类质量较原始CABOSFV_C算法和其他受数据输入顺序影响的算法在准确性上有改善,在稳定性上有显著提高.  相似文献   

8.
通过对多雷达扫描得到的高炉料面进行数据处理,根据数据的特征,分别采用模糊C均值聚类和特征加权模糊C均值聚类算法对料面数据进行分类,建立标准料面模型库.再通过模糊模式识别中贴近度的方法把待分类的目标料面与模型库相匹配,为后续的布料控制提供依据.该算法在某2500 m3高炉上进行了实验,取得良好的效果.仿真结果表明了其有效性.  相似文献   

9.
武森  刘露  卢丹 《工程科学学报》2017,39(8):1244-1253
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度.  相似文献   

10.
结构面分组是开展岩体工程稳定性分析的基础,为此,采用谱聚类算法根据岩体结构面产状信息将结构面进行优势组划分。与目前广泛使用的K均值聚类相比,该算法能够收敛到全局最优。选取结构面法向量所夹锐角的正弦值平方作为结构面间的相似度量准则,应用谱聚类算法进行优化求解;同时,引入Silhouette指标对聚类有效性进行评价,以确定最佳分类数目。利用谱聚类方法对人工生成结构面数据进行计算的结果验证了该方法的可靠性。最后,将该算法应用于三山岛金矿岩体结构面的优势组划分,取得了理想的分类效果,为进一步岩体稳定性分析提供了可靠的数据基础。  相似文献   

11.
提出一种改进的最大互信息(MMI)准则函数并把它应用于隐马尔可夫模型(HMM)的参数估计,重新推导了HMM的迭代公式.该准则函数相对于原来准则函数定义更为合理,能有效利用训练样本集中的鉴别信息,使得训练数据得到充分利用,提高了HMM的性能.把这种改进的HMM算法应用于面部表情识别,利用改进的光流算法提取面部表情特征向量序列,并利用改进HMM算法和BP神经网络构建了面部表情混合分类器.实验结果表明了该方法能有效提高面部表情识别率,有效解决HMM参数估计问题.  相似文献   

12.
采用回归分析的方法,建立特征变量与产品质量之间的统计对应关系,把产品质量表达成特征变量的回归函数,进而得到特征空间与产品质量空间在统计意义上的映射关系.在产品质量空间进行聚类,在特征空间进行分类,而后提出了一种基于统计空间映射的在线模式识别方法.利用唐钢烧结厂的实测数据进行了仿真,验证了本方法的正确性.从算法分析和仿真结果看,这一算法可以有效地克服模式交叉现象的影响,并可对复杂生产过程进行在线质量推断.  相似文献   

13.
鲁杰  闫炳基  赵伟  李鹏  陈栋  国宏伟 《工程科学学报》2022,44(12):2081-2089
高炉操作炉型与高炉操作、技术经济指标等关系密切,合理的操作炉型有利于保证高炉生产的优质、低耗、高产、长寿.通过对冷却壁温度的聚类分析,能够有效合理地表征高炉操作炉型的变化,对高炉生产有着重要的指导意义.分别采用K-Means、TwoStep对数据集进行聚类分析,基于两种聚类算法的原理,结合Davies-Bouldin index(DBI)与Dunn index(DI)对聚类结果进行评价,分析不同聚类算法间的差异,得出了在所选样本数据及数据特征基础上,K-Means算法聚类结果更好的结论,该研究可为高炉炼铁大数据分析中的聚类算法选择提供有力参考.  相似文献   

14.
郭东伟  周平 《工程科学学报》2016,38(9):1233-1241
针对高炉炼铁过程的关键工艺指标——铁水硅含量[Si]难以直接在线检测且化验过程滞后的问题,提出一种基于稀疏化鲁棒最小二乘支持向量机(R-S-LS-SVR)与多目标遗传参数优化的铁水[Si]动态软测量建模方法.首先,针对标准最小二乘支持向量机(LS-SVR)的拉格朗日乘子与误差项成正比导致最终解缺少稀疏性的问题,提取样本数据在特征空间映射集的极大无关组来实现训练样本集的稀疏化,降低建模的计算复杂度;其次,标准最小二乘支持向量机的目标函数鲁棒性不足的问题将IGGⅢ加权函数引入稀疏化后的最小二乘支持向量机模型进行鲁棒性改进,得到鲁棒性较强的稀疏化鲁棒最小二乘支持向量机模型;最后,针对常规均方根误差评价模型性能的不足,提出从建模误差与估计趋势评价建模性能的多目标评价指标.在此基础上,利用非支配排序的带有精英策略的多目标遗传算法优化模型参数,从而获得具有最优参数的铁水[Si]在线软测量模型.工业实验及比较分析验证了所提方法的有效性和先进性.  相似文献   

15.
提出了一种基于聚类的支持向量机增量学习算法.先用最近邻聚类算法将训练集分成具有若干个聚类子集,每一子集用支持向量机进行训练得出支持向量集;对于新增数据首先聚类到相应的子集,然后计算其与聚类集内的支持向量之间的距离,给每个训练样本赋以适当的权重;而后再建立预估模型.此算法通过钢材力学性能预报建模的工业实例研究,结果表明:与标准的支持向量回归算法相比,此算法在建模过程中不仅支持向量个数明显减少,而且模型的精度也有所提高.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号