共查询到17条相似文献,搜索用时 839 毫秒
1.
2.
针对部分聚类算法对数据输入顺序敏感的问题,定义了不干涉序列指数,提出了应用不干涉序列指数对分类数据进行加权排序的方法,并基于该方法对受数据输入顺序影响的CABOSFV_C分类数据高效聚类算法进行改进,提出了考虑加权排序的聚类算法(CABOSFV_CSW),消除了算法对数据输入顺序的敏感性.采用UCI基准数据集进行实验,发现应用加权升序排序的CABOSFV_CSW算法在处理分类数据时,聚类质量较原始CABOSFV_C算法和其他受数据输入顺序影响的算法在准确性上有改善,在稳定性上有显著提高. 相似文献
3.
4.
5.
针对传统的利用极点等密度图和玫瑰图的结构面分组方法主观性强和聚类分析方法不够直观的缺点,建议利用模糊C均值(FCM)聚类的隶属度的结果,结合图形技术绘制隶属度等值线图来进行结构面分组.隶属度等值线图充分利用了模糊C均值聚类中隶属度的信息,展现每个聚类的隶属度的空间分布规律,并且可以分辨出因随机因素形成的结构面,还可以直观地读出聚类中心的范围.三山岛金矿的实例证明,该方法同时具有传统方法直观和聚类分析方法客观的优点,并且能够适应优势组不明显的数据. 相似文献
6.
CABOSFV_C是一种针对分类属性高维数据的高效聚类算法,该算法采用集合稀疏差异度进行距离计算,并采用稀疏特征向量实现数据压缩.该算法的聚类效果受集合稀疏差异度上限参数的影响,而该参数的选取没有明确的指导.针对该问题提出基于集合稀疏差异度的启发式分类属性数据层次聚类算法(heuristic hierarchical clustering algorithm of categorical data based on sparse feature dissimilarity,HABOS),该方法从聚结型层次聚类思想的角度出发,在聚类数上限参数的约束下,应用新的内部聚类有效性评价指标(clustering validation index based on sparse feature dissimilarity,CVISFD)进行启发式度量,从而实现对聚类层次的自动选取.UCI基准数据集的实验结果表明,HABOS有效地提高了聚类准确性和稳定性. 相似文献
7.
钢族层别是热连轧过程控制最重要的基础配置数据之一,对轧制模型设定精度具有重要影响。现有的钢族层别划分以人工经验为主,主要依靠碳当量来对钢族进行划分,存在划分不合理、难以满足实际生产需要等不足。鉴于此,提出一种新的线聚类算法来对钢族层别分类进行优化。首先,大量收集某钢族层别的轧制历史数据;其次,绘制各带钢变形速率与变形抗力数据的散点图,并观察数据散点的带状分布特征;最后,采用线聚类算法来优化钢族层别的分类,挑选分离度较大的钢种到新的钢族。目前,该技术已在宝钢1 880等多个热连轧模型调试中使用,对热连轧工程的达标达产和产品验证起到重要支撑作用。 相似文献
8.
针对经典K–means算法对不均衡数据进行聚类时产生的“均匀效应”问题,提出一种基于近邻的不均衡数据聚类算法(Clustering algorithm for imbalanced data based on nearest neighbor,CABON)。CABON算法首先对数据对象进行初始聚类,通过定义的类别待定集来确定初始聚类结果中类别归属有待进一步核定的数据对象集合;并给出一种类别待定集的动态调整机制,利用近邻思想实现此集合中数据对象所属类别的重新划分,按照从集合边缘到中心的顺序将类别待定集中的数据对象依次归入其最近邻居所在的类别中,得到最终的聚类结果,以避免“均匀效应”对聚类结果的影响。将该算法与K–means、多中心的非平衡K_均值聚类方法(Imbalanced K–means clustering method with multiple centers,MC_IK)和非均匀数据的变异系数聚类算法(Coefficient of variation clustering for non-uniform data,CVCN)在人工数据集和真实数据集上分别进行实验对比,结果表明CABON算法能够有效消减K–means算法对不均衡数据聚类时所产生的“均匀效应”,聚类效果明显优于K–means、MC_IK和CVCN算法。 相似文献
9.
传统的分类算法大多假设数据集是均衡的,追求整体的分类精度.而实际数据集经常是不均衡的,因此传统的分类算法在处理实际数据集时容易导致少数类样本有较高的分类错误率.现有针对不均衡数据集改进的分类方法主要有两类:一类是进行数据层面的改进,用过采样或欠采样的方法增加少数类数据或减少多数类数据;另一个是进行算法层面的改进.本文在原有的基于聚类的欠采样方法和集成学习方法的基础上,采用两种方法相结合的思想,对不均衡数据进行分类.即先在数据处理阶段采用基于聚类的欠采样方法形成均衡数据集,然后用AdaBoost集成算法对新的数据集进行分类训练,并在算法集成过程中引用权重来区分少数类数据和多数类数据对计算集成学习错误率的贡献,进而使算法更关注少数数据类,提高少数类数据的分类精度. 相似文献
10.
提出了一种相对简单、有效的划分复杂网络社团结构的方法.该算法利用复杂网络的转移矩阵P和K均值聚类算法来划分社团结构,并且用量统计量判定最优的聚类结果,在探测社团结构明显的人工网时具有较高的准确度. 相似文献
11.
为了更合理地确定岩体质量类别,将主成分分析(PCA)与随机森林(RF)算法相结合,提出一种岩体质量分类的PCA-RF模型。选取能够充分反映岩体质量类别的5项指标进行分析,运用主成分分析法对各指标进行相关性处理,依据方差累计贡献率得出3个主成分,从而消除指标间的相关性,减少模型输入。然后采用随机森林模型对岩体质量进行分类,选用现场20组数据作为训练样本、10组数据作为测试样本,利用交叉验证的方法估计泛化误差。结果表明,该方法分类结果与实际结果较吻合,平均准确率达96.7%,同时得出岩体质量所处类别的概率分布,进一步反映岩体质量的复杂度,为工程建设提供更详细的参考依据。 相似文献
12.
Bearing capacity solutions are presented for strip footings on jointed rock masses with one and two sets of discontinuities. The solutions employ a lower bound bearing capacity model coupled with a simple discontinuity strength model. The strength of the rock material and the discontinuities, and the number and orientation of the discontinuity sets, are evaluated explicitly. The results are presented as bearing capacity factor charts that illustrate the significant effects of the strength and discontinuity geometric parameters. The trends of the results agree well with those obtained from other models. The solution is straightforward, and it can be implemented manually or in any spreadsheet program. 相似文献
13.
14.
高炉操作炉型与高炉操作、技术经济指标等关系密切,合理的操作炉型有利于保证高炉生产的优质、低耗、高产、长寿。通过对冷却壁温度的聚类分析,能够有效合理地表征高炉操作炉型的变化,对高炉生产有着重要的指导意义。分别采用K-Means、TwoStep对数据集进行聚类分析,基于两种聚类算法的原理,结合Davies?Bouldin index(DBI)与Dunn index(DI)对聚类结果进行评价,分析不同聚类算法间的差异,得出了在所选样本数据及数据特征基础上,K-Means算法聚类结果更好的结论,该研究可为高炉炼铁大数据分析中的聚类算法选择提供有力参考。 相似文献
15.
A number of important applications require the clustering of binary data sets. Traditional nonhierarchical cluster analysis techniques, such as the popular K-means algorithm, can often be successfully applied to these data sets. However, the presence of masking variables in a data set can impede the ability of the K-means algorithm to recover the true cluster structure. The author presents a heuristic procedure that selects an appropriate subset from among the set of all candidate clustering variables. Specifically, this procedure attempts to select only those variables that contribute to the definition of true cluster structure while eliminating variables that can hide (or mask) that true structure. Experimental testing of the proposed variable-selection procedure reveals that it is extremely successful at accomplishing this goal. (PsycINFO Database Record (c) 2010 APA, all rights reserved) 相似文献
16.
17.
FA da Veiga 《Canadian Metallurgical Quarterly》1996,8(5):473-491
Clustering is an important data analysis tool for discovering structure in data sets. Although research on conceptual clustering has produced algorithms showing significant advantages over earlier numerical ones, existing methods still present some limitations regarding applicability to biomedical domains. In this paper we describe ADAGIO, a conceptual clustering algorithm combining a low-cost preordering process with a breadth-first incremental control strategy that incorporates merging and splitting operators. Experimental evaluation indicated that the algorithm achieves a good balance between structure discovery performance and computational efficiency, and demonstrated the comparative effectiveness of its missing information handling process. ADAGIO is able to handle qualitative, quantitative and mixed-type data. An application example to a cancer domain is given, where the algorithm was able to suggest interesting epidemiological interpretations. 相似文献