共查询到18条相似文献,搜索用时 78 毫秒
1.
确定数据集的最佳聚类数是聚类研究中的一个重要难题。为了更有效地确定数据集的最佳聚类数,该文提出了通过改进K-means算法并结合一个不依赖于具体算法的有效性指标Q(c)对数据集的最佳聚类数进行确定的方法。理论分析和实验结果证明了该方法具有良好的性能和有效性。 相似文献
2.
3.
4.
基于层次划分的最佳聚类数确定方法 总被引:20,自引:0,他引:20
确定数据集的聚类数目是聚类分析中一项基础性的难题.常用的trail-and-error方法通常依赖于特定的聚类算法,且在大型数据集上计算效率欠佳.提出一种基于层次思想的计算方法,不需要对数据集进行反复聚类,它首先扫描数据集获得CF(clusteringfeature,聚类特征)统计值,然后自底向上地生成不同层次的数据集划分,增量地构建一条关于不同层次划分的聚类质量曲线;曲线极值点所对应的划分用于估计最佳的聚类数目.另外,还提出一种新的聚类有效性指标用于衡量不同划分的聚类质量.该指标着重于簇的几何结构且独立于具体的聚类算法,能够识别噪声和复杂形状的簇.在实际数据和合成数据上的实验结果表明,新方法的性能优于新近提出的其他指标,同时大幅度提高了计算效率. 相似文献
5.
6.
7.
8.
9.
10.
随着数据维度的增加,传统聚类算法会出现聚类性能差的现象.SubKMeans是一种功能强大的子空间聚类算法,旨在为K-Means类算法搜索出一个最佳子空间,降低高维度影响,但是该算法需要用户事先指定聚类数目K值,而在实际使用中有时无法给出准确的K值.针对这一问题,引入成对约束,将成对约束与轮廓系数进行结合,提出了一种基于成对约束的SubKMeans聚类数确定算法.改进后的轮廓系数能够更加准确的评价聚类性能,从而实现K值确定,实验结果证明该方法的有效性. 相似文献
11.
12.
在线社会化媒体大数据是行动者自组织关系的集合,其内部蕴含了多层次的社会实体关系,因此,在线社会化媒体大数据抽样方法的研究对于社会计算这一新兴研究领域具有重要的理论和应用价值.现有抽样方法存在大型马尔可夫链难以并行化、样本局部性陷入、马尔可夫链燃烧预热等问题.针对这些问题,提出了在线社会化媒体大数据整群多阶段抽样方法OSM-MSCS.该方法首先进行整群分解,将总体分解成若干小型凝聚子群;而后,使用动态延迟拒绝方法对凝聚子群内部的关系抽样;最后,使用Gibbs方法完成不同凝聚子群之间相干关系的筛选,从而获得整个样本序列.实验结果表明,OSM-MSCS方法能够有效地对各种结构特征的在线社会化媒体大数据进行抽样,从“个体地位-群体凝聚性-整体结构性”这3个层次进行综合评价,其抽样效果要明显好于MHRW和BFS这两种最主流的抽样方法. 相似文献
13.
14.
针对彩色图像的分割数确定问题,本文提出了一种基于主分量变换的确定方法,利用尺度空间滤波器时主分量直方图进行分析以确定其直方图峰的个数,据此得出图像的区域分割数.实验证明了这种方法的有效性。 相似文献
15.
随着信息技术的快速发展以及智能网联汽车的日渐普及,由网络入侵引起的车联网安全事件正在逐年增加。针对车联网中车载控制器局域网络(CAN)存在的网络攻击问题,提出一种改进的车载CAN入侵检测方法。考虑到车载CAN中数据流量较大且各类别数据比例失衡,提出一种聚类混合采样方法来平衡数据,对于流量较大的数据,在聚类后进行欠采样以去除冗余,对于流量较小的数据,使用SMOTE方法合成数据。合并上述两部分数据并使用Tomek Links算法进行数据清洗。使用基于Gini系数的GBDT特征选择方法计算特征重要性,删除重要程度较低的特征以实现数据降维。在此基础上,使用粒子群优化算法对Stacking模型中的基学习器和元分类器进行调优,使用优化后的基学习器和元分类器构建Stacking模型并完成入侵检测。实验结果表明,该方法在主流车载CAN入侵数据集上的检测准确率为98.18%,优于常见的ANN、KNN、SVM、MTHIDS及MGA-DTC模型,且对DoS、Fuzzy等类别样本的检测精确度较高,漏报率较低,体现出较好的先进性和实用性。 相似文献
16.
文章主要为了解决在已设置好的基础号源中均匀地设置给定数量的"网上开放"号源,从而达到网上限号的目的.解决方法:假设基础号源数为M,需要设置的"网上开放"号源数为N,将N与M进行约分,得到最小分子(FZ)和分母(FM),然后将基础号源数M分成多个FM,然后在每个FM中取FZ个号源设置成"网上开放"号源.这种方法的好处是让... 相似文献
17.
18.
在高速Internet链路的流量测量中,包抽样技术能有效减少被测数据量以节省各种可用资源。文章关注如何提高流量突发和波动周期的抽样精度,提出了一种基于多波动尺度的两层包级自适应抽样方法。该方法能够根据当前流量的突发频度和波动性动态调节每包抽样概率,调节粒度精细。通过在真实流量跟踪下与静态随机抽样方法的对比,两层自适应抽样方法显示了较强的实时捕获流量速率的波动变化和改善抽样精度的能力。 相似文献