期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

吴天虹黄德才翁挺马晨明《浙江工业大学学报》2009,37(4)

DBSCAN算法是一种基于密度的聚类算法.针对该算法在处理混合属性数据上的不足,采用面向维度的距离的思想,对不同类型的数据定义不同的相似度度量方法和不同的相似度阈值,减少了对全局相似度阈值的依赖,提出了一种新的适合混合属性数据聚类的算法M-DBSCAN.仿真表明新算法有效解决了DBSCAN算法无法处理混合属性数据的缺点,对混合属性数据有较好的聚类效果. 相似文献

2.

社会媒体群组探测的谱聚类研究与应用设计

《武汉大学学报(工学版)》2020,(1):88-94

改进了传统的谱聚类算法,并优化了初始聚类中心的选择方法。传统的谱聚类算法虽然具有算法复杂度较低、适用范围广等特点,但受高斯核函数尺度参数影响较大。设计的算法通过引入万有引力模型进行相似性度量,设计了基于引力的相似性度量方法,以此消除尺度参数的影响;另外,提出基于密度与距离乘积的初始聚类中心选取方法,优化了初始聚类中心的选择。在UCI基准数据集上的实验表明,改进的算法消除了尺度参数σ影响的同时,也达到了比较好的NMI指标和Accuracy指标。最后,使用改进的算法设计了基于微博用户的群组探测方法,取得了较为理想的用户群组划分结果。相似文献

3.

一种改进的k-means中文文本聚类算法

龚静李安民《株洲工学院学报》2008,22(2):52-54

提出了k-means聚类算法中选取初始聚类中心及处理孤立点的新方法,改进了 k-means算法对初始聚类中心和孤立点文本很敏感的不足之处,并将改进后的算法应用于中文文本聚类中.实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性. 相似文献

4.

基于视觉原理的密度聚类算法的改进

蒋盛益罗方伦余雯《山东大学学报(工学版)》2011,41(4):85-90

结合基于视觉原理的密度聚类算法对初始化参数不敏感、能发现任意形状的聚类、能够找出最优聚类及一趟聚类算法快速高效的特点,研究可以处理混合属性的高效聚类算法.首先简单改进基于视觉原理的密度聚类算法,使之可以处理含分类属性的数据,进而提出一种两阶段聚类算法。第一阶段使用一趟聚类算法对数据集进行初始划分,第二阶段利用基于视觉原理的密度聚类算法归并初始划分而得到最终聚类。在真实数据集和人造数据集上的实验结果表明,提出的两阶段聚类算法是有效可行的。相似文献

5.

一种基于复杂网络属性值的K-means聚类算法

董俊任家东卢海涛《东北重型机械学院学报》2012,(4):343-347

传统K-means聚类算法的性能依赖于初始聚类中心的选择。本文将复杂网络节点的属性值作为节点的度、聚集度与聚集系数的加权值,通过计算所有节点的加权综合聚集特征值,选取综合聚集特征值高,并且彼此之间无高聚集性特征的个节点作为聚类的初始聚类中心,然后进行聚类迭代过程。实验结果表明,新算法对初始聚类中心的选取更迅速有效,避免了传统K-means算法初始聚类节点选取的敏感性,进而提高K-means算法的聚类质量。相似文献

6.

混合属性数据聚类的新方法 总被引：1，自引：0，他引：1

白天冀进朝何加亮周春光《吉林大学学报(工学版)》2013,43(1):130-134

提出了一种数值型和类别型混合属性数据聚类的全局算法。算法通过随机选取足够多的初始原型来覆盖数据集的全局分布信息,然后通过评估函数迭代地消去多余的原型。最后对本文算法进行了验证,证明了该算法的有效性和收敛性。并与其他已有同类型算法的聚类结果进行比较,说明本文算法对混合属性数据具有更高的聚类准确度,为解决混合型数据聚类问题提供了一种新途径。相似文献

7.

基于特征关联度的K-means初始聚类中心优化算法 总被引：3，自引：0，他引：3

陈兴蜀吴小松王文贤王海舟《四川大学学报(工程科学版)》2015,47(1):13-19

针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法.由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的特征构造新的文本集,再利用“或运算”合并其中的相似文本得到初始聚类中心候选集,最后通过计算文本密度并结合“最小最大”原则从候选集中选取最优的初始中心.在5个数据集上进行对比实验,该算法在多数聚类结果中的F-score值都高于90％,熵值低于0.5,明显优于Mahout提供的K-means算法,表明该算法可选出高质量的初始聚类中心,得到更好的聚类结果. 相似文献

8.

一种改进的k-means中文文本聚类算法 总被引：3，自引：0，他引：3

龚静李安民《湖南工业大学学报》2008,22(2):52-54

提出了k-means聚类算法中选取初始聚类中心及处理孤立点的新方法,改进了k-means算法对初始聚类中心和孤立点文本很敏感的不足之处,并将改进后的算法应用于中文文本聚类中。实验结果表明,改进的算法较原算法在准确率上有较大提高,并且具有更好的稳定性。相似文献

9.

一种基于粗糙集的K-means聚类算法 总被引：2，自引：0，他引：2

聂映陈福集《武汉大学学报(工学版)》2011,44(2):257-260

对粗糙集进行了相关研究,并提出了一种以粗糙集理论为基础的K-平均聚类算法,该算法以信息表中条件属性和决策属性的一致性原理为基础,应用粗糙集的属性约简算法消除冗余属性,利用各属性重要度确定其权值,在此基础上应用改进的K-平均算法进行聚类分析.该方法的优势在于消除了不重要的属性,赋予了各属性权值,使聚类更有效,更客观.实验结果表明,该方法是有效的. 相似文献

10.

基于初始聚类中心优化和维间加权的改进K-means算法 总被引：1，自引：0，他引：1

王越王泉吕奇峰曾晶《重庆理工大学学报(自然科学版)》2013,(4):77-80

针对K-means算法易受随机选择的初始聚类中心的影响和划分准确率不高的缺点,给出了一种改进的K-means算法。首先对初始聚类中心的选择过程进行了改进,然后对各样本点间差异最大的维进行加权处理。在Iris数据集上对原始算法和改进后的K-means算法的聚类结果进行对比分析。实验证明:改进后的算法稳定,且聚类的准确率达到了92%。相似文献

11.

基于改进的潜在语义分析的文本聚类

宋涛施水才房祥吕学强《北京机械工业学院学报》2012,(3):21-25

文本聚类中不同文本表示方法获得的聚类效果不尽相同。引入潜在语义分析模型对文本进行表示,重新给出了针对潜在语义分析的特征权重计算方法,并提出了截断奇异值分解中K值的选取方法,达到了"词-文本"空间的降维去噪目的。鉴于K-means算法中初始聚类中心选取具有一定的随机性,应用相似性初始聚类中心选取方法确定了K-means的初始聚类中心,避免了随机选取聚类中心对聚类效果的影响。基于改进的潜在语义分析方法极大的降低了文本空间的维度,经实验证明改进后的方法在聚类问题中聚类效果显著。相似文献

12.

基于最小方差的自适应K-均值初始化方法

肖洋李平王鹏邱宁佳《长春理工大学学报(自然科学版)》2015,(5)

K-均值算法对初始聚类中心敏感,聚类结果随不同初始聚类中心波动。针对以上问题,提出一种基于最小方差的自适应K-均值初始化方法,使初始聚类中心分布在K个不同样本密集区域,聚类结果收敛到全局最优。首先,根据样本空间分布信息,计算样本方差得到样本紧密度信息,并基于样本紧密度选出满足条件的候选初始聚类中心;然后,对候选初始聚类中心进行处理,筛选出K个初始聚类中心。实验证明,算法具有较高的聚类性能,对噪声和孤立点具有较好的鲁棒性,且适合对大规模数据集聚类。相似文献

13.

基于加权的K-modes聚类初始中心选择算法

江峰杜军威刘国柱眭跃飞《山东大学学报(工学版)》2016,46(2):29-34

针对现有的K-modes聚类初始化方法没有考虑不同的属性具有不同的重要性这一问题,提出一种基于加权密度与加权重叠距离的初始中心选择算法Ini_-Weight。Ini_-Weight算法通过计算每个对象的密度以及对象之间的距离来选择初始中心。在计算对象的密度以及对象的距离时,Ini_-Weight算法根据每个属性的重要性为不同的属性赋予不同的权值。最后,在UCI数据集上将Ini_-Weight与现有的方法进行了比较,结果表明,Ini_-Weight算法可以有效地区分不同的属性,而且提高了初始中心选择的准确性。相似文献

14.

一种分裂式的k-means聚类算法

楼佳王小华《杭州电子科技大学学报》2009,29(4)

k-means是一种快速有效的聚类算法,但是随着数据量的增加,k-means算法的局限性日益突出。该文从数据预处理,初始聚类中心的选取,最佳聚类数的确定等几个方面优化了k-means算法。仿真实验表明,优化后的k-means算法在稳定性和准确性方面都有很大的提高,证明提出的算法有一定的价值。相似文献

15.

一种高效的基于初始聚类中心优化的K-means算法

张晓倩曲福恒杨勇才华梁鲜《长春理工大学学报(自然科学版)》2015,(4):154-158

为解决传统K-means算法初始质心的随机选取以及聚类过程中每个数据样本到聚类中心距离的重复计算问题,提出了一种高效的基于初始聚类中心优化的K-means算法,采用最小方差优化初始质心,通过存储每次迭代中所有数据点的簇标志和到最近聚类中心的距离并用于下一次迭代,避免了重复计算数据点到每个中心的距离。在UCI数据库中五个不同的数据集上进行了测试,对各个算法在聚类准则函数,运行时间以及迭代次数上进行实验结果比较,表明在不降低聚类性能的前提下,减少了迭代次数,缩短了聚类时间,证明了改进算法的有效性和高效性。相似文献

16.

基于距离度量学习的半监督多视角谱聚类算法

杨金鸿邓廷权《四川大学学报(工程科学版)》2016,48(1):146-151

为了有效利用少量先验信息提高多视角数据聚类效果,提出了一种基于距离度量学习的半监督多视角谱聚类算法(简称ML-SMC)。首先,利用距离度量学习引入先验信息,将多视角数据映射到反映先验约束条件的空间.然后,根据相似性构造每个视角的视图,将多视角聚类问题转化为最小正则割的图划分问题。实验结果表明：ML-SMC算法聚类结果的精度优于3种经典的多视角聚类算法和4种半监督单视角聚类算法。并且通过利用少量先验信息ML-SMC算法能够有效提高聚类效果。相似文献

17.

采用属性聚类的高维子空间聚类算法 总被引：4，自引：1，他引：3

牛琨张舒博陈俊亮《北京邮电大学学报》2007,30(3):1-5

为了解决现有子空间聚类算法时间复杂度偏高以及对输入参数敏感的问题,提出了一种基于属性聚类方法的高效子空间聚类算法.算法首先通过计算每个属性的基尼值来过滤冗余属性,而后通过基于二维联合基尼值的关系函数建立非冗余属性的关系矩阵,以衡量任意两个非冗余属性的相关度, 进而在关系矩阵上应用可产生交叠的聚类算法,聚类结果即为所有兴趣度子空间的候选集合,最后调用聚类算法得到所有存在于这些子空间内的簇.在人工数据集和真实数据集上的实验表明,新算法不仅在时间复杂度和子空间簇的寻找能力方面均有较优表现,而且对输入参数的取值不甚敏感. 相似文献