共查询到18条相似文献,搜索用时 78 毫秒
1.
班风在大学生的学习环境中仍扮演着十分重要的作用,先建立数据集市,再利用数据挖掘中的K-means聚类算法对集市中的数据进行聚类分析,挖掘出真正优秀的班集体模式,取代以往主观性占主导地位的评选。 相似文献
2.
K-means聚类与SVDD结合的新的分类算法* 总被引:1,自引:1,他引:1
为了提高支持向量数据描述(SVDD)的分类精度,引入局部疏密度提出了改进的SVDD算法。该算法提高了分类精度,但增加了计算复杂度。为此,先用K-means聚类将整个数据集划分为k个簇,再用改进的SVDD算法并行训练k个簇,最后再对获得的k个局部支持向量集训练,即得到最终的全局决策边界。由于采用了分而治之并行计算的方法,提高了算法的效率。对合成数据(200个)和实际数据的实验结果表明,所提算法较SVDD算法,训练时间降低为原来的10%,分类错误率较原来的降低了近一半。因此,所提算法提高了分类精度和算法效率。 相似文献
3.
4.
针对seeded-K-means和constrained-K-means算法要求标签数据类别完备的限制,本文提出了基于不完备标签数据的半监督K-means聚类算法,重点讨论了未标签类别初始聚类中心的选取问题.首先给出了未标签类别聚类中心最优候选集的定义,然后提出了一种新的朱标签类别初始聚类中心选取方法,即采用K-mea... 相似文献
5.
通过对学生生活、学习、活动等行为特征数据分析挖掘,采用改良的K-means聚类算法建立学生表现类别模型,实现根据学生表现数据将学生进行分类.选择学生"德育成绩、体育成绩、智育成绩、竞赛等级、贫困生等级、奖学金等级"6个属性数据作为特征评价指标.针对高校学生管理系统类别放多造成的数据重复、缺失、存储类型不一致等问题,对数... 相似文献
6.
传统的K-means算法对于孤立点数据是非常敏感的,少量的该类数据就能对聚类结果产生很大影响。该文提出了一种改进的K-means算法来消弱这种敏感性。算法基于孤立点检测LOF算法中计算K距离的思想,将大于K距离的数据点作为伪聚类中心参与聚类划分,通过对聚类结果的评价来判断该数据点是否为孤立点。若为孤立点则去掉该点,进而来提高聚类质量。 相似文献
7.
不完整大数据的分布式聚类填充算法 总被引:2,自引:0,他引:2
传统大数据填充算法是根据整个数据集对缺失数据进行填充,使得填充值容易受到不同类别数据的干扰,导致填充结果不精确。针对该问题,给出不完整数据的相似度度量方法,使用近邻传播( AP )算法对不完整数据进行聚类。采用云计算技术优化AP聚类算法,实现一种基于MapReduce的分布式聚类算法,根据算法聚类结果将同一类数据对象划分到相同簇中,并利用同一类对象的属性值对缺失值进行填充。实验结果表明,该算法能实现不完整大数据的聚类,同时加快聚类速度,提高缺失数据的填充精度。 相似文献
8.
针对初始聚类中心对传统K-means算法的聚类结果有较大影响的问题,提出一种依据样本点类内距离动态调整中心点类间距离的初始聚类中心选取方法,由此得到的初始聚类中心点尽可能分散且具代表性,能有效避免K-means算法陷入局部最优。通过UCI数据集上的数据对改进算法进行实验,结果表明改进的算法提高了聚类的准确性。 相似文献
9.
随着互联网时代的到来,每天都有大量的历史数据堆积,这些数据含有巨大的价值,然而由于没有合适的分析方法,它们并没有被充分的利用;传统的K-means算法具有复杂度低,计算速度快,对硬件要求低等特点,使其在聚类分析中被广泛使用,但是传统的K-means算法受初始聚类中心选择的影响而导致数据聚类结果不准确;本文基于传统的K-means算法,首先在选取初始聚类中心前,通过PSO方法对初始聚类中心进行优化,然后选取初始聚类中心,接着用权重法优化样本之间的距离,最后运用改进后的K-means算法对某电商平台中的巧克力商品进行聚类实验。实验结果表明,在聚类数目相同的前提下,改进后的算法比传统的K-means算法在准确性上有较大的提高。 相似文献
10.
针对密度峰值聚类算法(DPC)的聚类结果对截断距离dc的取值较为敏感、手动选取聚类中心存在着一定主观性的问题,提出了一种结合鲸鱼优化算法的自适应密度峰值聚类算法(WOA-DPC).利用加权的局部密度和相对距离乘积的斜率变化趋势实现聚类中心的自动选择,避免了手动选取导致的聚类中心少选或多选的情况;考虑到合理的截断距离dc... 相似文献
11.
12.
13.
为了解决K-means算法在聚类数量增多的情况下,因选择了不合适的中心初值而影响到聚类效果这一问题,提出了一种局部迭代的快速K-means聚类算法(PIFKM+?)。该算法在K-means聚类的基础上,不断寻找能够被分割的聚类簇和能够被删除的聚类簇,并对受影响的局部数据进行重新聚类处理,降低了整个聚类更新的时间复杂度,提高了聚类的效果。PIFKM+?算法在面对聚类数量众多的情况下,具有能够快速更新聚类、对聚类中心初值不敏感、能够提高聚类精确度等优势。通过与K-means和K-means++两种算法的比较,在仿真数据集和真实数据集的综合实验下,验证了该算法的精确性、高效率性和可扩展性,同时实验结果的统计分析表明该算法在提高了聚类精确度的同时并没有损失太多的时间效率。 相似文献
14.
K-means聚类算法简单高效,应用广泛。针对传统K-means算法初始聚类中心点的选择随机性导致算法易陷入局部最优以及K值需要人工确定的问题,为了得到最合适的初始聚类中心,提出一种基于距离和样本权重改进的K-means算法。该聚类算法采用维度加权的欧氏距离来度量样本点之间的远近,计算出所有样本的密度和权重后,令密度最大的点作为第一个初始聚类中心,并剔除该簇内所有样本,然后依次根据上一个聚类中心和数据集中剩下样本点的权重并通过引入的参数[τi]找出下一个初始聚类中心,不断重复此过程直至数据集为空,最后自动得到[k]个初始聚类中心。在UCI数据集上进行测试,对比经典K-means算法、WK-means算法、ZK-means算法和DCK-means算法,基于距离和权重改进的K-means算法的聚类效果更好。 相似文献
15.
16.
17.
段桂芹 《计算机与数字工程》2015,(3):379-382
针对K‐means算法随机选择初始聚类中心所出现的样本聚类结果随机性强、稳定性低、容易陷入局部最优和得不到全局最优解等问题,提出一种基于均值与最大距离乘积的初始聚类中心优化K‐means算法。该算法首先选择距离样本集均值最远的数据对象加入聚类中心集合,再依次将与样本集均值和当前聚类中心乘积最大的数据对象加入聚类中心集合。标准数据集上的实验结果表明,与原始K‐means的算法以及另一种改进算法相比,新提出的聚类算法具有更高的准确率。 相似文献
18.
当前的不完整数据处理算法填充缺失值时,精度低下。针对这个问题,提出一种基于CFS聚类和改进的自动编码模型的不完整数据填充算法。利用CFS聚类算法对不完整数据集进行聚类,对降噪自动编码模型进行改进,根据聚类结果,利用改进的自动编码模型对缺失数据进行填充。为了使得CFS聚类算法能够对不完整数据集进行聚类,提出一种部分距离策略,用于度量不完整数据对象之间的距离。实验结果表明提出的算法能够有效填充缺失数据。 相似文献