共查询到20条相似文献,搜索用时 15 毫秒
1.
随着互联网时代的到来,每天都有大量的历史数据堆积,这些数据含有巨大的价值,然而由于没有合适的分析方法,它们并没有被充分的利用;传统的K-means算法具有复杂度低,计算速度快,对硬件要求低等特点,使其在聚类分析中被广泛使用,但是传统的K-means算法受初始聚类中心选择的影响而导致数据聚类结果不准确;本文基于传统的K-means算法,首先在选取初始聚类中心前,通过PSO方法对初始聚类中心进行优化,然后选取初始聚类中心,接着用权重法优化样本之间的距离,最后运用改进后的K-means算法对某电商平台中的巧克力商品进行聚类实验。实验结果表明,在聚类数目相同的前提下,改进后的算法比传统的K-means算法在准确性上有较大的提高。 相似文献
2.
关联规则是数据挖掘中的概念,通过分析数据找到数据之间的关联.海量数据会产生大量冗余和相似的关联规则,影响用户对规则的理解和判断.本文采用鸢尾花数据集进行实验.建立三个检验指标,删除冗余关联规则;在进行K-means分析时利用规则产生的三角形迭代选择初始点,再将删除冗余后的规则进行聚类.实验证实本文方法将相似的关联规则归为一簇,能有效的帮助用户迅速找到有用的关联规则,有助于用户更好的对规则进行理解和分析,提高了聚类的效率. 相似文献
3.
罗俊 《数字社区&智能家居》2021,(18):29-31
K-Means算法,也称为K-均值,是数据挖掘研究中是一种最基本的算法,也是应用最广泛的聚类算法.在电子商务、入侵检测、CRM等领域有较多的应用实例.它是一种cluster analysis的算法,其实现主要通过不断循环迭代地选取离种子点最近均值的过程.本文结合企业实际应用阐述k-means的实现过程、具体的改进思路以... 相似文献
4.
为避免初始聚类中心选取到孤立点容易导致聚类结果陷入局部最优的不足,提出一种基于密度的K-means(聚类算法)初始聚类中心选择方法。该方法首先计算每个数据对象与其它数据对象间的平均相似度,找出平均相似度高于某固定阈值的对象视作核心对象,再从核心对象中选取彼此间最不相似的作为初始聚类中心。通过自构建的新浪微博抓取工具,分别抓取不同类别的数千条数据,经过分词、预处理及权重计算后,用改进的K-means算法对其进行聚类分析,查准/全率较传统的K-means算法要稳定,聚类的平均时间也得到缩短。实验结果表明,改进后的算法在微博聚类中有更高的准确性和稳定性,有利于从大量的微博数据中发现热点舆情。 相似文献
5.
一种改进的K-means聚类算法 总被引:1,自引:0,他引:1
本文提出了一种带离群点数据过滤的K-means改进算法。该算法根据离群点数据特征制定了离群点数据的发现规则,并在原算法中加入了离群点数据的发现和处理步骤。通过对给定的具有普遍意义的数据实验表明,改进后算法能较为稳定的发现数据集中存在的离群点数据,这些离群点数据符合离群点数据特征;同时在剔除这些极少数离群点数据后,显著提高了聚类结果簇的凝聚度,从而有效克服了离群点数据对K-means算法的影响,使聚类效果得以显著提高。 相似文献
6.
7.
为解决视频推荐系统中推荐精度不够精准的问题,提出一种K-means优化的自组织映射(Self-organizing Map,SOM)神经网络视频推荐方法。首先,爬取视频网站的数据并对其进行处理;其次,将处理后的数据输入K-means算法优化的SOM神经网络中,得到聚类结果;最后通过计算归类视频的弹幕数量、点击量、评分等推荐出优秀的视频。文中系统的预期结果为在主界面选择分类并输入关键词之后,通过算法计算,为用户推荐感兴趣的视频,并按评分高低列出视频的超链接。实验结果表明,优化的SOM算法在视频推荐的精度上提升了5%—8%。 相似文献
8.
9.
针对海量数据背景下K-means聚类结果不稳定和收敛速度较慢的问题,提出了基于MapReduce框架下的K-means改进算法。首先,为了能获得K-means聚类的初始簇数,利用凝聚层次聚类法对数据集进行聚类,并用轮廓系数对聚类结果进行初步评价,将获得数据集的簇数作为K-means算法的初始簇中心进行聚类;其次,为了能适应于海量数据的聚类挖掘,将改进的K-means算法部署在MapReduce框架上进行运算。实验结果表明,在单机性能上,该方法具有较高的准确率和召回率,同时也具有较强的聚类稳定性;在集群性能上,也具有较好的加速比和运行速度。 相似文献
10.
11.
飞机下降过程受飞行环境和流量影响而运行情况复杂,相应油耗也不同.提出一种基于下降段实飞距离、平均下降率、下降点标准高度等多种飞行特征指标的下降过程分类方法.该方法先对QAR数据进行统计分析,找出影响下降过程油耗的飞行特征指标,应用Pearson相关系数进行油耗特征选择,进而应用K-means算法针对相关性大的指标进行油耗聚类.结果将油耗分为明显的两类,可看出两类的飞行特征差异,这为进一步设计节油下降轨迹提供了新视角. 相似文献
12.
13.
14.
企业信用分类的应用,能够为商业银行降低信贷业务的风险,随着市场竞争的不断加剧,机器学习和大数据的应用,越来越多的计量方法不断革新,并广泛运用到信用分析领域.本文设计了一个基于K-means算法的企业信用无监督分类方法,通过对企业信息进行大数据分析,提取企业信用相关的内容,再使用K-means算法对企业数据进行聚类,对目... 相似文献
15.
16.
为了弥补传统K-means聚类算法在K值确定和初始中心选择难等方面的不足,基于“合并与分裂”思想,提出一种改进的K-means聚类算法。将数据独立程度概念引入实验数据子集构造理论中,利用独立程度评价属性的重要性;根据点密度将数据集合并为若干类,结合最小支撑树聚类算法与传统K-means聚类算法实现分裂;使用KDD Cup99数据集对改进算法在入侵检测中的应用进行仿真实验。结果表明,改进算法在检测率和误报率方面均优于传统K-means算法。 相似文献
17.
为解决利用层次方法的平衡迭代规约和聚类(BIRCH)算法聚类结果依赖于数据对象的添加顺序,且对非球状的簇聚类效果不好以及受簇直径阈值的限制每个簇只能包含数量相近的数据对象的问题,提出一种改进的BIRCH算法。该算法用描述数据对象个体间连通性的连通距离和连通强度阈值替代簇直径阈值,还将簇合并的步骤加入到聚类特征树的生成过程中。在自定义及iris、wine、pendigits数据集上的实验结果表明,该算法比多阈值BIRCH、密度改进BIRCH等现有改进算法的聚类准确率更高,尤其在大数据集上比密度改进BIRCH准确率提高6个百分点,耗时降低61%。说明该算法能够适用于在线实时增量数据,可以识别非球形簇和体积不均匀簇,具有去噪功能,且时间和空间复杂度明显降低。 相似文献
18.
传统的K-means算法存在初始质心敏感、需要人为指定K个数等问题,可以通过融合Canopy算法在一定程度上缓解,但是仍然存在抗噪能力弱、质心选择盲目、运算时间长等问题.论文提出了一种改进算法,在抗噪性、初始质心选择、运算过程三方面,对Canopy-K-means算法进行优化.该算法采用了剪枝、最大最小规则、相似度计算等策略来实现算法目标.实验数据表明,改进后的Canopy-K-means算法对比传统的Canopy-K-means算法、K-means算法均具有更高的检测率、更低的误报率. 相似文献
19.
20.
传统的社区发现算法往往时间复杂度较高,K-means算法作为聚类算法且时间复杂度较低可为社区发现提供新思路,但K-means算法的原始应用场景为数值环境与社交网络不符,且自身存在初始中心节点选取敏感等原有问题,针对上述问题本文在下面三个方面进行了优化:第一,结合最短路径及共同邻居信息重新定义距离度量;第二,结合了节点的度和节点距离因素进行初始中心节点选取;第三,在K-means算法结果的基础上进行基于贪心策略以模块度为目标的层次聚类优化。通过实验表明:改进的K-means算法能够很好地应用于社区发现,得到的社区发现结果有较高质量。 相似文献