首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 376 毫秒
1.
为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少K-means的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法.  相似文献   

2.
针对DBSCAN算法聚类时时间复杂度较高、当边界点同时属于多个类时其聚类准确率较低的问题,在网格查询思想和OPTICS算法的基础上,提出一种改进的DBSCAN算法(GO-DBSCAN算法)。进行聚类操作前,为降低聚类的时间复杂度,先基于网格查询的思想将数据集划分成不同的网格,在进行项目邻域查询时,只须遍历项目附近网格数据而不必遍历整个数据集; 在进行项目聚类时,主要考虑该项目与其附近核心项目的最小可达距离,因此,将OPTICS算法中的最小可达距离引入到DBSCAN算法中,以提高算法对边界点处理的准确度。仿真实验结果表明,GO-DBSCAN在边界点处理的准确率和运行效率方面较DBSCAN都有所提高。  相似文献   

3.
改进模糊聚类方法的物流园交通小区划分   总被引:1,自引:0,他引:1  
为获取物流园交通小区的最佳分类结果,首先对物流园进行定性划分,然后构造加权模糊相似矩阵,再利用邻接矩阵对加权模糊相似矩阵进行修正,采用改进的模糊聚类方法对小区进行聚类合并,并且基于类内距离和类间距离构造F指标以确定最佳分类数.实验结果表明,基于改进的模糊聚类方法能够较大程度地减少物流园交通小区数量,并且能够快速得到较好的小区分类,还能避免将地理位置不相邻的小区划分为同一类.  相似文献   

4.
针对K均值聚类算法对类簇数目预先不可知及无法处理非凸形分布数据集的缺陷, 提出基于进化思想的聚类算法及其类簇融合算法, 该算法将K均值聚类算法嵌入进化聚类算法框架中, 通过调整距离倍参, 将数据逐渐划分, 在此过程中自动确定类簇数目, 提出基于最近距离的中间圆密度簇融合算法和基于代表类的中间圆密度簇融合算法, 将相似度大的类簇进行融合, 使得k值逐渐趋向真实值. 实验表明, 该方法具有良好的实用性.  相似文献   

5.
针对传统K-means 算法初始中心选取的随机性导致算法聚类效果不佳的问题, 提出一种基于网格密度距离的K-means 算法, 即GDD-K-means。该算法先把数据点放入网格空间内, 以网格为单元进行数据处理, 遍历网格得到网格密度, 根据密度阈值筛选出高密度网格并进行降序排序; 再在高密度网格中引入K-means++思想, 选取k 个距离较远的网格点; 最后进行K-means 算法聚类的k 个初始中心点将确定在上述网格点中。仿真实验结果表明, GDD-K-means 算法减少了聚类中心选取的随机性, 改善了聚类的效果。  相似文献   

6.
提出了一种改进的基于粒子群优化的快速K均值算法,有效克服了K均值算法对初始聚类中心敏感和容易陷入局部最优从而影响聚类效果等缺点.与已有的粒子群优化聚类算法相比,该算法通过对样本各维属性进行规范化,预先计算样本的相异度矩阵,提出了一种简化的粒子的编码规则,基于相异度矩阵进行粒子群优化K均值聚类,在保证聚类效果的基础上,有效降低了计算的复杂度.在多个UCI数据集上的实验结果表明,该算法是有效的。  相似文献   

7.
基于微聚集技术的κ-匿名化MDAV算法没有考虑数据属性的分布情况和数据属性重要性在聚类中的作用,易产生不合理的划分,从而对数据的保护程度与数据可用性之间关系带来影响.针对这个问题本文提出一种基于属性重要度和密度聚类的MDAV改进方法实现对数据集κ-匿名化.首先采用基于密度聚类DENCLUE方法对数据表进行聚集成簇,然后对每个簇采用基于粗糙集属性重要度作为加权距离的权值来计算相似样本,实现对数据集的κ-划分.与MDAV算法比较测试,所改进的方法改善了发布数据的可用性.  相似文献   

8.
k-means聚类算法中,初始聚类中心的选取与数据中的离群点都对算法的结果有着非常大的影响。针对这一问题,提出一种基于网格和密度的k-means聚类算法GD-k-means,该算法首先将数据集映射到网格上形成网格簇进行初步聚类,利用密度阈值将网格分为低密度网格簇和高密度网格簇,在高密度网格簇中选取初始聚类中心,并利用传统的k-means算法进行迭代,通过评价条件判定是否需要进行网格簇的合并。聚类完成之后按照距离最近的原则对低密度网格簇中的数据进行相应的分配。实验结果表明:GD-k-means算法聚类结果更稳定,并且能够抵抗噪音数据的干扰。  相似文献   

9.
基于紧致性C均值法在初始类划分中的应用   总被引:1,自引:0,他引:1  
在分析影响C均值法聚类效果的两个主要因素的基础上,将紧致性的概念与基于密度的初始聚类中心的选取方法和类的初始划分方法相结合,提出了一种改进划分初始类的方法.此方法用"距离试探法"来确定一个合适的d0值,以此为基础进行马氏距离测度下类的初始划分,再以临界函数作为紧致性的判断依据,修改半径d0,得到新的聚类中心,从而提高了聚类的效果.  相似文献   

10.
针对密度聚类算法无法应用于大规模数据集的问题,提出一种基于划分网格的密度聚类算法(GDSCAN)。将大规模二维点阵图划分为若干网格,网格最短边不小于给定邻域半径,目标点所在网格中任意点的邻域范围不会超过与该网格直接连接的网格,只需在保留网格内寻找邻域点,从而减少计算量;聚类从任意无类别核心点开始,将该点的所有密度可达组成一个簇,以此类推直至所有核心点都有类别;采用提出的GDSCAN算法对不同数量级的二维路网节点进行聚类验证。结果表明,GDSCAN算法可有效解决大规模二维点阵数据集中密度聚类的效率问题,数据量越大,效果越明显,且时间复杂度明显降低。  相似文献   

11.
针对基于核的多视图聚类算法(kernel based multi-view clustering method, MVKKM)在处理大规模数据集时运行时间长的缺点,引入增量聚类模型的概念,将MVKKM算法与增量聚类模型相结合,提出基于核K-means的多视图增量聚类算法(incremental multi-view clustering algorithm based on kernel K-means, IMVCKM)。通过将数据集分块,在每个数据块中使用MVKKM算法聚类,并将每个数据块的聚类中心作为下个数据块的初始聚类中心。将所有块的聚类中心进行整合后再次进行多视图聚类,得到最终的聚类结果。试验结果表明,在3个大规模数据集上,IMVCKM算法相较于MVKKM算法在3个评价指标上具有更好的聚类结果,且运行时间更短。该算法在保证聚类性能的基础上大大降低算法的运行时间。  相似文献   

12.
K-means算法对初始聚类中心及簇数K的选择敏感,导致聚类结果不稳定,会对IDS(intrusion detection system, IDS)的检测结果产生重要影响。针对该问题,提出一种基于细菌觅食优化算法(bacterial foraging optimization algorithm, BFOA)和K-means相复合的入侵检测算法(HIDS)。HIDS算法首先基于距离阈值方法动态确定簇数K,再利用BFOA优化生成初始聚类中心,使得选择的初始聚类中心达到全局最优,从而解决了K-means算法的聚类结果不稳定的问题,进而提高入侵检测的准确率。为验证算法的有效性和测试算法性能,将HIDS在KDD99数据集上进行试验测试,入侵检测率可达98.33%。试验结果表明该方法能够有效提高检测率并且降低误检率。  相似文献   

13.
为了减少超密集网络中小区间的干扰,提出了一种改进的分簇及资源分配方案.首先,根据小基站间的路径损耗程度构造损耗图,基于损耗图选出簇头并且分簇,将路径损耗之和较小的小基站放在一个簇中,每个簇中小基站的数量不超过子信道的数量;然后,根据簇内的用户在每个子信道上的信干噪比依次为每个簇的用户分配正交的子信道;最后,优化功率分配,以提高吞吐量.仿真结果显示,与相同场景中的已有方案相比,所提方案更加均匀地将小基站分布在每个簇中,并且显著提高了系统吞吐量.  相似文献   

14.
针对现有基于划分的聚类算法无法有效聚类簇大小和簇密度有较大差异的非均匀数据的问题,提出一种基于变异系数聚类算法。从聚类优化目标的角度出发,分析了以K-means为代表的划分聚类算法引发“均匀效应”的成因;提出以变异系数度量非均匀数据的分布散度,并基于变异系数定义一种非均匀数据的相异度公式;基于相异度公式定义了聚类目标优化函数,并根据局部优化方法给出聚类算法过程。在合成和真实数据集上的试验结果表明,与K-means、Verify2、ESSC聚类算法相比,本研究提出的非均匀数据的变异系数聚类算法(coefficient of variation clustering for non-uniform data, CVCN)聚类精度提升5%~40%。  相似文献   

15.
提出了一种基于死亡节点与半径调度的低功耗自适应集簇分层型(LEACH)覆盖保持协议,对簇头的随机选择机制进行了阈值的联合优化,采用泰森多边形对簇头节点进行Voronoi图划分,并根据簇头节点和簇内节点覆盖半径的不同进行分簇.在增大簇头节点通信半径及减小簇内节点的通信半径时,同时考虑网络中死亡节点数目,修正簇头节点的阈值选择公式,根据该阈值对网络的簇数重新选择和分簇.仿真结果表明,该算法对网络的覆盖度可保持在1 700轮左右,提高了网络的数据传输能力,延长了生命周期.  相似文献   

16.
无线传感器网络是目前计算机领域的一项研究热点,但是节点能量问题一直是个难点.该文将视点放在了分簇技术和节能技术上,在现有的分簇路由协议基础上,提出了一种节能的负载均衡的分簇路由协议.协议采用分簇的形式,根据最优簇头比例计算出簇头个数,然后根据一定的规则划分区域,并分配每个子域内簇头个数;之后,每个子域根据能量的高低选举...  相似文献   

17.
为了解决车辆自组织网络中信息传递质量较差的问题,提出了一种基于权重的本地通信质量保证分簇算法,将分簇后的车辆节点划分为自组织层和对等层两层,自组织层节点使用车间通信方式进行通信,对等层节点利用3G、LTE等更可靠的传统通信方式进行通信。该算法对经典的权重分簇算法进行改进,以本地最优化代替全局最优化,引入保障通信质量最大可接受通信距离的概念,并提出了新的簇结构维护策略。仿真实验结果表明,与经典的权重分簇算法相比,该算法具有更高的簇结构稳定性和更高的分组投递率以及更低的开销。  相似文献   

18.
针对解决网格节点资源聚类问题,提出了基于小生镜遗传算法的模糊聚类分析方法。该算法把小生镜遗传算法搜索的随机性和并行性引入模糊聚类中,对模糊聚类中的聚类中心的个数和聚类中心的选取进行指导,解决了模糊C均值聚类对初始聚类中心的敏感性问题、实验证明该方法能具有全局收敛性,克服了FCM算法可能陷入局部极小值,并有效地对网格节点资源整合归类,从而改善网格节点资源发现的性能。  相似文献   

19.
为在日前时间尺度上解决有源配电网优化调度问题,实现网架结构与分布式电源(distributed generation,DG)出力的协调调度,采用改进模糊聚类分析对负荷-DG等值负荷曲线进行时段划分,根据DG出力优化值对分段结果进行动态调整;采用机会约束方法处理不可调度DG随机出力问题,采用二层规划模型处理网架结构与DG有功出力协调问题,建立日前协调调度模型.实验结果表明:网络重构与可调度DG的出力调整相互影响.调度DG出力能减少开关动作次数,延长开关设备的寿命;网络重构能增加DG的渗透率,提高能源利用效率,增强配电网消纳DG的能力.所提出的方法能够有效应对负荷变化,在提高配电公司经济效益的基础上,实现配电网资产与DG资源的综合利用.  相似文献   

20.
在对铀尾矿库进行监测时,无线传感器优于传统的有线布置,但由于能量受限,在路由传输中必须高效地使用能量。该文在分析LEACH和GAF算法的基础上,提出了一种基于GAF交圆结构的改进型路由算法(IC-GAF)。利用节点地理位置信息与相交圆的结构模型来划分虚拟圆,在虚拟圆内根据剩余能量和节点与中心的距离来选举簇头,簇头从下一接收簇头或中转节点中选择最优的下一跳节点传输数据,最终将数据传输到基站。仿真表明,IC-GAF能有效的降低节点能耗,延长网络寿命。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号