首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 596 毫秒
1.
随着数据流规模的持续增大,现有基于网格的聚类算法对数据流的聚类效果不好,不能实时发现任意形状的簇,也不能及时删除数据流中的噪声点。文章提出了一种Hadoop平台环境下基于网格密度的分布式数据流聚类算法(PGDC Stream),利于基于Hadoop的MapReduce框架对数据流进行阶段化的并行聚类分析,实时发现数据流中任意形状的簇,定义检测周期和密度阈值函数并及时删除数据流中的噪声点。算法基于网格密度对数据流初始聚类后,随着新数据的到来,使用基于密度阈值函数的噪声点处理策略,周期性检测和删除噪声点,使用基于Hadoop MapReduce框架的并行分析模型周期性地调整已经生成的簇。实验结果表明,PGDC Stream对大规模数据流的聚类质量、可伸缩性和实时性都好于CluStream。   相似文献   

2.
为满足海量数据处理要求,提出了一种基于网格的K-means快速聚类算法(SPGK).设计基于网格质心的聚类簇个数选取算法,对数据进行网格划分得到每个网格的质心,将质心作为K-means聚类的样本点,从而减少K-means的欧氏距离计算次数.该算法基于Spark平台实现并行计算,进一步地提高了算法的运行效率.SPGK不但能够获得良好的聚类效果,而且缩减了欧氏距离计算次数,适用于海量数据的快速聚类.在千万级数据集上的实验结果表明,SPGK的性能明显优于现有的K-means++和基于K均值聚类的递归划分方法.  相似文献   

3.
针对密度聚类算法无法应用于大规模数据集的问题,提出一种基于划分网格的密度聚类算法(GDSCAN)。将大规模二维点阵图划分为若干网格,网格最短边不小于给定邻域半径,目标点所在网格中任意点的邻域范围不会超过与该网格直接连接的网格,只需在保留网格内寻找邻域点,从而减少计算量;聚类从任意无类别核心点开始,将该点的所有密度可达组成一个簇,以此类推直至所有核心点都有类别;采用提出的GDSCAN算法对不同数量级的二维路网节点进行聚类验证。结果表明,GDSCAN算法可有效解决大规模二维点阵数据集中密度聚类的效率问题,数据量越大,效果越明显,且时间复杂度明显降低。  相似文献   

4.
分析了数据流的特点,针对数据流聚类算法CluStream对数据流中非球形聚类效果不好的情况,提出了基于数据流的不规则网格增量聚类算法IIGStream.IIGStream算法具备了传统网格聚类算法处理速度快的优点.同时能够动态增量地调整网格结构.对新到来的数据点,通过判断网格是否相连,保证了对于不同形状聚类的聚类效果.IIGStream在聚类时无需预先指定聚类数目.且对孤立点不敏感.在真实数据集与仿真数据集上的实验结果表明,IIGStream算法具有良好的适用性和有效性,在聚类精度以及速度上均优于CluStream算法.  相似文献   

5.
提出一种人群活动热点区域的识别方法。利用实际电信用户位置数据,使用网格作为地理空间数据的索引结构,对用户移动轨迹数据进行网格划分,进而利用网格密度和种子网格聚类算法给出热点区域的判定方法,并利用Top-k查询方法选出密度阈值限定热点区域的覆盖范围。仿真表明,该算法能识别出人群活动热点区域,与具有噪声的基于密度的聚类方法算法相比,能够减少热点区域识别时间,增强处理的实时性。  相似文献   

6.
随着数据采集和通信技术的发展,对时时变化的不同来源的信息即数据流,实施实时监控将成为可能.数据流是大量的连续变化的数据序列,传输速度快,传统的挖掘算法将被适合于挖掘量大、能自由出入的数据流的技术所代替.笔者提出了用聚类技术来改进数据流挖掘的问题.笔者对K-均值算法、基于网格的统计聚类算法、回归分析算法等适用于数据流挖掘的算法进行了研究和分析,并对它们进行了比较.  相似文献   

7.
提出了一种基于网格密度的混合聚类算法。该算法使用平方误差密度函数作为密度评估标准,避免了传统密度算法由于Eps和MinPts设置不当给聚类效果带来的不稳定因素。提出了动态邻域半径策略,解决了传统密度算法采用全局静态邻域半径造成的聚类偏差问题。对空间区域内的所有结点设置网格密度启发信息。在进行数据结构构造和邻域半径计算时,只需计算对应网格区域内结点,从而降低了计算成本;在进行区域查询时,只选择符合条件的代表对象进行扩展,从而减少了查询次数,节省了程序运行时间。对Pendigits数据集和SE-QUOIA 2000数据库进行测试,结果表明:提出的基于网格密度的混合快速聚类算法在海量数据聚类精度、聚类时间以及聚类稳定性上要优于传统的聚类算法。  相似文献   

8.
针对传统的基于网格-密度的空间聚类方法容易产生不平滑聚类、非坐标轴方向过度聚类以及聚类边界判断模糊的问题,本文提出了一种高维空间数据的模糊聚类算法.该算法通过扩展网格区域,用模糊集的隶属度对基本区域及模糊扩展区域内的数据点进行计数,考虑了相邻网格对当前考察网格内数据点的影响,避免了不平滑聚类想象;同时,通过对相邻网格重新定义扩展了聚类算法的执行方向,有效缓解了过度聚类以及聚类边界模糊的问题.实验结果表明,该方法克服了传统聚类方法的不足,空间高维数据聚类结果的质量得到了改善.  相似文献   

9.
针对现有的数据流聚类算法不能在线实时生成用户需要的聚类结果问题,提出一种基于滑动窗口的数据流在线聚类算法.该算法采用密度网格存储结构,实现了数据流的在线聚类过程,能实时地向用户提供聚类结果,动态地检测数据流的进化情况.实验结果表明,该方法具有快速在线聚类能力,并能保证良好的聚类质量.  相似文献   

10.
提出一种基于扩展凝聚点和网格的快速聚类算法CECPG(c lustering using extended condensation pointand grid).在CECPG算法的基础上提出一种基于扩展凝聚点和网格的增量聚类算法ICECPG(increm entalc lustering using extended condensation point and grid).通过扩张凝聚点准确反映数据空间的几何特征,然后采用网格和密度相结合的方法,利用爬山法和连通性原理进行聚类处理,并在差分数据的指导下进行增量聚类.实验结果证明,CECPG算法的聚类效果优于模糊聚类算法FCM和C lique算法.  相似文献   

11.
针对无线传感网中能源高效的实时数据收集问题,提出了包含节点聚簇、路径规划、合并路径和数据收集4个阶段的移动数据收集协议和节省开销及近邻2个启发式路径规划算法,构建了满足时延且移动开销最小的数据收集路径.仿真结果表明,提出的路径规划算法在节约网络能耗、保证时延要求和减少移动开销等方面都更具优势.  相似文献   

12.
提出一种基于内存共享机制数据中心进程优化调度策略,并基于软件定义网络 (SDN)架构建立数据中心负载模型及内存节点能耗模型,给出2个用于降低内存能耗的启发式进程调度算法. 这2个算法以实际内存节点为研究对象,在保证数据中心负载均衡的基础上,通过合理进程调度实现内存共享率最大,使得处于活动态的内存节点数最少,从而达到数据中心内存能耗优化目的. 仿真结果表明,提出的启发式进程调度算法能有效降低内存能耗.  相似文献   

13.
设计并实现了一种面向能耗均衡的传感网单移动sink数据收集方法.利用传感网完全覆盖模型确定了sink在网内各遍历点的具体坐标,并在此基础上,构建了其定长移动数据收集轨迹.实验结果表明,该方法的能耗均衡性优于虚拟节点策略、基于效用的贪婪启发式交会点找寻等典型的移动sink数据收集方法.  相似文献   

14.
To performance efficient searching for an operator-supervised mobile robot, a multiple objectives route planning approach is proposed considering timeliness and path cost. An improved fitness function for route planning is proposed based on the multi-objective genetic algorithm (MOGA) for multiple objectives traveling salesman problem (MOTSP). Then, the path between two route nodes is generated based on the heuristic path planning method A *. A simplified timeliness function for route nodes is proposed to represent the timeliness of each node. Based on the proposed timeliness function, experiments are conducted using the proposed two-stage planning method. The experimental results show that the proposed MOGA with improved fitness function can perform the searching function well when the timeliness of the searching task needs to be taken into consideration.  相似文献   

15.
考虑汇聚开销对无线传感器网络数据汇聚路由性能的影响,提出一种基于汇聚决策的分布式汇聚路由算法.当信息源点动态到达或离开时,该算法根据数据相关性、数据汇聚成本和数据传输成本自动计算汇聚得益,并依据汇聚得益进行汇聚决策和确定数据汇聚路由,从而联合优化了汇聚开销和传输开销,减少了数据采集能耗.同时,该分布式算法仅依靠本地信息建立路由,降低了路由维护开销.仿真实验表明,在各种网络条件下,该在线算法的能耗性能与离线算法的相对误差在17%以内.  相似文献   

16.
针对移动机器人非完整运动规划问题,采用多项式插值技术实现控制参数化,将无穷维非完整运动规划问题转化为有限维参数优化问题.考虑系统的能量消耗和末端约束,构造了优化的目标函数.提出了一种求解移动机器人非完整运动规划的粒子群优化算法.仿真结果验证了移动机器人运动规划的粒子群优化算法的有效性.  相似文献   

17.
樊敏  曾光裕  李清宝  周丽 《信息工程大学学报》2009,10(4):518-国家863计划资助项目
现有的数据采集算法很难适用于较大规模的加密PLD解析。文章研究数据采集中状态加全的并行性和CPU与采集平台之间的并行性,提出了一种并行数据采集模型,通过将状态加全和搜索状态转移路径分散到多个采集设备上执行,充分利用设备资源,解决了构建状态转移图时内存不足的问题,有效降低了数据采集时间。  相似文献   

18.
在现实网络环境中,数据分布不均衡是普遍现象,也是研究的热点问题。利用传统机器学习算法解决该问题的研究成果较多,综述性研究也较丰富。但当前从深度学习的角度探讨数据不均衡问题已成为新趋势。对此,综述了基于深度学习方法的研究成果。通过对数据不均衡问题进行深入分析,从数据预处理、分类器设计及改进两大方面梳理相关技术路线,包括传统采样方法与深度学习相结合、利用深度学习网络模型合成数据、代价敏感学习、设计端到端模型的方法,最后针对现有研究提出开放性问题。  相似文献   

19.
移动机会网络中,为使用户快速从因特网获取数据,需要选择某些合适节点担任网关。研究了移动机会网络网关选择问题。证明了k网关选择判定问题是NP难的。基于移动节点的中介中心性、度中心性、接近中心性,利用贪婪策略,提出了移动机会网络的网关选择算法。实验结果表明,基于节点中心性的3种网关选择算法均可改善网络性能。特别是基于节点接近中心性的算法可使性能得到最大幅度提升;基于节点中介中心性和度中心性的算法的性能受网络规模、需选择网关数目影响不大;基于节点接近中心性的网关选择算法对网络性能的改善幅度随需选择的网关数目的增多而增大。  相似文献   

20.
移动无线传感器网络(MWSN)体系结构在解决传统的网络能量消耗不均衡的问题上有显著效果,但移动sink节点的加入会增大网络的传输延迟。通过分析无线传感网络数据采集机制的耗能情况,提出一种联合动态和静态sink节点的数据收集策略HMS,在节能的同时改善网络的延迟问题,并且结合最短路径最大传输量算法优化MWSN在一个圆形监测区域的数据采集情况。系统仿真证明HMS算法在提高网络能源利用效率上的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号