首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
针对传统密度聚类算法处理海量数据时间复杂度高且不适合处理动态数据等问题,提出一种利用参考点和MapReduce模型进行动态增量聚类的密度算法。其创新点在于,该算法实现了一种能够处理海量动态数据的聚类算法,保证了增量聚类与重新聚类结果的一致性,并具有可扩展性的特点。实验结果证明:该算法降低了参数敏感性,提高了密度算法的聚类效率和资源利用率,适合大数据分析。  相似文献   

2.
基于扩展和网格的多密度聚类算法   总被引:6,自引:1,他引:6  
邱保志  沈钧毅 《控制与决策》2006,21(9):1011-1014
提出了网格密度可达的聚类概念和边界处理技术,并在此基础上提出一种基于扩展的多密度网格聚类算法。该算法使用网格技术提高聚类的速度,使用边界处理技术提高聚类的精度,每次聚类均从最高的密度单元开始逐步向周围扩展形成聚类.实验结果表明,该算法能有效地对多密度数据集和均匀密度数据集进行聚类,具有聚类精度高等优点.  相似文献   

3.
针对含有噪声的高维数据的聚类问题,提出一种使用新的距离度量方式的增量式聚类算法ANFCM(c+p)。由于传统的模糊C均值聚类算法对初始化聚类中心比较敏感,所提出的聚类算法将单程FCM的增量机制(称为SpFCM)与FCPM中使用的初始化聚类中心的策略相结合,即将先前数据块的聚类中心附近的几个样本点添加到下一个数据块进行聚类,以避免FCM对噪声的敏感性。此外,所提出的聚类算法使用一种新的改进后的距离度量的同时,使用修正后的约束条件和目标函数。通过以上改进,可以有效区分已知类和未知类在算法中的不同影响程度,并加强类之间的相互影响程度。实验结果表明,该算法对高维噪声数据具有很好的聚类效果和鲁棒性。  相似文献   

4.
K-means算法随机选取初始聚类中心,容易导致聚类结果不稳定。为此,提出一种快速密度峰值搜索算法CFSFDP(clustering by fast search and find of density peaks)优化初始中心的K-means算法。首先针对CFSFDP算法中截断距离的选取影响局部密度的计算这一缺点,提出用动力学中的势能替换数据点的局部密度;在此基础上,利用改进的CFSFDP算法选取初始聚类中心,实现K-means聚类。在UCI数据集和人工模拟数据集上的测试结果表明,优化后的新算法具有更好的聚类结果。  相似文献   

5.
模糊C-均值(FCM)算法是一种非监督的模式识别方法。由于该算法具有对数据集进行等划分的趋势,因此影响其聚类精度。利用数据点的密度大小作为权值,借助数据本身的分布特性,提出了一种点密度加权模糊C-均值算法。该方法不仅在一定程度上克服了FCM算法的缺陷,而且具有良好的收敛性。以聚类已知的少量数据点作为监督信息指导聚类,聚类效果进一步改善。并用聚类有效性函数对算法的聚类有效性进行了评价,从而为算法的聚类性能提供了理论依据。  相似文献   

6.
逄琳  刘方爱 《计算机应用》2016,36(6):1634-1638
针对传统的聚类算法对数据集反复聚类,且在大型数据集上计算效率欠佳的问题,提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法——基于层次划分密度的聚类优化(CODHD)。该算法基于层次划分,对计算过程进行研究,不需要对数据集进行反复聚类。首先,扫描数据集获得所有聚类特征的统计值;其次,自底向上地生成不同层次的数据划分,计算每个划分数据点的密度,将最大密度点定为中心点,计算中心点距离更高密度点的最小距离,以中心点密度与最小距离乘积之和的平均值为有效性指标,增量地构建一条关于不同层次划分的聚类质量曲线;最后,根据曲线的极值点对应的划分估计最佳聚类数和初始聚类中心。实验结果表明,所提CODHD算法与预处理阶段的聚类优化(COPS)算法相比,聚类准确度提高了30%,聚类算法效率至少提高14.24%。所提算法具有较强的可行性和实用性。  相似文献   

7.
聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询次数,降低I/O开销而提出的改进算法有FDBSCAN、LSNCCP等。随着应用的发展,增量聚类显得越来越重要,而现有的增量聚类算法存在很大的局限性。基于LSNCCP,提出了一种有效的增量聚类算法,同时它也可以用于对LSNCCP进行性能优化。  相似文献   

8.
IncSNN——一种基于密度的增量聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类算法是一类重要的聚类算法,能发现任意形状的簇,但由于它的时间复杂度较高,因此设计有效的增量更新算法是一个重要研究方向.在SNN算法的基础上,提出一种基于密度的增量聚类算法-IncSNN.该算法将所更新对象的空间进行划分,定义了基于该划分的最近邻居的概念,进而确定了受影响对象的集合,当算法更新时,只需要对受影响的数据进行处理.由于受影响对象的集合远小于原数据集合,因此显著提高了算法的效率.实验结果验证了IncSNN的有效性.  相似文献   

9.
在分析了现有的基于密度的聚类算法的基础上,结合微粒群算法,提出了一种基于密度的微粒群混合聚类算法。相对于DENCLUE聚类算法,该算法能够对使用的资源进行有效的控制,有利于实现对数据库数据的增量处理。实验证明了算法的有效性。  相似文献   

10.
针对传统的聚类算法存在开销大、聚类质量差、聚类速度慢等问题,提出一种新的云计算环境下高复杂度动态数据的增量密度快速聚类算法。首先,依据密度对云计算环境下高复杂度动态数据进行聚类,从数据空间中找到部分子空间,使得数据映射至该空间后可产生高密度点集区域,将连通区域的集合看作聚类结果;其次,通过DBSCAN算法进行增量聚类,并对插入或删除数据导致的原聚类合并或分裂进行研究;最后,在更新的过程中通过改变核心状态数据的邻域中含有的全部核心数据进行处理,从插入或删除数据两方面进行增量聚类分析。实验结果表明,所提算法开销低、聚类速度快、聚类质量高。  相似文献   

11.
基于SQL数据库的过程数据压缩方法   总被引:2,自引:1,他引:1       下载免费PDF全文
利用SQL Server数据库存储过程历史数据,提出一种增量型的SDT压缩算法,有效地实现了过程历史数据的实时存储。对于通过OPC方式从化工过程底层读取的实时数据,利用增量型的SDT算法进行实时压缩存储,利用LZW算法对存储的值进行二次无损压缩。实验测试表明,该方法能够实时处理大量的过程数据,同时尽最大可能对过程数据进行压缩,降低存储成本。在容差为1%、测点为 1 000个时,该算法使平均压缩率达到约85%。  相似文献   

12.
近似概念格及其增量构造算法研究*   总被引:1,自引:1,他引:0  
针对传统概念格处理不完备信息的局限,给出了处理形式背景有缺值现象的概念格扩展模型———近似概念格,在此基础上提出改进的概念格增量构造算法。该算法引入哈希技术和最近父节点的增量计算方法,从加速定位生成元和更新边这两个关键过程改进Godin算法。采用随机数据集设计实验,实验表明,改进的算法可有效提高对形式背景有缺值现象概念格的建格效率,尤其是对数据规模和发生关系概率较大的数据集,算法的高效性更明显。  相似文献   

13.
增量式CURE聚类算法研究   总被引:3,自引:0,他引:3  
聚类是一种非常有用的数据挖掘方法 ,可用于发现隐藏在数据背后的分组和数据分布信息 .目前已经提出了许多聚类算法及其变种 ,但在增量式聚类算法研究方面所作的工作较少 .当数据集因更新而发生变化时 ,数据挖掘的结果也应该进行相应的更新 .由于数据量大 ,在更新后的数据集上重新执行聚类算法以更新挖掘结果显然比较低效 ,因此亟待研究增量式聚类算法 .通过对 CURE聚类算法的改进 ,提出了一种高效的增量式 CU RE聚类算法 .它能够很好的解决传统聚类算法在伸缩性、数据定期更新时所面临的问题 .实验结果显示本算法是一种有效的增量式聚类算法  相似文献   

14.
集成多个传感器的智能片上系统( SoC)在物联网得到了广泛的应用.在融合多个传感器数据的分类算法方面,传统的支持向量机( SVM)单分类器不能直接对传感器数据流进行小样本增量学习.针对上述问题,提出一种基于Bagging-SVM的集成增量算法,该算法通过在增量数据中采用Bootstrap方式抽取训练集,构造能够反映新信息变化的集成分类器,然后将新老分类器集成,实现集成增量学习.实验结果表明:该算法相比SVM单分类器能够有效降低分类误差,提高分类准确率,且具有较好的泛化能力,可以满足当下智能传感器系统基于小样本数据流的在线学习需求.  相似文献   

15.
曾小宁  肖水晶 《计算机应用》2007,27(6):1403-1406
引入扩展差别矩阵和扩展决策矩阵,提出了新的属性约简算法和增量更新算法,即基于扩展差别矩阵的属性约简算法和基于扩展决策矩阵的增量式规则提取算法,讨论了规则的增量更新算法。由于使用了增量更新算法和并行处理技术,从而提高了数据挖掘的效率,降低了时间复杂度。通过实验说明此算法是有效和可行的。  相似文献   

16.
基于粗糙集和决策树的增量式规则约简算法   总被引:2,自引:0,他引:2  
粗糙集方法是一种处理不确定或模糊知识的重要工具。传统的粗糙集模型对最简规则集的研究都是针对静态数据的,对于动态数据却显得无能为力。但在实际应用中,数据库中的数据往往是动态变化的,因此,对规则约简的增量式算法的研究是知识发现领域所急需解决的问题之一。文章给出了一种基于粗糙集和决策树的增量式规则约简算法,并与传统算法和RRIA算法进行了对比分析,实验结果表明该算法的方法和效果更好。  相似文献   

17.
基于密度的增量式网格聚类算法   总被引:29,自引:0,他引:29  
提出基于密度的网格聚类算法GDcA,发现大规模空间数据库中任意形状的聚类.该算法首先将数据空间划分成若干体积相同的单元,然后对单元进行聚类只有密度不小于给定阈值的单元才得到扩展,从而大大降低了时间复杂性在GDcA的基础上,给出增量式聚类算法IGDcA,适用于数据的批量更新.  相似文献   

18.
由于数据随时间和空间不断更新,很多基于粗糙集的增量方法被提出。然而,动态数据上基于模糊粗糙集的特征选取(也称属性约简)更新的研究较少,特别是连续型动态数据上的增量特征选取。为了解决这个问题,提出适用于连续型数据的基于模糊粗糙集的增量属性约简算法。首先提出模糊粗糙基本概念的增量机制,如模糊正域的增量机制。只有部分示例在已有属性约简上的辨识能力不足,即对于模糊正域来说,存在一个关键示例集。增量约简算法基于已有数据上的约简结果,仅需要更新关键示例集中的示例,而非全部的论域。因而该增量算法在动态数据上能快速获得约简的更新。通过数值对比实验可以看出,增量算法比非增量算法在运行时间上有明显的优势。特别是对于高维数据集,增量算法可以大大地节省计算时间。  相似文献   

19.
一种基于类支持度的增量贝叶斯学习算法   总被引:1,自引:0,他引:1       下载免费PDF全文
丁厉华  张小刚 《计算机工程》2008,34(22):218-219
介绍增量贝叶斯分类器的原理,提出一种基于类支持度的优化增量贝叶斯分类器学习算法。在增量学习过程的样本选择问题上,算法引入一个类支持度因子λ,根据λ的大小逐次从测试样本集中选择样本加入分类器。实验表明,在训练数据集较小的情况下,该算法比原增量贝叶斯分类算法具有更高的精度,能大幅度减少增量学习样本优选的计算时间。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号