首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
不完整数据的分析与填充一直是大数据处理的热点研究课题,传统的分析方法无法对不完整数据直接聚类,大部分方法先填充缺失值,然后对数据聚类。这些方法一般利用整个数据集对缺失数据进行填充,使得填充值容易受到噪声的干扰,导致填充结果不精确,进而造成聚类精度很低。提出一种不完整数据聚类算法,对不完全信息系统的相似度公式进行重新定义,给出不完整数据对象间的相似度度量方式,进而直接对不完整数据聚类。根据聚类结果将同一类对象划分到相同的簇中,通过同一类对象的属性值对缺失值进行填充,避免噪声对填充值的干扰,提高填充结果的精确性。实验结果表明,提出的方法能够对不完整数据进行聚类,并有效提高缺失数据的填充精度。  相似文献   

2.
面对大数据规模庞大且计算复杂等问题,基于MapReduce框架采用两阶段渐进式的聚类思想,提出了改进的K-means并行化计算的大数据聚类方法。第一阶段,该算法通过Canopy算法初始化划分聚类中心,从而迅速获取粗精度的聚类中心点;第二阶段,基于MapReduce框架提出了并行化计算方案,使每个数据点围绕其邻近的Canopy中心进行细化的聚类或合并,从而对大数据实现快速、准确地聚类分析。在MapReduce并行框架上进行算法验证,实验结果表明,所提算法能够有效地提升并行计算效率,减少计算时间,并提升大数据的聚类精度。  相似文献   

3.
根据实际应用中神经网络训练样本通常具有内在特征和规律性,提出一种基于样本自组织聚类的BP神经网络预测模型。通过自组织竞争网络的聚类特征,改善样本训练对BP网络性能的影响。BP神经网络采用收敛速度较快和误差精度较高的动量—自适应学习速率调整算法。并通过基于这种模型的空气质量预测实验,表明基于样本自组织聚类的BP神经网络预测模型首先会提高收敛速度,其次会减少陷入局部最小的可能,提高预测精度。  相似文献   

4.
为了能在大数据集中合理地寻找到网络结构,提出了一种适用于大数据集的通过局部核心节点进行社区发现的算法。对于初始节点不确定和适应度函数计算所带来的时间消耗,引入局部关键节点和对适应度公式进行改进来减少时间消耗。并在小规模数据网络和较大规模数据网络中与经典算法进行实验,由实验结果得出,在小规模的数据集中,本算法与经典算法效率相差不大,在测试数据集的规模不断变大的情况下,本算法执行效率明显提高。测试结果表明,本算法是可行和有效的,适用于大规模数据的网络结构发现。  相似文献   

5.
田华  何翼 《计算机应用研究》2020,37(12):3586-3589
针对大数据分析在大规模并行分布式系统和软件平台上可扩展的问题,提出了一个基于无参数围绕质心二进制分裂聚类(clustering using binary splitting,CLUBS)的大数据挖掘技术。该技术以完全无监督的方式工作,基于最小二次距离的准则进行分裂聚类将数据与噪声分离,通过中级精炼来识别仅包含异常值的块并为剩余块生成全面的簇,设计CLUBS的并行化版本以实现对大数据进行快速有效的聚类。实验表明CLUBS并行算法不受数据维度和噪声的影响,且比现有算法具有更好的可扩展性且速度较快。  相似文献   

6.
针对利用自组织特征映射(SOFM)神经网络进行模糊聚类时出现的一些问题,提出改进结构的神经网络,采用自适应的聚类初值,能够实现高维数据和任意形状族的聚类,与具有同样聚类效果的其他算法相比,具有较低的时间复杂度。仿真实验结果表明,该聚类算法比单个的神经网络聚类算法和同类其他算法更有效。  相似文献   

7.
为了快速地构造一个有效的模糊神经网络,提出一种基于扩展卡尔曼滤波(EKF)的模糊神经网络自组织学习算法。在本算法中,按照提出的无须经过修剪过程的生长准则增加规则,加速了网络在线学习过程;使用EKF算法更新网络的自由参数,增强了网络的鲁棒性。仿真结果表明,该算法具有快速的学习速度、良好的逼近精度和泛化能力。  相似文献   

8.
为解决语义特征化后复杂造型协同设计中造型共享库中的造型检索问题,提出了一种基于群智能自组织聚类算法。该算法首先将语义特征造型信息向量化,通过语义造型特征树得到语义特征造型特征集,以蚁群算法做为自组织准则,并以粒子群算法做为蚁群移动模型,将特征语义群分布在一个平面上进行聚类,递归收集聚类结果。试验证明,采用此种方法,可以对特征造型完成准确率很高的聚类,使特征库组织性得到了很大提高。  相似文献   

9.
为提高查看大量数据动态心电(ECG)图时的效率,将波形聚类,采用埃尔米特函数和自组织神经网络,实现了室性早搏占比高情况下的心电波形聚类算法.使用MIT-BIH心率失常数据库,利用埃尔米特函数分解QRS波形为QRS向量,将所有QRS向量输入自组织神经网络进行分类.使用特征向量元素分析聚类结果,用阳性率指标对结果进行统计,平均真阳性率为91.2%,假阳性率为1.03%,验证了基于自组织神经网络的心电聚类算法的有效性.达到了将正常心搏和室性早搏心搏聚类的目标.  相似文献   

10.
基于Hadoop的仿射传播大数据聚类分析方法   总被引:1,自引:0,他引:1  
仿射传播聚类算法(AP)是一个新的聚类分析方法,已经被广泛应用于各种领域。APC算法不能用于大型数据的分析。为了克服这个限制,在Hadoop分布式框架的基础上提出一种改进的放射传播聚类分析方法(基于Hadoop的仿射传播大数据聚类分析方法,简称APCH)。通过在Hadoop环境下重新设计算法流程,APCH算法成为了一个并行化的大数据聚类分析方法。此外APCH算法能够高效操作大数据,并能够直接决定聚类的个数。为了验证方法的性能,在多个数据集上进行了实验。实验结果表明APCH对大数据处理有很好的适应性和延展性。APCH采用开源的方式提供可执行软件程序和源代码,用户可以下载后部署在自己的分布式集群中或者是部署在亚马逊EC2等云计算环境中。所有编译后的执行程序,源代码,用户手册,部分测试数据集均可以从https://github.com/HelloWorldCN/MapReduceAPC上下载。  相似文献   

11.
针对大数据环境下K-means聚类算法聚类精度不足和收敛速度慢的问题,提出一种基于优化抽样聚类的K-means算法(OSCK)。首先,该算法从海量数据中概率抽样多个样本;其次,基于最佳聚类中心的欧氏距离相似性原理,建模评估样本聚类结果并去除抽样聚类结果的次优解;最后,加权整合评估得到的聚类结果得到最终k个聚类中心,并将这k个聚类中心作为大数据集聚类中心。理论分析和实验结果表明,OSCK面向海量数据分析相对于对比算法具有更好的聚类精度,并且具有很强的稳健性和可扩展性。  相似文献   

12.
张群洪  陈崇成 《计算机应用》2007,27(9):2262-2266
分析了自组织神经网络各种改进算法的优缺点,详细设计和实现了一种基于改进动态二叉树的自组织映射树(DBTSONN)。在改进动态二叉树中神经元节点可以自动生长和剪除,无需在训练前预先确定自组织神经网络结构。DBTSONN1算法采用单路径自组织树中搜索最匹配叶节点(获胜神经元),DBTSONN2算法考虑了获胜神经元节点所在自组织二叉树的层次,采用双向搜索获胜叶节点,提高了搜索效率。实验结果表明,该算法在向量量化器设计方面具有很好的效果。  相似文献   

13.
目的 高光谱图像的高维特性和非线性结构给聚类任务带来了"维数灾难"和线性不可分问题,以往的工作将特征提取过程与聚类过程互相剥离,难以同时优化。为了解决上述问题,提出了一种新的嵌入式深度神经网络模糊C均值聚类方法(EDFCC)。方法 EDFCC算法为了提取更加有效的深层特征,联合优化高光谱图像的特征提取和聚类过程,将模糊C均值聚类算法嵌入至深度自编码器网络中,可以保持两任务联合优化的优势,同时利用深度自编码器网络降维以及逼近任意非线性函数的能力,逐步将原始数据映射到潜在特征空间,提取数据的深层特征。所提方法采用模糊C均值聚类算法约束特征提取过程,学习适用于聚类的高光谱数据深层特征,动态调整聚类指示矩阵。结果 实验结果表明,EDFCC算法在Indian Pines和Pavia University两个高光谱数据集上的聚类精度分别达到了42.95%和60.59%,与当前流行的低秩子空间聚类算法(LRSC)相比分别提高了3%和4%,相比于基于自编码器的数据聚类算法(AEKM)分别提高了2%和3%。结论 EDFCC算法能够从高光谱图像的高维光谱信息中提取更加有效的深层特征,提升聚类精度,并且由于EDFCC算法不需要额外的训练过程,大大提升了聚类效率。  相似文献   

14.
为了减小智能探测机器人运动轨迹误差,实现精准控制,提高智能探测机器人运动控制效率,设计基于大数据聚类的智能探测机器人运动控制系统;采用TMS320LF2407A主控芯片,集成650 V功率管,在电感电流断续模式下工作,提供系统驱动能量,设置光电耦合器,处理控制信号发射,调整控制电路内部电流关系;选用6ES7214-1AG40-0XB0控制器以及信号和通信模块扩展,控制机器人运动轨迹,结合内部驱动装置,整合运动数据信息进行存储,实现运动控制系统硬件结构设计;通过调节程序开始数据,结合内部脉冲数据,构建软件平台管理模块,获取机器人运动轨迹数据;采用大数据聚类技术,建立控制系统大数据分布结构模型,模拟非线性时变LFM控制信号,提取特征并聚类运动轨迹数据,获取精准运动轨迹数据,减少运动轨迹偏差程度,完成运动控制系统软件设计;实验结果表明,基于大数据聚类的运动控制系统的运动轨迹误差较小,能够有效实现精准控制,提高运动控制效率.  相似文献   

15.
多传感器遥感图像融合是一种遥感信息综合分析与处理的技术,其研究正成为遥感学科领域的热门课题之一。利用自组织特征映射神经网络具有较好的聚类特性,对多源遥感图像进行高水平的分类与融合。通过对GMS 5卫星图像融合前后性质的比较和融合质量的评估,不难发现:融合后的图像不论在视觉效果上还是在噪声特性上都有了很大的改善。  相似文献   

16.
讨论了采用无监督的模糊竞争学习算法,并结合自组织竞争网络构成的一种新型模糊聚类神经网络模型,提出了一种基于该网络模型的镜头突变检测算法。该算法通过对线性特征空间进行由粗到细的两步模糊聚类实现镜头突变的检测。实验结果表明该算法是可行和有效的。  相似文献   

17.
基于特征向量的分布式聚类算法   总被引:7,自引:0,他引:7  
提出了一种新的表达数据集的方法——特征向量,它通过坐标和密度描述了某一密集空间,以较少的数据量反映站点数据的分布特性。在此基础上提出了一种基于特征向量的分布式聚类算法——DCBFV(Distributed Clustering Based on Feature Vector),该算法可有效降低网络通信量,能够对任意形状分布的数据进行聚类,提高了分布式聚类的时空效率和性能。理论分析和实验结果表明DCBFV是高效可行的。  相似文献   

18.
提出了一种基于遗传算法的大数据特征选择算法。该算法首先对各维度的特征进行评估,根据每个特征在同类最近邻和异类最近邻上的差异度调整其权重,基于特征权重引导遗传算法的搜索,以提升算法的搜索能力和获取特征的准确性;然后结合特征权重计算特征的适应度,以适应度作为评价指标,启动遗传算法获取最优的特征子集,并最终实现高效准确的大数据特征选择。通过实验分析发现,该算法能够有效减小分类特征数,并提升特征分类准确率。  相似文献   

19.
针对目前大型锅炉火焰检测手段的落后现状,提出了一种基于数字图像处理与自组织竞争神经网络进行燃烧诊断的方法,设计了一套火焰燃烧诊断系统.利用数字图像处理技术提取火焰特征量,应用神经网络的竞争学习对不同负荷下的全炉膛火焰图像进行识别分类,从而实现燃烧诊断和灭火预警的功能.  相似文献   

20.
利用少量标签数据获得较高聚类精度的半监督聚类技术是近年来数据挖掘和机器学习领域的研究热点。但是现有的半监督聚类算法在处理极少量标签数据和多密度不平衡数据集时的聚类精度比较低。基于主动学习技术研究标签数据选取,提出了一个新的半监督聚类算法。该算法结合最小生成树聚类和主动学习思想,选取包含信息较多的数据点作为标签数据,使用类KNN思想对类标签进行传播。通过在UCI标准数据集和模拟数据集上的测试,结果表明提出的算法比其他算法在处理多密度、不平衡数据集时有更高精度且稳定的聚类结果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号