首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 296 毫秒
1.
子空间聚类算法只能处理小规模数据,且无法处理样本外数据.针对此问题,文中提出采用二次采样策略的子空间聚类框架(TSSC).该框架由两个核心部件组成:判别性协作表示(DCR)与多尺度K近邻(KNN)采样方法.在TSSC中,DCR首先结合多尺度KNN对数据点进行特征变换,从而保证属于同一子空间的点有更一致的表示.为了提高算法的可扩展性,TSSC在新的特征空间中使用多尺度KNN对数据进行二次采样,并根据采样点获得的初步聚类结果训练线性分类器,最后根据学习得到的分类器对剩余样本点进行分类,获得最终的聚类结果.在真实数据集上的实验验证TSSC的有效性.  相似文献   

2.
基于深度学习的聚类方法可以自动学习到数据的隐层特征表示,并可方便应用于高维大规模数据集上。传统深度聚类方法更多关注通过深层神经网络去提取数据的隐层特征来提升聚类精度,较少对聚类任务中数据类别的确定性问题进行分析,同时缺乏对施加约束后的离散隐向量分布的分析。提出熵正则化下的变分深度生成聚类模型(VDGC-ER),以变分自编码为基础框架,对连续向量进行高斯混合先验建模,并以高斯混合中的离散隐向量作为类别向量。通过对离散隐向量引入样本熵正则化项增强预测聚类类别的区分度,同时对离散隐向量定义聚合样本熵正则化项以降低聚类不平衡,避免局部最优,并提升生成数据多样性。之后,采用蒙特卡洛采样及重参策略估计VDGC-ER模型的优化目标,并利用随机梯度下降法求解模型参数。最后在MNIST数据集、REUTERS数据集、REUTERS-10K数据集和HHAR数据集上设计了对比实验,验证了VDGCER模型不仅可以生成高质量的样本,而且可以显著提升聚类精度。  相似文献   

3.
一种聚类加权支持向量机算法及其在软测量中的应用   总被引:1,自引:1,他引:0  
针对支持向量机应用于软测量建模时,工业过程数据中特异点影响建模精度的问题,提出聚类加权支持向量机方法.该方法首先对建模数据进行聚类分析,根据聚类结果,对各类数据的惩罚系数进行相应的加权,改变权值大小既能减小特异点对模型的影响程度,又能将其包含的生产过程信息引入到软测量模型中.聚丙烯熔融指数软测量的实例研究表明,通过对建模数据进行聚类分析和加权处理,聚类加权支持向量机比标准支持向量机建模更准确.  相似文献   

4.
王亮 《网友世界》2012,(1):64-69
为解决经典模糊聚类算法对噪声数据敏感、样本分布不平衡和高维数据集聚类效果不理想的问题。针对此不足,可以通过Mercer核把原来的数据空间映射到特征空间,并为特征空间的每个向量分配一个动态权值,从而在经典模糊聚类算法的基础上得到特征空间内的全新的目标函数。在基于核函数的模糊聚类算法中,核参数的选择是至关重要的。因此,提出了一个简单有效地决定核参数的方法。理论分析和实验结果表明,相对于其它经典模糊聚类算法,新算法具有更好的健壮性和聚类效果。  相似文献   

5.
在利用足压信息对人体步行状态的辨识中,由多传感器阵列采集获得的双足压力信号存在冗余度高、关联性弱、噪声干扰强等问题.为了辨识人体下肢运动状态,文中提出基于奇异值分解与模糊C均值聚类的步行状态辨识.首先采用奇异值分解的方法,融合足压多源观测数据,提取关于步态的特征信号.然后再将特征信号以向量形式张成步态信息子空间,并基于模糊C均值聚类算法对特征点进行聚类处理.因为特征点与信号采样序列一一映射,故聚类结果在时域上形成对步态运动过程的阶段划分.实验表明,文中方法可以有效辨识人体下肢的5种典型运动状态.  相似文献   

6.
聚类分析是数据挖掘的一类主要的方法,它可以自动根据相似性对数据对象进行分组,发现数据空间的分布特征。DBSCAN算法是经典的基于密度的聚类算法,针对此算法处理簇边界共享点的不足之处,改进了此算法。试验结果证实了确实可以提高聚类结果的质量。  相似文献   

7.
多代表点特征树与空间聚类算法   总被引:1,自引:0,他引:1  
空间数据具有海量、复杂、连续、空间自相关、存在缺损与误差等的特点,要求空间聚类算法具有高效率,能处理各种复杂形状的簇,聚类结果与数据空间分布顺序无关,并且对离群点是健壮的等性能,已有的算法难以同时满足要求。本文提出了一个适合处理海量复杂空间数据的数据结构一多代表点特征树。基于多代表点特征树提出了适合挖掘海量复杂空间数据聚类算法CAMFT,该算法利用多代表点特征树对海量的数据进行压缩,结合随机采样的方法进一步增强算法处理海量数据的能力;同时,多代表点特征树能够保存复杂形状的聚类特征,适合处理复杂空间数据。实验表明了算法CAMFT能够快速处理带有离群点的复杂形状聚类的空间数据,结果与对象空间分布顺序无关,并且效率优于已有的同类聚类算法BLRCH与CURE。  相似文献   

8.
聚类分析是数据挖掘的一类主要的方法,它可以自动根据相似性对数据对象进行分组,发现数据空间的分布特征。DBSCAN算法是经典的基于密度的聚类算法,针对此算法处理簇边界共享点的不足之处,改进了此算法。试验结果证实了确实可以提高聚类结果的质量。  相似文献   

9.
基于多层空间模糊减法聚类算法的Web数据库安全索引   总被引:1,自引:0,他引:1  
林楠  史苇杭 《计算机科学》2014,41(10):216-219
目前对Web数据库进行索引查询时采用单层文本特征聚类方法,当聚类特征不一致时,存在着非法聚类和非法结果输出的安全问题。提出一种基于多层空间模糊减法聚类的Web数据库安全索引算法,该算法将数据库信息矢量构建成多层矢量自回归空间,把数据流信息聚焦在空间的多层空间模糊聚类中心,采用减法聚类的模糊推理方法构建数据库索引函数,变尺度调整聚类中心向量,搜索索引结果,阻止了邻近数据点非法侵入和非法聚类,实现了Web数据库安全索引。仿真实验表明,该算法能使数据库信息流在多层矢量自回归空间中充分展开,特征匹配度比传统算法显著提高,能有效排除非法数据输出,保证数据库安全索引。  相似文献   

10.
聚类分析是数据挖掘中的一个重要研究课题。在许多实际应用中,聚类分析的数据往往具有很高的维度,例如文档数据、基因微阵列等数据可以达到上千维,而在高维数据空间中,数据的分布较为稀疏。受这些因素的影响,许多对低维数据有效的经典聚类算法对高维数据聚类常常失效。针对这类问题,本文提出了一种基于遗传算法的高维数据聚类新方法。该方法利用遗传算法的全局搜索能力对特征空间进行搜索,以找出有效的聚类特征子空间。同时,为了考察特征维在子空间聚类中的特征,本文设计出一种基于特征维对子空间聚类贡献率的适应度函数。人工数据、真实数据的实验结果以及与k-means算法的对比实验证明了该方法的可行性和有效性。  相似文献   

11.
为提升城市城市道路拥堵检测和治理效率,提出一种基于势场修正多处理器并行聚类的城市道路拥堵时空分析方法。首先,利用GIS四维空间时态数据给出城市道路拥堵的时空模型,并通过设置虚拟数据参数实现时间的低密度采样处理,获得城市道路拥堵路段时空规律性的有效检测;其次,基于势场修正法构建多处理器并行聚类方法,分别设计了距离矩阵、邻域半径和密度函数的并行化多处理计算方法,并实现了并行聚类算法设计,同时给出上述并行计算过程的计算复杂度分析定理;最后,以北京市为试验区,对所提城市道路拥堵分析算法性能进行了验证,实验结果表明,所提方法可实现城市城市道路拥堵情况的快速有效检效检测分析,可为城市道路拥堵管理提供数据支撑。  相似文献   

12.
为了提高客服中心的智能管理和信息调度能力,结合大数据分析方法进行客服中心实时数据监测和自动采集设计。提出一种基于模糊规则特征量挖掘和层次分析聚类的客服中心实时数据流自动监测方法。建立客服中心的网格分布结构模型并进行客服中心实时数据流监测统计特征分析,进行客服中心实时监测数据属性集的向量量化特征分解,对客服中心实时数据采用信息融合和模糊层析性分析方法实现信息融合,进行关联数据自适应特征提取,挖掘客服中心实时监测数据信息流的正相关性特征量。在层次性聚类算法基础上采用自回归分析进行客服中心实时数据流的模糊聚类和信息预测,提高客服中心实时数据监测的准确性,同时降低了客服服务中心数据流监测的风险。仿真结果表明,采用该方法进行客服中心实时数据监测的聚类性较高,预测性较好,能降低数据聚类的误分率,提高了客服中心实时数据监测能力。  相似文献   

13.
鉴于传统方法不能直接有效地对多元时间序列数据进行聚类分析,提出一种基于分量属性近邻传播的多元时间序列数据聚类方法.通过动态时间弯曲方法度量多元时间序列数据之间的总体距离,利用近邻传播聚类算法分别对数据之间的总体距离矩阵和分量近似距离矩阵进行聚类分析,综合考虑这两种视角下序列数据之间的关联关系,使用近邻传播方法对反映原始多元时间序列数据的综合关系矩阵实现较高质量的聚类.数值实验结果表明,与传统聚类方法相比,所提出方法不仅能够有效地反映总体数据特征之间的关系,而且通过重要分量属性序列之间的关联关系分析能够提高原始时间序列数据的聚类效果.  相似文献   

14.
物联网监测点相邻关系判定是实现物联网监测异常数据审核时需要解决的一个重要问题。为了克服传统的基于行政区域或地理位置直接指定相邻关系存在的不足,采用聚类分析方法,用轮廓系数作为确定簇数和选择算法的依据,实现了一种基于历史监测数据的物联网监测点逻辑相邻关系判定方法。使用实际监测数据对该方法进行了验证,实验结果表明,所得到的相邻关系符合监测数据的实际关系,能够为物联网监测数据有效性审核提供更加科学合理的处理依据。  相似文献   

15.
近年来, 空气质量监测微子站监测逐渐成为了空气质量监测网络的重要组成部分. 随着经济的不断发展, 城市化进程的不断加快, 站点的冗余以及代表性降低的问题逐渐显现. 由于空气质量监测微子站抵抗突发环境因素能力较弱, 极易导致监测数据缺失, 不仅会大大增加数据分析的复杂性与难度, 还会导致优化布点结果的偏差. 本文针对以上问题, 提出了一种将BiLSTM神经网络结合聚类的点位优化方法, 在应用BiLSTM神经网络补全缺失数据的基础上, 应用凝聚层次聚类法对修复后的数据进行聚类. 在实现用尽可能少而准确的点位反馈空气质量水平的基础上, 大大提升聚类准确度. 最后, 本文使用沈阳市位于浑南区的18个空气质量监测微子站的监测数据进行实验验证. 结果表明, 相比于一般的聚类算法, 本文提出的算法性能有一定提升, 为空气质量监测点位优化提供了一种新方法.  相似文献   

16.
针对MPCA方法在具有多时段的间歇过程中的故障监测效果不佳的问题,提出一种新的多时段建模方法,首先根据各时间片上的主元个数不同,对过程进行模糊划分,然后利用K均值算法对样本数据聚类得到精确划分,最后按照划分结果在各阶段建立代表性统计分析模型对整个过程进行监控。将该方法用于半导体蚀刻过程的故障监测,并与MPCA方法进行了比较证明该方法具有良好的监控性能,能够及时准确及时的监测出引起产品质量发生变化的故障。  相似文献   

17.
提出一种在LUV空间中基于多层次化结构Nystrm方法的自适应谱聚类算法。首先引入LUV色彩空间,避免了RGB色彩空间中色彩辨别阈对分割的影响,在纹理、边缘区域取得了更好的分割效果;其次将谱聚类算法中基于多层次化结构的方法和基于Nystrm采样的方法结合起来,有效减少了运算时间、解决了数据量较大时计算过程中内存溢出的问题;最后在K均值聚类中通过对特征间隙(eigengap)的分析,自适应地选择K值的大小,解决了自动确定聚类数目的问题。将提出的方法在LUV色彩空间中和RGB色彩空间中分别进行图像分割实验,结果表明在LUV色彩空间中取得效果更加理想。同时也将提出的算法与基于Nystrm方法的谱聚类算法(spectral clustering-Nystrm,SC-N)进行比较。实验结果表明,该算法在数据运算量、运行时间和分割结果上都优于SC-N方法。  相似文献   

18.
蒋勇  谭怀亮  李光文 《计算机应用》2011,31(9):2546-2550
在处理大数据集聚类问题上,谱聚算法因存在占用存储空间大、时间复杂度高的缺陷而难以推广,针对此问题,提出采用多次分割、向上向下双向收缩的QR算法求得特征值对应的特征向量来实现降维,并在此基础上构造映射空间上的样本来实现量子遗传谱聚算法的聚类。该方法通过映射为后续的量子遗传谱聚算法聚类提供低维的输入,而量子遗传算法具有快速收敛到全局最优并且对初始化不敏感的特性,从而可以获得良好的聚类结果。实验结果显示,使用该算法的聚类比谱聚算法、K-means算法、NJW算法等单一方法具有更好的收敛性、稳定性和更高的全局最优。  相似文献   

19.
针对闪电定位仪中庞大而杂乱的定位数据,提出一种基于改进DBSCAN聚类算法(IDBSCAN)进行闪电聚类分析的方法。该方法依据闪电定位系统中的实时监控数据,搜索闪电密度大于阈值范围的地闪点,建立密度可达最大值的地闪聚类簇,并找到该簇类中的核心地闪点。同时,应用邻接表结构对DBSCAN算法进行改进,使得初始地闪数据的搜索集的建立时间和空间得到大大减少。在聚类分析结果基础上,对核心地闪点的移动路径进行拟合,从而预报下一时刻的核心地闪点位置。实验证明,将IDBSCAN算法应用在闪电临近预报中是有效的。  相似文献   

20.
时空数据库是在空间数据库的基础上引入了时间维,时空数据模型和时空变化分析是GIS领域当前研究热点之一。提出一种在时空快照数据中预测时间序列发展和关联规则发现的方法。首先采用基态修正模型表达时空数据,从中提取出时空快照序列,将时空快照序列聚类为几个簇,再在簇内挖掘关联规则。将该方法应用于实验数据,结果证明这种方法能够有效地从时空快照数据中发现时空序列的发展趋势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号