首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 593 毫秒
1.
将主元分析(principal component analysis, PCA)模型相似度(以下简称PCA相似度)和谱聚类(spectral clustering)算法相结合,并用于基于高炉历史数据挖掘的炉况工作点变化的分析。利用PCA相似度与距离相似度的加权来衡量滑窗数据集之间的相似度,进一步将数据集的聚类问题转化为图的最优划分问题,通过谱聚类得到聚类结果。该方法降低了高炉工作点漂移的影响,能够有效稳定的实现高炉炉况工作点的聚类。基于现场历史数据的离线测试表明:与已有的基于PCA相似度和k-means聚类的算法对比,本研究可以更加有效区分炉况工作点的跳变。  相似文献   

2.
在图像分割中谱聚类算法需要计算像素之间的相似度矩阵,构造数据量大,并且要对拉普拉斯矩阵进行特征分解,计算比较耗时。针对这一问题,提出了一种基于稀疏矩阵的谱聚类图像分割算法。算法结合图像特征信息在不同尺度上对谱聚类进行误差分析,设计了一种新的样本信息选取方案,并利用选取的图像信息直接创建稀疏相似度矩阵。理论分析以及图像分割实验结果表明,该算法能够有效降低谱聚类的计算复杂度,同时,提高了分割的准确性和鲁棒性。  相似文献   

3.
为了准确地将胼胝体结构从扩散张量图像中分割出来,利用K均值聚类算法把白质从脑内部组织中分割出来.通过定义张量间相似度函数将基于标量空间的图形切割算法拓展到张量空间,根据先验知识选择目标与背景种子集合,以张量相似度为权构造图结构.采用最大流算法对白质纤维束亚结构胼胝体进行分割.对病人脑扩散张量图像(DTI)进行分割,分析边界分割惩罚因子与目标分割种子对分割结果的影响.结果表明,图形切割分割算法能够对胼胝体实现准确的分割.  相似文献   

4.
鉴于目前传统文本聚类方法中利用文档间的相似度进行聚类存在的问题,在传统的文本挖掘基础上提出了一种新的文本聚类算法——利用单词超团的二分图文本聚类算法。该算法用文档中单词的关联模式来评估文档间的相似度及主题类别预测,并利用图划分策略来大大降低文档相似度比较算法的复杂度,同时将超团作为特征结构的扩展,可以在一定范围内减少语言信息的丢失,提高聚类效果。经实验证明该算法具有较高的有效性。  相似文献   

5.
提出一种基于分布式哈希表(DHT)的分布式子空间聚类(DISCLUS)算法,该算法对各结点存储的数据分别进行子空间聚类,对聚类结果进行合并,得到分布式系统的聚类结果.针对子空间聚类的特点,提出结果集缩减和结果集剪枝策略对结点间通讯进行优化.为实现结点聚类结果合并,提出分布式表决算法(DDV).该算法利用底层覆盖网的拓扑结构进行层次化表决信息收集,在动态网络环境中实现了对所有结点的无冗余覆盖.理论分析和实验表明,DISCLUS算法的聚类误差和通讯性能能够较好地适应系统数据集规模、网络规模和数据空间维度的增加.  相似文献   

6.
为解决现有的分布式聚类算法效率低下和不能保护数据隐私的问题,在K-Dmeans算法的基础上,提出一种新的分布式聚类算法.该算法利用数据对象间的密度函数值来优化站点初始聚类中心,从而大大降低了聚类的迭代次数;同时各从站点只需向主站点传送其聚簇的特征信息,有效降低分布式聚类过程中的通信量,保护了各个站点的独立性,实验结果表...  相似文献   

7.
在数据聚类的过程中,由于样本数据空间分布的复杂性,相似度度量过程中的重复性以及算法的自适应性等问题,聚类算法往往无法得到正确的聚类结果.为了解决样本数据空间分布复杂的问题,提出叠加信息熵数据游走聚类算法.该算法通过在数值空间构建样本叠加信息熵场,并通过数据游走进行数据分割实现聚类.实验结果表明,该算法不仅可以获得较好的聚类效果,同时具有较高的数据自适应性.  相似文献   

8.
现有的标注聚类算法大多采用传统的K-means或Single-linkage算法对标注数据直接聚类,但是K-means或Sin-gle-linkage本身固有的缺陷严重影响了聚类结果的质量.给出了一种局部中心度传播聚类算法LCIPC(local centrality in-formation passing clustering),该算法首先在标注相似度的基础上建立标注数据的KNN有向邻居图G;然后利用核密度估计方法计算每个标注的局部中心度;再通过随机游走方法在图G中传播局部中心度,以产生全局中心度等级;最后,调用图深度优先搜索算法发现标注聚类结果.在3个真实数据集上的聚类结果显示,LCIPC算法具有够获得高质量标注聚类结果的能力.  相似文献   

9.
为应对大数据环境下用户用电的最佳聚类数的选择问题,提出一种用户用电行为的聚类优选策略;针对用户用电的行为复杂性和特征选择的有效性,通过一种基于信息量的方法对用户用电进行聚类。首先,引入评价指标,提出一种合理的聚类优选方法。然后,针对用户用电特征选择,提出基于互信息的特征优选算法。在传统聚类算法中,聚类数是随机给定的,其值选取不合理会使聚类陷入局部最优,基于此,根据“类内相似度最大化,类间相似度最小化”原理,提出距离评价函数并将其作为评判最佳聚类数的标准,采用多种方法进行综合分析得到最优聚类数。最后,用具体的用电数据对用户进行计算机仿真,验证了聚类优选策略的合理性。以自适应分布式聚类算法作为对比算法,进一步验证了所提算法的有效性。  相似文献   

10.
模糊c均值(fuzzy c means,FCM)算法是一种有效的图像分割算法,但对噪声比较敏感。目前,已有许多适用于高斯、椒盐等加性噪声的FCM改进方法,针对SAR图像乘性噪声的研究较少。文章基于SAR图像噪声特点,提出了结合非迭代PPB的快速FCM算法。首先引入非迭代PPB的滤波权值系数作为像素点间的相似度测量,采用积分图的思想,加速生成对乘性噪声敏感度低的和图像;然后利用统计方向方法,修正和图像的边缘部分,以保持图像的边缘细节信息;最后以修正后和图像的灰度级作为聚类对象进行FCM聚类。经合成SAR图像及真实SAR图像实验验证,文章方法能够快速有效地分割SAR图像。  相似文献   

11.
为了提升个性化推荐系统的大数据处理能力,选择基于用户聚类协同过滤的个性化推荐算法,并在Hadoop平台下实现算法的分布式并行化.离线状态下对用户物品矩阵降维,对用户进行聚类得到类别信息列表,对用户在类簇内进行推荐,并在相似度计算内引入物品贡献权重,最后对算法实现并行化得到推荐结果,实现基于用户聚类的分布式协同过滤推荐算法.最后对推荐结果进行测试分析,证明分布式个性化推荐有更好的推荐准确性和实时性.  相似文献   

12.
针对全天空极光图像低对比度、边缘模糊的特点,提出一种基于显著性检测的极光弧分割算法。通过直方图统计全天空极光图像视野内的灰度信息,计算出视野内像素间的欧氏距离,以凸显极光弧区域,并生成极光弧显著图,再利用模糊C均值聚类分割算法对显著图进行分割,得到极光弧分割结果。采用中国北极黄河站观测的2000余张极光弧图像进行实验,视觉效果及利用分割图计算极光弧倾斜角与人工标注的对比结果均表明,与基于显著性的分割算法与最大类间方差法、模糊C均值聚类法、局部模糊C均值聚类法等分割算法相比较,具有较好的抗噪声性能和分割结果。  相似文献   

13.
随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因初始中心点的不确定性,易陷入局部最优解的问题。本算法在Canopy(罩盖)中完成K-means聚类,并在Canopy间完成簇的合并,聚类效果稳定,迭代次数少。同时,结合MapReduce分布式计算模型,给出改进后算法的并行化设计方法和策略,进一步通过改进相似度度量方法,将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。  相似文献   

14.
为了提高文本聚类的有效性,提出一种基于网络社团结构的文本聚类算法。基于语义知识库理论,利用文本集与词语间的关系,引入文本相似度概念,再结合Newman社团聚类算法特性,将文本集作为独立社团,用文本相似度表示社团联系的紧密程度,对网络文本进行聚类。实验结果表明,该方法有效可行。  相似文献   

15.
谱聚类算法的相似度参数对聚类效果有着至关重要的影响。本文将启发式思想引入到相似度计算中,通过对距离矩阵的搜索,找到数据的合理分界点,并利用它得到相似度计算时所需的参数。同时利用成对限制先验信息引导聚类过程,从而提高聚类效果。数据实验验证本文所提方法是可行的,并且具有很好的聚类效果。  相似文献   

16.
为快速准确地提取和挖掘信息系统运维服务过程中的关键咨询问题,本文利用分布式技术,基于Hadoop的客服运维文本聚类算法,对海量文本数据进行聚类研究。给出了基于Hadoop的运维数据分布式并行计算模型,并在Hadoop框架中对系统中所有运维数据进行分析处理。同时,给出了分布式文本聚类算法,并以10万余条电力信息系统运维数据为数据源,对设计的分布式聚类算法和传统聚类算法进行分析对比。实验结果表明,本文设计的分布式聚类算法所需时间低于传统聚类算法,不仅解决了传统聚类算法在处理海量数据方面由于数据规模过大引起的速度慢、效率低的问题,而且还借助大数据中蕴含的价值和动力,提升了企业运维服务水平。该研究具有较高的实用价值和理论意义。  相似文献   

17.
基于GraphLab的分布式近邻传播聚类算法   总被引:1,自引:1,他引:0  
为有效实现海量数据的非线性聚类,提出基于GraphLab的分布式流式近邻传播算法--GStrAP(GraphLab based stream affinity propagation)。该算法将数据抽象为有向无环图模型,采用“Gather-Apply-Scatter”的模式完成数据同步和算法迭代。在人工合成流形数据3D Clusters、Aggregation、Flame和Pathbased数据集上分别采用不同数据规模以及与传统K-means的聚类性能做对比,实验表明:基于GraphLab的近邻传播算法对数据规模具有良好的拓展性,在保持算法聚类效果的同时,有效降低时间复杂度。  相似文献   

18.
给出一种基于图形模糊聚类(fuzzy clustering method on picture fuzzy sets,PFCM)的改进鲁棒分割算法。该算法将样本聚类所对应的中立度和拒绝度相结合,构造幂积型表达式,将该表达式作为正则项嵌入聚类目标函数,通过目标函数最小化存在极值的必要条件获得改进的图形模糊聚类迭代方法。再将邻域像素灰度信息嵌入改进的图形模糊聚类目标函数,利用拉格朗日乘子法获得图像分割的像素聚类迭代算法。通过标准图像及噪声干扰的分割测试,结果表明,与模糊C-均值聚类、直觉模糊聚类算法和图形模糊聚类分割算法相比,改进算法对无噪图像分割更有效;与鲁棒模糊C-均值聚类和鲁棒直觉模糊聚类算法相比,改进算法对噪声图像分割具有更强的抗噪能力。  相似文献   

19.
由于对聚类网格之间的相互影响未作出考虑,导致数据聚类算法出现聚类质量差等情况。因此,提出一种基于网格耦合的混合属性大数据聚类算法。通过网格耦合定义相关参量的基础,得到网格耦合过程中网格质心间距,利用网格进行大数据聚类,充分分析各个网格间权重影响情况。该聚类算法分别从在线和离线两个阶段开展:在线阶段更新网格特征向量,并根据属性动态变化划分网格;离线阶段构建无向图,顶点设置为网络中心点,质心距离以及中心点间距作为边构建无相图,根据该图获得最小生成树同时切断该树第r-1最大边,最终获取混合属性大数据的k个聚类,实现混合属性的准确聚类。实验结果表明,该算法在质心调节参数与质心距离取值较适中情况下具有良好聚类效果,且聚类质量与聚类效率较高。  相似文献   

20.
DBSCAN算法是一种基于密度的聚类算法.针对该算法在处理混合属性数据上的不足,采用面向维度的距离的思想,对不同类型的数据定义不同的相似度度量方法和不同的相似度阈值,减少了对全局相似度阈值的依赖,提出了一种新的适合混合属性数据聚类的算法M-DBSCAN.仿真表明新算法有效解决了DBSCAN算法无法处理混合属性数据的缺点,对混合属性数据有较好的聚类效果.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号