首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特征优化。采用K-Prototypes聚类算法提取高维混合型数据的统计序列特征,评估数据与类中心的相异性,计算数据与类中心的欧氏距离,实现高维混合型数据聚类。采用异构并行计算技术进行高维混合型数据K-Prototypes聚类的并行化处理,合理分配CPU与GPU工作,达到CPU与GPU的工作负载平衡,提高K-Prototypes的聚类效率。实验结果表明,此算法对于高维混合型数据的聚类效果好、运行时间短、性能稳定。  相似文献   

2.
针对整个复杂CLASS全属性聚类的聚类算法在聚类算法中有较为复杂的实现要求,试图对社交软件中较为复杂的CLASS-USER进行整体聚类计算,难度在于将其复杂属性体系整合成高维度变量进行降维处理。通过多次连续的数据整理,特别使用了二维模糊矩阵与排序算法实现快速降维,将高达13维的高维度变量进行降维处理,最终形成一维变量,最后使用常见的K-means聚类算法对该一维变量进行聚类分析。  相似文献   

3.
区域健康数据的特点是其具有海量性和高维性,而使用传统K-means聚类方法无法应对高维度的数据处理,不但容易造成结果误差,且会使算法的执行效率较低、时间开销较大。针对上述问题,文中对传统K-means聚类方法进行了深入改进,在加入模糊项以保证其聚类效果的基础上,使用粗糙集理论对高维数据属性的权重值进行确定,通过对其数据属性数量进行简化,从而保证模型的精确度与执行效率。数值实验结果表明,文中所提算法在处理高维数据时,其准确度相较对比算法提升了约5%,算法的执行时间相较传统算法缩短了约50%,证明了该算法对高维数据进行聚类处理的有效性。  相似文献   

4.
该文将T-分布随机近邻嵌入(TSNE)引入到聚类集成问题中,提出一种基于TSNE的聚类集成方法。首先通过TSNE最小化超图邻接矩阵的行对应的高维数据点与低维映射点分布之间的KL散度,使得高维空间结构在低维空间得以保持,然后在低维空间运行层次聚类算法获得最终的聚类结果。在基准数据集上的实验结果表明: TSNE能够提高层次聚类算法的聚类质量,该文方法获得了优于主流聚类集成方法的结果。  相似文献   

5.
聚类是数据挖掘的一个重要方面,而对高维混合特征数据聚类仍然是一个具有挑战性的问题.针对高维混合特征数据下欧氏距离失去意义的问题,提出了一种基于随机贪婪的树状基学习器集成的森林聚类算法.模型能够利用树状基学习器集成的优点,同时处理离散和连续特征混合下的数据以及高维度的数据.借鉴随机森林计算相似度矩阵的方法,计算聚类森林中...  相似文献   

6.
《现代电子技术》2020,(1):119-121
目前很多图书馆都更加信息化和数字化,馆藏书籍数量也因此不断提高。如何通过聚类算法做出海量图书类目的精确分类,以便用户更加方便快捷地筛选,成为亟需解决的问题。提出的熵加权聚类改进算法是以传统熵加权聚类算法为基础所设计的新的聚类中心矩阵计算方法。通过选取具有代表性的样本点作为初始聚类中心,降低数据维度和冗余。此外,通过合并策略对信息熵加权隶属表示进行修改,从而避免聚类过程中的局部最优。实验结果表明,提出的聚类方法在处理书籍大数据分类任务时具有较高的精度和稳定度。  相似文献   

7.
《现代电子技术》2019,(8):145-150
针对传统K-means聚类算法对高维非线性数据聚类效果不佳、聚类时间消耗大的问题,文中对高维数据的预处理进行研究,提出一种基于深度信念网络(DBN)的K-means聚类算法(DBNOK)。此算法首先使用多层受限玻尔兹曼机(RBM)对数据进行特征学习,并将学习到的隐含特征进行K-means相关参数和初始聚类中心进行交叉迭代优化。用DBNOK算法分别在低维数据集和高维数据集上进行实验,结果表明,DB-NOK算法聚类准确率优于标准的K-means算法和模糊均值聚类(FCM)算法。  相似文献   

8.
黄鹏飞  张道强 《电子学报》2008,36(Z1):50-54
 本文提出了一种用于聚类分析的加权聚类算法,通过利用拉普拉斯权,将聚类对象之间的结构信息自动转换为对象的权重.由于拉普拉斯权能够描述数据的邻域结构,从而能够更好的聚类.该加权聚类算法在性能上比经典聚类算法有较大改进,还具有对孤立点鲁棒、适合类别不平衡数据聚类、对聚类个数不敏感等优点.人工数据集以及UCI标准数据集上的实验证实了本文算法的可行性和有效性.  相似文献   

9.
为了实现Web服务请求数据的快速聚类,并提高聚类的准确率,提出一种基于增量式时间序列和最佳任务调度的Web数据聚类算法。该算法进行了Web数据在时间序列上的聚类定义,并采用增量式时间序列聚类方法。先通过数据压缩形式降低Web数据的复杂性,再进行基于服务时间相似性的时间序列数据聚类;最后针对Web集群服务的最佳服务任务调度问题,通过以服务器执行能力为标准来分配服务任务。仿真实验结果表明,相比基于网格的高维数据层次聚类算法和基于增量学习的多目标模糊聚类算法,该文的算法在聚类时间、聚类精度、服务执行成功率、聚类失真度上均获得了更好的性能。  相似文献   

10.
针对现有学科竞赛学员选拔中对评估数据缺少有效利用的问题,提出一种基于熵加权聚类的挖掘算法,对学科数据集合进行聚类,从而实现科学合理的人才挑选机制。采用人工统计对数据进行采集和归一化预处理,并利用稀疏分数进行数据特征选择,实现非必要聚类特征的过滤。通过熵加权聚类算法挖掘具有最优解的竞赛成员分配方案。实例分析结果表明,相比标准的Apriori算法,熵加权聚类算法运行效率更高,验证了提出方法的合理性和有效性。  相似文献   

11.
郭子洋  王彬  薛洁  熊新  刘畅  刘辉 《信号处理》2019,35(4):693-703
为了保证高维数据中的时间属性在降维过程中得以保持,提出了一种时间约束非负矩阵分解算法(Time constraint Non-negative Matrix Factorization,TNMF)。该算法通过融合时间序列信息、数据维度,分解误差等约束条件,共同构建时间属性约束模型,计算最优基矩阵维度,能在降维的同时最大限度地保留原始高维数据的空间结构和时间序列信息。将其用于脑动态功能网络降维的实验结果表明,该算法在时间特征提取、聚类可视化效果和聚类指标上明显优于目前常用的降维聚类算法。   相似文献   

12.
The performance of the classical clustering algorithm is not always satisfied with the high-dimensional datasets, which make clustering method limited in many application. To solve this problem, clustering method with Projection Pursuit dimension reduction based on Immune Clonal Selection Algorithm (ICSA-PP) is proposed in this paper. Projection pursuit strategy can maintain consistent Euclidean distances between points in the low-dimensional embeddings where the ICSA is used to search optimizing projection direction. The proposed algorithm can converge quickly with less iteration to reduce dimension of some high-dimensional datasets, and in which space, K-mean clustering algorithm is used to partition the reduced data. The experiment results on UCI data show that the presented method can search quicker to optimize projection direction than Genetic Algorithm (GA) and it has better clustering results compared with traditional linear dimension reduction method for Principle Component Analysis (PCA).  相似文献   

13.
微博文本数据高维度、同义、多义特征明显,传统基于向量空间模型(VSM)联合K-均值的热点话题发现方法存在准确率低,计算复杂,聚类中心难以确定等问题。提出一种相关向量机(RVM)优化VSM的微博文本向量化方法,首先利用RVM的自适应特征选择能力对VSM特征向量进行降维,然后利用主成分分析(PCA)方法确定K-均值算法的初始聚类中心,进而采用K-均值算法得到聚类结果,最后根据微博转发、评论和高影响力用户数量定义热度指数,热度指数最大的话题即为当前热点话题。采用实际微博文本数据集开展实验,结果表明所提方法相对于2种传统方法的准确率分别提升7.3%和1.1%,实时性分别提升45%和53%。  相似文献   

14.
针对固定网格划分技术存在的维度可扩展性差,而自适应网格划分技术未充分考虑数据集分布特征等问题,提出了一种基于概率统计理论的自适应网格聚类算法.采用概率统计和图覆盖技术,且能识别任意形状和大小的聚类,时间复杂度是数据集大小和数据维度的线性函数.实验结果表明该聚类是有效的.  相似文献   

15.
提出了基于GPU-CPU流水线的雷达回波快速聚类方法.该方法利用GPU与CPU异步执行的特征,将聚类的各步骤组织成流水线,大大的挖掘了聚类全过程的的并行性.实验表明,引入这种GPU-CPU流水线机制后,该方法比一般策略的基于GPU的并行聚类算法性能有38%的提升,而相对于传统的CPU上的串行程序,获得了47x的加速比,满足了气象实时分析应用中的实时性要求.  相似文献   

16.
点云作为一种简便的三维表达方式,已经被大量应用在城市三维数字化中,但是城市对象的复杂多变,导致城市点云相较于其他场景点云,其较为复杂,去噪难度更高,去噪精度要求更高。为了解决城市点云的去噪问题,本文从高维特征密度空间出发,采用最小二乘密度聚类约束,遵循标准阈值原则设计了一种新的算法。本算法先构建高维特征密度空间,再用最小二乘算法求解各维度密度拟合曲线,最后根据标准阈值原则提取各维度合限点集的交集,即为目标点集。实验表明:本文算法针对城市场景中的点云具有较高的精度与较好的剔除效果,满足城市点云去噪任务的要求,达到了预期的效果。  相似文献   

17.
卢晶  段勇  刘海波 《电子学报》2018,46(3):730-738
密度峰值聚类算法由于在发现任意形状簇且不需指定聚类个数等方面具有一定的优势而被广泛关注.但是该算法需要计算数据集中所有点的密度和点对之间的距离,因此不适合处理大规模高维数据集.为此,本文提出了一种基于z值的分布式密度峰值聚类算法,DP-z.本方法利用空间z填充曲线将高维数据集映射到一维空间上,根据数据点的z值信息对数据集分组.为了能够得到正确的结果,需要对分组间数据进行交互,然后并行计算每个点密度和斥群值.DP-z算法在分组间数据交互时采用过滤策略,减少大量无效距离计算和数据传输开销,有效提高算法的执行效率.最后,本文在云计算平台上对DP-z算法进行了验证,实验表明在保证DP-z算法与原始密度峰值聚类算法聚类结果相同的情况下有效的提高了算法执行效率.  相似文献   

18.
针对区间型不确定数据的特点,该文提出一种改进的模糊C均值聚类算法(IU-IFCM)。首先对区间型数据进行特征变换,由p维特征映射成由2p维特征组成的实数据,然后考虑区间中值与区间大小关系,设计一种样本距离计算方法,通过模糊C均值实现对区间型样本聚类。理论分析与对比实验表明,该算法的划分系数(PC)及正确等级(CR)值比其它方法平均提高10%以上,表明有更好的聚类精度,对当前大数据环境下不确定数据的分类提供了一种新的解决方案。  相似文献   

19.
针对传统外形特征表征方法描述行为动作能力有限和运动特征表征方法难以准确、稳定地捕捉目标运动特性等问题。提出运用人体外形特征和运动特征相结合的方法提取人体行为关键特征,利用谱聚类算法对特征进行降维,降低了数据维数,获得了最优的特征表征。仿真实验表明,该方法降低了样本维数,减少了数据冗余,并提高了训练精度,且保证了行为识别率。  相似文献   

20.
卫星健康状况监测是卫星安全保障的重要基础,而卫星遥测数据又是卫星健康状况分析的唯一数据来源。因此,卫星遥测缺失数据的准确预测是卫星健康分析的重要前瞻性手段。针对极轨卫星多组成系统、多仪器载荷以及多监测指标形成的高维数据特点,该文提出一种基于张量分解的卫星遥测缺失数据预测算法(TFP),以解决当前数据预测方法大多面向低维数据或只能针对特定维度的不足。所提算法将遥测数据中的系统、载荷、指标以及时间等多维因素作为统一的整体进行张量建模,以完整、准确地表达数据的高维特征;其次,通过张量分解计算数据模型的成分特征,通过成分特征可对张量模型进行准确重构,并在重构过程中对缺失数据进行准确预测;最后,提出一种高效的优化算法实现相关的张量计算,并对算法中最优参数设置进行严格的理论推导。实验结果表明,所提算法的预测准确度优于当前大部分预测算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号