共查询到20条相似文献,搜索用时 171 毫秒
1.
高维数据维度增加,数据空间的体积呈指数增长,容易陷入“维数灾难”,导致聚类算法执行效率低,为此,提出异构并行计算下高维混合型数据聚类算法。构建高维混合型数据相异度矩阵,提取高维混合型数据的统计序列特征值,利用时间窗口进行特征优化。采用K-Prototypes聚类算法提取高维混合型数据的统计序列特征,评估数据与类中心的相异性,计算数据与类中心的欧氏距离,实现高维混合型数据聚类。采用异构并行计算技术进行高维混合型数据K-Prototypes聚类的并行化处理,合理分配CPU与GPU工作,达到CPU与GPU的工作负载平衡,提高K-Prototypes的聚类效率。实验结果表明,此算法对于高维混合型数据的聚类效果好、运行时间短、性能稳定。 相似文献
2.
3.
区域健康数据的特点是其具有海量性和高维性,而使用传统K-means聚类方法无法应对高维度的数据处理,不但容易造成结果误差,且会使算法的执行效率较低、时间开销较大。针对上述问题,文中对传统K-means聚类方法进行了深入改进,在加入模糊项以保证其聚类效果的基础上,使用粗糙集理论对高维数据属性的权重值进行确定,通过对其数据属性数量进行简化,从而保证模型的精确度与执行效率。数值实验结果表明,文中所提算法在处理高维数据时,其准确度相较对比算法提升了约5%,算法的执行时间相较传统算法缩短了约50%,证明了该算法对高维数据进行聚类处理的有效性。 相似文献
4.
5.
聚类是数据挖掘的一个重要方面,而对高维混合特征数据聚类仍然是一个具有挑战性的问题.针对高维混合特征数据下欧氏距离失去意义的问题,提出了一种基于随机贪婪的树状基学习器集成的森林聚类算法.模型能够利用树状基学习器集成的优点,同时处理离散和连续特征混合下的数据以及高维度的数据.借鉴随机森林计算相似度矩阵的方法,计算聚类森林中... 相似文献
6.
7.
8.
9.
10.
11.
为了保证高维数据中的时间属性在降维过程中得以保持,提出了一种时间约束非负矩阵分解算法(Time constraint Non-negative Matrix Factorization,TNMF)。该算法通过融合时间序列信息、数据维度,分解误差等约束条件,共同构建时间属性约束模型,计算最优基矩阵维度,能在降维的同时最大限度地保留原始高维数据的空间结构和时间序列信息。将其用于脑动态功能网络降维的实验结果表明,该算法在时间特征提取、聚类可视化效果和聚类指标上明显优于目前常用的降维聚类算法。 相似文献
12.
The performance of the classical clustering algorithm is not always satisfied with the high-dimensional datasets, which make
clustering method limited in many application. To solve this problem, clustering method with Projection Pursuit dimension
reduction based on Immune Clonal Selection Algorithm (ICSA-PP) is proposed in this paper. Projection pursuit strategy can
maintain consistent Euclidean distances between points in the low-dimensional embeddings where the ICSA is used to search
optimizing projection direction. The proposed algorithm can converge quickly with less iteration to reduce dimension of some
high-dimensional datasets, and in which space, K-mean clustering algorithm is used to partition the reduced data. The experiment
results on UCI data show that the presented method can search quicker to optimize projection direction than Genetic Algorithm
(GA) and it has better clustering results compared with traditional linear dimension reduction method for Principle Component
Analysis (PCA). 相似文献
13.
微博文本数据高维度、同义、多义特征明显,传统基于向量空间模型(VSM)联合K-均值的热点话题发现方法存在准确率低,计算复杂,聚类中心难以确定等问题。提出一种相关向量机(RVM)优化VSM的微博文本向量化方法,首先利用RVM的自适应特征选择能力对VSM特征向量进行降维,然后利用主成分分析(PCA)方法确定K-均值算法的初始聚类中心,进而采用K-均值算法得到聚类结果,最后根据微博转发、评论和高影响力用户数量定义热度指数,热度指数最大的话题即为当前热点话题。采用实际微博文本数据集开展实验,结果表明所提方法相对于2种传统方法的准确率分别提升7.3%和1.1%,实时性分别提升45%和53%。 相似文献
14.
针对固定网格划分技术存在的维度可扩展性差,而自适应网格划分技术未充分考虑数据集分布特征等问题,提出了一种基于概率统计理论的自适应网格聚类算法.采用概率统计和图覆盖技术,且能识别任意形状和大小的聚类,时间复杂度是数据集大小和数据维度的线性函数.实验结果表明该聚类是有效的. 相似文献
15.
提出了基于GPU-CPU流水线的雷达回波快速聚类方法.该方法利用GPU与CPU异步执行的特征,将聚类的各步骤组织成流水线,大大的挖掘了聚类全过程的的并行性.实验表明,引入这种GPU-CPU流水线机制后,该方法比一般策略的基于GPU的并行聚类算法性能有38%的提升,而相对于传统的CPU上的串行程序,获得了47x的加速比,满足了气象实时分析应用中的实时性要求. 相似文献
16.
点云作为一种简便的三维表达方式,已经被大量应用在城市三维数字化中,但是城市对象的复杂多变,导致城市点云相较于其他场景点云,其较为复杂,去噪难度更高,去噪精度要求更高。为了解决城市点云的去噪问题,本文从高维特征密度空间出发,采用最小二乘密度聚类约束,遵循标准阈值原则设计了一种新的算法。本算法先构建高维特征密度空间,再用最小二乘算法求解各维度密度拟合曲线,最后根据标准阈值原则提取各维度合限点集的交集,即为目标点集。实验表明:本文算法针对城市场景中的点云具有较高的精度与较好的剔除效果,满足城市点云去噪任务的要求,达到了预期的效果。 相似文献
17.
密度峰值聚类算法由于在发现任意形状簇且不需指定聚类个数等方面具有一定的优势而被广泛关注.但是该算法需要计算数据集中所有点的密度和点对之间的距离,因此不适合处理大规模高维数据集.为此,本文提出了一种基于z值的分布式密度峰值聚类算法,DP-z.本方法利用空间z填充曲线将高维数据集映射到一维空间上,根据数据点的z值信息对数据集分组.为了能够得到正确的结果,需要对分组间数据进行交互,然后并行计算每个点密度和斥群值.DP-z算法在分组间数据交互时采用过滤策略,减少大量无效距离计算和数据传输开销,有效提高算法的执行效率.最后,本文在云计算平台上对DP-z算法进行了验证,实验表明在保证DP-z算法与原始密度峰值聚类算法聚类结果相同的情况下有效的提高了算法执行效率. 相似文献
18.
19.
针对传统外形特征表征方法描述行为动作能力有限和运动特征表征方法难以准确、稳定地捕捉目标运动特性等问题。提出运用人体外形特征和运动特征相结合的方法提取人体行为关键特征,利用谱聚类算法对特征进行降维,降低了数据维数,获得了最优的特征表征。仿真实验表明,该方法降低了样本维数,减少了数据冗余,并提高了训练精度,且保证了行为识别率。 相似文献
20.
卫星健康状况监测是卫星安全保障的重要基础,而卫星遥测数据又是卫星健康状况分析的唯一数据来源。因此,卫星遥测缺失数据的准确预测是卫星健康分析的重要前瞻性手段。针对极轨卫星多组成系统、多仪器载荷以及多监测指标形成的高维数据特点,该文提出一种基于张量分解的卫星遥测缺失数据预测算法(TFP),以解决当前数据预测方法大多面向低维数据或只能针对特定维度的不足。所提算法将遥测数据中的系统、载荷、指标以及时间等多维因素作为统一的整体进行张量建模,以完整、准确地表达数据的高维特征;其次,通过张量分解计算数据模型的成分特征,通过成分特征可对张量模型进行准确重构,并在重构过程中对缺失数据进行准确预测;最后,提出一种高效的优化算法实现相关的张量计算,并对算法中最优参数设置进行严格的理论推导。实验结果表明,所提算法的预测准确度优于当前大部分预测算法。 相似文献