期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

孙志伟《计算机应用研究》2009,26(8):2871-2873

目前的聚类算法如K-means、DBSCAN等,采用全局参数而难以发现数据的自然聚类,提出一种新的分级聚类算法CluFNC,能够在数据空间中发现内部聚类特征。该算法的参数包括网格大小、噪声阈值和神经节点数量。算法首先根据参数对数据空间划分网格,接着使用高斯影响函数计算每个单元的场强,然后针对网格位置和网格的场强使用SOM进行聚类,最后使用Chameleon算法对SOM聚类得到的神经网络节点的权值进行聚类,并把聚类结果映射回原始数据空间以得到最终聚类结果。理论分析和实验结果证明,该算法能够发相似文献

2.

面向位置大数据的快速密度聚类算法 总被引：1，自引：0，他引：1

于彦伟贾召飞曹磊赵金东刘兆伟刘惊雷《软件学报》2018,29(8):2470-2484

本文面向位置大数据聚类,提出了一种简单但高效的快速密度聚类算法CBSCAN,以快速发现位置大数据中任意形状的聚类簇模式和噪声.首先,定义了Cell网格概念,并提出了基于Cell的距离分析理论,利用该距离分析,无需距离计算,可快速确定高密度区域的核心点和密度相连关系;其次,给出了网格簇定义,将基于位置点的密度簇映射成基于网格的密度簇,利用排他网格与相邻网格的密度关系,可快速确定网格簇的包含网格;第三,利用基于Cell的距离分析理论和网格簇概念,实现了一个快速密度聚类算法,将DBSCAN基于数据点的密度扩展聚类转换成基于Cell的密度扩展聚类,大大减少高密度区域的距离计算,利用位置数据的内在特性提高了聚类效率;最后,在基准测试数据上验证了所提算法的聚类效果,在位置大数据上的实验结果统计显示,相比DBSCAN、PR-Tree索引和Grid索引优化的DBSCAN,CBSCAN分别平均提升了525倍、30倍和11倍效率. 相似文献

3.

基于区域划分的DBSCAN多密度聚类算法_*

韩利钊钱雪忠罗靖宋威《计算机应用研究》2018,35(6)

DBSCAN聚类算法使用固定的Eps和Minpts,处理多密度的数据效果不理想;并且算法的时间复杂度为O(n2)。针对以上问题,提出一种基于区域划分的DBSCAN多密度聚类算法。算法利用网格相对密度差把数据空间划分成密度不同的区域,每个区域的Eps根据该区域的密度计算自动获得,并利用DBSCAN算法进行聚类,提升了DBSCAN的精度;避免了DBSCAN在查找密度相连时需要遍历所有数据,从而改善了算法效率。实验表明算法能有效地对多密度数据进行聚类,对各种数据的适应力较强,效率较优。相似文献

4.

基于网格的高效DBSCAN算法

下载免费PDF全文

张枫邱保志《计算机工程与应用》2007,43(17):167-169

DBSCAN是一种性能优越的基于密度的聚类算法。为提高它的运行效率,提出了基于网格的DBSCAN算法GbDBSCAN。该算法使用网格划分的方法和数据分箱技术,减少了判定密度可达对象时的搜索范围,降低了算法的运行时间,而且算法还能够识别并处理边界点。实验结果表明,GbDBSCAN在不降低DBSCAN聚类质量的前提下,大大提高了DBSCAN算法处理低维数据集的效率。相似文献

5.

障碍空间中基于网格的不确定数据聚类算法

崔美玉万静何云斌李松《计算机科学与探索》2019,13(3):408-417

为了解决已有研究成果无法有效解决动态障碍空间中的不确定数据聚类问题,根据障碍集合是否发生变化,分别解决静态障碍和动态障碍空间下的聚类问题。提出了静态障碍空间中的不确定数据聚类算法(DBSCAN clustering algorithm for static obstacles in grid space,STA_GOBSCAN)、障碍物动态增加情况下的不确定数据聚类算法(DBSCAN clustering algorithm for dynamic increase of obstacles in grid space,DYN_GOCBSCAN)、障碍物动态减少情况下的不确定数据聚类算法(DBSCAN clustering algorithm for dynamicreduction of obstacles in grid space,DYN_GORBSCAN)和障碍物动态移动情况下的不确定数据聚类算法(DBSCAN clustering algorithm for dynamic movement of obstacles in grid space,DYN_GOMBSCAN),采用KL距离对不确定数据进行相似性度量,并利用网格对数据空间进行划分。理论研究和实验结果表明所提出的算法具有较高的效率和准确率。相似文献

6.

云计算环境下高复杂度动态数据的增量密度快速聚类算法研究

陈赣浪颜飞龙潘家辉《计算机科学》2018,45(2):287-290

针对传统的聚类算法存在开销大、聚类质量差、聚类速度慢等问题,提出一种新的云计算环境下高复杂度动态数据的增量密度快速聚类算法。首先,依据密度对云计算环境下高复杂度动态数据进行聚类,从数据空间中找到部分子空间,使得数据映射至该空间后可产生高密度点集区域,将连通区域的集合看作聚类结果;其次,通过DBSCAN算法进行增量聚类,并对插入或删除数据导致的原聚类合并或分裂进行研究;最后,在更新的过程中通过改变核心状态数据的邻域中含有的全部核心数据进行处理,从插入或删除数据两方面进行增量聚类分析。实验结果表明,所提算法开销低、聚类速度快、聚类质量高。相似文献

7.

适合多密度的DBSCAN改进算法

侯思祖韩思雨韩利钊钱雪忠《传感器与微系统》2018,(8):137-139,146

针对具有噪声的基于密度的空间聚类(DBSCAN)算法使用固定参数Eps和Minpts,导致多密度的数据聚类效果不理想的问题,提出了一种适合多密度的DBSCAN改进算法.对数据进行预处理,识别出每个数据对象周围的密度,据此自动生成适合本区域密度的密度阈值.聚类结束前,采用密度阈值进行扩展聚类;进行下一个簇的聚类时自动生成适合本区域的密度阈值,依次进行,直到达到聚类停止条件.大量实验表明:所提算法能有效地对多密度,任意形状的数据进行聚类. 相似文献

8.

一种新型的基于密度和栅格的聚类算法* 总被引：2，自引：1，他引：1

熊仕勇《计算机应用研究》2011,28(5):1721-1723

针对网格和密度方法的聚类算法存在效率和质量问题,给出了密度和栅格相结合的聚类挖掘算法,即基于密度和栅格的聚类算法DGCA（density and grid based clustering algorithm）。该算法首先将数据空间划分为栅格单元,然后把数据存储到栅格单元中,利用DBSCAN密度聚类算法进行聚类挖掘;最后进行聚类合并和噪声点消除,并将局部聚类结果映射到全局聚类结果。实验通过人工数据样本集对该聚类算法进行理论上验证,表明了该算法在时间效率和聚类质量两方面都得到了提高。相似文献

9.

融合网格划分和DBSCAN的改进聚类算法

下载免费PDF全文

孙璐梁永全《计算机工程与应用》2022,58(14):73-79

针对基于密度的噪声应用空间聚类算法（density based spatial clustering of applications with noise,DBSCAN）计算复杂度较高以及无法聚类多密度数据集等问题,提出了一种网格聚类算法和DBSCAN相结合的融合聚类算法（G_FDBSCAN）。利用网格划分技术将数据集划分为稀疏区域和密集区域,分而治之,降低计算的时间复杂度和采用全局参数引起的聚类误差;改进传统的DBSCAN聚算法得到FDBSCAN,将密集区域中网格聚类的结果作为一个整体参与后续的聚类,在网格划分基础上进行邻域检索,减少邻域检索和类扩展过程中对象的无效查询和重复查询,进一步减少时间开销。理论分析和实验测试表明,改进后的算法与DBSCAN算法、DPC算法、KMEANS算法、BIRCH算法和CBSCAN算法相比,在聚类结果接近或达到最优的情况下,聚类效率分别平均提升了24倍、11倍、2倍、3倍和1倍。相似文献

10.

基于网格耦合的数据流聚类

张东月周丽华吴湘云赵丽红《软件学报》2019,30(3):667-683

随着越来越多的应用程序产生数据流,数据流聚类分析的研究受到了广泛关注.基于网格的聚类通过将数据流映射到网格结构中形成数据概要,进而对概要进行聚类.这种方法通常具有较高的效率,但是每个网格独立处理,没有考虑网格之间的相互影响,因此聚类质量有待提高.在聚类过程中不再独立处理网格,而是考虑了网格之间的耦合关系,提出了一种基于网格耦合的数据流聚类算法.网格的耦合更加准确地表达了数据之间的相关性,从而提高了聚类的质量.在合成和真实数据流上的实验结果表明,所提算法具有较高的聚类质量和效率. 相似文献

11.

基于网格近邻优化的密度峰值聚类算法

刘继杨金瑞《计算机应用研究》2024,41(4):1058-1063

密度峰值聚类(DPC)将数据样本点的局部密度和相对距离进行结合,能对任意形状数据集进行聚类处理,但密度峰值聚类算法存在主观选择截断距离、简单分配策略和较高时间复杂度等问题。为此,提出了一种基于网格近邻优化的密度峰值聚类算法(KG-DPC算法)。首先对数据空间进行网格化,减少了样本数据点之间距离的计算量;在计算局部密度时不仅考虑了网格自身的密度值,而且考虑了周围k个近邻的网格密度值,降低了主观选择截断距离对聚类结果的影响,提高了聚类准确率,设定网格密度阈值,保证了聚类结果的稳定性。通过实验结果表明,KG-DPC算法比DBSCAN、DPC和SDPC算法在聚类准确率上有很大提升,在聚类平均消耗时间上DPC、SNN-DPC和DPC-NN算法分别降低38%、44%和44%。在保证基本聚类准确率的基础上,KG-DPC算法在聚类效率上有特定优势。相似文献

12.

基于峰值网格改进的小波聚类算法

龙超奇蒋瑜谢雨《计算机应用》2021,41(4):1122-1127

针对小波聚类算法在不同网格划分尺度下表现出的聚类效果差异,提出了一种基于峰值网格的改进方法。算法主要针对小波聚类中连通区域的检测方式进行改进：首先,将小波变换后的空间网格依网格值的大小进行排序;然后利用广度优先搜索的方式遍历每一个空间网格,以检测经小波变换后数据中的峰值连通区域;最后,标记连通区域并将其映射到原数据空间中,以得出聚类结果。在8个人工数据集（4个凸数据集与4个非凸数据集）和UCI数据库中的2个真实数据集上的实验结果表明,改进算法在低网格划分尺度下有着良好的表现,与原小波聚类算法相比,这个算法对网格划分尺度的需求降低了25%~60%,并且在相同的聚类效果下减少了14%的聚类所需时间。相似文献

13.

Metaheuristic Based Clustering with Deep Learning Model for Big Data Classification

R. Krishnaswamy Kamalraj Subramaniam V. Nandini K. Vijayalakshmi Seifedine Kadry Yunyoung Nam 《计算机系统科学与工程》2023,44(1):391-406

Recently, a massive quantity of data is being produced from a distinct number of sources and the size of the daily created on the Internet has crossed two Exabytes. At the same time, clustering is one of the efficient techniques for mining big data to extract the useful and hidden patterns that exist in it. Density-based clustering techniques have gained significant attention owing to the fact that it helps to effectively recognize complex patterns in spatial dataset. Big data clustering is a trivial process owing to the increasing quantity of data which can be solved by the use of Map Reduce tool. With this motivation, this paper presents an efficient Map Reduce based hybrid density based clustering and classification algorithm for big data analytics (MR-HDBCC). The proposed MR-HDBCC technique is executed on Map Reduce tool for handling the big data. In addition, the MR-HDBCC technique involves three distinct processes namely pre-processing, clustering, and classification. The proposed model utilizes the Density-Based Spatial Clustering of Applications with Noise (DBSCAN) technique which is capable of detecting random shapes and diverse clusters with noisy data. For improving the performance of the DBSCAN technique, a hybrid model using cockroach swarm optimization (CSO) algorithm is developed for the exploration of the search space and determine the optimal parameters for density based clustering. Finally, bidirectional gated recurrent neural network (BGRNN) is employed for the classification of big data. The experimental validation of the proposed MR-HDBCC technique takes place using the benchmark dataset and the simulation outcomes demonstrate the promising performance of the proposed model interms of different measures. 相似文献

14.

An effective density based approach to detect complex data clusters using notion of neighborhood difference

S. Nagaraju Manish Kashyap Mahua Bhattachraya 《国际自动化与计算杂志》2017,14(1):57-67

The density based notion for clustering approach is used widely due to its easy implementation and ability to detect arbitrary shaped clusters in the presence of noisy data points without requiring prior knowledge of the number of clusters to be identified. Density-based spatial clustering of applications with noise (DBSCAN) is the first algorithm proposed in the literature that uses density based notion for cluster detection. Since most of the real data set, today contains feature space of adjacent nested clusters, clearly DBSCAN is not suitable to detect variable adjacent density clusters due to the use of global density parameter neighborhood radius N _rad and minimum number of points in neighborhood N _pts. So the efficiency of DBSCAN depends on these initial parameter settings, for DBSCAN to work properly, the neighborhood radius must be less than the distance between two clusters otherwise algorithm merges two clusters and detects them as a single cluster. Through this paper: 1) We have proposed improved version of DBSCAN algorithm to detect clusters of varying density adjacent clusters by using the concept of neighborhood difference and using the notion of density based approach without introducing much additional computational complexity to original DBSCAN algorithm. 2) We validated our experimental results using one of our authors recently proposed space density indexing (SDI) internal cluster measure to demonstrate the quality of proposed clustering method. Also our experimental results suggested that proposed method is effective in detecting variable density adjacent nested clusters. 相似文献

15.

基于正则化矩阵分解的用户用电行为分析

王扬吴凡姚宗强刘杰李栋《计算机应用》2017,37(8):2405-2409

针对细粒度、多类别的用户用电行为分析问题,提出了基于地理信息正则化矩阵分解的居民用户用电行为分析算法,探索用户用电的群体特点,为个性化的、更优的电力调度提供决策支持依据。该模型首先基于矩阵分解理论将用户映射到能表征其用电行为特点的潜在特征空间,然后采用k-means聚类算法在潜在特征空间上实现用电用户群的细分聚类。特别地引入了地理信息作为矩阵分解的正则化因子,使得学习到的潜在特征空间不仅满足用户群特征的正交,而且使得地理位置相近的用户在潜在特征空间的映射也相近,与真实物理空间保持一致。将所提方法应用于中新天津生态城智能电网采集到的真实居民用电数据分析挖掘任务中。实验结果表明,与基准的向量空间模型（VSM）和非负矩阵分解（NMF）算法相比,所提方法能够取得更好的用户细分聚类结果,挖掘出一定的用户群体用电模式,有助于辅助智能电网提升经营和服务水平。相似文献

16.

Effective semi-supervised document clustering via active learning with instance-level constraints 总被引：1，自引：1，他引：0

Weizhong Zhao Qing He Huifang Ma Zhongzhi Shi 《Knowledge and Information Systems》2012,30(3):569-587

Semi-supervised document clustering, which takes into account limited supervised data to group unlabeled documents into clusters, has received significant interest recently. Because of getting supervised data may be expensive, it is important to get most informative knowledge to improve the clustering performance. This paper presents a semi-supervised document clustering algorithm and a new method for actively selecting informative instance-level constraints to get improved clustering performance. The semi- supervised document clustering algorithm is a Constrained DBSCAN (Cons-DBSCAN) algorithm, which incorporates instance-level constraints to guide the clustering process in DBSCAN. An active learning approach is proposed to select informative document pairs for obtaining user feedbacks. Experimental results show that Cons-DBSCAN with our proposed active learning approach can improve the clustering performance significantly when given a relatively small amount of constraints. 相似文献