首页 | 本学科首页   官方微博 | 高级检索  
     

大数据环境下基于改进网格单元的 DBSCAN算法
引用本文:杨旭辉,张帆,胡涛.大数据环境下基于改进网格单元的 DBSCAN算法[J].信息工程大学学报,2021,22(3):351-358.
作者姓名:杨旭辉  张帆  胡涛
作者单位:1.郑州大学 中原网络安全研究院,河南 郑州 450001;2.信息工程大学,河南 郑州 450001;2.信息工程大学,河南 郑州 450001;3.网络通信与安全紫金山实验室,江苏南京21189
基金项目:国家自然科学基金面上项目(61572520);国家自然科学基金创新研究群体项目(61521003)
摘    要:近年来,在HDFS上的小文件聚类存储问题引起了广泛关注。针对传统聚类算法DB-SCAN在聚类过程中,出现数据密度不均匀时造成聚类效果粗糙及时间开销较大等问题,提出了一种基于经改进网格单元的 DBSCAN聚类算法。该算法首先使用网格单元划分及爬山法辨别岀局部次优区域来缩小搜索范围,进而再从所选局部次优区域执行宽度优先搜索法,遍历数据点併将其聚类成簇,有效地提高了数据聚类的精确度,显著降低了时间成本。实验结果表明,在数据集較小的情况下,该算法在聚类精度和运行时间上与传统算法接近。当数据集较大时,与传统算法相比,该算法的聚类精度有明显提高,具有更高的时间效率,满足了大数据环境下的小文件处理需求。

关 键 词:聚类  密度  网格单元  爬山法  宽度优先搜索
收稿时间:2021/1/25 0:00:00
修稿时间:2021/3/4 0:00:00

Improved DBSCAN Algorithm Based on Grid Cell in Big Data Environment
YANG Xuhui,ZHANG Fan,HU Tao.Improved DBSCAN Algorithm Based on Grid Cell in Big Data Environment[J].Journal of Information Engineering University,2021,22(3):351-358.
Authors:YANG Xuhui  ZHANG Fan  HU Tao
Abstract:
Keywords:
点击此处可从《信息工程大学学报》浏览原始摘要信息
点击此处可从《信息工程大学学报》下载全文
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号