首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
一种高维空间数据的子空间聚类算法   总被引:6,自引:1,他引:6  
王生生  刘大有  曹斌  刘杰 《计算机应用》2005,25(11):2615-2617
传统网格聚类方法由于没有考虑到相邻网格内的数据点对考查网格的影响,存在不能平滑聚类以及聚类边界判断不清的情况。为此提出了一种高维空间数据的子空间聚类算法,扩展了相邻聚类空间。实验结果显示,克服了传统聚类的不平滑现象,使聚类边界得以很好的处理。  相似文献   

2.
聚类分组数的自动确定是谱聚类算法中一个亟待解决的问题.针对谱聚类算法聚类分组数的获取问题,提出一种基于人工免疫的自适应谱聚类算法.该算法通过模拟抗体的克隆选择机制和免疫系统的初次免疫应答、二次免疫应答机制,实现了数据样本聚类分组数的自动调整,解决了聚类算法需要人工输入聚类分组数的弊端.并分别在线性模拟数据、非凸模拟数据和UCI数据集上验证了算法的可行性、算法在非凸数据集上的优势以及算法的有效性.实验结果表明该算法可以自动获取正确的聚类分组数,提高聚类效果,减少达到全局最优解时的迭代次数,具有较高的稳定性.  相似文献   

3.
近年来,谱聚类因其深厚的理论基础而在机器学习和数据挖掘领域中引起了广泛的关注。针对谱聚类算法中采用Laplacian矩阵时无法获得较好的图切判据,通过引入p-Laplacian算子,提出了一种基于p-Laplacian的谱聚类维数约简算法。仿真实验表明,提出的方法可以获得一种优化图切的近似解,使得在降维后能够更为精确地求得原始数据在低维空间中的嵌入投影。  相似文献   

4.
聚类分析是数据挖掘领域中一个重要研究内容,谱聚类(Spectral Clustering, SC)由于具有计算简便,性能优越等特点,已经成为最流行的聚类算法之一。本文利用四类几何结构数据,对规范化割(Normalized Cut, NCUT)、稀疏子空间聚类(Sparse subspace clustering, SSC)和谱曲率聚类(Spectral Curvature Clustering, SCC)三种谱聚类算法进行了分析和比较。实验结果表明,针对本文实验数据三种算法的聚类结果各有差异,但每类数据都可以找到相对最有效的聚类算法,方便读者对算法的选择和使用。NCUT无法处理相交的数据,适用性较差,但对于不相交的二次曲线聚类精度较高,并且优于SSC和SCC算法;相比NCUT算法,SSC算法适用性较强,能够实现四类几何结构数据的聚类,但在聚类过程中常出现误分现象,导致聚类精度不高;与前两种算法相比,SCC算法具有适用性强,精度高等特点,能够实现四类几何结构数据有效聚类,尤其对于实验数据中“横”和“竖”两类点组成的十字,SCC算法能够得到较好的聚类结果,解决由于数据量大SSC算法无法处理的问题。此外,针对有数据间断的两条相交螺旋线聚类问题,本文在现有SCC算法基础上进行改进,结果表明,改进后算法能够有效地实现数据聚类,具有良好的实用性。最后,文章分析了现有SCC算法存在的不足,并指出进一步研究的方向。  相似文献   

5.
谱聚类算法利用特征向量构造简化的数据空间,在降低数据维数的同时,使得数据在子空间中的分布结构更加明显.现有谱聚类算法的聚类结果多为精确集,而真实数据集中重叠现象广泛存在.基于粗糙集理论提出了一种新的谱聚类算法,其主要思想是对谱聚类算法进行粗糙集扩展,使得聚类结果成为具有下近似和上近似定义的、类与类之间存在重叠区域的结构.实验表明,该算法与现有的谱聚类算法相比,稳定性和准确率都有一定的提高.  相似文献   

6.
模糊C均值(FCM)聚类算法对初始中心点敏感,不考虑类别间中心点的相互影响,且仅能处理低维数据。为此,设计一种改进的初始中心点选择方法,并基于条件模糊聚类思想,将传统FCM算法中的欧氏距离替换为余弦距离后提出wHFCLM算法。将该算法与扩展增量聚类算法spFCM、oFCM和rseFCM相结合,得到对应的扩展增量模糊聚类算法spHF(c+l)M、oHF(c+l)M以及rseHF(c+l)M。实验结果表明,与spFCM算法、oFCM算法和rseFCM算法相比,扩展增量模糊聚类算法对初始中心点的选择敏感性较低,能较好地处理大规模稀疏高维数据集,且在合适的分块大小下具有更优的聚类性能。  相似文献   

7.
针对标准谱聚类算法中,基于欧氏距离的相似性度量不能完全反映数据聚类复杂的空间分布特性的问题,提出了一种基于流形距离核的谱聚类算法.它能充分挖掘数据集中的内在结构信息,较好地反映局部和全局一致性,并且可以很好地防止"桥"噪声点的影响,提高算法的聚类性能.与传统的聚类算法和常见谱聚类算法进行了比较,在人工数据集和UCI数据集上的实验都验证了本算法能够获得更好的聚类效果.  相似文献   

8.
一种有效的并行高维聚类算法   总被引:4,自引:0,他引:4  
针对CLQUE算法聚类结果精确性不高的缺点,提出利用小波变换来生成自适应网格的方法对CLIQUE算法进行改进,将改进算法并行化以增强聚类维数升高时算法的可伸缩性,并将其应用于药品的销售预测。实验表明本算法聚类结果的精确性高,可伸缩性好,并且有效地降低了计算复杂度。  相似文献   

9.
为提高高光谱遥感影像的聚类精度,将三维空谱特征和子空间聚类算法相结合,提出一种新的稀疏子空间聚类模型,在关注高光谱影像光谱信息的同时也关注了空间上下文信息。首先提取高光谱影像像素点的三种三维空谱特征,然后通过特征对子空间聚类模型的系数矩阵进行加权,使得像素点可被与它最为相似的像素点稀疏表示,从而获得更好的系数矩阵,最后由系数矩阵通过谱聚类获得更好的聚类结果。算法对四个经典高光谱数据集进行实验,并将实验结果与六种聚类算法进行比较,结果表明,所提出的3DF-SSC算法在四个数据集上获得的聚类精度都比其他算法要高,对于同样是利用三维空谱特征的M3DF3△、3DF-SSC算法最高能提高8.62%的精度,而与同样是利用空间上下文信息对子空间聚类算法进行改进的L2-SSC和SS-LRSC算法相比,最高能提高25.18%的精度。  相似文献   

10.
一种基于谱聚类的半监督聚类方法   总被引:6,自引:1,他引:6  
司文武  钱沄涛 《计算机应用》2005,25(6):1347-1349
半监督聚类利用少部分标签的数据辅助大量未标签的数据进行非监督的学习,从而提高聚类的性能。提出一种基于谱聚类的半监督聚类算法,其利用标签数据的信息,调整点与点之间的距离所形成的距离矩阵,而后基于被调整的距离矩阵进行谱聚类。实验表明,该算法较之于已提出的半监督聚类算法,获得了更好的聚类性能。  相似文献   

11.
针对传统基于距离度量的聚类算法难以适合高维数据聚类以及高维数据之间相似度难定义的问题,提出了一种新的高维数据聚类算法.该算法基于一个能够更准确地表达出高维对象之间相似性的度量函数,首先计算对象两两之间的相似度并得出一个相似度矩阵,然后根据该相似度矩阵和阈值大小自底向上对数据进行聚类分析.实验结果显示,该算法能够获得质量更高的聚类结果,并且不受孤立点影响,对输入数据顺序也不敏感.  相似文献   

12.
基于近邻方法的高维数据可视化聚类发现   总被引:2,自引:0,他引:2  
提出了一种新颖的基于近邻方法的高维数据可经聚类方法,并实现了一个近邻可视化聚类发现系统VisNN。已有的解决高维数据可视化聚类方法主要是通过降维把维数据投影到二维或三维空间上,从而达到可视化目的。  相似文献   

13.
本文把一个求解高维空间数据聚类问题转换为一个超图分割寻优问题,提出一种基于超图模式的高维空间数据聚类方法.该方法不需要减少高维空间数据项的维数,直接用超图模式描述原始数据之间的关系,并能通过选择适当的支持度阈值,有效去除噪声点,保证数据聚类的质量.  相似文献   

14.
针对现有地理信息数据分类不能体现数据归属的多类别共存性问题,提出一种使用聚类和并行计算技术提高数据分类的有效性和效率的并行地理信息数据聚类算法,并实现相应的数据自动分类系统。采用文本向量建模和抽取数据的类别特征,然后采用基于GPU的并行k-means聚类算法对数据进行类别划分。实验表明,设计的并行聚类算法体现了特征属性归属的多类别交叉性,具有较好的运行性能和扩展性。  相似文献   

15.
在实际应用领域,常常存在同时包含数值型和分类型特征的混合数据。然而,已有的大多数聚类算法只能处理数值型或分类型单一类型数据,因此,提出一个基于划分的混合数据聚类算法。首先给出K-Prototypes算法中分类型数据类中心的多Modes表示方式,进而将传统的欧式距离扩展到混合数据,使之能够在相同框架下更加精确地反映对象与类之间的相异性,在此基础上提出一个用于处理混合数据的划分式聚类算法。最后,在UCI数据集上的实验结果表明,与K-Prototypes算法相比,所提出的算法能够有效提高聚类质量。  相似文献   

16.
针对区间型数据的模糊c均值聚类(IFCM)算法在实际应用中的不足,将可能性理论引入区间型数据的聚类问题,通过放松样本隶属度的约束条件和修正IFCM算法的目标函数,提出一种区间型数据的可能性聚类算法。通过仿真模拟实验和平均CR指标分析,结果表明:在包含噪声和孤立点等代表性比较差的样本数据的聚类问题中,该算法明显优于IFCM算法,能有效地降低噪声对聚类效果的影响。  相似文献   

17.
周金容  罗建 《计算机应用与软件》2021,38(10):304-309,349
针对大数据中高维数据处理搜索空间不佳和计算成本较高的问题,提出一种基于聚类和二元蚂蚁系统(Binary Ant System,BAS)相结合的混合滤波器特征选择算法.该算法由线性二元蚂蚁系统、聚类和阻尼突变三种策略组成,可以有效地克服搜索空间和高维数据处理的困难,在聚类的类别之间和类内部具有全局和局部搜索能力.实验结果...  相似文献   

18.
频繁项目集的挖掘是数据挖掘领域最重要的研究方向之一。近年来,以互联网为代表的信息技术加速着全球的数字化进程,在给人们生活带来便利的同时也产生了规模非常庞大的数据,而且这些数据的维数非常高。因此,针对目前的大规模数据,主要研究海量高维数据的频繁项目集挖掘算法。提出了高效的、负载均衡的、扩展性良好的频繁项目集挖掘算法,同时设计了基于MapReduce编程模型的分布式算法。实验结果显示,该算法在时间复杂度和空间复杂度上相比传统算法都有明显的提升。  相似文献   

19.
混合数据的聚类过程中通常面临一个不可回避的问题:聚类个数的确定。基于Liang k-prototype算法引入属性权重,重新定义混合数据缺失某类的类间熵和(SBAE_M)、有效性指标(CUM)及相异性度量。提出一种带权的混合数据聚类个数确定算法。该算法的基本思想是:用newk-prototype算法将混合数据进行聚类,计算其聚类结果的CUM及SBAE_M,将最坏的类剔除,并将该类中的对象用新的相异性度量进行重新分配,CUM最大时包含的类别数即为聚类个数。在5个UCI数据集上验证了该算法的有效性。  相似文献   

20.
实际应用中存在着大量同时具有数值型和符号型属性的混合属性数据,研究混合属性数据的聚类具有重要意义。经典聚类算法仅仅处理数值型数据或符号型属性数据,对混合属性数据往往无效。现有混合属性数据聚类算法分别将数值型属性和符号型属性数据单独计算,忽视了两种属性之间的相关性,聚类效果不理想。提出一种基于图划分的混合属性数据聚类算法。算法将一行属性值定义为一个图节点,计算图节点的相似性,采用一种自适应调节属性权重的方法,将数值和符号属性的相似性统一成一个互联合相似度矩阵。用图划分方法对数据进行聚类划分,通过迭代寻优的方法调整数据之间的契合度,从而求得类内相似度最大并寻得最优解。实验结果表明,混合属性聚类算法与其他方法相比具有明显的优势。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号