首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
基于自适应聚类的数据预处理算法Ⅰ   总被引:4,自引:1,他引:4  
提出了KDD的一种逻辑模型。以数据库或数据仓库中的数据为例,根据先验知识或可能的挖掘目标,利用SQL命令滤除无关属性,形成基于某种概念分层的归纳数据库或汇总数据库。针对数据库中的属性,利用非监督学习算法,获取相应聚类,从而形成面向任务的目标数据子集,以保证数据挖掘结果的质量和有效性。  相似文献   

2.
一种基于密度的高性能增量聚类算法   总被引:4,自引:1,他引:4       下载免费PDF全文
刘建晔  李芳 《计算机工程》2006,32(21):76-78
提出并证明了一种基于密度的高性能增量聚类算法,算法的主要工作包括:(1)利用分区和抽样技术对数据进行抽取和清理。(2)利用密度和网格技术对数据进行聚类。(3)改变阈值后提出一种增量算法,只对受影响的点重新计算聚类。(4)在动态环境下,数据增删后的增量聚类算法。实验证明,该算法能很好地处理高维数据,有效过滤噪声数据,大大节省聚类时间。  相似文献   

3.
聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询次数,降低I/O开销而提出的改进算法有FDBSCAN、LSNCCP等。随着应用的发展,增量聚类显得越来越重要,而现有的增量聚类算法存在很大的局限性。基于LSNCCP,提出了一种有效的增量聚类算法,同时它也可以用于对LSNCCP进行性能优化。  相似文献   

4.
针对传统增量聚类方法对混合属性数据聚类时存在不稳定、随机性大和准确性不够高的缺点,提出一种基于聚类融合的混合属性数据增量聚类算法.该算法以传统增量聚类为基础,采用多种聚类算法的结果进行融合来代替原有单一划分,并重新修正了阈值的取值范围.实验表明,所提出的算法利用原有数据的特征,提高了聚类的稳定性和精确性,具有很好的聚类效果.  相似文献   

5.
一种基于类支持度的增量贝叶斯学习算法   总被引:1,自引:0,他引:1       下载免费PDF全文
丁厉华  张小刚 《计算机工程》2008,34(22):218-219
介绍增量贝叶斯分类器的原理,提出一种基于类支持度的优化增量贝叶斯分类器学习算法。在增量学习过程的样本选择问题上,算法引入一个类支持度因子λ,根据λ的大小逐次从测试样本集中选择样本加入分类器。实验表明,在训练数据集较小的情况下,该算法比原增量贝叶斯分类算法具有更高的精度,能大幅度减少增量学习样本优选的计算时间。  相似文献   

6.
IncSNN——一种基于密度的增量聚类算法   总被引:1,自引:0,他引:1  
基于密度的聚类算法是一类重要的聚类算法,能发现任意形状的簇,但由于它的时间复杂度较高,因此设计有效的增量更新算法是一个重要研究方向.在SNN算法的基础上,提出一种基于密度的增量聚类算法-IncSNN.该算法将所更新对象的空间进行划分,定义了基于该划分的最近邻居的概念,进而确定了受影响对象的集合,当算法更新时,只需要对受影响的数据进行处理.由于受影响对象的集合远小于原数据集合,因此显著提高了算法的效率.实验结果验证了IncSNN的有效性.  相似文献   

7.
朱杰  陈黎飞 《计算机应用》2017,37(4):1026-1031
针对类属型数据聚类中对象间距离函数定义的困难问题,提出一种基于贝叶斯概率估计的类属数据聚类算法。首先,提出一种属性加权的概率模型,在这个模型中每个类属属性被赋予一个反映其重要性的权重;其次,经过贝叶斯公式的变换,定义了基于最大似然估计的聚类优化目标函数,并提出了一种基于划分的聚类算法,该算法不再依赖于对象间的距离,而是根据对象与数据集划分间的加权似然进行聚类;第三,推导了计算属性权重的表达式,得出了类属型属性权重与其符号分布的信息熵成反比的结论。在实际数据和合成数据集上进行了实验,结果表明,与基于距离的现有聚类算法相比,所提算法提高了聚类精度,特别是在生物信息学数据上取得了5%~48%的提升幅度,并可以获得有实际意义的属性加权结果。  相似文献   

8.
一种基于自适应膨胀因子的聚类新方法   总被引:2,自引:0,他引:2  
针对传统聚类方法存在的不足,提出了一种基于自适应膨胀因子的聚类新方法(CAIF)。相对于现有的一些聚类方法,CAIF方法不需要用户胡定类数k值,克服了聚类结果对k值的敏感性;与数据的输入顺序无关,能够进行增量聚类。同时,CAIF方法还能有效地发现孤立点。最后通过实验验证了该方法的有效性。  相似文献   

9.
K-modes算法中原有的分类变量间距离度量方法无法体现属性值之间差异,对此提出了一种基于朴素贝叶斯分类器中间运算结果的距离度量。该度量构建代表分类变量的特征向量并计算向量间的欧氏距离作为变量间的距离。将提出的距离度量代入K-modes聚类算法并在多个UCI公共数据集上与其他度量方法进行比较,实验结果表明该距离度量更加有效。  相似文献   

10.
介绍Web文档聚类的应用,针对现有文档聚类算法缺乏动态更新能力、经验参数过多以及缺乏对新词的把握等不足,提出动态调整的Web文档增量聚类(Dynamically Adjusted Incremental Web Document Clustering,DAIWDC)算法,并使用同义词词林优化结果.该算法在实验中达到了88%的正确率和75%的全面率,表明其具有较高的实用价值.  相似文献   

11.
一种基于网格的增量聚类算法*   总被引:1,自引:0,他引:1  
分析了现有基于网格的聚类算法,该算法具有高效且可以处理高维数据的特点,但传统网格聚类算法的聚类质量受网格划分的粒度影响较大。为此,提出了一种基于网格的增量聚类算法IGrid。IGrid算法具有传统网格聚类算法的高效性,且通过维度半径对网格空间进行了动态增量划分以提高聚类的质量。在真实数据集与仿真数据集上的实验结果表明,IGrid算法在聚类准确度以及效率上要高于传统的网格聚类算法。  相似文献   

12.
核模糊C-均值聚类KFCM是利用核函数将数据映射到高维空间,通过计算数据点与聚类中心的隶属度对数据进行聚类的算法,拥有高效、快捷的特点而被广泛应用于各领域,然而KFCM算法存在对聚类中心的初始值敏感和不能自适应确定聚类数两个局限性。针对这两个问题,提出一种局部搜索自适应核模糊聚类方法,该方法引入核方法提高数据的可分性,并构造基于核函数的评价函数来确定最优的聚类数目和利用部分样本数据进行局部搜索以寻找初始聚类中心。人工数据和UCI数据集上的实验结果验证了该算法的有效性。  相似文献   

13.
《传感器与微系统》2019,(2):136-139
大多数聚类算法都是在静态情况下运行,使其不允许添加任何增量数据。提出了一种基于K近邻(KNN)的增量聚类算法,算法包含两个创新点,利用K近邻的思想和样本紧密度两个条件处理增量数据;根据簇特征的变化分裂或合并簇。实验表明:提出的算法既可以发现新簇,又能有效规避噪声点,且能够处理非球形的数据集。  相似文献   

14.
Incremental communication for adaptive resonance theory networks   总被引:1,自引:0,他引:1  
We have proposed earlier the incremental internode communication method to reduce the communication cost as well as the time of the learning process in artificial neural networks (ANNs). In this paper, the limited precision incremental communication method is applied to a class of recurrent neural networks, the adaptive resonance theory 2 (ART2) networks. Simulation studies are carried out to examine the effects of the incremental communication method on the convergence behavior of ART2 networks. We have found that 7-13-b precision is sufficient to obtain almost the same results as those with full (32-b) precision conventional communication. A theoretical error analysis is also carried out to analyze the effects of the limited precision incremental communication. The simulation and analytical results show that the limited precision errors are bounded and do not seriously degrade the convergence of ART2 networks. Therefore, the incremental communication can be incorporated in parallel and special-purpose very large scale integration (VLSI) implementations of the ART2 networks.  相似文献   

15.
《传感器与微系统》2019,(1):152-154
针对传统聚类算法无法处理大规模数据的特点,结合增量算法和簇特征的思想,在初始聚类阶段,采用基于距离的K-means聚类算法获取相应簇的特征。根据簇特征,并结合K最近邻(KNN)的思想处理增量,提出了基于簇特征的增量聚类算法。提出的方法已经在加州大学尔湾分校(UCI)机器学习库中提供的真实数据集的帮助下得到验证。实验结果表明:提出的增量聚类方法的聚类精度较普通K-means算法和原始增量K-means算法有明显提高。  相似文献   

16.
针对现有的增量聚类算法对参数敏感度较高、时空复杂度较高等问题,提出了一种基于代表点的增量聚类算法。首先采用代表点聚类算法对静态的数据库进行聚类;然后根据新增加的节点与已存的代表点之间的关系,判断是否将其添加到已存的代表点所属的类簇中,或是提升为新的代表点;最后,再次采用代表点聚类算法对其进行聚类。实验结果证明,该算法对参数的敏感性低、效率高、占用空间小。  相似文献   

17.
针对传统的谱聚类算法通常利用高斯核函数作为相似性度量,且单纯以距离决定相似性不能充分表现原始数据中固有的模糊性、不确定性和复杂性,导致聚类性能降低的问题。提出了一种公理化模糊共享近邻自适应谱聚类算法,首先结合公理化模糊集理论提出了一种模糊相似性度量方法,利用识别特征来衡量更合适的数据成对相似性,然后采用共享近邻的方法发现密集区域样本点分布的结构和密度信息,并且根据每个点所处领域的稠密程度自动调节参数σ,从而生成更强大的亲和矩阵,进一步提高聚类准确率。实验表明,相较于距离谱聚类、自适应谱聚类、模糊聚类方法和地标点谱聚类,所提算法有着更好的聚类性能。  相似文献   

18.
提出一种在LUV空间中基于多层次化结构Nystrm方法的自适应谱聚类算法。首先引入LUV色彩空间,避免了RGB色彩空间中色彩辨别阈对分割的影响,在纹理、边缘区域取得了更好的分割效果;其次将谱聚类算法中基于多层次化结构的方法和基于Nystrm采样的方法结合起来,有效减少了运算时间、解决了数据量较大时计算过程中内存溢出的问题;最后在K均值聚类中通过对特征间隙(eigengap)的分析,自适应地选择K值的大小,解决了自动确定聚类数目的问题。将提出的方法在LUV色彩空间中和RGB色彩空间中分别进行图像分割实验,结果表明在LUV色彩空间中取得效果更加理想。同时也将提出的算法与基于Nystrm方法的谱聚类算法(spectral clustering-Nystrm,SC-N)进行比较。实验结果表明,该算法在数据运算量、运行时间和分割结果上都优于SC-N方法。  相似文献   

19.
针对BFSN算法需要人工输入参数r和λ的缺陷,提出了一种自适应确定r和λ的SA-BFSN聚类方法。该方法通过Inverse Gaussian拟合判断r参数,通过分析噪声点数量的分布特征选择合适的λ值。算法测试表明,使用SA-BFSN无需人工输入参数,能够实现聚类过程的全自动化,能够有效处理任意形状、大小和密度的簇。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号