共查询到19条相似文献,搜索用时 78 毫秒
1.
基于自适应聚类的数据预处理算法Ⅰ 总被引:4,自引:1,他引:4
提出了KDD的一种逻辑模型。以数据库或数据仓库中的数据为例,根据先验知识或可能的挖掘目标,利用SQL命令滤除无关属性,形成基于某种概念分层的归纳数据库或汇总数据库。针对数据库中的属性,利用非监督学习算法,获取相应聚类,从而形成面向任务的目标数据子集,以保证数据挖掘结果的质量和有效性。 相似文献
2.
3.
聚类是数据挖掘领域中最活跃的研究分支之一,聚类技术在其他的科学领域也有广泛的应用。迄今为止已经提出了大量的聚类算法,其中基于密度的DBSCAN算法因其很多优点而备受关注,为了减少DBSCAN的区域查询次数,降低I/O开销而提出的改进算法有FDBSCAN、LSNCCP等。随着应用的发展,增量聚类显得越来越重要,而现有的增量聚类算法存在很大的局限性。基于LSNCCP,提出了一种有效的增量聚类算法,同时它也可以用于对LSNCCP进行性能优化。 相似文献
4.
针对传统增量聚类方法对混合属性数据聚类时存在不稳定、随机性大和准确性不够高的缺点,提出一种基于聚类融合的混合属性数据增量聚类算法.该算法以传统增量聚类为基础,采用多种聚类算法的结果进行融合来代替原有单一划分,并重新修正了阈值的取值范围.实验表明,所提出的算法利用原有数据的特征,提高了聚类的稳定性和精确性,具有很好的聚类效果. 相似文献
5.
6.
IncSNN——一种基于密度的增量聚类算法 总被引:1,自引:0,他引:1
基于密度的聚类算法是一类重要的聚类算法,能发现任意形状的簇,但由于它的时间复杂度较高,因此设计有效的增量更新算法是一个重要研究方向.在SNN算法的基础上,提出一种基于密度的增量聚类算法-IncSNN.该算法将所更新对象的空间进行划分,定义了基于该划分的最近邻居的概念,进而确定了受影响对象的集合,当算法更新时,只需要对受影响的数据进行处理.由于受影响对象的集合远小于原数据集合,因此显著提高了算法的效率.实验结果验证了IncSNN的有效性. 相似文献
7.
针对类属型数据聚类中对象间距离函数定义的困难问题,提出一种基于贝叶斯概率估计的类属数据聚类算法。首先,提出一种属性加权的概率模型,在这个模型中每个类属属性被赋予一个反映其重要性的权重;其次,经过贝叶斯公式的变换,定义了基于最大似然估计的聚类优化目标函数,并提出了一种基于划分的聚类算法,该算法不再依赖于对象间的距离,而是根据对象与数据集划分间的加权似然进行聚类;第三,推导了计算属性权重的表达式,得出了类属型属性权重与其符号分布的信息熵成反比的结论。在实际数据和合成数据集上进行了实验,结果表明,与基于距离的现有聚类算法相比,所提算法提高了聚类精度,特别是在生物信息学数据上取得了5%~48%的提升幅度,并可以获得有实际意义的属性加权结果。 相似文献
8.
一种基于自适应膨胀因子的聚类新方法 总被引:2,自引:0,他引:2
针对传统聚类方法存在的不足,提出了一种基于自适应膨胀因子的聚类新方法(CAIF)。相对于现有的一些聚类方法,CAIF方法不需要用户胡定类数k值,克服了聚类结果对k值的敏感性;与数据的输入顺序无关,能够进行增量聚类。同时,CAIF方法还能有效地发现孤立点。最后通过实验验证了该方法的有效性。 相似文献
9.
K-modes算法中原有的分类变量间距离度量方法无法体现属性值之间差异,对此提出了一种基于朴素贝叶斯分类器中间运算结果的距离度量。该度量构建代表分类变量的特征向量并计算向量间的欧氏距离作为变量间的距离。将提出的距离度量代入K-modes聚类算法并在多个UCI公共数据集上与其他度量方法进行比较,实验结果表明该距离度量更加有效。 相似文献
10.
11.
12.
核模糊C-均值聚类KFCM是利用核函数将数据映射到高维空间,通过计算数据点与聚类中心的隶属度对数据进行聚类的算法,拥有高效、快捷的特点而被广泛应用于各领域,然而KFCM算法存在对聚类中心的初始值敏感和不能自适应确定聚类数两个局限性。针对这两个问题,提出一种局部搜索自适应核模糊聚类方法,该方法引入核方法提高数据的可分性,并构造基于核函数的评价函数来确定最优的聚类数目和利用部分样本数据进行局部搜索以寻找初始聚类中心。人工数据和UCI数据集上的实验结果验证了该算法的有效性。 相似文献
13.
14.
Incremental communication for adaptive resonance theory networks 总被引:1,自引:0,他引:1
We have proposed earlier the incremental internode communication method to reduce the communication cost as well as the time of the learning process in artificial neural networks (ANNs). In this paper, the limited precision incremental communication method is applied to a class of recurrent neural networks, the adaptive resonance theory 2 (ART2) networks. Simulation studies are carried out to examine the effects of the incremental communication method on the convergence behavior of ART2 networks. We have found that 7-13-b precision is sufficient to obtain almost the same results as those with full (32-b) precision conventional communication. A theoretical error analysis is also carried out to analyze the effects of the limited precision incremental communication. The simulation and analytical results show that the limited precision errors are bounded and do not seriously degrade the convergence of ART2 networks. Therefore, the incremental communication can be incorporated in parallel and special-purpose very large scale integration (VLSI) implementations of the ART2 networks. 相似文献
15.
16.
17.
针对传统的谱聚类算法通常利用高斯核函数作为相似性度量,且单纯以距离决定相似性不能充分表现原始数据中固有的模糊性、不确定性和复杂性,导致聚类性能降低的问题。提出了一种公理化模糊共享近邻自适应谱聚类算法,首先结合公理化模糊集理论提出了一种模糊相似性度量方法,利用识别特征来衡量更合适的数据成对相似性,然后采用共享近邻的方法发现密集区域样本点分布的结构和密度信息,并且根据每个点所处领域的稠密程度自动调节参数σ,从而生成更强大的亲和矩阵,进一步提高聚类准确率。实验表明,相较于距离谱聚类、自适应谱聚类、模糊聚类方法和地标点谱聚类,所提算法有着更好的聚类性能。 相似文献
18.
提出一种在LUV空间中基于多层次化结构Nystrm方法的自适应谱聚类算法。首先引入LUV色彩空间,避免了RGB色彩空间中色彩辨别阈对分割的影响,在纹理、边缘区域取得了更好的分割效果;其次将谱聚类算法中基于多层次化结构的方法和基于Nystrm采样的方法结合起来,有效减少了运算时间、解决了数据量较大时计算过程中内存溢出的问题;最后在K均值聚类中通过对特征间隙(eigengap)的分析,自适应地选择K值的大小,解决了自动确定聚类数目的问题。将提出的方法在LUV色彩空间中和RGB色彩空间中分别进行图像分割实验,结果表明在LUV色彩空间中取得效果更加理想。同时也将提出的算法与基于Nystrm方法的谱聚类算法(spectral clustering-Nystrm,SC-N)进行比较。实验结果表明,该算法在数据运算量、运行时间和分割结果上都优于SC-N方法。 相似文献
19.
针对BFSN算法需要人工输入参数r和λ的缺陷,提出了一种自适应确定r和λ的SA-BFSN聚类方法。该方法通过Inverse Gaussian拟合判断r参数,通过分析噪声点数量的分布特征选择合适的λ值。算法测试表明,使用SA-BFSN无需人工输入参数,能够实现聚类过程的全自动化,能够有效处理任意形状、大小和密度的簇。 相似文献