首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 46 毫秒
1.
近邻传播算法在非凸形、密度不均匀的数据集上很难得到理想的聚类结果。为此,基于核聚类的思想,将数据集非线性地映射到高维空间,使数据集更加分离。利用共享最近邻的相似度度量方法,提出一种密度不敏感的近邻传播算法DIS-AP,以弥补原算法易受特征集维数和密度影响的缺点,从而有效解决数据集非凸和密度不均匀问题,拓宽算法的应用范围。仿真实验结果证明,DIS-AP算法具有更好的聚类性能。  相似文献   

2.
基于密度的聚类算法具有挖掘任意形状聚类结果和处理“噪声”数据等优势,同时也存在无法处理高维和密度分布不均匀数据的缺陷;鉴于此,给出了节点优先级导向的聚类算法.首先建立数据集的有向K邻居图:然后用K-最近邻核密度估计方法获得数据对象的局部信息,并在图中迭代地传播,以产生数据对象的优先级;最后以该优先级为导向从图中搜索聚类结果.实验结果表明,该算法适合处理高维、密度分布不均匀的数据.  相似文献   

3.
The wrong clusters number or poor starting points of each cluster have negative influence on the classification accuracy in the hybrid classifier based credit scoring system. The paper represents a new hybrid classifier based on fuzzy-rough instance selection, which have the same ability as clustering algorithms, but it can eliminate isolated and inconsistent instances without the need of determining clusters number and starting points of each cluster. The unrepresentative instances that cause conflicts with other instances are completely determined by the fuzzy-rough positive region which is only related to intrinsic data structure of datasets. By removing unrepresentative instances, both the training data quality and classifier training time can be improved. To prevent eliminating more instances than strictly necessary, the k-nearest neighbor algorithm is adopted to check the eliminated instances, and the instance whose predicted class is the same with predefined class is added back. SVM classifier with three different kernel functions are applied to the reduced dataset. The experimental results show that the proposed hybrid classifier has better classification accuracy on two real world datasets.  相似文献   

4.
提出一种在椭圆体聚类上进行主分量排序的高维索引方法, 线性访问较少的数据点就可完成k近邻搜索过程。该方法对数据集进行椭圆体聚类划分,在KL变换域上建立近似向量。在k近邻搜索过程中,采用部分失真搜索算法,按照距离下界由小到大的顺序依次搜索各个椭圆体聚类。在大型高维图像特征库上的实验表明,与其他向量近似方法相比,该索引结构降低近似向量的访问数量,能够较显著提高k近邻搜索速度。  相似文献   

5.
基于共享最近邻聚类和模糊集理论的分类器   总被引:1,自引:0,他引:1  
李订芳  胡文超  何炎祥 《控制与决策》2006,21(10):1103-1108
提出一种基于共享最近邻聚类和模糊集理论的分类器.首先,在提出与核点密切相关的核半径概念的基础上,应用共享最近邻聚类得到正常类空间的部分核点和核半径,建立求解正常类空间补充核点的多目标优化模型,从而获得刻画正常类空间的全部核点和核半径.然后,将模糊集理论引入正常类的类属划分中,利用核点和核半径定义正常类的隶属度函数,建立基于隶属度函数的分类函数或分类器.实验表明,该分类器能处理包含噪音、孤立点和不规则子类的高维数据集的分类问题.  相似文献   

6.
基于K-means聚类的欠采样存在仅适用于超球形状数据、未考虑重叠区对分类的影响及簇中样本的稠密程度等问题.因此,文中提出基于密度峰值聚类的自适应欠采样方法.首先利用近邻搜索算法识别重叠区的多数类样本并将其删除.然后应用改进的密度峰值聚类自动获得多个不同形状、大小和密度的子簇.再根据子簇中样本的稠密程度计算采样权重并进行欠采样,在获得的平衡数据集上进行bagging集成分类.实验表明,文中方法在大多数数据集上性能表现较优.  相似文献   

7.
全局与局部判别信息融合的转子故障数据集降维方法研究   总被引:1,自引:0,他引:1  
针对传统的数据降维方法无法兼顾保持全局特征信息与局部判别信息的问题,提出一种核主元分析(Kernel principal component analysis,KPCA)和正交化局部敏感判别分析(Orthogonal locality sensitive discriminant analysis,OLSDA)相结合的转子故障数据集降维方法.该方法首先利用KPCA算法有效降低数据集的相关性、消除冗余属性,由此实现了最大程度地保留原始数据全局非线性信息的作用;然后利用OLSDA算法充分挖掘出数据的局部流形结构信息,达到了提取出具有高判别力低维本质特征的目的.上述方法的特点是通过同时进行的正交化处理可避免局部子空间结构发生失真,采用三维图直观显示出低维结果,以低维特征子集输入最近邻分类器(K-nearest neighbor,KNN)的识别率和聚类分析之类间距Sb、类内距Sw作为衡量降维效果的指标.实验表明该方法能够全面地提取出全局与局部判别信息,使故障分类更清晰,相应地识别准确率得到了明显提升.该研究可为解决高维和非线性机械故障数据集的可视化与分类问题,提供理论参考依据.  相似文献   

8.
为了更好地解决密度不均衡问题与刻画高维数据相似性度量问题,提出一种基于共享[k]-近邻与共享逆近邻的密度峰聚类算法。该算法计算两个点的共享[k]-近邻数与共享逆近邻数,并结合欧氏距离来确定这两个点之间的共享相似度;将样本点与其逆近邻点的共享相似度之和定义为该点的共享密度,再通过共享密度选取聚类中心。通过实验证明,该算法在人工数据集和真实数据集上的聚类结果较其他密度聚类算法更加准确,并且能更好地处理密度不均衡问题,同时也提高了高维数据的聚类精度。  相似文献   

9.
针对传统的kNN(k-NearestNeighbor)近邻填补算法对缺失数据的填补效果会因为k最近邻数据存在噪声受到较大干扰的问题,提出一种基于kNN-DBSCAN(k-NearestNeighbor Density-based Spatial Clustering of Applications with Noise)的缺失数据填补优化算法。将基于密度的DBSCAN聚类算法运用到kNN近邻填补算法中,先用kNN算法得到目标填补数据的原始k最近邻数据集,运用DBSCAN聚类算法对原始k最近邻数据集进行噪声检测并消除噪声数据,得到当前k最近邻数据集,最后并入kNN计算,填补目标缺失数据;同时,针对DBSCAN聚类算法参数设置敏感的问题,通过分析数据集的统计特性来确定参数,避免人为经验判断。最后利用真实数据对算法进行验证,结果显示该算法对目标缺失数据的填补准确度要优于传统的kNN算法。  相似文献   

10.
针对协同训练方法在迭代时选择加入的无标记样本所隐含的有用信息不够,以及协同训练方法多个分类器标记不一致带来错误标记无标记样本的问题,提出了一种结合半监督聚类和加权[K]最近邻的协同训练方法。该方法在每次迭代过程中,先对训练集进行半监督聚类,选择隶属度高的无标记样本给朴素贝叶斯分类,再用加权[K]最近邻算法对多个分类器分类不一致的无标记样本重新分类。利用半监督聚类能够选择出较好表现数据空间结构的样本,而采用加权[K]最近邻算法为标记不一致的无标记样本重新标记能够解决标记不一致带来的分类精度降低问题。在UCI数据集上的对比实验验证了该算法的有效性。  相似文献   

11.
针对事例检索算法中最近邻算法判断盲目、计算量大等问题,改进为聚类C-均值算法;对C-均值聚类对初值敏感,分类结果受到取定的类别数目及聚类中心初始位置的影响,及易陷于局部极小值等问题,再次将改进的算法结合改进后的最大最小距离法,以优化初始聚类,将最终改进的算法进行了仿真比较。将最终改进的算法运用于情感智能教学中,创建了面部表情的子表情模板,提高了表情的识别率。  相似文献   

12.
针对聚类算法中特征数据对聚类中心贡献的差异性及算法对初始聚类中心的敏感性等问题,提出一种基于知识量加权的直觉模糊均值聚类方法。首先将原始数据集直觉模糊化并改进最新的直觉模糊知识测度计算知识量,据此实现数据集特征加权,再利用核空间密度与核距离初始化聚类中心,以提高高维特征数据集的计算精度与聚类效率,最后基于类间样本距离与最小知识量原理建立聚类优化模型,得到最优迭代算法。基于UCI人工数据集的实验结果表明,所提方法较大程度地提高了聚类的准确性与迭代效率,分类正确率及执行效率分别平均提高了10.63%和31.75%,且具有良好的普适性和稳定性。该方法首次将知识测度新理论引入模糊聚类并取得优良效果,为该理论在其他相关领域的潜在应用开创了新例。  相似文献   

13.
14.
15.
王石  王意洁 《计算机工程》2010,36(20):86-87
针对邻近搜索技术受限于网络协议的支持以及存在空间嵌入误差的问题,提出一种基于覆盖树的可扩展邻近搜索方法CPS,包括覆盖树构建与维护协议和k近邻搜索算法两部分。节点自主计算自身所处层次,构造一棵层次化树。邻居维护协议负责维护覆盖树结构,确保其适应动态的网络环境。k近邻搜索算法通过对覆盖树剪枝,构造各层候选节点集合,提高搜索效率。实验结果表明,CPS的搜索精度优于典型的邻近搜索方法Tiers。  相似文献   

16.
核模糊C-均值聚类KFCM是利用核函数将数据映射到高维空间,通过计算数据点与聚类中心的隶属度对数据进行聚类的算法,拥有高效、快捷的特点而被广泛应用于各领域,然而KFCM算法存在对聚类中心的初始值敏感和不能自适应确定聚类数两个局限性。针对这两个问题,提出一种局部搜索自适应核模糊聚类方法,该方法引入核方法提高数据的可分性,并构造基于核函数的评价函数来确定最优的聚类数目和利用部分样本数据进行局部搜索以寻找初始聚类中心。人工数据和UCI数据集上的实验结果验证了该算法的有效性。  相似文献   

17.
In this paper, we develop a diagnosis model based on particle swarm optimization (PSO), support vector machines (SVMs) and association rules (ARs) to diagnose erythemato-squamous diseases. The proposed model consists of two stages: first, AR is used to select the optimal feature subset from the original feature set; then a PSO based approach for parameter determination of SVM is developed to find the best parameters of kernel function (based on the fact that kernel parameter setting in the SVM training procedure significantly influences the classification accuracy, and PSO is a promising tool for global searching). Experimental results show that the proposed AR_PSO–SVM model achieves 98.91% classification accuracy using 24 features of the erythemato-squamous diseases dataset taken from UCI (University of California at Irvine) machine learning database. Therefore, we can conclude that our proposed method is very promising compared to the previously reported results.  相似文献   

18.
近邻传播聚类(AP)方法是近年来出现的一种广受关注的聚类方法,在处理多类、大规模数据集时,能够在较短的时间得到较理想的结果,因此与传统方法相比具有很大的优势。但是对于一些聚类结构复杂的数据集,往往不能得到很好的聚类结果。通过分析数据的聚类特性,设计了一种可以根据数据结构自动调整参数的核函数,数据集在其映射得到的核空间中线性可分或几乎线性可分,对该核空间中的数据集进行近邻传播聚类,有效提高了AP聚类的精确度和速度。算法有效性分析以及仿真实验验证了所提算法在处理大规模复杂结构数据集上的性能优于原始AP算法。  相似文献   

19.
针对协同过滤模型中寻找邻居集耗时,且部分邻居信息未能有效用于预测计算的问题,提出了一种快速搜寻最近邻居的方法。该方法改变了评分矩阵中数据组织方式,通过构建项目的用户评分列表和用户的项目评分列表,以此来筛选出对预测评分值产生影响的用户或项目,进而得到目标用户或项目的邻居集。该方法排除了不必要的相似性计算,提高了运算效率;而且还有效保证了预测计算中的邻居利用率,提高了推荐质量。在Movielens100k与Movielens1M两个数据集上的实验结果表明,所提出算法在运行时间、MAE、RMSE、F1值四个指标上均有较大提升。因此该算法在推荐系统领域具有良好的应用价值。  相似文献   

20.
Models for the short-term load forecasting based on the similarity of patterns of seasonal cycles are presented. They include: kernel estimation-based model, nearest neighbor estimation-based models and pattern clustering-based models such as classical clustering methods and new artificial immune systems. The problem of construction of the pattern similarity-based forecasting models and the elements and procedures of the model space are characterized. Details of the model learning and optimization using deterministic and stochastic methods such as evolutionary algorithms and tournament searching are described. Sensitivities of the models to changes in parameter values and their robustness to noisy and missing data are examined. The comparative studies with other popular forecasting methods such as ARIMA, exponential smoothing and neural networks are performed. The advantages of the proposed models are their simplicity and a small number of parameters to be estimated, which implies simple optimization procedures. The models can successfully deal with missing data. The increased number of the model outputs does not complicate their structure. The local nature of the models leads to their simplification and accuracy improvement. The proposed models are strong competitors for other popular univariate methods, which was confirmed in the simulation studies.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号