首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
黄浩  何钦铭  陈奇  钱烽  何江峰  马连航 《软件学报》2012,23(5):1195-1206
提出了一种快速的稀有类检测算法——CATION(rare category detection algorithm based on weighted boundary degree).通过使用加权边界度(weighted boundary degree,简称WBD)这一新的稀有类检测标准,该算法可利用反向κ近邻的特性来寻找稀有类的边界点,并选取加权边界度最高的边界点询问其类别标签.实验结果表明,与现有方法相比,该算法避免了现有方法的局限性,大幅度地提高了发现数据集中各个类的效率,并有效地缩短了算法运行所需要的运行时间.  相似文献   

2.
边界是一种有用的模式,为了有效识别边界,根据边界点周围密度不均匀,提出了一种边界点检测算法——BDKD。该算法用数据对象的k-近邻距离与其邻域内数据对象的平均k-近邻距离之比定义其k-离群度,当k-离群度超过阈值时即确定为边界点。实验结果表明,BDKD算法可以准确检测出各种聚类边界,并能去除噪声,特别是对密度均匀的数据集效果理想。  相似文献   

3.
边界剥离聚类算法(BP)是一种基于密度的聚类算法,它通过逐渐剥离边界点来揭示聚类的潜在核心,已经被证明是一种十分有效的聚类手段.然而, BP算法仍存在一些不足之处:一方面,数据点的局部密度仅考虑了距离特征,使得边界点的确定不够合理;另一方面, BP算法中的关联策略容易误判异常值,并且在分配边界点时容易产生连带错误.为此,本文提出了一种基于共享近邻和优化关联策略的边界剥离聚类算法(SOBP).该算法使用了基于共享近邻的局部密度函数来更好地探索数据点之间的相似性,同时优化了BP算法中的关联策略,使得每次迭代中边界点不再仅与一个非边界点进行关联,并进一步采用了边界点与非边界点、已剥离边界点之间的双重关联准则.在一些数据集上的测试表明,相较于其他6种经典算法,该算法在评估指标上表现更佳.  相似文献   

4.
无参数聚类边界检测算法的研究   总被引:1,自引:0,他引:1       下载免费PDF全文
邱保志  许敏 《计算机工程》2011,37(15):23-26
为自动快速地提取聚类的边界点,减少输入参数对边界检测结果的影响,提出一种无参数聚类边界检测算法。该算法不需要任何参数,在生成的三角剖分图上计算每个数据点的边界度,用k-means自动计算边界度阈值,按边界度阈值将数据集划分为候选边界点和非候选边界点两部分,根据噪声点在三角剖分图中的性质去除候选边界点中的噪声点,最终检测出边界点。实验结果表明,该算法能快速、有效地识别任意形状、不同大小和密度聚类的边界点。  相似文献   

5.
聚类的边界是一种有用的模式,为有效地提取聚类的边界点,提出c-层近邻概念,将c-层近邻应用于二路生成树,能快速计算出每个对象的反向近邻值,从而根据反向近邻值提取聚类的边界。提出的基于二路生成树的边界检测算法(DBMST)在综合数据集和真实数据集的实验结果表明,该算法在含有噪声/孤立点的数据集上,能够快速有效地识别出聚类的边界。  相似文献   

6.
李向丽  曹晓锋  邱保志 《自动化学报》2017,43(11):1962-1972
流形学习关注于寻找合适的嵌入方式将高维空间映射至低维空间,但映射子空间依然可能具有较高的维度,难以解决高维空间的数据挖掘任务.本文建立一种简单的矩阵模型判断数据点k近邻空间关于该点的对称性,并使用对称率进行边界提取,提出一种基于矩阵模型的高维聚类边界检测技术(Clustering boundary detection based on matrix model,MMC).该模型构造简单、直接、易于理解和使用.理论分析以及在人工合成和真实数据集的实验结果表明MMC算法能够有效地检测出低维和高维空间的聚类边界.  相似文献   

7.
为有效地检测噪声数据集上聚类的边界点,提出一种新的边界模式检测算法Green(Gravity-Based Boundary Points Detecting Algorithm),该算法将数据集中的对象看成是空间中带质量的点,利用牛顿力学对对象进行受力分析并计算每个点的边界因子,根据边界点具有较大的边界因子这一事实提取出边界点.实验结果表明:Green能在含有不同形状、大小簇的噪声数据集上有效地检测出聚类的边界点,执行效率高.  相似文献   

8.
分类数据的聚类边界检测技术   总被引:1,自引:0,他引:1  
邱保志  王波 《计算机应用》2012,32(6):1654-1656
随着分类属性数据集的应用越来越广泛,获取含有分类属性数据集的聚类边界的需求也越来越迫切。为了获取聚类的边界,在定义分类数据的边界度和聚类边界的基础上,提出了一种带分类属性数据的聚类边界检测算法——CBORDER。该算法首先利用随机分配初始聚类中心和边界度对类进行划分并获取记录边界点的证据,然后运用证据积累的思想多次执行该过程来获取聚类的边界。实验结果表明,CBORDER算法能有效地检测出高维分类属性数据集中聚类的边界。  相似文献   

9.
离群点检测和分析离群模式隐含的特征是离群点挖掘的重要研究内容.现有离群点检测算法存在两个明显的不足:根据离群度检测离群点,难以确定离群点的数量;忽略了与离群点邻接的聚类信息,不能提供解析离群模式的有效证据.为此,提出一种基于共享反K近邻的离群点检测算法,首先定义了一种对密度和维数变化不敏感的共享反K近邻相似度,然后应用聚类方法将数据集划分为聚类簇和包含离群点的离群簇,从而获取数据集中的离群点及解析离群点的聚类结构.仿真结果表明,反K近邻算法比现有方法更能精确地检测数据集中的局部离群点,具有很好的控制性能.  相似文献   

10.
一种高效的基于联合熵的边界点检测算法   总被引:1,自引:1,他引:0  
为了快速有效地检测出聚类的边界点,提出一种将网格技术与联合熵相结合的边界点检测算法.该算法中网格技术用于快速查找数据集中聚类边界所在的网格范围,联合熵用于在边界落入的网格范围内准确识别聚类的边界点.实验结果表明.该算法能够在含有噪声点,孤立点的数据集上,有效地检测出聚类的边界,运行效率高.  相似文献   

11.
朱庆生  唐汇  冯骥 《计算机科学》2014,41(3):276-278,305
任何涉及k近邻求解问题的算法被应用于处理不同特征的数据集时,参数k值的选择都会明显影响算法的性能和结果。因而,如何选择k近邻算法中敏感参数k值一直是一个研究难点。提出了一种新的近邻关系———自然最近邻,它不需要设置参数k,每个节点的邻居是由算法自适应计算而形成的。针对离群点检测的特殊性,通过确定自然最近邻居搜索算法的终止条件,提出一种基于自然最近邻的新的离群检测算法ODb3N。实验表明,该算法不仅避免了k近邻中参数的选择问题,而且能够更有效地发现离群簇。  相似文献   

12.
互k近邻MKnn算法是k-近邻算法的一种有效改进算法,但其对类属性数据通常采用属性值相同为0,不同为1的方法处理,从而在类属性数据较多的数据集上分类效率受到一定程度的抑制。针对MKnn对类属性数据处理方法的不足,对类属性数据的处理引进类别基尼系数的概念,对同类样本,用基尼系数统计某一类属性中不同值分布对这个类的贡献度作为此类属性的权重,并以此作为估算不同样本之间的相似性对MKnn进行优化,扩宽MKnn的使用面。实验结果验证了该方法的有效性。  相似文献   

13.
k-最近邻法是常见的机器学习算法,R语言中通过kknn包完成算法实现,但其无法实现图像文件的处理。为此,本文先将图像文件转换成文本文件,再结合KNN算法对文件中数字图像进行模式识别。实验得出其判断结果达到了预期指标。  相似文献   

14.
粒子群算法和K近邻相融合的网络入侵检测   总被引:1,自引:0,他引:1  
为了提高网络入侵检测效果,提出一种粒子群优化算法(PSO)和K最近邻相融(KNN)的网络入侵检测模型(PSO-KNN)。首先特征子集和KNN参数作为一个粒子,然后通过粒子之间的信息交流和相互协作,找到最优特征子集和KNN参数,从而建立最优网络入侵检测模型,最后利用KDD 1999数据集对模型性能进行测试。结果表明,相对于其他入侵检测算法,PSO-KNN更有效地精简网络数据特征,提高分类算法的网络入侵检测速度及检测率。  相似文献   

15.
通过时空异常流检测技术可以发现城市交通数据中的异常交通特征。与时间序列中单个异常流检测采用的方法不同,提出了从流序列中检测异常流分布的k最近邻流序列算法(kNNFS)。算法首先为每个位置测定每个时间区间内的单个流观测值;随后计算单个流的观测频率来构建每个位置处每个时间区间的流分布概率库;最后由阈值判定使用KL散度计算的新的流分布概率与其k最近邻之间的距离是否为异常值,距离值小于阈值则更新入流分布概率库,否则为异常的流分布。仿真分析表明,对比DPMM算法和SETMADA算法,kNNFS算法在检测精度和算法运行时间方面均有优化提升。  相似文献   

16.
为了解决复杂的多模态过程故障检测问题,提出了邻域保持嵌入-加权k近邻规则(neighborhood preserving embedding-weighted k-nearest neighbors,NPE-wkNN)质量监控方法.首先,利用邻域保持嵌入(neighborhood preserving embedding,NPE)得到特征空间中数据的流形结构;然后,在特征空间中确定每个样本第k近邻的前K近邻集并计算样本的权重.最后,将样本的加权距离作为统计量对过程进行质量监控.NPE-wkNN方法在保持原始数据近邻结构的同时降低了计算复杂度,除此之外,权重规则消除了数据的多模态特征,从而提高了过程故障检测率.通过数值实例和半导体蚀刻工艺仿真实验,对比了传统的主元分析(principal component analysis,PCA)、NPE、k近邻(k-nearest neighbor,kNN)、加权k近邻(weighted kNN,wkNN)等方法,结果验证了本文方法的有效性.  相似文献   

17.
Voting over Multiple Condensed Nearest Neighbors   总被引:4,自引:0,他引:4  
  相似文献   

18.
The paper proposes a novel symmetrical encoding-based index structure, which is called EDD-tree (for encoding-based dual distance tree), to support fast k-nearest neighbor (k-NN) search in high-dimensional spaces. In the EDD-tree, all data points are first grouped into clusters by a k-means clustering algorithm. Then the uniform ID number of each data point is obtained by a dual-distance-driven encoding scheme, in which each cluster sphere is partitioned twice according to the dual distances of start- and centroid-distance. Finally, the uniform ID number and the centroid-distance of each data point are combined to get a uniform index key, the latter is then indexed through a partition-based B^+-tree. Thus, given a query point, its k-NN search in high-dimensional spaces can be transformed into search in a single dimensional space with the aid of the EDD-tree index. Extensive performance studies are conducted to evaluate the effectiveness and efficiency of our proposed scheme, and the results demonstrate that this method outperforms the state-of-the-art high-dimensional search techniques such as the X-tree, VA-file, iDistance and NB-tree, especially when the query radius is not very large.  相似文献   

19.
Many lazy learning algorithms are derivatives of the k-nearest neighbor (k-NN) classifier, which uses a distance function to generate predictions from stored instances. Several studies have shown that k-NN's performance is highly sensitive to the definition of its distance function. Many k-NN variants have been proposed to reduce this sensitivity by parameterizing the distance function with feature weights. However, these variants have not been categorized nor empirically compared. This paper reviews a class of weight-setting methods for lazy learning algorithms. We introduce a framework for distinguishing these methods and empirically compare them. We observed four trends from our experiments and conducted further studies to highlight them. Our results suggest that methods which use performance feedback to assign weight settings demonstrated three advantages over other methods: they require less pre-processing, perform better in the presence of interacting features, and generally require less training data to learn good settings. We also found that continuous weighting methods tend to outperform feature selection algorithms for tasks where some features are useful but less important than others.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号