首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 187 毫秒
1.
互k最近邻算法(mKnnc)是k最近邻分类算法(Knn)的一种改进算法,该算法用互k最近邻原则对训练样本以及k最近邻进行噪声消除,从而提高算法的分类效果。然而在利用互k最近邻原则进行噪声消除时,并没有将类别属性考虑进去,因此有可能把真实有效的数据当成噪声消除掉,从而影响分类效果。基于类别子空间距离加权的互k最近邻算法考虑到近邻的距离权重,既能消除冗余或无用属性对最近邻分类算法依赖的相似性度量的影响,又能较好地消除邻居中的噪声点。最后在UCI公共数据集上的实验结果验证了该算法的有效性。  相似文献   

2.
两实例的距离或相似性度量在数据挖掘和机器学习中扮演着重要的角色。常用的距离度量方法主要适用于数值数据,针对分类数据,本文提出一种数据驱动的相似性度量方法。该方法利用属性值与类标签的信息,将属性值的类条件概率结合信息论来度量分类数据的相似性。为了与已提出的相似性度量方法作比较,把各度量方法与k最近邻算法结合,对多个分类数据集进行分类,通过十折交叉验证比较结果的错误率。实验表明该度量结合k最近邻方法使分类具有较低的错误率。  相似文献   

3.
针对k最近邻填充算法(kNNI)在缺失数据的k个最近邻可能存在噪声,提出一种新的缺失值填充算法——相互k最近邻填充算法MkNNI(Mutualk-NearestNeighborImputa—tion)。用于填充缺失值的数据,不仅是缺失数据的k最近邻,而且它的k最近邻也包含该缺失数据.从而有效地防止kNNI算法选取的k个最近邻点可能存在噪声这一情况。实验结果表明.MkNNI算法的填充准确性总体上要优于kNNI算法。  相似文献   

4.
为了增强最近邻凸包分类器的非线性分类能力,提出了基于核函数方法的最近邻凸包分类算法。该算法首先利用核函数方法将输入空间映射到高维特征空间,然后在高维特征空间采用最近邻凸包分类器对样本进行分类。最近邻凸包分类器是一类以测试点到各类别凸包的距离为相似性度量,并按最近邻原则归类的分类算法。人脸识别实验结果证实,这种核函数方法与最近邻凸包分类算法的融合是可行的和有效的。  相似文献   

5.
针对欧式空间中基于R树索引结构的反最近邻查询技术不适用于道路网环境,利用任意度量空间中的M树索引结构代替R树索引结构,进行道路网络中的反最近邻查询处理.然而,由于网络距离的计算代价高的问题,使得基于M树索引的反k最近邻查询效率很低.因此,采用道路网络嵌入技术,映射道路网络到高维向量空间,简单的L∞距离准确近似计算网络距离.在此基础上,提出道路网中近似反k最近邻查询的ARkNN算法,并对本文L∞距离近似网络距离的质量、k-中心聚类算法选取参考点的有效性和ARkNN算法的查询效率进行了实验验证.  相似文献   

6.
最近特征空间嵌入NFSE方法在训练过程中选取最近特征空间时采用传统的欧氏距离度量会导致类内离散度和类间离散度变化同步;测试时,最近邻规则也使用欧氏距离度量,而高维空间样本间直线距离具有趋同性。这些都会降低识别率,为解决此问题,提出了基于非线性距离和夹角组合的最近特征空间嵌入方法。在训练阶段,该方法使用非线性距离度量选取最近特征空间,使类内离散度的变化速度远小于类间离散度的变化速度,从而使转换空间中同类样本距离更小,不同类样本距离更大。在匹配阶段,使用结合夹角度量的最近邻分类器,充分利用样本相似性与样本夹角的关系,更适合高维空间中样本分类。仿真实验表明,基于非线性距离和夹角组合的最近特征空间嵌入方法的性能总体上优于对比算法。  相似文献   

7.
Kernel-kNN: 基于信息能度量的核k-最近邻算法   总被引:2,自引:0,他引:2  
刘松华  张军英  许进  贾宏恩 《自动化学报》2010,36(12):1681-1688
提出一种核k最近邻算法. 首先给出用于最近邻学习的信息能度量方法, 该方法克服了高维数据不便于用传统距离度量表示的困难, 提高了数据间类别相似性和距离的一致性. 在此基础上, 将传统的kNN扩展为非线性形式, 并采用半正定规划学习全局最优的度量矩阵. 算法主要特点是: 能较好地适用于高维数据, 并有效提升kNN 的分类性能. 多个数据集的实验和分析表明, 本文的Kernel-kNN算法与传统的kNN算法比较, 在低维数据上, 分类准确率相当; 在高维数据上, 分类性能有明显提高.  相似文献   

8.
张丽平  经海东  李松  崔环宇 《计算机科学》2016,43(5):174-178, 187
为了提升障碍空间中k最近邻查询的效率,研究了障碍空间中基于Voronoi图的k最近邻查询方法,提出了在障碍空间基于Voronoi图的kNN-Obs算法。该算法采用了两个过程:过滤过程和精炼过程。过滤过程主要是利用Voronoi图的过滤功能,较大程度地减少了被查询点的个数。精炼过程主要根据障碍距离和邻接生成点对候选集内对象进行第二次筛选。进一步给出了处理新增加点的ADDkNN-Obs算法和处理删除点的DENkNN-Obs算法。实验表明该算法在处理障碍空间中的k最近邻问题时具有优势。  相似文献   

9.
为了弥补现有的研究成果无法有效地处理路网环境下基于线段的反k最近邻问题的不足,提出了在路网环境下线段反k最近邻查询方法。该查询方法主要应用于评估查询对象的影响范围。根据路网及Voronoi图的特点提出了网络线段Voronoi图的概念。在静态数据集情况下利用网络线段Voronoi图的性质提出了STA_RVLRk NN算法,查询包括过滤过程和精炼过程两大部分。进一步,在动态数据集的情况下提出了DYN_RVLRk NN算法,查询分为空间线段对象增加和删除两种情况,并对不同的情况给出了相应的算法,得到查询结果集。理论研究和实验表明,所提算法能有效地处理路网中基于线段的反k最近邻问题。  相似文献   

10.
该文针对基于事例推理(CBR)方法中相似性度量公式(匹配函数)在故障诊断领域应用中存在的问题进行了研究。提出了事例特征分量距离的分区度量方法,以及局部权系数的神经网络迭代算法,并将其用于K-最近邻算法中,显示了该算法的优越性。  相似文献   

11.
Given a set of data points P and a query point q in a multidimensional space, reverse nearest neighbor (RNN) query finds data points in P whose nearest neighbors are q. Reverse k-nearest neighbor (RkNN) query (where k ges 1) generalizes RNN query to find data points whose kNNs include q. For RkNN query semantics, q is said to have influence to all those answer data points. The degree of q's influence on a data point p (isin P) is denoted by kappap where q is the kappap-th NN of p. We introduce a new variant of RNN query, namely, ranked reverse nearest neighbor (RRNN) query, that retrieves t data points most influenced by q, i.e., the t data points having the smallest kappa's with respect to q. To answer this RRNN query efficiently, we propose two novel algorithms, kappa-counting and kappa-browsing that are applicable to both monochromatic and bichromatic scenarios and are able to deliver results progressively. Through an extensive performance evaluation, we validate that the two proposed RRNN algorithms are superior to solutions derived from algorithms designed for RkNN query.  相似文献   

12.
Similarity searching often reduces to finding the k nearest neighbors to a query object. Finding the k nearest neighbors is achieved by applying either a depth- first or a best-first algorithm to the search hierarchy containing the data. These algorithms are generally applicable to any index based on hierarchical clustering. The idea is that the data is partitioned into clusters which are aggregated to form other clusters, with the total aggregation being represented as a tree. These algorithms have traditionally used a lower bound corresponding to the minimum distance at which a nearest neighbor can be found (termed MinDist) to prune the search process by avoiding the processing of some of the clusters as well as individual objects when they can be shown to be farther from the query object q than all of the current k nearest neighbors of q. An alternative pruning technique that uses an upper bound corresponding to the maximum possible distance at which a nearest neighbor is guaranteed to be found (termed MaxNearestDist) is described. The MaxNearestDist upper bound is adapted to enable its use for finding the k nearest neighbors instead of just the nearest neighbor (i.e., k=1) as in its previous uses. Both the depth-first and best-first k-nearest neighbor algorithms are modified to use MaxNearestDist, which is shown to enhance both algorithms by overcoming their shortcomings. In particular, for the depth-first algorithm, the number of clusters in the search hierarchy that must be examined is not increased thereby potentially lowering its execution time, while for the best-first algorithm, the number of clusters in the search hierarchy that must be retained in the priority queue used to control the ordering of processing of the clusters is also not increased, thereby potentially lowering its storage requirements.  相似文献   

13.
Presents cost estimates for finding the k-nearest neighbors to a test pattern according to a Minkowski p-metric, as a function of the size of the buckets in partitioning searching algorithms. The asymptotic expected number of operations to find the nearest neighbor is presented as a function of the average number of patterns per bucket n and is shown to contain a global minimum  相似文献   

14.
为了解决复杂的多模态过程故障检测问题,提出了邻域保持嵌入-加权k近邻规则(neighborhood preserving embedding-weighted k-nearest neighbors,NPE-wkNN)质量监控方法.首先,利用邻域保持嵌入(neighborhood preserving embedding,NPE)得到特征空间中数据的流形结构;然后,在特征空间中确定每个样本第k近邻的前K近邻集并计算样本的权重.最后,将样本的加权距离作为统计量对过程进行质量监控.NPE-wkNN方法在保持原始数据近邻结构的同时降低了计算复杂度,除此之外,权重规则消除了数据的多模态特征,从而提高了过程故障检测率.通过数值实例和半导体蚀刻工艺仿真实验,对比了传统的主元分析(principal component analysis,PCA)、NPE、k近邻(k-nearest neighbor,kNN)、加权k近邻(weighted kNN,wkNN)等方法,结果验证了本文方法的有效性.  相似文献   

15.
基于马氏距离的缺失值填充算法   总被引:1,自引:0,他引:1  
杨涛  骆嘉伟  王艳  吴君浩 《计算机应用》2005,25(12):2868-2871
提出了一种基于马氏距离的填充算法来估计基因表达数据集中的缺失数据。该算法通过基因之间的马氏距离来选择最近邻居基因,并将已得到的估计值应用到后续的估计过程中,然后采用信息论中熵值的概念计算最近邻居的加权系数,得到缺失数据的填充值。实验结果证明了该算法具有有效性,其性能优于其他基于最近邻居法的缺失值处理算法。  相似文献   

16.
密度峰值聚类算法对密集程度不一数据的聚类效果不佳,样本分配过程易产生连带错误.为此,提出一种基于相互邻近度的密度峰值聚类算法.所提算法引入k近邻思想计算局部密度,以此保证密度的相对性.定义综合数据全局和局部特征的样本相互邻近度的度量准则,据此准则,提出一种新的样本分配策略.新的分配策略采用k近邻思想寻找密度峰值,将密度峰值的k个近邻点分配给其对应类簇,对所有已分配数据点寻找相互邻近度最高的未分配数据点,将未分配数据点分配给已分配数据点所在类簇.在合成和UCI数据集上,将所提算法与DPC、DBSCAN、OPTICS、AP、K-Means及DPC的改进算法进行比较,实验结果表明,所提出的算法性能最优.  相似文献   

17.
在多标签分类问题中,通过k近邻的分类思想,构造测试样本关于近邻样本类别标签的新数据,通过回归模型建立在新数据下的多标签分类算法。计算测试样本在每个标签上考虑距离的k近邻,构造出每个样本关于标签的新数据集。对新数据集采取线性回归和Logistic回归,给出基于样本k近邻数据的多标签分类算法。为了进一步利用原始数据的信息,考虑每个标签关于原始属性的Markov边界,结合新数据的特征建立新的回归模型,提出考虑Markov边界的多标签分类算法。实验结果表明所给出的方法性能优于常用的多标签学习算法。  相似文献   

18.
古凌岚  彭利民 《计算机科学》2016,43(12):213-217
针对传统的基于欧氏距离的相似性度量不能完全反映复杂结构的数据分布特性的问题,提出了一种基于相对密度和流形上k近邻的聚类算法。基于能描述全局一致性信息的流形距离,及可体现局部相似性和紧密度的k近邻概念,通过流形上k近邻相似度度量数据对象间的相似性,采用k近邻的相对紧密度发现不同密度下的类簇,设计近邻点对约束规则搜寻k近邻点对构成的近邻链,归类数据对象及识别离群点。与标准k-means算法、流形距离改进的k-means算法进行了性能比较,在人工数据集和UCI数据集上的仿真实验结果均表明,该算法能有效地处理复杂结构的数据聚类问题,且聚类效果更好。  相似文献   

19.
Tensor decompositions have many application areas in several domains where one key application is revealing relational structure between multiple dimensions simultaneously and thus enabling the compression of relational data. In this paper, we propose the Discriminative Tensor Decomposition with Large Margin (shortly, Large Margin Tensor Decomposition, LMTD), which can be viewed as a tensor-to-tensor projection operation. It is a novel method for calculating the mutual projection matrices that map the tensors into a lower dimensional space such that the nearest neighbor classification accuracy is improved. The LMTD aims finding the mutual discriminative projection matrices which minimize the misclassification rate by minimizing the Frobenius distance between the same class instances (in-class neighbors) and maximizing the distance between different class instances (impostor neighbors). Two versions of LMTD are proposed, where the nearest neighbor classification error is computed in the feature (latent) or input (observations) space. We evaluate the proposed models on real data sets and provide a comparison study with alternative decomposition methods in the literature in terms of their classification accuracy and mean average precision.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号