首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 156 毫秒
1.
黄宇扬  董明刚  敬超 《计算机应用》2018,38(11):3112-3118
针对传统的实例选择算法会误删训练集中非噪声样本、算法效率低的不足,提出了一种面向K最近邻(KNN)的遗传实例选择算法。该算法采用基于决策树和遗传算法的二阶段筛选机制,先使用决策树确定噪声样本存在的范围;再使用遗传算法在该范围内精确删除噪声样本,可有效地降低误删率并提高效率,采用基于最近邻规则的验证集选择策略,进一步提高了遗传算法实例选择的准确度;最后引进基于均方误差(MSE)的分类精度惩罚函数来计算遗传算法中个体的适应度,提高有效性和稳定性。在20个数据集上,该方法相较于基于预分类的KNN (PRKNN)、基于协同进化的实例特征选择算法(IFS-CoCo)、K最近邻(KNN),在分类精度上的提升分别为0.07~26.9个百分点、0.03~11.8个百分点、0.2~12.64个百分点,在AUC和Kappa的上的提升分别为0.25~18.32个百分点、1.27~23.29个百分点、0.04~12.82个百分点。实验结果表明,该方法相较于当前实例选择算法在分类精度和分类效率上均具有优势。  相似文献   

2.
针对传统原型选择算法易受样本读取序列、异常样本等干扰的缺陷,通过分析原型算法学习规则,借鉴最近特征线法思想,改进传统原型算法,提出一种自适应边界逼近的原型选择算法。该算法在原型学习过程中改进压缩近邻法的同类近邻吸收策略,保留更优于当前最近边界原型的同类样本,同时建立原型更新准则,并运用该准则实现原型集的周期性动态更新。该算法不仅克服读取序列、异常样本对原型选取的影响,而且降低原型集规模。最后通过人工数据和UCI基准数据集验证文中算法。实验表明,文中算法选择的原型集比其他算法产生的原型集更能体现数据集的分布特征,平均压缩率有所提高,且分类精度与运行时间优于其他算法。  相似文献   

3.
本文通过研究KNN(K-最近邻)算法在疾病预测领域的使用与分析,总结出KNN的2点不足,针对不足进行相应改进并提出F_KNN(循环最近邻搜索)算法:1)针对KNN计算量大、效率低下的缺点,本文采用FLANN(快速最近邻搜索)循环搜索与待测样本距离最近的点,记录若干个最近邻点作为最近邻点子集,利用此子集取代全集对待测样本进行计算,可以降低计算量,极大地提高了KNN算法效率;2)针对KNN难以对高维数据集分类的缺点,本文采用AHP(层次分析法)对样本的特征属性进行相关性研究,使用合适的参数分配权重,提高了KNN算法准确率。本文采用一组脑中风数据集对优化后的算法进行实验,实验结果表明,F_KNN准确率达96.2%。与传统KNN相比,F_KNN提高了分类性能且极大地提高了算法效率。在处理高维且较大的数据集时,F_KNN算法优势明显,具有较好的应用前景。  相似文献   

4.
基于样本选择的最近邻凸包分类器   总被引:1,自引:0,他引:1       下载免费PDF全文
最近邻凸包分类算法是一种以测试点到各类别样本凸包的距离为分类度量的最近邻分类算法。然而,该算法的凸二次规划问题优化求解的较高的计算复杂度限制了其在较大规模数据集上的应用。本文提出一种样本选择方法——子类凸包生长法。通过迭代,选择距离选出样本凸包最远的点,直到满足终止条件,从而实现数据集的有效约简。ORL数据库和MIT-CBCL人脸识别training-synthetic库上的实验结果表明,子类凸包生长法选出的少量样本生成的凸包能够很好的表征训练集,在不降低最近邻凸包分类器性能的同时,使得算法的计算速度大为提高。  相似文献   

5.
基于自然邻居和最小生成树的原型选择算法   总被引:1,自引:0,他引:1  
朱庆生  段浪军  杨力军 《计算机科学》2017,44(4):241-245, 268
K最近邻居是最流行的有监督分类算法之一。然而,传统的K最近邻居有两个主要的问题:参数K的选择以及在大规模数据集下过高的时间和空间复杂度需求。为了解决这些问题,提出了一种新的原型选择算法,它保留了一些对分类贡献很大的关键原型点,同时移除噪声点和大多数对分类贡献较小的点。不同于其他原型选择算法,该算法使用了自然邻居这个新的邻居概念来做数据预处理,然后基于设定的终止条件构建若干个最小生成树。基于最小生成树,保留边界原型,同时生成一些具有代表性的内部原型。基于UCI基准数据集进行实验,结果表明提出的算法有效地约简了原型的数量,同时保持了与传统KNN相同水平的分类准确率;而且,该算法在分类准确率和原型保留率上优于其他原型选择算法。  相似文献   

6.
在文本分类中,最近邻搜索算法具有思想简单、准确率高等优点,但通常在分类过程中的计算量较大。为克服这一不足,提出了一种基于最近邻子空间搜索的两类文本分类方法。首先提取每一类样本向量组的特征子空间,并通过映射将子空间变换为高维空间中的点,然后把最近邻子空间搜索转化为最近邻搜索完成分类过程。在Reuters-21578数据集上的实验表明,该方法能够有效提高文本分类的性能,具有较高的准确率、召回率和F1值。  相似文献   

7.
基于k-最近邻图的小样本KNN分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
提出一种基于k-最近邻图的小样本KNN分类算法。通过划分k-最近邻图,形成多个相似度较高的簇,根据簇内已有标记的数据对象来标识同簇中未标记的数据对象,同时剔除原样本集中的噪声数据,从而扩展样本集,利用该新样本集对类标号未知数据对象进行类别标识。采用标准数据集进行测试,结果表明该算法在小样本情况下能够提高KNN的分类精度,减小最近邻阈值k对分类效果的影响。  相似文献   

8.
针对K最近邻算法测试复杂度至少为线性,导致其在大数据样本情况下的效率很低的问题,提出了一种应用于大数据下的快速KNN分类算法。该算法创新的在K最近邻算法中引入训练过程,即通过线性复杂度聚类方法对大数据样本进行分块,然后在测试过程中找出与待测样本距离最近的块,并将其作为新的训练样本进行K最近邻分类。这样的过程大幅度的减少了K最近邻算法的测试开销,使其能在大数据集中得以应用。实验表明,本文算法在与经典KNN分类准确率保持近似的情况下,分类的速度明显快于经典KNN算法。  相似文献   

9.
为解决分类器学习新样本知识的问题,提出一种基于近邻算法的增量学习算法。该算法以最近邻算法为基础,首先计算新样本与标准样本之间的匹配度,找到最佳匹配样本和次佳匹配样本,然后通过与匹配度阈值进行比较来决定是类内学习还是类别学习。算法采用UCI中的标准数据集进行实验并应用于车辆识别仿真,其结果验证了该算法的有效性。实验进一步研究了匹配度阈值的选择和初始化样本数量选取对分类正确率影响。  相似文献   

10.
梁喜涛  顾磊 《计算机科学》2015,42(6):228-232, 261
分词是中文自然语言处理中的一项关键基础技术.为了解决训练样本不足以及获取大量标注样本费时费力的问题,提出了一种基于最近邻规则的主动学习分词方法.使用新提出的选择策略从大量无标注样本中选择最有价值的样本进行标注,再把标注好的样本加入到训练集中,接着使用该集合来训练分词器.最后在PKU数据集、MSR数据集和山西大学数据集上进行测试,并与传统的基于不确定性的选择策略进行比较.实验结果表明,提出的最近邻主动学习方法在进行样本选择时能够选出更有价值的样本,有效降低了人工标注的代价,同时还提高了分词结果的准确率.  相似文献   

11.
Relief算法是一个过滤式特征选择算法,通过一种贪心的方式最大化最近邻居分类器中的实例边距,结合局部权重方法有作者提出了为每个类别分别训练一个特征权重的类依赖Relief算法(Class Dependent RELIEF algorithm:CDRELIEF).该方法更能反映特征相关性,但是其训练出的特征权重仅仅对于衡量特征对于某一个类的相关性很有效,在实际分类中分类精度不够高.为了将CDRELIEF算法应用于分类过程,本文改变权重更新过程,并给训练集中的每个实例赋予一个实例权重值,通过将实例权重值结合到权重更新公式中从而排除远离分类边界的数据点和离群点对权重更新的影响,进而提高分类准确率.本文提出的实例加权类依赖RELIEF (IWCDRELIEF)在多个UCI二类数据集上,与CDRELIEF进行测试比较.实验结果表明本文提出的算法相比CDRELIEF算法有明显的提高.  相似文献   

12.
随着数据的海量型增长,如何存储并利用数据成为目前学术研究和工业应用等方面的热门问题。样例选择是解决此类问题的方法之一,它在原始数据中依据既定规则选出代表性的样例,从而有效地降低后续工作的难度。基于此,提出一种基于哈希学习的投票样例选择算法。首先通过主成分分析(PCA)方法将高维数据映射到低维空间;然后利用k-means算法结合矢量量化方法进行迭代运算,并将数据用聚类中心的哈希码表示;接着将分类后的数据按比例进行随机选择,在多次独立运行算法后投票选择出最终的样例。与压缩近邻(CNN)算法和大数据线性复杂度样例选择算法LSH-IS-F相比,所提算法在压缩比方面平均提升了19%。所提算法思想简单容易实现,能够通过调节参数自主控制压缩比。在7个数据集上的实验结果显示所提算法在测试精度相似的情况下在压缩比和运行时间方面较随机哈希有较大优势。  相似文献   

13.
Instance reduction techniques can improve generalization, reduce storage requirements and execution time of instance-based learning algorithms. This paper presents an instance reduction algorithm called Adaptive Threshold-based Instance Selection Algorithm (ATISA). ATISA aims to preserve important instances based on a selection criterion that uses the distance of each instance to its nearest enemy as a threshold. This threshold defines the coverage area of each instance that is given by a hyper-sphere centered at it. The experimental results show the effectiveness, in terms of accuracy, reduction rate, and computational time, of the ATISA algorithm when compared with state-of-the-art reduction algorithms.  相似文献   

14.
范馨月  鲍泓  潘卫国 《计算机工程》2022,48(12):224-231
随着深度学习在计算机视觉领域取得重大进展,包含多种类别的数据集不断被提出,但由于自然采集的数据集往往存在类别不平衡并呈现长尾分布的情况,导致稀有类的数据特征被频繁类的数据特征所抑制,从而严重影响模型的检测性能。为解决上述问题,提出一种新的图像实例分割方法。采用长尾实例分割数据集进行研究实验,使用基于目标尺度的数据增广方法对数据集进行处理,以达到扩充训练样本的目的,增加稀有类的目标数量,同时对稀有类数据进行重采样,解决稀有类的类别数据量过小的问题,提升模型在长尾数据集的鲁棒性。在此基础上,将均等化损失函数融入Mask R-CNN实例分割网络,以降低频繁类的数据特征对稀有类数据特征的抑制性。实验结果表明,该方法在LVIS实例分割数据集上的检测精度提升了4.9%,达到了25.7%,同时APr、APc、APf分别达到了16.2%、26.1%、30.4%,相比Baseline方法均有明显提升,在消融实验上的结果也表明该方法能有效解决长尾类问题。  相似文献   

15.
为了减少高光谱图像数据中的冗余信息,优化计算效率,并提升图像数据后续应用的有效性,提出一种基于邻域熵(NE)的高光谱波段选择算法.首先,为了高效计算样本的邻域子集,采用了局部敏感哈希(LSH)作为近似最近邻的搜索策略;然后,引入了NE理论来度量波段和类之间的互信息(MI),并把最小化特征集合与类变量之间的条件熵作为选取...  相似文献   

16.
Automatic text classification is usually based on models constructed through learning from training examples. However, as the size of text document repositories grows rapidly, the storage requirements and computational cost of model learning is becoming ever higher. Instance selection is one solution to overcoming this limitation. The aim is to reduce the amount of data by filtering out noisy data from a given training dataset. A number of instance selection algorithms have been proposed in the literature, such as ENN, IB3, ICF, and DROP3. However, all of these methods have been developed for the k-nearest neighbor (k-NN) classifier. In addition, their performance has not been examined over the text classification domain where the dimensionality of the dataset is usually very high. The support vector machines (SVM) are core text classification techniques. In this study, a novel instance selection method, called Support Vector Oriented Instance Selection (SVOIS), is proposed. First of all, a regression plane in the original feature space is identified by utilizing a threshold distance between the given training instances and their class centers. Then, another threshold distance, between the identified data (forming the regression plane) and the regression plane, is used to decide on the support vectors for the selected instances. The experimental results based on the TechTC-100 dataset show the superior performance of SVOIS over other state-of-the-art algorithms. In particular, using SVOIS to select text documents allows the k-NN and SVM classifiers perform better than without instance selection.  相似文献   

17.
基于深度学习的实例分割研究进展   总被引:1,自引:0,他引:1       下载免费PDF全文
目标检测确定检测图像中目标对象所在区域及其类别,语义分割对检测图像实现像素级分类,实例分割可以定义为同时解决目标检测与语义分割问题,在分类的同时确定每个目标实例语义。实例分割网络在无人机驾驶、机器人抓取、工业筛检等领域具有重要应用意义,针对目前基于深度学习实例分割综述性文章的空白,对实例分割进展进行概述,按照单阶段实例分割与双阶段实例分割的分类对不同网络模型进行论述,重点介绍近两年网络框架的发展,总结各网络特点的同时提出未来发展方向。  相似文献   

18.
针对区间值数据的数据聚类问题,根据可拓学关联函数的定义,提出可拓距离的概念来度量数据之间的距离,利用K近邻的思想,根据可拓距离的大小对数据集的目标属性进行投票选择进行分类,设计了可拓K近邻算法(Extension K Nearest Neighbor,EKNN)。最后利用UCI的两个基准数据集Iris植物样本数据和糖尿病数据库PIDD进行验证,首先通过免疫网络约简算法对条件属性进行最小属性约简,然后利用EKNN算法分析和比较不同最小约简属性下的分类准确率。  相似文献   

19.
Instance selection aims at filtering out noisy data (or outliers) from a given training set, which not only reduces the need for storage space, but can also ensure that the classifier trained by the reduced set provides similar or better performance than the baseline classifier trained by the original set. However, since there are numerous instance selection algorithms, there is no concrete winner that is the best for various problem domain datasets. In other words, the instance selection performance is algorithm and dataset dependent. One main reason for this is because it is very hard to define what the outliers are over different datasets. It should be noted that, using a specific instance selection algorithm, over-selection may occur by filtering out too many ‘good’ data samples, which leads to the classifier providing worse performance than the baseline. In this paper, we introduce a dual classification (DuC) approach, which aims to deal with the potential drawback of over-selection. Specifically, performing instance selection over a given training set, two classifiers are trained using both a ‘good’ and ‘noisy’ sets respectively identified by the instance selection algorithm. Then, a test sample is used to compare the similarities between the data in the good and noisy sets. This comparison guides the input of the test sample to one of the two classifiers. The experiments are conducted using 50 small scale and 4 large scale datasets and the results demonstrate the superior performance of the proposed DuC approach over the baseline instance selection approach.  相似文献   

20.
深度学习的图像实例分割方法综述   总被引:1,自引:0,他引:1  
实例分割是一项具有挑战性的任务,需要同时进行实例级和像素级的预测,在自动驾驶、视频分析、场景理解等方面应用广泛.近年来,基于深度学习的实例分割方法迅速发展,如两阶段检测器Faster R-CNN扩展出的聚焦于网络的精度而非速度的强大实例分割基准Mask R-CNN,一度成为实例分割的标杆.利用高速检测的单阶段检测器延伸出的实例分割算法YOLACT填补了实时实例分割模型的空白,具有较高的研究和应用价值.本文首先对实例分割算法进行了类别划分,然后对一些代表性的算法及其改进算法进行了深入分析,并阐述了相关算法的优缺点,最后对实例分割方法未来的发展进行了展望.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号