首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
李俊林 《控制与决策》2010,25(4):507-514
目前,很多基于核密度估计的数据分类算法采用的判别规则忽视了不平衡类问题.对此,提出了改进的基于核密度估计的数据分类算法.该算法可处理不平衡类带来的影响,并在不平衡类问题严重时也能发挥好的效果,而且可以推广到多分类问题.实验结果表明了这种改进是非常有效的,它提高了基于核密度估计的分类算法对不平衡类的适应力.  相似文献   

2.
核密度估计及其在聚类算法构造中的应用   总被引:10,自引:0,他引:10  
经典数理统计学中的核密度估计理论是构造基于数据集密度函数聚类算法的理论基础,采用分箱近似的快速核密度函数估计方法同样为构造高效的聚类算法提供了依据.通过对核密度估计理论及其快速分箱核近似方法的讨论,给出分箱近似密度估计相对于核密度估计的均方误差界,提出基于网格数据重心的分箱核近似方法.在不改变计算复杂度的条件下,基于网格数据重心的分箱核近似密度函数计算可以有效地降低近似误差,这一思想方法对于构造高效大规模数据聚类分析算法具有指导意义.揭示了基于网格上密度函数近似的聚类算法与核密度估计理论之间的关系.  相似文献   

3.
针对伪近邻分类算法(LMPNN)对异常点和噪声点仍然敏感的问题,提出了一种基于双向选择的伪近邻算法(BS-PNN)。利用邻近性度量选取[k]个最近邻,让测试样本和近邻样本通过互近邻定义进行双向选择;通过计算每类中互近邻的个数及其局部均值的加权距离,从而得到测试样本到伪近邻的欧氏距离;利用改进的类可信度作为投票度量方式,对测试样本进行分类。BS-PNN算法在处理复杂的分类任务时,具有能够准确识别噪声点,降低近邻个数[k]的敏感性,提高分类精度等优势。在UCI和KEEL的15个实际数据集上进行仿真实验,并与KNN、WKNN、LMKNN、PNN、LMPNN、DNN算法以及P-KNN算法进行比较,实验结果表明,基于双向选择的伪近邻算法的分类性能明显优于其他几种近邻分类算法。  相似文献   

4.
网络环境下的数据集中的近邻对查询在地理信息系统、网络查询和空间数据库等领域有着重要的应用.为了对网络环境下的近邻对进行有效查询,基于Voronoi图对数据集中近邻对问题进行了详细研究,给出了网络环境下查询数据点集中近邻对的定理和算法;为了利用计算机对网络环境下的近邻对进行查询处理,设计了相应的数据存储结构;对在网络环境下的查询数据集中的近邻对问题进行了实验分析.该方法可较好地解决网络环境下的数据集中近邻对的查询问题,相应的维护代价较低.  相似文献   

5.
王莉  陈红梅 《计算机科学》2018,45(9):260-265
SMOTE(Synthetic Minority Over-sampling TEchnique)在进行样本合成时只在少数类中求其K近邻,这会导致过采样之后少数类样本的密集程度不变的问题。鉴于此,提出一种新的过采样算法NKSMOTE(New Kernel Synthetic Minority Over-Sampling Technique)。该算法首先利用一个非线性映射函数将样本映射到一个高维的核空间,然后在核空间上计算少数类样本在所有样本中的K个近邻,最后根据少数类样本的分布对算法分类性能的影响程度赋予少数类样本不同的向上采样倍率,从而改变数据集的非平衡度。实验采用决策树(Decision Tree,DT)、误差逆传播算法(error BackPropagation,BP)、随机森林(Random Forest,RF)作为分类算法,并将几类经典的过采样方法和文中提出的过采样方法进行多组对比实验。在UCI数据集上的实验结果表明,NKSMOTE算法具有更好的分类性能。  相似文献   

6.
在现存的反向k近邻查询方案中,比较高效的研究大多集中在欧氏空间或者静态路网,对时间依赖路网中的反向k近邻查询的研究相对较少。已有算法在兴趣点密度稀疏或者k值较大时,查询效率较低。对此,提出了基于子网划分的反向k近邻查询算法mTD-SubG。首先,将整个路网划分为大小相同的子网,通过子网的边界节点向其他子网进行扩展,加快对路网中兴趣点的查找速度;其次,利用剪枝技术缩小路网的扩展范围;最后, 利用已有时间依赖路网下的近邻查询算法,判定查找到的兴趣点是否为反向k近邻结果。实验中将mTD-SubG算法与已有算法mTD-Eager进行对比,结果表明mTD-SubG算法的响应时间比mTD-Eager算法减少了85.05%,遍历节点个数比mTD-Eager算法减少了51.40%。  相似文献   

7.
一种提高K-近邻算法效率的新算法   总被引:1,自引:0,他引:1       下载免费PDF全文
K-近邻(K-Nearest-Neighbor,KNN)算法是一种最基本的基于实例的学习方法,被广泛应用于机器学习与数据挖掘。其学习过程只是简单地存储已知的训练数据。当遇到新的查询实例时,一系列相似的实例被从存储器中取出,并用来分类新的查询实例。KNN的一个不足是分类新实例的开销可能很大。这是因为几乎所有的计算都发生在分类时,而不是在第一次遇到训练实例时。所以,如何有效地索引训练实例,以减少查询时所需计算是一个重要的实践问题。为解决这个问题,提出了一种新的算法。该算法把部分原本发生在分类阶段的计算移到训练阶段来完成。实验表明,算法能够提高KNN效率80%以上。此外,算法的思想还可以应用于KNN的所有变体中。  相似文献   

8.
距离的度量方法是影响K近邻分类算法的最重要因素,普通的欧式距离度量方法只对数值敏感无法反映数据内部的关联,对此在K近邻文本分类中引入一种大边界最近邻(LMNN)距离度量学习算法,并针对此算法会加剧数据密度分布不均的情况,提出一种改进的基于样本密度的大边界最近邻文本分类算法(DLMNNC)。该算法首先利用LMNN完成对样本集的训练得到映射矩阵L对原数据空间进行重构,然后为了解决LMNN算法可能会加剧样本分布不均匀的问题定义一个密度函数D,最后用密度函数结合K近邻决策条件,实现文本分类。实验证明DLMNNC在很大程度上提高了文本分类精度。  相似文献   

9.
原鑫 《计算机应用研究》2020,37(8):2376-2380
在分类问题中,常用的高效算法有半监督学习算法、Bagging算法和Boosting算法等,当标记数据很少、数据间差异较大时,很难找到有效的规则来分类。针对此问题提出了三重集约束下的Boosting分类算法,对标记数据、伪标记数据、无标记数据进行三重约束划分;同时引入平衡函数将更新数据的近邻两点加权,确立数据空间稳定点;根据稳定点信息对分类器进行迭代,采用梯度下降法使得平衡函数收敛,得到最终的伪标记数据和分类器。经过UCI九个数据集的实验,验证了该算法更为高效、可行。  相似文献   

10.
张丽平  李松 《微机发展》2008,18(6):119-121
网络环境下的数据集中的近邻对查询在地理信息系统、网络查询和空间数据库等领域有着重要的应用。为了对网络环境下的近邻对进行有效查询,基于Voronoi图对数据集中近邻对问题进行了详细研究,给出了网络环境下查询数据点集中近邻对的定理和算法;为了利用计算机对网络环境下的近邻对进行查询处理,设计了相应的数据存储结构;对在网络环境下的查询数据集中的近邻对问题进行了实验分析。该方法可较好地解决网络环境下的数据集中近邻对的查询问题,相应的维护代价较低。  相似文献   

11.
In many machine learning settings, labeled examples are difficult to collect while unlabeled data are abundant. Also, for some binary classification problems, positive examples which are elements of the target concept are available. Can these additional data be used to improve accuracy of supervised learning algorithms? We investigate in this paper the design of learning algorithms from positive and unlabeled data only. Many machine learning and data mining algorithms, such as decision tree induction algorithms and naive Bayes algorithms, use examples only to evaluate statistical queries (SQ-like algorithms). Kearns designed the statistical query learning model in order to describe these algorithms. Here, we design an algorithm scheme which transforms any SQ-like algorithm into an algorithm based on positive statistical queries (estimate for probabilities over the set of positive instances) and instance statistical queries (estimate for probabilities over the instance space). We prove that any class learnable in the statistical query learning model is learnable from positive statistical queries and instance statistical queries only if a lower bound on the weight of any target concept f can be estimated in polynomial time. Then, we design a decision tree induction algorithm POSC4.5, based on C4.5, that uses only positive and unlabeled examples and we give experimental results for this algorithm. In the case of imbalanced classes in the sense that one of the two classes (say the positive class) is heavily underrepresented compared to the other class, the learning problem remains open. This problem is challenging because it is encountered in many real-world applications.  相似文献   

12.
In this paper, we propose a lazy learning strategy for building classification learning models. Instead of learning the models with the whole training data set before observing the new instance, a selection of patterns is made depending on the new query received and a classification model is learnt with those selected patterns. The selection of patterns is not homogeneous, in the sense that the number of selected patterns depends on the position of the query instance in the input space. That selection is made using a weighting function to give more importance to the training patterns that are more similar to the query instance. Our intention is to provide a lazy learning mechanism suited to any machine learning classification algorithm. For this reason, we study two different methods to avoid fixing any parameter. Experimental results show that classification rates of traditional machine learning algorithms based on trees, rules, or functions can be improved when they are learnt with the lazy learning approach proposed. © 2011 Wiley Periodicals, Inc.  相似文献   

13.
In multi-label learning,it is rather expensive to label instances since they are simultaneously associated with multiple labels.Therefore,active learning,which reduces the labeling cost by actively querying the labels of the most valuable data,becomes particularly important for multi-label learning.A good multi-label active learning algorithm usually consists of two crucial elements:a reasonable criterion to evaluate the gain of querying the label for an instance,and an effective classification model,based on whose prediction the criterion can be accurately computed.In this paper,we first introduce an effective multi-label classification model by combining label ranking with threshold learning,which is incrementally trained to avoid retraining from scratch after every query.Based on this model,we then propose to exploit both uncertainty and diversity in the instance space as well as the label space,and actively query the instance-label pairs which can improve the classification model most.Extensive experiments on 20 datasets demonstrate the superiority of the proposed approach to state-of-the-art methods.  相似文献   

14.
为进一步提高随机森林算法分类准确率,提出一种基于决策边界的倾斜森林(oblique forests based on decision boundary,OFDB)分类算法.将决策边界与自适应权重融入随机森林算法框架,采用决策边界作为分裂准则,使原本垂直于数据空间的分裂准则变为倾斜的超平面,有效提高算法对数据空间结构的...  相似文献   

15.
We develop a customized classification learning method QPL, which is based on query projections. Given an instance to be classified (query instance), QPL explores the projections of the query instance (QPs), which are essentially subsets of attribute values shared by the query and training instances. QPL investigates the associated training data distribution of a QP to decide whether it is useful. The final prediction for the query is made by combining some statistics of the selected useful QPs. Unlike existing instance-based learning, QPL does not need to compute a distance measure between instances. The utilization of QPs for learning can explore a richer hypothesis space and achieve a balance between precision and robustness. Another characteristic of QPL is that the target class may vary for different query instances in a given data set. We have evaluated our method with synthetic and benchmark data sets. The results demonstrate that QPL can achieve good performance and high reliability.  相似文献   

16.
在不平衡数据的分类中,标准分类器为优化整体的分类误差会牺牲少数类的分类准确率,而实际应用中通常更重视对少数类的准确识别。数据层面方法因其有独立于分类器、泛化能力较强、实现简单等优势,成为解决不平衡数据分类问题的有效策略。围绕不平衡数据分类的数据层面方法开展综述研究,分析造成不平衡数据分类问题的影响因素,从样本空间优化、特征空间优化两个方向对重采样方法及特征选择方法的相关研究进行梳理和评述,并对两类方法进行横向比较。最后提出了需要重点关注的问题和可能的研究机会,以期为不平衡数据分类算法研究及应用提供借鉴和参考。  相似文献   

17.
由于标签空间过大,标签分布不平衡问题在多标签数据集中广泛存在,解决该问题在一定程度上可以提高多标签学习的分类性能。通过标签相关性提升分类性能是解决该问题的一种最常见的有效策略,众多学者进行了大量研究,然而这些研究更多地是采用基于正相关性策略提升性能。在实际问题中,除了正相关性外,标签的负相关性也可能存在,如果在考虑正相关性的同时,兼顾负相关性,无疑能够进一步改善分类器的性能。基于此,提出了一种基于负相关性增强的不平衡多标签学习算法——MLNCE,旨在解决多标签不平衡问题的同时,兼顾标签间的正负相关性,从而提高多标签分类器的分类性能。首先利用标签密度信息改造标签空间;然后在密度标签空间中探究标签真实的正反相关性信息,并添加到分类器目标函数中;最后利用加速梯度下降法求解输出权重以得到预测结果。在11个多标签标准数据集上与其他6种多标签学习算法进行对比实验,结果表明MLNCE算法可以有效提高分类精度。  相似文献   

18.
数据流中的不平衡问题会严重影响算法的分类性能,其中概念漂移更是流数据挖掘研究领域的一个难点问题。为了提高此类问题下的分类性能,提出了一种新的基于Hellinger距离的不平衡漂移数据流Boosting分类BCA-HD算法。该算法创新性地采用实例级和分类器级的权重组合方式来动态更新分类器,以适应概念漂移的发生,在底层采用集成算法SMOTEBoost作为基分类器,该分类器内部使用重采样技术处理数据的不平衡。在16个突变型和渐变型的数据集上将所提算法与9种不同算法进行比较,实验结果表明,所提算法的G-mean和AUC的平均值和平均排名均为第1名。因此,该算法能更好地适应概念漂移和不平衡现象的同时发生,有助于提高分类性能。  相似文献   

19.
面向不均衡数据集的ISMOTE算法   总被引:1,自引:0,他引:1  
许丹丹  王勇  蔡立军 《计算机应用》2011,31(9):2399-2401
为了提高不均衡数据集中少数类的分类性能,提出ISMOTE算法。它是在少数类实例及其最近邻少数类实例构成的n维球体内进行随机插值,从而来改进数据分布的不均衡程度。通过实际数据集上的实验,与SMOTE算法和直接分类不均衡数据算法的性能比较结果表明,ISMOTE算法具有更高的分类精度,可以有效地改进分类器的性能。  相似文献   

20.
半监督学习在不平衡样本集分类中的应用研究   总被引:2,自引:1,他引:1  
在对不平衡样本集进行分类时容易产生少数类样误差大的问题,而目前半监督学习中的算法多数是针对未有明显此类特征的数据集。针对一种半监督协同分类算法在该问题上的有效性进行了研究。由于进一步增强了分类器差异性,该算法在理论上对不平衡样本集具有良好的分类性能。根据该算法建立分类模型,利用其对桥梁结构健康数据进行分类实验,与Tri-Training算法的结果比较表明,该算法对不平衡样本集具有良好的适用性,从而验证了上述算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号