首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
针对不平衡数据分类问题,一种基于密度的近邻分类算法(DNN)被提出。它利用核密度估计敏锐地捕捉不平衡数据的局部分布特征,由此产生更好的分类结果。用核密度估计方法估计查询实例的各类别密度,以此对其进行密度定位;将原始数据空间中的点映射到由类别密度和距离信息构成的空间;在这个映射空间中动态地选择近邻并对查询实例进行分类。实验结果表明,DNN算法在15个不平衡数据集上分类性能良好。  相似文献   

2.
不平衡数据分类是当前机器学习的研究热点,传统分类算法通常基于数据集平衡状态的前提,不能直接应用于不平衡数据的分类学习.针对不平衡数据分类问题,文章提出一种基于特征选择的改进不平衡分类提升算法,从数据集的不同类型属性来权衡对少数类样本的重要性,筛选出对有效预测分类出少数类样本更意义的属性,同时也起到了约减数据维度的目的.然后结合不平衡分类算法使数据达到平衡状态,最后针对原始算法错分样本权值增长过快问题提出新的改进方案,有效抑制权值的增长速度.实验结果表明,该算法能有效提高不平衡数据的分类性能,尤其是少数类的分类性能.  相似文献   

3.
核密度估计及其在聚类算法构造中的应用   总被引:10,自引:0,他引:10  
经典数理统计学中的核密度估计理论是构造基于数据集密度函数聚类算法的理论基础,采用分箱近似的快速核密度函数估计方法同样为构造高效的聚类算法提供了依据.通过对核密度估计理论及其快速分箱核近似方法的讨论,给出分箱近似密度估计相对于核密度估计的均方误差界,提出基于网格数据重心的分箱核近似方法.在不改变计算复杂度的条件下,基于网格数据重心的分箱核近似密度函数计算可以有效地降低近似误差,这一思想方法对于构造高效大规模数据聚类分析算法具有指导意义.揭示了基于网格上密度函数近似的聚类算法与核密度估计理论之间的关系.  相似文献   

4.
为了克服聚类算法对灰度不均匀和有噪声的医学图像分割存在鲁棒性较差等缺点,提出一种基于核密度估计的密度聚类方法分割医学图像.在分析DENCLUE密度聚类算法的思想及爬山策略存在的三个问题的基础上,改进了此密度聚类的爬山策略,并设计了适合于人体组织器官图像分割的DCMIS(Density Clustering based Medical Image Segmentation)算法.该算法先用核密度估计数学模型描述医学图像,然后用改进的爬山算法识别聚类,最后根据聚类分割医学图像.该算法有容忍大量噪声数据等特性.实验结果中的欠分割率、过分割率和错误分割率表明DCMIS比DENCLUE和FCM算法有更好的性能和较好的医学图像分割效能.  相似文献   

5.
应用快速高斯变换估计图像互信息   总被引:1,自引:0,他引:1  
针对基于核密度估计的图像互信息估计法运算量很大的问题,提出了一种快速互信息估计算法。该算法选用高斯函数作为核密度估计法的核函数,然后用快速高斯变换加快运算速度,并用k中心聚类算法改进了原快速高斯变换中数据分类方法。新算法能在线性时间复杂度内估计出图像互信息,采用医学图像的实验证实了算法的性能。  相似文献   

6.
针对背景知识数据集中存在的类不平衡对分类器的影响,根据背景知识数据集样本量小、数据维数高的特性分析了目前各种方法在解决背景知识数据中的类不平衡问题时的缺陷,提出了一种基于分类后处理的改进SVM算法。改进算法引入权重参数调整SVM的分类决策函数,提高少类样本对分类器的贡献,使分类平面向多类样本倾斜,从而解决类不平衡对SVM造成的影响。在MAROB数据集上的实验表明,改进算法对少类的预测效果要优于传统的机器学习算法。  相似文献   

7.
张枭山  罗强 《计算机科学》2015,42(Z11):63-66
在面对现实中广泛存在的不平衡数据分类问题时,大多数 传统分类算法假定数据集类分布是平衡的,分类结果偏向多数类,效果不理想。为此,提出了一种基于聚类融合欠抽样的改进AdaBoost分类算法。该算法首先进行聚类融合,根据样本权值从每个簇中抽取一定比例的多数类和全部的少数类组成平衡数据集。使用AdaBoost算法框架,对多数类和少数类的错分类给予不同的权重调整,选择性地集成分类效果较好的几个基分类器。实验结果表明,该算法在处理不平衡数据分类上具有一定的优势。  相似文献   

8.
K最邻近(KNN)算法对不平衡数据集进行分类时分类判决总会倾向于多数类.为此,提出一种加权KNN算法GAK-KNN.定义新的权重分配模型,综合考虑类间分布不平衡及类内分布不均匀的不良影响,采用基于遗传算法的K-means算法对训练样本集进行聚类,按照权重分配模型计算各训练样本的权重,通过改进的KNN算法对测试样本进行分类.基于UCI数据集的大量实验结果表明,GAK-KNN算法的识别率和整体性能都优于传统KNN算法及其他改进算法.  相似文献   

9.
针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法.在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用聚类簇进行欠采样.基于微博灾害数据集,设计文本卷积神经网络,对该算法进行实验验证与分析,实验结果表明,该算法能够有效提升文本不平衡数据集的准确率和F1值,较好解决了不平衡文本数据集分类问题.  相似文献   

10.
聚类差分图像核密度估计前景目标检测   总被引:1,自引:0,他引:1       下载免费PDF全文
针对非参数核密度估计学习阶段信息冗余与重复计算,估计阶段的估计错误噪声和计算量大的问题,提出了一种基于聚类分析的差分图像核密度估计前景目标检测算法.该方法在非参数核密度估计的学习阶段基于最大最小聚类原理从原采样全样本中提取那些具有较高频度和多样件的小样本来包含尽可能多的关键样本信息,在估计阶段采用基于自适应阈值的图像差分滤去非典型的运动像素,再利用高斯核密度估计进行运动像素分类.实验结果表明该方法限制了非典型运动像素估计错误产生的噪声,并减少了核密度估计计算量,提高了算法的实时性.  相似文献   

11.
12.
对大量复杂数据的分类是处理大数据必须要解决的问题,SVM算法和朴素贝叶斯分类算法是其中性能优秀的算法。然而它们的缺点使得分类效果受到了影响,而且传统的数据挖掘分类算法也无法满足对于海量数据的处理。针对这些问题,这里对传统的朴素贝叶斯算法进行了分析和改进,提出了SVM_WNB分类算法,并且在Hadoop云平台上对算法实现并行化处理,使其能够对大数据进行处理。最后利用实验验证,改进后的算法在准确性和效率等方面有明显地提升。可以得出结论,在对大数据的分类上可以应用该算法,并且将会起到显著的效果。  相似文献   

13.
面向不平衡数据集的机器学习分类策略   总被引:1,自引:0,他引:1       下载免费PDF全文
由于不平衡数据集的内在固有特性,使得分类结果常受数量较多的类别影响,造成分类性能下降。近年来,为了能够从类别不平衡的数据集中学习数据的内在规律并且挖掘其潜在的价值,提出了一系列基于提升不平衡数据集机器学习分类算法准确率的研究策略。这些策略主要是立足于数据层面、分类模型改进层面来解决不平衡数据集分类难的困扰。从以上两个方面论述面向不平衡数据集分类问题的机器学习分类策略,分析和讨论了针对不平衡数据集机器学习分类器的评价指标,总结了不平衡数据集分类尚存在的问题,展望了未来能够深入研究的方向。特别的,这些讨论的研究主要关注类别极端不平衡场景下的二分类问题所面临的困难。  相似文献   

14.
基于BP神经网络的数据挖掘方法   总被引:4,自引:0,他引:4  
神经网络的高度参数化特征使它特别灵活,以至于它可以精确的对数据进行分类,成为目前公认的高精度分类器。本文介绍一种基于BP神经网络的数据挖掘的分类方法,并提出了改进思想。  相似文献   

15.
支持向量的信息冗余和SVM改进方法   总被引:1,自引:0,他引:1       下载免费PDF全文
在研究RBF核函数的几何特性和分析SVM数据依赖性改进方法的基础上,提出了支持向量携带数据冗余信息的论点。冗余信息掩盖了所研究对象的特征,影响SVM的性能。基于黎曼几何的SVM数据依赖性改进方法能够剔除支持向量携带的冗余信息,改进SVM的性能。理论分析和实验研究表明,该方法能够有效提高SVM的分类能力和分类速度。  相似文献   

16.
罗弦  查志勇  徐焕  刘芬  詹伟 《计算机测量与控制》2017,25(10):278-280, 288
随着现代网络技术不断进步,系统数据量也在逐渐增多;传统的大数据自动分类处理系统已经无法满足现阶段用户需求,其软件与硬件的设计都比较单一,存在能源消耗大、分类速度慢、处理时间长、内存占用率高等问题,为此,提出基于云计算的大数据自动分类处理系统的设计;首先设计系统硬件结构,主要包括数据采集器、数据处理器以及数据自动存储模块,并详细的介绍了各硬件结构;然后利用时域特征提取数据的算法对频域特征数据进行提取,从而实现数据自动分类处理系统的软件设计;最后对两种系统性能进行对比实验;实验结果证明,基于云计算的大数据自动分类处理系统的资源不仅占用率低,内存消耗小,而且数据库内存较大;该系统不但可以提高数据自动分类精准度,还能加快数据分类速度,从而使系统拥有更好的分类性能。  相似文献   

17.
Abstract

A methodology for purification of training samples for the pixel-wise Maximum Likelihood Classification is proposed. In this method, pixels which show comparatively high local spectral variability as well as spectrally separable classes are removed from the preliminary designated training samples. An example using agricultural Thematic Mapper data shows that separability can be improved 3-78 times in terms of divergence between a specific class pair; goodness of fit to Gaussian can be improved 014 times in terms of chi-square; II’9 per cent improvement of the weighted mean percentage classification accuracy can be achieved; and, most importantly, a 20-6 per cent improvement of probability of correct classification can be achieved for a specific class.  相似文献   

18.
基于代价敏感SVM的电信客户流失预测研究*   总被引:3,自引:0,他引:3  
针对客户流失数据集的非平衡性问题和错分代价的差异性问题,将代价敏感学习应用于Veropoulos提出的采用不同惩罚系数的支持向量机,建立客户流失预测模型,对实际的电信客户流失数据进行验证。通过与传统SVM、C4.5和ANN对比研究,结果显示此方法在精确度、命中率、覆盖率和提升度均有所改善,表明此方法有效地解决了数据集的非平衡性和错分代价问题,是进行客户流失预测的有效方法。  相似文献   

19.
Multi-view learning deals with data that is described through multiple representations, or views. While various real-world data can be represented by three or more views, several existing multi-view classification methods can only handle two views. Previously proposed methods usually solve this issue by optimizing pairwise combinations of views. Although this can numerically deal with the issue of multiple views, it ignores the higher order correlations which can only be examined by exploring all views simultaneously. In this work new multi-view classification approaches are introduced which aim to include higher order statistics when three or more views are available. The proposed model is an extension to the recently proposed Restricted Kernel Machine classifier model and assumes shared hidden features for all views, as well as a newly introduced model tensor. Experimental results show an improvement with respect to state-of-the art pairwise multi-view learning methods, both in terms of classification accuracy and runtime.  相似文献   

20.
通过分析决策树ID3算法的基本原理,引出一种改进后的算法(IID3),并以CRM销售业绩相关数据的分类为例介绍数据分类的全过程.由对比可看到改进后算法的优势.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号