首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
用于不平衡数据分类的FE-SVDD算法   总被引:1,自引:0,他引:1       下载免费PDF全文
现有的支持向量数据描述(SVDD)算法在解决不平衡数据集问题时通常存在有偏性。针对该问题,在研究PCA特征提取技术和SVDD分类理论的基础上,提出一种用于平衡数据分类的FE-SVDD算法。该方法对2类样本数据进行主成分分析,分别求出主要特征值,根据样本容量及特征值对SVDD中的 值重新定义。在人工样本集和UCI数据集上进行实验,结果验证了该方法的有效性。  相似文献   

2.
基于支持向量数据描述的分类方法研究   总被引:2,自引:1,他引:1       下载免费PDF全文
针对单类数据的分类问题,提出一种基于支持向量数据描述(SVDD)的分类算法。该算法利用SVDD获得包含单类数据的最小球形边界,通过该边界对未知样本数据进行分类,同时采用可行方向方法求解边界优化中的二次规划问题,并在UCI机器学习数据集上将该算法与LS—SVM算法进行比较。实验结果表明,该算法不仅获得了更高的分类准确率,而且具有较低的运行时间。  相似文献   

3.
杨晨  王婕婷  李飞江  钱宇华 《计算机应用》2019,39(11):3134-3139
针对目前概率机器学习方法在解决概率问题时具有较高的复杂度,而传统的支持向量数据描述(SVDD)作为一种核密度估计方法只能判断测试样本是否属于该类等问题,提出一种基于概率的支持向量数据描述方法。首先,利用传统的SVDD方法分别得到两类数据的数据描述,计算测试样本到超球体的距离;然后,构造一个将距离转换为概率的函数,提出一种基于概率的SVDD方法;同时,使用Bagging算法进行集成,进一步提高数据描述的性能。借鉴分类场景,将所提方法与传统的SVDD方法在Gunnar Raetsch的13种基准数据集上进行实验,实验结果表明,所提方法在准确率和F1值上优于传统的SVDD方法,并且其数据描述的性能有所提升。  相似文献   

4.
为改善传统的基因表达数据聚类方法正确率偏低的问题,研究了支持向量数据描述(SVDD)算法在基因表达数据聚类中的应用,该方法通过寻找最优分类超球实现对数据集的有效聚类.将类间信息融入聚类有效性评估准则中,通过模拟退火优化算法寻找SVDD算法中的最优核函数参数和惩罚因子,在训练时引入非样本数据提高运算效率.对酵母细胞生长周期的基因表达数据集的仿真实验结果表明,在新的聚类有效性评估准则下进行参数寻优,能够更快更好地得到最佳参数,同时,算法具有聚类精度高和运算速度快的优点.  相似文献   

5.
一种基于SVDD的图像自动标注方法   总被引:1,自引:0,他引:1  
  相似文献   

6.
为提高不平衡数据集的分类效率,建立一种分类模型,从样本采样和分类算法两方面进行优化。对决策边界的少类样本进行循环过采样生成新样本集,并与决策边界外合成的少类样本集合并,提高样本的重要度。针对传统ε-支持向量机(ε-SVM)在对不平衡数据集分类时超平面偏移的问题,引入正负惩罚系数和混合核函数,并利用客观的熵值法选取惩罚系数,提高分类算法的性能。实验结果表明,与标准的SVM算法相比,该分类模型在不平衡数据集分类上F-measure值平均提高18.1%,具有较好的分类效果。  相似文献   

7.
K-means聚类与SVDD结合的新的分类算法*   总被引:2,自引:1,他引:1  
为了提高支持向量数据描述(SVDD)的分类精度,引入局部疏密度提出了改进的SVDD算法。该算法提高了分类精度,但增加了计算复杂度。为此,先用K-means聚类将整个数据集划分为k个簇,再用改进的SVDD算法并行训练k个簇,最后再对获得的k个局部支持向量集训练,即得到最终的全局决策边界。由于采用了分而治之并行计算的方法,提高了算法的效率。对合成数据(200个)和实际数据的实验结果表明,所提算法较SVDD算法,训练时间降低为原来的10%,分类错误率较原来的降低了近一半。因此,所提算法提高了分类精度和算法效率。  相似文献   

8.
支持向量数据描述(SVDD)是构造单类数据描述的分类算法,惩罚参数[C]和核参数[σ]作为影响SVDD分类效果的关键,其合理选取一直是个难点。针对这一问题,提出了一种基于改进磷虾群算法的SVDD参数优化算法(IKH-SVDD)。依据仿真实验,分析参数[C]和[σ]对描述边界的影响;引入磷虾群算法并分析其优劣,通过在随机扩散行为中定义扰动因子,增强算法的全局搜索能力;将一种新的精英选择和保留策略引入迭代过程,提高算法的收敛精度;将改进的磷虾群算法引入SVDD参数优化过程,构建了IKH-SVDD参数优化模型。基于UCI标准数据库进行实验并与其他几种参数优化算法进行比较,结果表明了IKH-SVDD算法具有更高的分类准确性。  相似文献   

9.
随着数据时代的到来,非平衡数据的分类问题受到越来越多的关注。在非平衡数据的分类问题中,往往因为少数类样本与多数类样本比例失衡而导致分类结果错误。因此,提出了一种在最大熵原理下基于自助法(Bootstrap method)的过采样算法。首先,通过自助法获得数据样本的概率分布,并用最大熵原理对概率分布进行优化;其次,根据少数类生成新的少数类的能力不同,提出基于少数类样本分布的概率增强算法。该算法使数据随机性得到了充分体现,保证了少数类样本的概率密度在数据集平衡前后保持一致性,从而提高分类算法的有效性;最后,通过从UCI和KEEL数据库选取8组数据进行实验,实验结果表明所提出的新算法比现有的其他算法更有效。  相似文献   

10.
基于核空间相对密度的SVDD多类分类算法*   总被引:3,自引:0,他引:3  
针对现有基于支持向量数据描述(SVDD)的多类分类算法未能充分利用重叠区域样本分布信息等问题,提出了一种基于核空间相对密度的SVDD多类分类算法DM-SVDD。该算法首先由SVDD确定包围每类数据的最小超球,然后计算位于最小超球重叠区域中每个样本在其同类样本间的相对密度,最后以各类样本相对密度的均值为标准,对重叠区域内的待测样本进行分类。实验结果表明,算法DM-SVDD是可行有效的。  相似文献   

11.
12.
汪琼枝  郑文曦  王道然 《计算机科学》2016,43(Z6):81-82, 102
属性约简是Rough集理论的重要研究内容,基于信息熵的属性约简是一种有效的属性约简方法。在实际应用中,获取的信息系统通常是不完备的。针对这种问题,在容差关系下对个体进行分类时,基于属性子集redu与CAttr(属性全集)-redu之间的内在联系,定义了一种新的知识熵,提出了一种新的应用近似模糊熵的不完备信息系统属性约简算法(newS算法),其时间复杂度是O(|C|2∑mi=1(kpi)2)。最后,在ROSE和UCI data中的6个数据集上进行了实验仿真,结果表明newS算法是可行的,并且在同等约简效果下与其他算法相比具有更高的属性约简效率。  相似文献   

13.
引入信息熵的CURE聚类算法   总被引:1,自引:0,他引:1  
为了提高传统CURE(Clustering Using REpresentatives) 聚类算法的质量,引入信息熵对其进行改进。该算法使用K-means算法对样本数据集进行预聚类;采用基于信息熵的相似性度量,利用簇中的元素提供的信息度量不同簇之间的相互关系,并描述数据的分布;在高层、低层聚类阶段,采取不同的选取策略,分别选取相应的代表点。在UCI数据集和人造数据集上的实验结果表明,提出的算法在一定程度上提高了聚类的准确率,且在大型数据集上比传统CURE算法有着更高的聚类效率。  相似文献   

14.
针对支持向量数据描述(SVDD)不能鉴别数据局部几何结构信息问题,提出了一种新颖的异常数据检测方法,称为局部分块的一类支持向量数据描述(OCSVDDLP)。首先对数据进行局部分块,然后利用局部分块进行样本重构,最后采用SVDD对重构样本进行学习进而获得决策模型。人造数据集实验结果表明OCSVDDLP能够捕捉数据的全局几何结构,也具备揭示数据局部几何结构信息的能力;真实数据集实验结果表明OCSVDDLP在异常检测中具有较好的性能优势。  相似文献   

15.
为提高数据分类的性能,提出了一种基于信息熵[1]的多分类器动态组合方法(EMDA)。此方法在多个UCI标准数据集上进行了测试,并与由集成学习算法—AdaBoost,训练出的各个基分类器的分类效果进行比较,证明了该算法的有效性。  相似文献   

16.
17.
王泽  张宏军  张睿  贺邓超 《计算机应用》2015,35(11):3243-3246
为解决聚类中心选择困难和数据点密度计算泛化能力弱的问题,提出一种基于遗传算法与密度及距离计算的聚类方法.该算法通过指数方法计算数据点密度,降低参数对算法性能的影响;用遗传算法搜索最优密度和距离阈值,同时引入惩罚因子,克服算法搜索域偏移从而提高收敛速度,寻找最优聚类中心,并用归属方法完成聚类.通过4组人工数据集和4组UCI数据集实验证明,该方法在RI指数、聚类精度、聚类纯度、召回率等4个聚类评价指标上都达到与K-means算法、快速搜索聚类算法和Max_Min_SD算法相当或更好的效果,算法是有效的.  相似文献   

18.
基于主成分分析的决策树构造方法   总被引:1,自引:0,他引:1  
针对传统的ID3算法在选择分裂属性上对取值较多属性过分依赖的缺点,提出了基于主成分分析的决策树优化算法.该算法是通过主成分分析综合了信息增益和相关度系数来选择分裂属性.论文通过UCI提供的标准数据集,对优化算法进行测试,分析了优化算法的性能特点,验证了优化算法在分类正确率和执行效率上要优于ID3算法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号