首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
针对无监督属性选择算法使用单一方法,未考虑数据间内在相关性和噪声等问题,提出一种基于属性自表达的低秩无监督属性选择算法。算法首先将稀疏正则化([l2,1-]范数)引入属性自表达损失函数中实现无监督稀疏学习,其次在系数矩阵中加入低秩约束以降低噪声和离群点的影响,然后利用低秩结构和图拉普拉斯正则化使子空间学习兼顾数据的全局和局部结构,最后通过属性自表达实现无监督学习。经数据集上多次迭代验证,该算法能够快速收敛并达到全局最优,与SOGFS、PCA、LPP、RSR等四种算法相比分类准确率平均提高了16.11%、14.03%、9.92%和4.2%,并且在各数据集上互信息平均值也是最高的,说明该算法有效、高效。  相似文献   

2.
ISAD:一种新的基于属性距离和的孤立点检测算法   总被引:1,自引:0,他引:1  
孤立点是数据对象在某些属性(维)上波动形成的.由此,本文提出了关键属性的概念,用于描述影响数据稳定性的属性.在真实数据集中,只有一部分属性是能够决定某数据是否是孤立点的关键属性.由此,本文提出了关键属性隶属度的定义及其求解算法,并在此基础上提出了一种新的基于属性距离和的孤立点检测算法.实验结果表明,该算法较基于单元的算法在效率及雏数可扩展方面均有显著提高.  相似文献   

3.
王蓉  刘遵仁  纪俊 《计算机科学》2017,44(Z11):129-132
传统的ID3决策树算法存在属性选择困难、分类效率不高、抗噪性能不强、难以适应大规模数据集等问题。针对该情况,提出一种基于属性重要度及变精度粗糙集的决策树算法,在去除噪声数据的同时保证了决策树的规模不会太庞大。利用多个UCI标准数据集对该算法进行了验证,实验结果表明该算法在所得决策树的规模和分类精度上均优于ID3算法。  相似文献   

4.
基于相关性密度的多变量时间序列属性选择   总被引:1,自引:0,他引:1  
属性选择是一种有效的数据预处理方法。为了移除多变量时间序列属性集中的冗余属性和噪声属性,选择出包含足够原始信息并能提高精度的属性子集,提出一种基于相关性密度的属性选择算法。该算法使用相关性矩阵表示原多变量时间序列,定义每个属性的局部密度来表示属性的代表性,定义属性的判别距离作为该属性与其他属性间的区分度。最后根据决策图的分布来筛选具有较大代表性和区分度的属性。使用SVM分类器对UCI数据库中的4种不同数据集进行实验,实验结果表明该算法相比已有算法在分类准确度和时间效率上均有一定的优越性。  相似文献   

5.
提出了一个基于云模型的数据属性约简新算法,该算法借助云模型将每个连续属性上的定量数据转化为定性概念,然后利用此定性概念计算每个条件属性对决策属性的重要性,最后以贪婪算法的思想求解约简属性,从而解决了当前约简算法对连续属性必须离散化的问题.同时对算法中可能遇到的冲突问题给出了初步的解决方案.实验表明,该算法在降低时间复杂度的同时能求出更好的属性集约简.  相似文献   

6.
军事训练领域的特殊性造成其相关数据存在大量的噪声点,同时也为噪声检测算法提出了相应的要求。分析现有数据噪声点检测算法,提出将数据属性分为空间属性、环境属性、特征属性,利用空间属性确定数据对象的分类,利用环境属性确定具有不同特征的数据对象邻域,利用特征属性计算离群度。改进了基于相对密度的离群度计算方法,提出LRDF算法,实验结果表明,该方法有效地提高了噪声点检测的精度和效率,增强算法可用性。  相似文献   

7.
针对大多数高维数据之间不仅有相似性,而且还有非线性关系等特点,提出一种基于局部结构学习的非线性属性选择算法。该算法首先通过核函数把数据映射到高维空间,在高维空间中表示出数据属性之间的非线性关系;然后在低维空间中通过局部结构学习来充分挖掘属性之间的相似性,同时通过低秩约束来排除噪声的干扰;最后通过稀疏正则化因子来进行属性选择。其通过核函数映射来找出数据属性之间的非线性关系,运用局部结构学习来找出数据属性之间的相似性,是一种嵌入了局部结构学习的非线性属性选择算法。实验结果表明,该算法相比其他的对比算法,有更好的效果。  相似文献   

8.
针对噪声或者离群点通常会增加矩阵的秩的问题,提出一个在低秩限制下的基于超图的稀疏属性选择算法。具体地,该算法首先利用其他属性稀疏地表达每一个属性来获得属性自表达系数矩阵。然后,利用超图正则化因子获取数据的局部结构将子空间学习嵌入到属性选择的框架中。同时,利用范数惩罚自表达系数矩阵和损失函数,挖掘出属性之间的关系和样本间的关系来帮助算法有效地进行属性选择,最终提高模型的预测能力。在UCI数据集上的实验结果表明,该算法相比其它对比算法,能更有效地选取重要属性,并取得很好的分类效果。  相似文献   

9.
滕书华  廖帆  鲁敏  赵键  张军 《软件学报》2014,25(S2):169-177
属性约简是粗糙集理论重要应用之一.考虑到决策信息系统中的噪声,针对一般二元关系,从知识分类能力角度给出了一种新的属性重要性度量方法,在此基础上提出了一种能够抑制噪声的近似属性约简算法,该算法适用于多种粗糙集扩展模型,摆脱了现有约简算法对特定二元关系的依赖.实验结果表明,近似约简算法通过调节近似参数,可有效增强抗噪性,在有效降低约简属性集规模的同时,提高了约简结果的分类性能.  相似文献   

10.
龚永红  郑威  吴林  谭马龙  余浩 《计算机应用》2018,38(10):2856-2861
针对现有属性选择算法平等地对待每个样本而忽略样本之间的差异性,从而使学习模型无法避免噪声样本影响问题,提出一种融合自步学习理论的无监督属性选择(UFS-SPL)算法。首先自动选取一个重要的样本子集训练得到属性选择的鲁棒性初始模型,然后逐步自动引入次要样本提升模型的泛化能力,最终获得一个能避免噪声干扰而同时具有鲁棒性和泛化性的属性选择模型。在真实数据集上与凸半监督多标签属性选择(CSFS)、正则化自表达(RSR)和无监督属性选择的耦合字典学习方法(CDLFS)相比,UFS-SPL的聚类准确率、互信息和纯度平均提升12.06%、10.54%和10.5%。实验结果表明,UFS-SPL能够有效降低数据集中无关信息的影响。  相似文献   

11.
开放动态环境下的机器学习任务面临着数据特征空间的高维性和动态性。目前已有在线流特征选择算法基本仅考虑特征的重要性和冗余性,忽略了特征的交互性。特征交互是指那些本身与标签单独统计时呈现无关或弱相关,但与其他特征结合时却能与标签呈强相关的特征。基于此,提出一种基于邻域信息交互的在线流特征选择算法,该算法分为在线交互特征选择和在线冗余特征剔除两个阶段,即直接计算新到特征与整个已选特征子集的交互强弱程度,以及利用成对比较机制剔除冗余特征。在10个数据集上的实验结果表明了所提算法的有效性。  相似文献   

12.
针对文本信息特征冗余多、噪声大问题,提出基于和声搜索机制的文本特征选择算法.以词频逆文本频率指数为目标函数评估特征词条;在初始文档集中通过和声搜索的记忆考虑、纵向倾角调整和随机选择3种特征选择新解更新规则,迭代搜索最优特征子集;以最优特征子集为基础,以K均值进行文本聚类.利用4种典型文档数据集进行仿真实验,实验结果表明...  相似文献   

13.
容忍噪音的特征子集选择算法研究   总被引:4,自引:0,他引:4  
特征子集选择问题一直是人工智能领域研究的重要内容,特别是近几年来,特征子集选择算法研究已经成为机器学习和数据挖掘等领域的研究热点,提出了一个新的特征子集选择算法-容忍噪音的特征子集选择算法(NFS),该算法将聚类的思想引入到噪音的处理,并将Gini系数和墨西哥帽函数应用于特征选取,实现对偏吸噪音数据集的特征子集选择,实际领域的实验结果表明,NFS算法具有噪音容忍度高,选择特征代表性强和求解速度快的优点,因此能够有效地应用于实际领域。  相似文献   

14.
目的 基于数字高程模型(DEM)的地形山脊线和山谷线提取对地形模型简化、基于样本的地形合成和地形地貌研究有重要意义,针对许多传统算法无法对所提取特征线的显著度进行方便准确的控制,以及不支持环形特征线提取的问题,提出一种新的显著度可控的DEM地形特征线提取算法。方法 首先利用全局断面扫描算法提取特征点并计算各特征点的显著度,然后根据特征点的特征方向进行特征延伸以增强特征连通性,接着采用改进的Hilditch细线化算法对特征点集合进行细线化处理,之后为相邻特征点添加特征边,构成特征图,利用环路检测与破环算法检测特征图中的环路,并破除冗余小环路,最后根据分支显著度的相似度和分支方向一致性进行特征图分解,计算分解得到特征线的显著度并筛选得到最终特征线。结果 使用真实DEM数据提取最显著的若干条特征线,与现有的基于特征显著度的地形特征线提取算法进行对比,本文算法对特征图的分解能够更准确地提取主干特征线,而基于显著度的特征线筛选控制也更加准确合理。对提出的环路检测与破环算法进行实验验证,该算法能保留大的山脊线环路,破除小的冗余环路。结论 实验结果表明,本文算法能有效实现显著度可控的山脊线和山谷线自动提取,提取结果与人眼观察结果基本一致,同时能够支持含有环形特征的地形。  相似文献   

15.
针对在数据挖掘过程中存在的维度灾难和特征冗余问题,本文在传统特征选择方法的基础上结合强化学习中Q学习方法,提出基于强化学习的特征选择算法,智能体Agent通过训练学习后自主决策得到特征子集.实验结果表明,本文提出的算法能有效的减少特征数量并有较高的分类性能.  相似文献   

16.
孙林  赵婧  徐久成  王欣雅 《计算机应用》2022,42(5):1355-1366
针对经典的帝王蝶优化(MBO)算法不能很好地处理连续型数据,以及粗糙集模型对于大规模、高维复杂的数据处理能力不足等问题,提出了基于邻域粗糙集(NRS)和MBO的特征选择算法。首先,将局部扰动和群体划分策略与MBO算法结合,并构建传输机制以形成一种二进制MBO(BMBO)算法;其次,引入突变算子增强算法的探索能力,设计了基于突变算子的BMBO(BMBOM)算法;然后,基于NRS的邻域度构造适应度函数,并对初始化的特征子集的适应度值进行评估并排序;最后,使用BMBOM算法通过不断迭代搜索出最优特征子集,并设计了一种元启发式特征选择算法。在基准函数上评估BMBOM算法的优化性能,并在UCI数据集上评价所提出的特征选择算法的分类能力。实验结果表明,在5个基准函数上,BMBOM算法的最优值、最差值、平均值以及标准差明显优于MBO和粒子群优化(PSO)算法;在UCI数据集上,与基于粗糙集的优化特征选择算法、结合粗糙集与优化算法的特征选择算法、结合NRS与优化算法的特征选择算法、基于二进制灰狼优化的特征选择算法相比,所提特征选择算法在分类精度、所选特征数和适应度值这3个指标上表现良好,能够选择特征数少且分类精度高的最优特征子集。  相似文献   

17.
基于相关性分析及遗传算法的高维数据特征选择   总被引:4,自引:0,他引:4  
特征选择是模式识别及数据挖掘等领域的重要问题之一。针对高维数据对象,特征选择一方面可以提高分类精度和效率,另一方面可以找出富含信息的特征子集。针对此问题,提出了一种综合了filter模型及wrapper模型的特征选择方法,首先基于特征与类别标签的相关性分析进行特征筛选,只保留与类别标签具有较强相关性的特征,然后针对经过筛选而精简的特征子集采用遗传算法进行随机搜索,并采用感知器模型的分类错误率作为评价指标。实验结果表明,该算法可有效地找出具有较好的线性可分离性的特征子集,从而实现降维并提高分类精度。  相似文献   

18.
杜政霖  李云 《计算机应用》2017,37(3):866-870
针对既有历史数据又有流特征的全新应用场景,提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段,为了弥补单一聚类算法的不足,引入聚类集成的思想。先利用k-means方法通过多次聚类得到一个聚类集体,在集成阶段再利用层次聚类算法对聚类集体进行集成得到最终的结果。在对流特征数据的在线特征选择阶段,对组构造产生的特征组通过探讨特征间的相关性来更新特征组,最终通过组变换获得特征子集。实验结果表明,所提算法能有效应对全新场景下的在线特征选择问题,并且有很好的分类性能。  相似文献   

19.
秦燊  劳翠金 《计算机工程》2012,38(9):153-154,176
大多数多态蠕虫特征提取方法不能很好地处理噪音,提取出的蠕虫特征无法对多态蠕虫进行有效检测。为此,提出一种改进的多态蠕虫特征提取算法。采用Gibbs算法从包含n条序列(包括k条蠕虫序列)的可疑流量池中提取出蠕虫特征,在识别蠕虫序列的过程中基于color coding技术提高算法的运行效率。仿真实验结果表明,该算法能够减少时间和空间开销,即使可疑池中存在噪音,也能有效地提取多态蠕虫。  相似文献   

20.
特征选择是从原始特征集中选取特征子集,并且降低特征维度和减少冗余信息,从而达到提高分类准确度的效果。为了达到此效果,提出了新的特征选择算法。该算法使用经过离散化处理之后的增强烟花算法来搜索特征子集,同时将特征子集和经过惩罚因子处理之后约束条件融入到目标函数中,然后将搜索到的特征子集的数据放到[kNN]分类器进行训练和预测,最后使用十折交叉验证来检验分类的准确性。使用UCI数据进行仿真实验,仿真结果表明:与引导型烟花算法、烟花算法、蝙蝠算法、乌鸦算法、自适应粒子群算法相比,所提算法的总体性能优于其他五种算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号