首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
杨震宇  叶军  季雨瑄  敖家欣  王磊 《计算机应用研究》2022,39(4):1118-1123+1131
目前已有蚁群算法优化的特征选择方法,大多采用的是以属性依赖度和信息熵属性重要度作为路径上启发搜索因子,但这类搜索方法在某些决策表中存在算法早熟或搜索到的特征子集包含了冗余特征,从而导致选择精度显著下降。针对此类问题,根据条件属性在分辨矩阵中的占比提出了一种属性重要度的度量方法,以分辨矩阵重要度作为路径上启发因子,设计了一种基于分辨矩阵与蚁群算法优化的特征子集搜索方法。该算法从特征核出发,蚁群依次选择概率大的特征加入特征核集,直至找到最小特征子集算法终止。通过实例验证和UCI数据集实验结果表明,与基于属性依赖度和信息熵属性重要度的特征选择方法相比,在通常情况下,该算法能较小代价找到最小特征子集,并且可以有效减少计算工作量。  相似文献   

2.
针对一种特定类型高属性维数据———区间变量型高属性维稀疏数据聚类问题,提出高属性维稀疏信息系统,稀疏特征编码,基于二进制数计算相似度概念,给出一种新的基于二进制数计算相似度的高属性维稀疏数据聚类算法,由于计算属性稀疏特征相似度所采用的是二进制数布尔AND运算,因此,相比目前人们所使用的聚类算法,它是一种计算简单、精度高、聚类质量较高的聚类算法。该算法在高属性维稀疏数据挖掘及聚类分析中有着重要的应用。通过数值算例分析表明该聚类方法有效。  相似文献   

3.
特征选择是机器学习、模式识别和数据挖掘等领域数据预处理阶段的重要步骤。现实中采集的数据维度很高,存在大量冗余和噪声数据,这使得计算时间增加的同时还会对建模结果产生误导性。结合属性子集的广义重要度和智能优化runner-root算法提出一种特征选择算法,用runner-root算法进行迭代寻优,用属性子集的广义重要度和所选特征子集的大小作为适应度函数,对所选特征子集进行评估,尽可能在整个样本空间内搜索出对决策重要的特征子集。实验结果表明,该算法可以选择出有效的特征子集,使分类模型得到较高的准确率。  相似文献   

4.
翟俊海  万丽艳  王熙照 《计算机科学》2014,41(12):148-150,154
在经典粗糙集中,基于重要度的决策表属性约简算法只考虑了决策属性与条件属性之间的依赖度,没有考虑约简中条件属性之间的相关性,由此求出的约简中可能依然包含冗余属性。针对这一问题,提出了一种改进算法,它利用最小相关性和最大依赖度准则求决策表属性约简。与基于重要度的决策表属性约简算法相比,本算法求出的约简包含的属性个数少、冗余小。实验结果显示,本算法优于基于重要度的决策表属性约简算法。  相似文献   

5.
军事训练领域的特殊性造成其相关数据存在大量的噪声点,同时也为噪声检测算法提出了相应的要求。分析现有数据噪声点检测算法,提出将数据属性分为空间属性、环境属性、特征属性,利用空间属性确定数据对象的分类,利用环境属性确定具有不同特征的数据对象邻域,利用特征属性计算离群度。改进了基于相对密度的离群度计算方法,提出LRDF算法,实验结果表明,该方法有效地提高了噪声点检测的精度和效率,增强算法可用性。  相似文献   

6.
传统特征工程从关系实体中提取特征完全倚靠人工,繁琐、费时且易出错,深度特征合成算法可以为结构化数据合成大量特征,实现关系实体的自动特征工程。针对深度特征合成算法中合成特征冗余严重且难以筛选的问题,提出一种基于Kullback-Leibler(KL)散度和Hellinger距离结合的属性过滤算法。通过映射连接实体与标记,度量实体中属性的重要程度,对实体中的属性多重过滤,拒绝实体中重要程度低的属性参与深度特征合成算法,得到优化的特征合成结果。选取三种不同类型的公开数据集在不同的机器学习算法上进行实验验证。结果表明,改进的方法能够明显减少算法运行时间与合成数据规模,有效提高合成特征的质量与最终预测准确率。  相似文献   

7.
分析了传统属性频率函数作为属性重要度的不足,重新定义了属性重要度,提出了一种基于差别矩阵属性重要度的属性约简完备算法,即CRABSA(Complete Reduction Algorithm Based on the Significance of Attribute)。该算法采用迭代思想,在每次迭代过程中根据属性重要度SGF(a)选择必要的条件属性加入约简R中。由SGF(a)的定义可知,算法能确保在大多数情况下能得到决策表的最小约简。分析了算法在最坏情况下的时间复杂度,给出了该算法相对Pawlak约简的完备性的证明。  相似文献   

8.
针对基于粗糙集的大部分多标记特征选择方法存在的忽略样本的模糊性和邻域关系、手动设置邻域半径、从单一的样本空间度量属性重要度等问题,文中利用模糊邻域粗糙集弥补经典粗糙集的不足,并在此基础上从特征空间和标记空间出发,提出基于双空间模糊邻域相似关系的多标记特征选择算法.首先,设计自适应邻域半径的计算方法,构建特征空间下样本的模糊邻域相似矩阵.再根据模糊邻域相似关系,得出特征空间下的样本相似度及标记空间下的样本相似度.然后,通过权重将特征空间和标记空间上的样本相似度进行融合,基于融合后的度量计算属性重要度.最后,运用前向贪心算法构建多标记特征选择算法.在12个多标记数据集上的对比实验验证文中算法的有效性.  相似文献   

9.
K-means算法是一种基于划分的聚类算法,具有算法简单且收敛速度快的特点。但该算法的性能依赖于聚类中心的初始位置的选择。拓展了复杂网络的重要特征,针对带有属性的数据对象所构成的数据集,定义了多维属性对象的度、聚集度和聚集系数,选取度和聚集系数高的K个点作为K-means聚类的初始中心点。实验数据表明,改进后的K-means算法较传统的算法具有更高的效率和准确度。  相似文献   

10.
根据RoughSet属性重要度理论,构建了基于互信息的属性子集重要度,提出属性相关性的加权朴素贝叶斯分类算法,该算法同时放宽了朴素贝叶斯算法属性独立性、属性重要性相同的假设。通过在UCI部分数据集上进行仿真实验,与基于属性相关性分析的贝叶斯(CB)和加权朴素贝叶斯(WNB)两种算法做比较,证明了该算法的有效性。  相似文献   

11.
文本挖掘之前首先要对文本集进行有效的特征选择,传统的特征选择算法在维数约减及文本表征方面效果有限,并且因需要用到文本的类别信息而不适用于无监督的文本聚类任务。针对这种情况,设计一种适用于文本聚类任务的特征选择算法,提出词条属性的概念,首先基于词频、文档频、词位置及词间关联性构建词条特征模型,重点研究了词位置属性及词间关联性属性的权值计算方法,改进了Apriori算法用于词间关联性属性权值计算,然后通过改进的k-means聚类算法对词条特征模型进行多次聚类完成文本特征选择。实验结果表明,与传统特征选择算法相比,该算法获得较好维数约减率的同时提高了所选特征词的文本表征能力,能有效适用于文本聚类任务。  相似文献   

12.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了特征分辨率的概念,并提出了一个基于差别对象对集的属性约简算法,最后把该属性约简算法同特征分辨率结合起来,提出了一个新的特征选择方法。该方法首先利用特征分辨率进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。  相似文献   

13.
基于互信息和粗糙集理论的特征选择   总被引:2,自引:0,他引:2       下载免费PDF全文
朱颢东  李红婵 《计算机工程》2011,37(15):181-183
针对互信息方法在精度方面的不足,通过引入粗糙集,给出一种基于关系积理论的属性约简算法,以此为基础提出一个适用于海量文本数据集的特征选择方法。该方法采用互信息进行特征初选,利用提出的属性约简算法消除冗余,获得较具代表性的特征子集。实验结果表明,该特征选择方法能获得冗余度小且较具代表性的特征子集。  相似文献   

14.
基于粗糙集的决策树算法由于粒化冲突与噪声影响容易导致特征选择的失效。提出属性纯度并结合属性依赖度来构建决策树归纳算法。采用统计集成策略来建立属性纯度,表示决策分类关于条件分类的识别性,并用于相应的属性特征选择;分析属性纯度与属性依赖度的同质性和异态性,采用先属性依赖度后属性纯度选择节点的方法,改进基于粗糙集的决策树算法。决策表例分析与数据实验对比均表明所提算法的有效性与改进性。  相似文献   

15.
唐孝  舒兰  郑伟 《计算机科学》2015,42(Z11):32-35
心电特征参数的选择和提取是心电图(ECG)分析的基础,提升检测算法的识别率和特征分类的精度是自动分析技术的关键。提出了基于小波变换和属性约简的心电早搏信号识别算法。该算法首先依据心血管专家的诊断标准选择了12个心电特征参数;然后运用基于小波变换的特征检测算法进行了特征提取,并利用基于粒计算的属性约简算法对特征参数进行了属性约简;最后,将约简后的数据用于模式分类并通过MIT-BIH数据库对结果进行验证。实验表明,约简后的分类精度大大高于约简前的数据,特征参数的合理选择(约简)是提高识别效率的重要因素。  相似文献   

16.
特征选择是文本分类的一个重要步骤。分析了互信息,针对其不足引进了粗糙集给出了一个基于关系积的属性约简算法,并以此为基础提出了一个新的适用于海量文本数据集的特征选择方法。该方法使互信息进行特征初选,利用基于关系积的属性约简算法消除冗余词。实验结果表明此种特征选择方法的微平均F1和宏平均F1较高。  相似文献   

17.
朱颢东  钟勇 《计算机科学》2009,36(11):196-199
在文本分类中,特征空间的维数通常高达几万,甚至远远超出训练样本的个数,这是一种十分普遍现象.为了提高文本挖掘算法的运行速度,降低占用的内存空间,过滤掉不相关或相关程度低的特征,必须使用特征选择算法.首先给出了一个基于最小词频的文档频方法,然后把粗糙集引入进来并提出了一个基于Beam搜索的属性约简算法,最后把该属性约简算法同基于最小词频的文档频方法结合起来,提出了一个综合的特征选择算法.该算法首先利用基于最小词频的文档频方法进行特征选择,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明该算法是有效的.  相似文献   

18.
本文首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了特征集中度的概念, 紧接着把差别对象对集引入粗糙集并提出了一个基于差别对象对集的属性约简算法,最后把该属性约简算法同特征 集中度结合起来,提出了一个综合性特征选择方法.该综合性方法首先利用特征集中度进行特征初选以过滤掉一些 词条来降低特征空间的稀疏性,然后再使用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结 果表明该综合性方法效果良好.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号