首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
杨震宇  叶军  季雨瑄  敖家欣  王磊 《计算机应用研究》2022,39(4):1118-1123+1131
目前已有蚁群算法优化的特征选择方法,大多采用的是以属性依赖度和信息熵属性重要度作为路径上启发搜索因子,但这类搜索方法在某些决策表中存在算法早熟或搜索到的特征子集包含了冗余特征,从而导致选择精度显著下降。针对此类问题,根据条件属性在分辨矩阵中的占比提出了一种属性重要度的度量方法,以分辨矩阵重要度作为路径上启发因子,设计了一种基于分辨矩阵与蚁群算法优化的特征子集搜索方法。该算法从特征核出发,蚁群依次选择概率大的特征加入特征核集,直至找到最小特征子集算法终止。通过实例验证和UCI数据集实验结果表明,与基于属性依赖度和信息熵属性重要度的特征选择方法相比,在通常情况下,该算法能较小代价找到最小特征子集,并且可以有效减少计算工作量。  相似文献   

2.
基于关联规则的特征选择算法   总被引:2,自引:0,他引:2  
关联规则能够发现数据库中属性之间的关联,通过优先选择短规则用于相关属性的选择,有可能得到最小的属性子集.基于此,本文提出一种基于关联规则的特征选择算法,实验结果表明在属性子集大小和分类精度上优于多种特征选择方法.同时,对支持度和置信度对算法效果的影响进行探索,结果表明高的支持度和置信度并不导致高的分类精度和小的特征子集,而充足的规则数是基于关联规则特征选择算法高效的必要条件.  相似文献   

3.
特征基因选择在微阵列数据分析中占据着非常重要的作用,好的特征选择方法是提高基因表达数据的分类精度与分类速度的关键之一.联系蚁群算法和粗糙集理论在微阵列数据处理上的优势,文中结合粗糙集理论,对蚁群优化算法模型进行了改进,并将粗糙集的属性依赖度和属性重要度应用到蚁群算法的路径选择及评估中,提出一种新的基因选择方法.该方法实现简单,并可以比较快速地获得最优解,最终选择出较小的并且分类性能较强的特征基因子集.通过对基因数据集的仿真实验表明,该算法是有效可行的.  相似文献   

4.
属性选择通常作为一个主要的预处理步骤,在机器学习和数据挖掘领域有着广泛的应用。选择出能够表征数据集分形特征的属性子集,对研究数据集的分形规律具有重要的价值。根据数据集的分形特征,引入了密度分析方法,指出了当前基于分形维数的属性选择方法的不足,提出了一种基于分形和邻接空间密度变化的属性选择方法。为了分析实验结果的有效性,利用SVM分类算法和K-fold交叉验证相结合的方法对3个数据集属性选择前后的分类性能进行了测试。实验证明该方法在属性选择方面有较好的性能,能够得到较优的属性子集。  相似文献   

5.
提出基于粗糙集理论属性全局重要度的特征选择方法改进人脸识别中的特征向量的表征能力。以PCA方法得到的特征向量为基础,给出粗糙集的单个特征和特征子集的属性类间分类重要度和属性类内相似重要度的概念。提出基于属性类间分类重要度的属性约简方法,并用属性类内相似重要度进行最后的特征选择,得到进行人脸图像识别分类器的特征向量。新的特征提取方法完全依赖数据本身的先验知识,可选择出最优的特征组合,提高人脸识别率。实验结果表明,与其他方法相比该方法是有效的。  相似文献   

6.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了特征分辨率的概念,并提出了一个基于差别对象对集的属性约简算法,最后把该属性约简算法同特征分辨率结合起来,提出了一个新的特征选择方法。该方法首先利用特征分辨率进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。  相似文献   

7.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。在分析词频方法和文档频方法不足的基础上提出了特征辨别能力,把元信息引入粗糙集并提出了一个基于元信息的属性约简算法,给出了一个综合性特征选择方法。该方法利用特征辨别能力进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,使用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明:所提特征选择方法在一定程度上具有一定的优势。  相似文献   

8.
维度灾难是机器学习任务中的常见问题,特征选择算法能够从原始数据集中选取出最优特征子集,降低特征维度.提出一种混合式特征选择算法,首先用卡方检验和过滤式方法选择重要特征子集并进行标准化缩放,再用序列后向选择算法(SBS)与支持向量机(SVM)包裹的SBS-SVM算法选择最优特征子集,实现分类性能最大化并有效降低特征数量.实验中,将包裹阶段的SBS-SVM与其他两种算法在3个经典数据集上进行测试,结果表明,SBS-SVM算法在分类性能和泛化能力方面均具有较好的表现.  相似文献   

9.
提出了KDD中数据预处理的一种基本算法.针对数据库中的属性,利用非监督学习算法,在获取了面向任务的目标数据子集的基础上,利用混合优化算法进行特征子集的选取.分析了遗传算法和混合遗传算法用于特征子集选择的基本算法,仿真实验说明了混合优化算法的有效性和可行性.  相似文献   

10.
广义粗糙集理论及实值属性约简   总被引:1,自引:0,他引:1  
肖迪  张军峰 《计算机应用》2008,28(6):1420-1423
针对经典粗糙集理论仅能处理离散化数据的局限性,提出属性和属性子集的广义重要度的概念以及空间中的广义近邻关系,并提出了广义近邻关系下的广义粗糙集扩展模型。广义粗糙集理论利用广义近邻关系在全局中划分相容模块,构成集合的下、上近似集,避免了经典粗糙集理论必须量化数据的麻烦。另外,提出了广义粗糙集的实值属性约简的一种贪心算法,并分析了约简属性集合的质量。最后通过实例验证了所提方法的正确性和有效性。  相似文献   

11.
基于互信息和粗糙集理论的特征选择   总被引:2,自引:0,他引:2       下载免费PDF全文
朱颢东  李红婵 《计算机工程》2011,37(15):181-183
针对互信息方法在精度方面的不足,通过引入粗糙集,给出一种基于关系积理论的属性约简算法,以此为基础提出一个适用于海量文本数据集的特征选择方法。该方法采用互信息进行特征初选,利用提出的属性约简算法消除冗余,获得较具代表性的特征子集。实验结果表明,该特征选择方法能获得冗余度小且较具代表性的特征子集。  相似文献   

12.
随着互联网和物联网技术的发展,数据的收集变得越发容易。但是,高维数据中包含了很多冗余和不相关的特征,直接使用会徒增模型的计算量,甚至会降低模型的表现性能,故很有必要对高维数据进行降维处理。特征选择可以通过减少特征维度来降低计算开销和去除冗余特征,以提高机器学习模型的性能,并保留了数据的原始特征,具有良好的可解释性。特征选择已经成为机器学习领域中重要的数据预处理步骤之一。粗糙集理论是一种可用于特征选择的有效方法,它可以通过去除冗余信息来保留原始特征的特性。然而,由于计算所有的特征子集组合的开销较大,传统的基于粗糙集的特征选择方法很难找到全局最优的特征子集。针对上述问题,文中提出了一种基于粗糙集和改进鲸鱼优化算法的特征选择方法。为避免鲸鱼算法陷入局部优化,文中提出了种群优化和扰动策略的改进鲸鱼算法。该算法首先随机初始化一系列特征子集,然后用基于粗糙集属性依赖度的目标函数来评价各子集的优劣,最后使用改进鲸鱼优化算法,通过不断迭代找到可接受的近似最优特征子集。在UCI数据集上的实验结果表明,当以支持向量机为评价所用的分类器时,文中提出的算法能找到具有较少信息损失的特征子集,且具有较高的分类精度。因此,所提算法在特征选择方面具有一定的优势。  相似文献   

13.
研究互信息理论,针对其不足引进粗糙集并给出一个基于关系积理论的属性约简算法,以此为基础提出一个适用于海量文本数据集的特征选择方法。该方法使用互信息进行特征初选,利用所给的属性约简算法消除冗余,从而获得具有代表性的特征子集。实验结果表明,该特征选择方法效果良好。  相似文献   

14.
属性选择是一种有效的数据预处理方法,可同时保留多变量时间序列重要变量的时序关系及其实际物理意义。针对很多实际数据无类别信息的问题,文中提出一种无监督属性选择算法并分析其复杂度。首先设计一种无需进行相空间重构的多变量时间序列分形维数计算方法,并将分形维数视为其本质维,利用属性子集的分形维数及其属性数目的变化作为子集优劣的评价标准。再优化离散粒子群算法以解决高维属性空间搜索的“组合爆炸”问题。最后利用典型混沌动力学系统所产生的多变量时间序列和UCI数据库的5组数据集进行仿真计算,结果表明该算法可在较短时间内找到较优的属性子集,具有较优的整体性能。  相似文献   

15.
Solving the feature selection problem is considered an important issue when addressing data from real applications that contain a large number of features. However, not all of these features are important; therefore, the redundant features must be removed because they affect the accuracy of the data representation and introduce time complexity into the analysis of these data. For these reasons, the feature selection problem is considered an NP-complete nonlinearly constrained optimization problem. The rough set (RS) and neighborhood rough set (NRS) are the most powerful methods used to solve the feature selection problem; however, both approaches suffer from high time complexity. To avoid these limitations, we combined the RS and NRS with a new metaheuristic algorithm called the runner-root algorithm (RRA). The spirit of the RRA originated from real-life plants called running plants, which have roots and runners that spread the plants in search of minerals and water resources through their root and runner development. To validate the proposed algorithm, several UCI Machine Learning Repository datasets are used to compute the performance of our algorithm employing two effective classifiers, the random forest and the K-nearest neighbor, in addition to some other measures for the performance evaluation. The experimental results illustrate that the proposed algorithm is superior to the state-of-the-art metaheuristic algorithms in terms of the performance measures. Additionally, the NRS increases the performance of the proposed method more than the RS as an objective function.  相似文献   

16.
介绍了基于辨识集的属性约简算法,把该属性约简算法同类别相关性结合起来,提出了一个综合的特征选择方法.该综合方法使用类别相关性进行特征初选,并用所提属性约简算法消除冗余.实验结果表明此种特征选择方法能够获得较具代表性的特征子集.  相似文献   

17.
基于样本选择的启发式属性约简方法研究   总被引:1,自引:0,他引:1  
属性约简是粗糙集理论的核心研究内容之一。借鉴于贪心策略的启发式算法是求解约简的一种有效技术手段。传统的启发式算法使用了决策系统中的所有样本,但实际上每个样本对约简的贡献程度是不同的,这在一定程度上增加了启发式算法的时间消耗。为解决这一问题,提出了一种基于样本选择的启发式算法,该算法主要分为3步:首先从样本集中挑选出重要的样本;然后利用选取出的样本构建新的决策系统;最后利用启发式算法求解约简。实验结果表明,新算法能够有效地减少约简的求解时间。  相似文献   

18.
属性选择是数据挖掘领域中数据预处理的一个重要方法。文中提出一种融合离散型萤火虫群优化算法(DGSO)与分形维数的属性选择方法。该方法以分形维数作为属性子集的评估度量准则,以DGSO作为搜索策略。为分析该方法的可行性和有效性,采用6个UCI数据集进行实验。结合10-fold交叉验证和SVM对属性选择前后的分类准确率进行分析,并进行搜索策略和评估度量准则间的性能对比及详细的参数分析。结果表明该方法具有较高的可行性和有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号