期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

彭潇然刘遵仁纪俊《计算机应用研究》2018,35(8)

作为Pawlak粗糙集的扩展,邻域粗糙集能有效地处理数值型的数据。但是,因为沿用了Pawlak粗糙集在构造上下近似集时的包含关系,邻域粗糙集对噪声数据的容错性很差。针对这个问题,本文通过引入贝叶斯最小风险决策规则,提出了一种基于容错改进的邻域粗糙集属性算法。通过和现有的算法进行比较,实验结果表明,在数据预处理阶段用该算法能得到更好的属性约简。相似文献

2.

基于改进邻域空间的高维混合数据特征选择算法

下载免费PDF全文

张腾飞张宇迪马福民《控制与决策》2024,39(3):929-938

作为数据挖掘领域中一项重要的数据预处理技术,特征选择算法能够有效应对高维数据带来的“维数灾难”问题.然而,如何对高维的混合数据进行特征选取仍然是当前研究的重点和难点之一.基于邻域关系的邻域粗糙集模型因其能够处理名词型属性与数值型属性并存的混合数据,已成功应用于混合数据的特征选择.但是,现有邻域粗糙集对混合数据邻域关系的度量,仍然是基于等价关系的名词型数据划分与基于相似关系的数值型数据划分的简单融合,在利用模型划分的邻域空间和预定义的评价函数对高维混合数据进行特征选取时,适应性较差.为此,在邻域粗糙集模型的基础上,提出一种改进的邻域空间构造方法,并设计相应的邻域空间度量公式作为判别指标,自适应地调节邻域空间下邻域粒的大小;为了准确地表征高维混合数据邻域空间的判别能力,设计一种考虑边界数据和邻域空间大小的评价函数;在此基础上,提出一种启发式的高维混合数据特征选择算法.通过UCI标准数据集验证所提出算法的有效性. 相似文献

3.

基于邻域粗糙集和帝王蝶优化的特征选择算法

孙林赵婧徐久成王欣雅《计算机应用》2022,42(5):1355-1366

针对经典的帝王蝶优化（MBO）算法不能很好地处理连续型数据,以及粗糙集模型对于大规模、高维复杂的数据处理能力不足等问题,提出了基于邻域粗糙集（NRS）和MBO的特征选择算法。首先,将局部扰动和群体划分策略与MBO算法结合,并构建传输机制以形成一种二进制MBO（BMBO）算法;其次,引入突变算子增强算法的探索能力,设计了基于突变算子的BMBO（BMBOM）算法;然后,基于NRS的邻域度构造适应度函数,并对初始化的特征子集的适应度值进行评估并排序;最后,使用BMBOM算法通过不断迭代搜索出最优特征子集,并设计了一种元启发式特征选择算法。在基准函数上评估BMBOM算法的优化性能,并在UCI数据集上评价所提出的特征选择算法的分类能力。实验结果表明,在5个基准函数上,BMBOM算法的最优值、最差值、平均值以及标准差明显优于MBO和粒子群优化（PSO）算法;在UCI数据集上,与基于粗糙集的优化特征选择算法、结合粗糙集与优化算法的特征选择算法、结合NRS与优化算法的特征选择算法、基于二进制灰狼优化的特征选择算法相比,所提特征选择算法在分类精度、所选特征数和适应度值这3个指标上表现良好,能够选择特征数少且分类精度高的最优特征子集。相似文献

4.

基于抗噪声邻域粗糙集的在线流特征选择算法

曾艺祥林耀进李育林王晨曦《小型微型计算机系统》2023,(7):1494-1499

在开放动态环境当中，特征是动态生成的，特征在不同时间戳内流入特征空间称为流特征.然而，在一些基于传统的邻域粗糙集流特征选择算法中，噪声点会对特征的依赖度计算造成影响.基于此，本文提出了基于抗噪声邻域粗糙集的在线流特征选择算法.首先，充分考虑噪声点的影响，定义一种抗噪声的邻域关系，并设计基于抗噪声邻域的依赖度计算公式.进一步，考虑到特征对不同类别所提供的信息不同，结合类别正域，提出了一种新的在线相关性分析方法和冗余分析方法.在8个数据集上的实验研究表明，所提算法得到的特征子集优于一些在线流特征选择算法. 相似文献

5.

基于双空间模糊邻域相似关系的多标记特征选择

徐久成申凯丽《模式识别与人工智能》2022,(9):805-815

针对基于粗糙集的大部分多标记特征选择方法存在的忽略样本的模糊性和邻域关系、手动设置邻域半径、从单一的样本空间度量属性重要度等问题,文中利用模糊邻域粗糙集弥补经典粗糙集的不足,并在此基础上从特征空间和标记空间出发,提出基于双空间模糊邻域相似关系的多标记特征选择算法.首先,设计自适应邻域半径的计算方法,构建特征空间下样本的模糊邻域相似矩阵.再根据模糊邻域相似关系,得出特征空间下的样本相似度及标记空间下的样本相似度.然后,通过权重将特征空间和标记空间上的样本相似度进行融合,基于融合后的度量计算属性重要度.最后,运用前向贪心算法构建多标记特征选择算法.在12个多标记数据集上的对比实验验证文中算法的有效性. 相似文献

6.

基于相交邻域粗糙集的基因微阵列数据分类

孟军李锐郝涵《计算机科学》2015,42(6):37-40, 66

在对基因微阵列数据的特征选择和分类的研究中,粗糙集理论是一个可以消除冗余基因的有效工具.但是传统的粗糙集模型不能很好地处理连续型数值数据,而离散化方法可能会导致信息的丢失.为此,提出了一种基于相交邻域粗糙集模型的属性约简算法,即将传统粗糙集中的距离邻域扩展为相交邻域,采用基于集合的方式来定义近似,以此构建粗糙集模型.在癌症数据集上进行实验,结果表明基于集合近似和相交邻域的粗糙集模型可以取得较好的分类效果,并且通过对选择出的基因进行GO术语分析,进一步证明了该模型的有效性. 相似文献

7.

基于邻域信息熵度量数值属性快速约简算法

李少年吴良刚《计算机工程与科学》2016,38(2):350-355

阐述邻域粗糙集和邻域信息熵的基本定义及性质,为避免数值属性信息系统属性约简过程中,属性离散化造成特征信息的丢失,提出一种新的基于邻域信息熵度量数值属性约简算法。扩展邻域信息系统核属性集生成约简属性集,邻域信息熵度量不仅关注约简属性集正域变化,而且考察负域样本空间约简属性邻域等价类在决策属性划分的分布,具备更好的邻域关系度量细粒度。实验表明,对比邻域粗糙集近似度量、邻域有效信息率度量、邻域软间隔度量的属性约简方法,该算法能有效进行邻域信息系统属性约简的同时,也保持了约简属性集更好的分类精度。相似文献

8.

基于Fisher score与模糊邻域熵的多标记特征选择算法

孙林马天娇薛占熬《计算机应用》2023,(12):3779-3789

针对Fisher score未充分考虑特征与标记以及标记之间的相关性，以及一些邻域粗糙集模型容易忽略边界域中知识粒的不确定性，导致算法分类性能偏低等问题，提出一种基于Fisher score与模糊邻域熵的多标记特征选择算法（MLFSF）。首先，利用最大信息系数（MIC）衡量特征与标记之间的关联程度，构建特征与标记关系矩阵；基于修正余弦相似度定义标记关系矩阵，分析标记之间的相关性。其次，给出一种二阶策略获得多个二阶标记关系组，以此重新划分多标记论域；通过增强标记之间的强相关性和削弱标记之间的弱相关性得到每个特征的得分，进而改进Fisher score模型，对多标记数据进行预处理。再次，引入多标记分类间隔，定义自适应邻域半径和邻域类并构造了上、下近似集；在此基础上提出了多标记粗糙隶属度函数，将多标记邻域粗糙集映射到模糊集，基于多标记模糊邻域给出了上、下近似集以及多标记模糊邻域粗糙集模型，由此定义模糊邻域熵和多标记模糊邻域熵，有效度量边界域的不确定性。最后，设计基于二阶标记相关性的多标记Fisher score特征选择算法（MFSLC），从而构建MLFSF。在多标记K近邻（MLKNN）分类器... 相似文献

9.

基于差别矩阵和mRMR的分步优化特征选择算法

樊鑫陈红梅《计算机科学》2020,47(1):87-95

分类问题普遍存在于现代工业生产中。在进行分类任务之前,利用特征选择筛选有用的信息,能够有效地提高分类效率和分类精度。最小冗余最大相关算法(mRMR)考虑最大化特征与类别的相关性和最小化特征之间的冗余性,能够有效地选择特征子集;但该算法存在中后期特征重要度偏差大以及无法直接给出特征子集的问题。针对该问题,文中提出了结合邻域粗糙集差别矩阵和mRMR原理的特征选择算法。根据最大相关性和最小冗余性原则,利用邻域熵和邻域互信息定义了特征的重要度,以更好地处理混合数据类型。基于差别矩阵定义了动态差别集,利用差别集的动态演化有效去除冗余属性,缩小搜索范围,优化特征子集,并根据差别矩阵判定迭代截止条件。实验选取SVM,J48,KNN和MLP作为分类器来评价该特征选择算法的性能。在公共数据集上的实验结果表明,与已有算法相比,所提算法的平均分类精度提升了2%左右,同时在特征较多的数据集上能够有效地缩短特征选择时间。所提算法继承了差别矩阵和mRMR的优点,能够有效地处理特征选择问题。相似文献

10.

基于最大决策边界的高维类不平衡数据在线流特征选择

林耀进陈祥焰白盛兴王晨曦《模式识别与人工智能》2020,33(9):820-829

数据的特征空间常随时间动态变化,而训练样本的数量固定不变,数据的特征空间在呈现超高维特点的同时通常伴随决策空间的类别不平衡问题.对此,文中提出基于最大决策边界的高维类不平衡数据在线流特征选择算法.借助邻域粗糙集模型,在充分考虑边界样本影响的基础上, 定义自适应邻域关系,设计基于最大决策边界的粗糙依赖度计算公式.同时,提出三种在线特征子集评估指标,用于选择在大类和小类之间具有强区分能力的特征.在 11 个高维类不平衡数据集上的实验表明,在相同的实验环境及特征数量下,文中算法综合性能较优. 相似文献

11.

基于邻域粗糙集的高维类不平衡数据在线流特征选择

陈祥焰林耀进王晨曦《模式识别与人工智能》2019,32(8):726-735

在许多实际应用中,数据经常呈现高维不平衡特征,特征还根据需求在不同时间段动态生成.基于此种情况,文中提出基于邻域粗糙集的高维类不平衡数据的在线流特征选择算法.算法设计基于小类重要度的粗糙依赖度计算公式,同时,提出在线相关性分析、在线冗余度分析、在线重要度分析三种策略,用于选择在大类和小类之间具有高可分离性的特征.在7个高维类不平衡数据集上的实验表明,文中算法可以有效选择一个较好的特征子集,性能较优. 相似文献

12.

基于邻域保持学习的无监督特征选择算法

刘艳芳叶东毅《模式识别与人工智能》2018,31(12):1096-1102

近邻法对不相关特征的敏感性很高,利用邻域重构系数可以保持原有数据结构的优点,为此,文中提出基于邻域保持学习的无监督特征选择算法.首先根据数据样本和邻域的相似性构造相似矩阵,并引入中间矩阵构造低维空间.然后利用拉普拉斯乘子法选择有效特征子集.在4个公开数据集上的实验表明,文中算法可以有效识别代表性特征. 相似文献

13.

一种基于邻域距离的聚类特征选择方法

秦奇伟梁吉业钱宇华《计算机科学》2012,39(1):175-177

针对高维复杂的符号数据集在聚类中的聚类效果差和计算耗时过大的问题,首先提出了一种基于邻域距离的无监督特征选择算法,然后在选择到的特征子集上进行重新聚类,从而有效提高了聚类结果的精度,降低了聚类计算的计算耗时。实验结果表明,该算法可以找到有效的特征子集,提高数据集的聚类精度,降低面对高维复杂数据集聚类的计算耗时。相似文献

14.

多尺度邻域决策信息系统的特征子集选择

张庐婧林国平林艺东寇毅《模式识别与人工智能》2023,36(1):49-59

多尺度决策信息系统的特征子集选择是处理多尺度分类问题的一种有效的数据预处理方法.在实际应用中,数据类型往往多样混合,现有的多尺度模型无法有效处理这类数据.针对该问题,文中面向多源异构多尺度数据,提出多尺度邻域半径的形式化定义,构造多尺度邻域信息粒并讨论其相关性质.在此基础上,探讨特征的重要度,提出可同步进行最优尺度选择和特征选择的特征子集选择算法.改进原有的Wu-Leung模型,在一定程度上扩展其在实际问题上应用的范围.最后,在UCI数据集上验证模型和算法的可行性和有效性. 相似文献

15.

基于邻域决策粗糙集的脑功能连接生物标记物识别

冀俊忠龙腾杨翠翠《控制与决策》2023,38(4):1092-1100

脑功能连接判别特征可以作为神经精神类疾病诊断的一种生物标记物,利用机器学习方法对其进行识别是脑科学研究中的一项重要课题.已有脑功能连接生物标记物的识别方法大都忽视了脑功能连接数据高维、连续、多噪声的特性对识别性能的影响,导致所得到的生物标记物的分类能力不强.对此,提出一种基于邻域决策粗糙集的脑功能连接生物标记物识别方法.首先,针对脑功能连接数据连续性和高噪声的特点,引入能有效处理连续和高噪声数据的邻域决策粗糙集来识别分类能力更强的脑功能连接判别特征作为生物标记物;其次,针对脑功能连接数据的高维特点,通过快速生成邻域和缩小特征搜索空间来保证邻域决策粗糙集识别脑功能连接生物标记物的效率.在ABIDE I和ADNI数据集上的实验结果表明,所提出方法能够准确快速地获得分类能力更强的脑功能连接判别特征,有望为神经精神类疾病的诊断提供更准确的生物标记物. 相似文献

16.

An improved runner-root algorithm for solving feature selection problems based on rough sets and neighborhood rough sets

《Applied Soft Computing》2020

Solving the feature selection problem is considered an important issue when addressing data from real applications that contain a large number of features. However, not all of these features are important; therefore, the redundant features must be removed because they affect the accuracy of the data representation and introduce time complexity into the analysis of these data. For these reasons, the feature selection problem is considered an NP-complete nonlinearly constrained optimization problem. The rough set (RS) and neighborhood rough set (NRS) are the most powerful methods used to solve the feature selection problem; however, both approaches suffer from high time complexity. To avoid these limitations, we combined the RS and NRS with a new metaheuristic algorithm called the runner-root algorithm (RRA). The spirit of the RRA originated from real-life plants called running plants, which have roots and runners that spread the plants in search of minerals and water resources through their root and runner development. To validate the proposed algorithm, several UCI Machine Learning Repository datasets are used to compute the performance of our algorithm employing two effective classifiers, the random forest and the K-nearest neighbor, in addition to some other measures for the performance evaluation. The experimental results illustrate that the proposed algorithm is superior to the state-of-the-art metaheuristic algorithms in terms of the performance measures. Additionally, the NRS increases the performance of the proposed method more than the RS as an objective function. 相似文献