首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 171 毫秒
1.
吴正江  张亚宁  张真  梅秋雨  杨天 《计算机工程》2022,48(6):200-206+212
拟单层覆盖粗糙集与集值信息系统之间存在一一对应的映射关系,当集值信息系统中的对象集动态添加或移除时,对应拟单层覆盖粗糙集中的信息单元也会随之改变,导致拟单层覆盖粗糙集中的近似集发生变化。针对拟单层覆盖粗糙集中近似集的动态更新问题,将拟单层覆盖粗糙集与增量学习相结合,提出近似集的增量更新算法。设计拟单层覆盖集中信息单元的更新算法,以分析信息单元的变化情况,分别构建近似集中可靠单元和争议单元的相关可靠单元集的更新算法。在此基础上,设计与可靠单元和争议单元更新算法相对应的增量更新算法,并且分析其时间复杂度。在UCI数据集上的实验结果表明,与静态算法相比,该算法在对象集发生添加和移除情况下的近似集更新效率分别提高21.5和29倍,能够有效提高近似集的计算效率。  相似文献   

2.
拟单层覆盖粗糙集是一种匹配集值信息系统且有高质量和高效率的粗糙集模型。拟单层覆盖近似集的计算过程中存在大量计算密集且逻辑简单的运算,为此,提出拟单层覆盖近似集的矩阵化表示方法,以利用图形处理器(GPU)强大的计算性能加速计算过程。为了实现这一目标,使用布尔矩阵表示拟单层覆盖近似空间中的元素,引入与集合运算对应的布尔矩阵算子,提出拟单层覆盖粗糙近似集(DE、DA、DE0与DA0)的矩阵表示,并设计矩阵化拟单层覆盖近似集算法(M_SMC)。同时,相应的定理证明了拟单层覆盖近似集的矩阵表示形式与原始定义的等价性。然而,M_SMC运行过程中出现了矩阵存储和计算步骤的内存消耗过多问题。为了将算法部署到显存有限的GPU上,优化矩阵存储和计算步骤,提出分批处理的矩阵化拟单层覆盖近似集算法(BM_SMC)。在10个数据集上的实验结果表明,融合GPU的BM_SMC算法与单纯使用中央处理器(CPU)的BM_SMC算法相比计算效率提高2.16~11.3倍,BM_SMC算法可以在有限的存储空间条件下充分利用GPU,能够有效地提高拟单层覆盖近似集的计算效率。  相似文献   

3.
不平衡数据集的特点导致了在分类时产生了诸多难题。对不平衡数据集的分类方法进行了分析与总结。在数据采样方法中从欠采样、过采样和混合采样三方面介绍不平衡数据集的分类方法;在欠采样方法中分为基于[K]近邻、Bagging和Boosting三种方法;在过采样方法中从合成少数过采样技术(Synthetic Minority Over-sampling Technology,SMOTE)、支持向量机(Support Vector Machine,SVM)两个角度来分析不平衡数据集的分类方法;对这两类采样方法的优缺点进行了比较,在相同数据集下比较算法的性能并进行分析与总结。从深度学习、极限学习机、代价敏感和特征选择四方面对不平衡数据集的分类方法进行了归纳。最后对下一步工作方向进行了展望。  相似文献   

4.
针对不平衡数据集分类效果不理想的问题,提出了一种新的基于混合采样的不平衡数据集算法(BSI)。通过引进“变异系数”找出样本的稀疏域和密集域,针对稀疏域中的少数类样本,提出了一种改进SMOTE算法的过采样方法(BSMOTE);对密集域中的多数类样本,提出了一种改进的欠采样方法(IS)。通过在六种不平衡数据集上的实验表明,该算法与传统算法相比,取得了更高的G-mean值、F-value值、AUC值,有效改善了不平衡数据集的综合分类性能。  相似文献   

5.
不平衡分类在现实生活中有着广泛应用,提高不平衡数据的分类精度一直是相关领域中的热门课题。针对已有欠采样方法容易保留多数类噪声样本的问题,提出一种基于聚类融合欠采样的改进欠采样方法。结合聚类融合与孤立森林(Isolation Forest,iForest)方法,筛选、删除异常指数高的多数类噪声样本,有效提高模型中的样本质量,增强欠采样算法的抗噪声能力。在7个UCI和KEEL不平衡数据集上的实验结果表明,该算法在处理不平衡分类问题时,AUC值和F1值均有一定程度的提升。将算法应用在蛋白质定位预测,提升了预测效果。  相似文献   

6.
欠抽样方法在非平衡数据集分类时,未充分考虑数据分布变化对分类结果造成的影响。为此,提出一种基于聚类融合去冗余的改进欠抽样方法。采用聚类算法得到多数类样本高密度分布区域的聚类中心,将多数类样本划分为不同子集,通过计算各子集的相似度冗余系数对多数类样本进行去冗余删除,以达到欠抽样的目的。对15个不同平衡率的数据集欠抽样后,利用代价敏感混合属性多决策树模型进行分类。实验结果表明,在不降低非平衡数据集分类准确率的前提下,该方法能够提高少数类样本的正类率及预测模型的G-mean值。  相似文献   

7.
为提高不平衡数据集的分类效率,建立一种分类模型,从样本采样和分类算法两方面进行优化。对决策边界的少类样本进行循环过采样生成新样本集,并与决策边界外合成的少类样本集合并,提高样本的重要度。针对传统ε-支持向量机(ε-SVM)在对不平衡数据集分类时超平面偏移的问题,引入正负惩罚系数和混合核函数,并利用客观的熵值法选取惩罚系数,提高分类算法的性能。实验结果表明,与标准的SVM算法相比,该分类模型在不平衡数据集分类上F-measure值平均提高18.1%,具有较好的分类效果。  相似文献   

8.
针对文本多分类算法中,由于不平衡数据集产生的小样本分类数据准确率低问题,提出基于轮廓系数动态K-means聚类的文本多分类混合式均分聚类采样算法.在不平衡数据集中针对小样本数据集利用聚类簇进行等比例过采样,针对大样本数据集利用聚类簇进行欠采样.基于微博灾害数据集,设计文本卷积神经网络,对该算法进行实验验证与分析,实验结果表明,该算法能够有效提升文本不平衡数据集的准确率和F1值,较好解决了不平衡文本数据集分类问题.  相似文献   

9.
异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数据,以煤矿分布式光纤竖井变形监测系统采集的数据为研究对象,提出了一种面向不平衡数据集、基于去重复下采样(RDU)、合成少数类过采样技术(SMOTE)和随机森林(RF)分类算法的煤矿监测系统异常数据识别方法。该方法利用RDU算法对多数类数据进行下采样,去除重复样本;利用SMOTE算法对少数类异常数据进行过采样,通过合成新的异常数据来改善数据集的不平衡性;并利用优化后的数据集训练RF分类算法,得到异常数据识别模型。在6个真实数据集上的对比实验结果表明,该方法的异常数据识别准确率平均值达到99.3%,具有较好的泛化性和较强的鲁棒性。  相似文献   

10.
针对实际应用中存在的数据集分布不平衡的问题,提出一种融合特征边界数据信息的过采样方法。去除数据集中的噪声点,基于少数类样本点的多类近邻集合,融合特征边界的几何分布信息获得有利于定义最优非线性分类边界的少数类样本点,通过其与所属类簇的结合生成新样本。对不平衡数据集采用多种过采样技术处理后,利用支持向量机进行分类,对比实验表明所提方法有效改善了不平衡数据的分类精度,验证了算法的有效性。  相似文献   

11.
在这个信息爆炸的时代,如何处理这些海量的数据如何有效的分类已经引起了人们的高度重视,尤其是在互联无技术迅速发展的阶段,网页分类这领域已成为热点. 与传统的分类方法相比,支持向量机具有高维、小样本、适应性强的特点,能够非常有效率的解决网页分类问题,但是不平衡数据的分类这一方面,存在着分类不精确的问题. 所以本文提出了新的解决不平衡数据样本策略,便是将欠采样策略与传统的支持向量机结合起来,在减少多数类样本集中噪声数据的基础上增加少数类的样本集数量,从而使得不平衡样本集趋向于平衡,最后结合SMO(Senquential Minimal Optimization)算法改进分类器,提高了分类的准确性.  相似文献   

12.
Relationship among basic concepts in covering-based rough sets   总被引:2,自引:0,他引:2  
  相似文献   

13.
变精度覆盖粗糙集   总被引:4,自引:0,他引:4       下载免费PDF全文
介绍了Ziarko变精度粗糙集模型和覆盖粗糙集模型;定义了多数包含关系;借助引入的误差参数β(0≤β<0.5),给出了基于对象邻域的变精度覆盖粗糙集模型中β上近似、β下近似、β边界和β负域的定义以及β近似质量和β粗糙性测度定义;详细讨论了β上、下近似算子的性质、集合的相对可辨别性、该模型与Ziarko变精度粗糙集模型和覆盖粗糙集模型的关系;最后探讨了变精度覆盖粗糙集模型中的约简问题并在所给模型的基础上举例说明了它们在信息处理中的应用。  相似文献   

14.
数据挖掘的主要目标之一是进行有效分类,粗糙集的上下近似空间正是为了对信息系统进行分类。变精度粗糙集作为经典粗糙集的推广模型,目前研究仅局限于有限集。针对变精度粗糙集模型无法处理无限集合的问题,在变精度粗糙集和测度的理论基础上,提出了基于Lebesgue测度的变精度粗糙集模型。首先,引入Lebesgue测度的概念,构造了一种基于Lebesgue测度的变精度粗糙集模型,将变精度粗糙集理论推广到无限集;其次,定义了该模型的上、下近似空间;最后,证明了其相关性质。通过理论研究表明,该模型能有效处理无限集合问题,对变精度粗糙集的理论研究形成突破,也将极大的扩充其应用范围。  相似文献   

15.
变精度方法对噪声数据具有良好的抗干扰能力,随机集映射本质上给出了一个具有良好性质的邻域关系,两者相结合能应对更广泛背景的应用需求。从随机集出发研究实值信息系统的变精度粗糙集模型问题,定义了以概率测度为基础的变精度粗糙集近似算子,并讨论这种模型的相关性质。同时也讨论了实值信息系统的变精度粗糙集模型的合成问题。结果有助于研究复杂系统的知识和信息数据处理的粗糙集模型的构造问题。  相似文献   

16.
On Three Types of Covering-Based Rough Sets   总被引:2,自引:0,他引:2  
Rough set theory is a useful tool for data mining. It is based on equivalence relations and has been extended to covering-based generalized rough set. This paper studies three kinds of covering generalized rough sets for dealing with the vagueness and granularity in information systems. First, we examine the properties of approximation operations generated by a covering in comparison with those of the Pawlak's rough sets. Then, we propose concepts and conditions for two coverings to generate an identical lower approximation operation and an identical upper approximation operation. After the discussion on the interdependency of covering lower and upper approximation operations, we address the axiomization issue of covering lower and upper approximation operations. In addition, we study the relationships between the covering lower approximation and the interior operator and also the relationships between the covering upper approximation and the closure operator. Finally, this paper explores the relationships among these three types of covering rough sets.  相似文献   

17.
为从更多角度处理数值型信息系统,提出了基于多阈值的变精度邻域多粒度粗糙决策分析方法。首先,分析了双重粒化准则下邻域半径选取的局限性,针对多属性特征给出了新的多阈值邻域半径计算方法;然后,借鉴变精度粗糙集在降低噪音数据干扰方面的优势,获取更精确的粗糙近似,并对相关性质进行了证明。实例分析表明,新模型能有效提高对象的分类精度和分类质量。  相似文献   

18.
考虑到多源覆盖信息系统中数据的复杂性以及单个信息系统之间的不平等性,引入诱导覆盖粗糙集,并对信息系统的属性赋予权重值,提出了多源覆盖信息系统下的加权广义多粒度粗糙集MCS-WGMRS模型。定义了属性权重的计算方法,给出模型的上、下近似,并获取了相应的决策规则。通过实例分析验证了MCS-WGMRS模型的有效性,结果表明该模型对目标集的分类能力更强,适当调整阈值可进一步提高模型的容错性。  相似文献   

19.
为提高分类算法在信贷风险领域不平衡数据的预测性能,提出一种基于高斯混合模型(Gaussian mixture model,GMM)的欠采样算法,将其应用在信贷不平衡数据领域中。采用高斯混合模型对多数类样本进行聚类欠采样(under-sampling),消除样本间的不平衡问题。实验比较该算法与传统的欠采样方法,进行该算法的抗噪鲁棒性分析,实验结果表明,该算法能够有效提升分类器的性能,其对信贷数据集具有较强的鲁棒性。  相似文献   

20.
变精度覆盖粗糙集模型的比较   总被引:2,自引:0,他引:2       下载免费PDF全文
介绍覆盖粗糙集和Ziarko变精度粗糙集模型,将Ziarko变精度粗糙近似算子应用于覆盖近似空间,借助引入的误差参数β (0 ≤β<0.5),给出2种变精度覆盖粗糙集模型的β上近似、β下近似、β边界和β负域的定义。讨论2种模型中β上、下近似算子的基本性质、2种模型之间的关系以及变精度覆盖粗糙集模型与其他粗糙集模型的关系。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号