首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
曹峰  唐超  张婧 《计算机科学》2017,44(9):222-226
离散化是一个重要的数据预处理过程,在规则提取、知识发现、分类等研究领域都有广泛的应用。提出一种结合二元蚁群和粗糙集的连续属性离散化算法。该算法在多维连续属性候选断点集空间上构建二元蚁群网络,通过粗糙集近似分类精度建立蚁群算法适宜度评价函数,寻找全局最优离散化断点集。通过UCI数据集验证算法的有效性,实验结果表明,该算法具有较好的离散化性能。  相似文献   

2.
基于粗糙集的两种离散化算法的研究   总被引:9,自引:0,他引:9  
随着知识发现和数据挖掘的迅速发展,出现了很多的方法,这些方法很多都依赖于离散的数据。但是,大部分现实中应用的数据都带有连续变量的属性。为了使得数据挖掘的技术能够用在这些数据上面,必须进行离散化。文章探讨了基于粗糙集的离散化方法。论文做实验来比较局部和全局离散化算法,实验结果表明,这两种算法对于数据集有敏感性。  相似文献   

3.
提出了一种结合粗糙集和粒子群的连续属性离散化算法,采用了MPSO算法的思想,提高了粒子群摆脱局部极值的能力,得到了较好的离散化效果。对不同的数据集进行了多次测试,结果表明该算法在对数据离散化时有较好的性能。  相似文献   

4.
张迎春  郭禾 《自动化学报》2015,41(11):1913-1925
为了提高水平集图像分割的质量和减少水平集迭代次数,本文提出了新的能量公式和水平集函数.在粗糙集数据离散化基础上引入了针对图像数据的离散化方法,根据图像离散区域的信息对新能量函数进行直接加权并且对核函数进行间接加权,使用加权的核映射函数将原始离散图像数据映射到高维空间,从而使得该模型可以处理多种类型的图像甚至是一定信噪比的噪声图像.新的能量公式联合由它导出的区域参数能够更好地表达同质区域的灰度信息,从而能够更精确地分割图像.与传统水平集图像分割不同,在迭代过程中新的水平集函数中的水平集元素可以拥有不同的步长,步长越大水平集元素的更新速度越快并且水平集函数能够快速达到收敛状态,实现快速图像分割.人工合成图像和真实图像的分割实验表明本文方法可以获得更好的分割效果.  相似文献   

5.
一种基于粗糙集的离散化算法   总被引:1,自引:0,他引:1  
粗糙集理论以其独特的数据约简能力在不确定信息处理的相关领域得到广泛关注和研究,而连续属性的离散化是粗糙集方法及其它归纳学习系统中的重要环节.将离散化视作一种信息概括、抽象和约简,利用粗糙集理论提出一种全局的离散化算法.算法通过定义一致性度量,实现全局离散,弥补了局部离散化MDLP方法引入不一致的缺陷.然后在保持一致性前提下,进一步对离散中分割点的冗余进行约简.实验采用ID3和粗糙集分类工具ROSETTA在多个大数据集上对提出的离散方法进行分类验证,实验结果表明该算法的有效性和优越性.  相似文献   

6.
粗糙集中的距离度量与离群点检测   总被引:1,自引:0,他引:1  
针对传统的基于距离的离群点检测方法不能有效地处理具有离散型属性数据集的问题,将基于距离的离群点检测方法引入粗糙集理论,利用粗糙集解决离散型属性的处理问题.首先,在粗糙集的框架中提出3种面向离散型属性的距离度量;然后,针对这3种距离度量分别设计出相应的离群点检测算法,用于从包含离散型属性的数据集中检测离群点;最后,通过在2个包含离散型属性的UCI数据集上的实验,验证了这些算法的可行性和有效性.  相似文献   

7.
基于区分矩阵的数据离散化算法   总被引:1,自引:0,他引:1       下载免费PDF全文
由于传统的粗糙理论只能对数据库中离散数据进行处理,而绝大多数现实的数据库既包含了离散数据,又包含了连续数据。针对这一问题,提出了一种基于候选断点区分矩阵的数据离散化算法。该方法以断点核为起点,以候选断点在区分矩阵中出现的频率作为启发信息,逐次选择最重要的断点加入到结果断点子集中,并由最终的断点集得离散化后的信息系统。最后通过实例分析表明,该算法具有较好的离散化效果。  相似文献   

8.
针对粗糙集理论只能处理离散数据的局限,提出了基于决策的剥离式连续属性离散化方法,一改传统的候选断点集合的获取方法,直接通过分析连续属性在各决策类的取值范围和计算属性重要度,完成对连续属性的初步离散.此外,本文提出候选断点集的推移原则,可逐步减小候选断点集的范围.由于每次都是针对尚不能明确分类的样本进行细化,因此随着候选断点集的减少和明确分类样本的增加,系统能够迅速收敛,并且离散化后的决策表总是相容的,这与目前很多离散方法不考虑决策相容性相比,能够最大限度地保留系统的有用信息.本文提出的离散化方法是领域独立的,不需要领域知识,可应用于不同领域的连续属性的离散化.  相似文献   

9.
一种新的用于连续值属性离散化的约简算法   总被引:4,自引:0,他引:4  
针对在Nguyen和Skowron的离散化算法中进行启发式约简时会出现某些属性不能进行离散化问题,以及在无核数据集中启发式约简算法计算量比较大等问题,在粗糙集理论和属性频率函数的基础上给出一个新概念-候选核,并提出一种新的用于连续值属性离散化的约简算法-基于候选核的启发式约简算法(简称BCC)。该算法可以寻找到能对所有属性进行离散化的约简,实验表明,所提出的BCC算法能提高大数据集的离散化效果。  相似文献   

10.
基于模糊粗糙集的肿瘤分类特征基因选取   总被引:2,自引:0,他引:2  
依据基因表达谱有效建立肿瘤分类模型的关键在于,准确找出决定样本类剐的一组特征基因.粗糙集理论作为一种新的软计算方法能够保持在原数据集的分类能力不变的基础上,对属性极大约简,从大量基因中找到对分类有效的基因.由于基因表达谱数据集的连续性,为了避免运用粗糙集方法所必需的离散化过程带来的信息丢失,尝试将模糊粗糙集应用于特征基因的选取,提出了基于互信息的模糊粗糙集属性约简算法,运用于基因表达谱数据集的基因选取.然后分别采用KNN和C5.0分类器进行特征基因分类性能进行检验.以急性白血病亚型(leukemia Microarray)和直肠癌(colon Microarray)分类特征基因选取为例进行实验,结果表明了上述方法的可行性和有效性.  相似文献   

11.
基于遗传算法和模糊粗糙集的知识约简   总被引:4,自引:0,他引:4  
朱江华  李海波  潘丰 《计算机仿真》2007,24(1):86-89,119
虽然粗糙集理论为处理离散属性提供了很好的工具,但它不能直接运用于具有连续变量的数据上面,而现实中的数据又包含着大量的连续变量.为了能够对连续属性集进行有效的知识约简,充分利用遗传算法的全局优化和并行计算的优点,结合模糊粗糙集的理论,对连续属性集进行知识约简,较粗糙集而言避开了连续属性的离散化过程,减少了信息损失,加快了约简速度,提高了决策支持度.首先利用一个仿真实例来验证该算法的有效性和快速性,然后把它运用于某一柴油机的故障数据集的约简,通过约简获得了影响输出故障模式的主要输入变量集,实现了数据的预处理,为进行柴油机的故障模式诊断提供了先决条件.  相似文献   

12.
基于集成的非均衡数据分类主动学习算法   总被引:1,自引:0,他引:1  
当前,处理类别非均衡数据采用的主要方法之一就是预处理,将数据均衡化之后采取传统的方法加以训练.预处理的方法主要有过取样和欠取样,然而过取样和欠取样都有自己的不足,提出拆分提升主动学习算法SBAL( Split-Boost Active Learning),该算法将大类样本集根据非均衡比例分成多个子集,子集与小类样本集合并,对其采用AdaBoost算法训练子分类器,然后集成一个总分类器,并基于QBC( Query-by-committee)主动学习算法主动选取有效样本进行训练,基本避免了由于增加样本或者减少样本所带来的不足.实验表明,提出的算法对于非均衡数据具有更高的分类精度.  相似文献   

13.
张诤  王惠文 《计算机工程》2010,36(23):13-15,18
对样本点数量巨大、用于刻画对象特征的指标众多、带有时空动态特性、包含大量噪声等特点的大规模复杂数据集进行定义。针对大规模复杂数据集的挖掘要求,结合统计分析、粗糙集、模糊集理论中的数据约简思想和方法,提出一种基于样本模糊聚类和粗糙集属性约简的大规模复杂数据集约简方法。  相似文献   

14.
Feature selection is about finding useful (relevant) features to describe an application domain. Selecting relevant and enough features to effectively represent and index the given dataset is an important task to solve the classification and clustering problems intelligently. This task is, however, quite difficult to carry out since it usually needs a very time-consuming search to get the features desired. This paper proposes a bit-based feature selection method to find the smallest feature set to represent the indexes of a given dataset. The proposed approach originates from the bitmap indexing and rough set techniques. It consists of two-phases. In the first phase, the given dataset is transformed into a bitmap indexing matrix with some additional data information. In the second phase, a set of relevant and enough features are selected and used to represent the classification indexes of the given dataset. After the relevant and enough features are selected, they can be judged by the domain expertise and the final feature set of the given dataset is thus proposed. Finally, the experimental results on different data sets also show the efficiency and accuracy of the proposed approach.  相似文献   

15.
Many multiple-criteria decision-making (MCDM) methods have been proposed for decision-making environments. However, the performance of these methods is degraded by the uncertainty and inaccuracy which characterizes most practical decision-making environments as a result of the inherent prejudices and preferences of the decision-makers or experts and an insufficient volume of multiple inputs and outputs (MIO) information. Accordingly, the present study proposes an enhanced MIO classification method to address these limitations of existing MCDM methods. The proposed MIO classification method designated as the FVM-index method integrates fuzzy set theory (FST), variable precision rough set (VPRS) theory, and a modified cluster validity index (MCVI) function, and is designed specifically to filter out the uncertainty and inaccuracy inherent in the surveyed MIO real-valued dataset; thereby improving the classification performance. The effectiveness of the proposed approach is first demonstrated by comparing the MIO classification results obtained for three relating UCI datasets: (1) the original dataset; (2) a dataset with a large amount of inaccurate instances; and (3) an FVM-index filtered dataset extracted from the original dataset using a statistical approach. Then, the validity of the proposed approach is illustrated by using an Augmented Reality product design and a hospital related datasets. The results confirm that the proposed FVM-index method provides a good classification performance even in the presence of inaccuracy and uncertainty. As a result, it provides a robust approach for the extraction of reliable decision-making rules.  相似文献   

16.
针对传统K-均值聚类方法不能有效处理大规模数据聚类的问题,提出一种基于随机抽样的加速K-均值聚类(K-means Clustering Algorithm Based on Random Sampling , Kmeans_RS)方法,以提高传统K-均值聚类方法的效率。首先从大规模的聚类数据集中进行随机抽样,得到规模较小的工作集,在工作集上进行传统K-均值聚类,得到聚类中心和半径,并得到抽样结果;然后通过衡量剩下的聚类样本与已得到的抽样结果之间的关系,对剩余的样本进行归类。该方法通过随机抽样大大地减小了参与K-均值聚类的问题规模,从而有效提高了聚类效率,可解决大规模数据的聚类问题。实验结果表明,Kmeans_RS方法在大规模数据集中在保持聚类效果的同时大幅度提高了聚类效率。  相似文献   

17.
目标检测广泛使用于计算机视觉领域.在不同的场景中,我们需要使用不同的数据集训练模型.但是,人工生成数据集标签非常耗时.本文提出一种半自动的方法生成数据集标签,然后按照图像相似度设置的阈值自动筛选,最后保留符合要求的图像和对应的标签作为最终的数据集.实验表明,该方法可以提高数据集生成标签的速度,同时确保了准确率.  相似文献   

18.
一种基于数据垂直划分的分布式密度聚类算法   总被引:1,自引:0,他引:1  
聚类分析是数据挖掘领域的一项重要研究课题,对大数据集的聚类更以其数据量大、噪声数据多等而成为一个难点.针对数据垂直划分的情况,提出连通点集及局部噪声点集等概念.在分析局部噪声点集与全局噪声点集以及局部连通点集与全局连通点集关系的基础上,对全局噪声点进行有效过滤,进一步设计闭三角链表结构存储各个结点的聚类中间结果,提出了基于密度的分布式聚类算法DDBSCAN.理论分析和实验结果表明,算法可以有效解决垂直划分的大数据集聚类问题,算法是有效可行的.  相似文献   

19.
针对数据集为模糊值时冗余信息难于消除的问题,提出了基于模糊相似关系的广义模糊粗糙集与QuickReduct算法相结合的方法。利用广义模糊粗糙集数据相似程度对属性值为实数值的数据集合进行约简,不需要预先对原始数据集合进行离散化,约简结果能更完整地反映原信息系统的分类能力。同时算法中利用了启发式信息,使模糊依赖性增加较快的属性作为最小约简。计算实例验证了该方法的有效性。  相似文献   

20.
钱鹏江  王士同  邓赵红 《自动化学报》2011,37(12):1422-1434
首先证明了快速核密度估计 (Fast kernel density estimate, FKDE) 定理: 基于抽样子集的高斯核密度估计(KDE)与原数据集的KDE间的误差与抽样容量和核参数相关, 而与总样本容量无关. 接着本文揭示了基于高斯核形式的图论松弛聚类(Graph-based relaxed clustering, GRC)算法的目标表达式可分解成“Parzen窗加权和 + 平方熵”的形式, 即此时GRC可视作一个核密度估计问题, 这样基于KDE近似策略, 本文提出了大规模图论松弛聚类方法(Scaling up GRC by KDE approximation, SUGRC-KDEA). 较之先前的工作, 这一方法的优势在于为GRC作用于大规模数据集提供了更简单和易于实现的方案.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号