首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 343 毫秒
1.
基于粗糙集理论的属性约简算法   总被引:5,自引:1,他引:4  
粗糙集理论是一种新的数据挖掘方法,其主要思想是保持分类能力不变的情况下,通过属性约简,达到发掘知识并简化知识的目的.从大量数据发现知识时,属性约简是一个关键问题.在理解和分析基于粗糙集理论的数据挖掘算法基础上,提出了一个基于属性依赖度的属性约简算法.实验结果表明,该算法能更有效地对决策系统进行约简.  相似文献   

2.
关联规则挖掘是数据挖掘的重要领域之一,利用粗糙集理论来挖掘关联规则的方法已经得到广泛关注.针对不完备信息系统,提出了基于粗糙集理论的快速ORD关联规则挖掘算法.该算法首先采用基于粗糙集理论的属性约简算法进行属性约简,然后采用快速、高效的冗余项集和冗余规则修剪算法--ORD算法获取关联规则.将该算法与其它同类流行的算法在4个UCI数据集上进行实验比较,结果表明该算法性能良好.  相似文献   

3.
属性约简是应用粗糙集理论进行数据挖掘有效的方法之一,HORAFA属性约简算法它的不足之处在于约简效率和完备性.应用粗糙集对知识分类的特点,建立了新的数据挖掘模型.在模型的属性约简模块中,详细分析了HORAFA算法,提出了对其改进的HORAFA-AFVDM算法.该算法是在核中依次加入属性重要性最大的属性a,对于Red=Red è{a},当POSred-ai(D)=POSC(D)时删除a,直到不能再删为止,保证了算法的完备性.实验在MATLAB环境下实现,算法的测试数据来源于UCI数据集,通过对改进前后两种算法的比较,证实了改进后算法从属性约简效率和算法运行时间上均比之前的算法有显著的提高,文中将该数据挖掘模型应用到短信数据挖掘系统中.  相似文献   

4.
以优势关系为基础的粗糙集在地震数据挖掘中的应用   总被引:4,自引:0,他引:4  
朱冰冰  吴绍春  王炜 《计算机应用》2006,26(12):3023-3026
在地震数据挖掘应用中,可用粗糙集方法进行对震例数据的属性约减。但是,经典的粗糙集理论建立在由等价关系对对象集划分的基础上,而震例数据是有序的而不是分类的对象。现对经典粗糙集理论进行扩展,提出一种用优势关系代替等价关系的粗糙集方法,并在此基础上提出一种基于差别矩阵的属性约简算法。实验结果表明,用这种方法能得出一些采用传统粗糙集理论所无法得到的结果。  相似文献   

5.
本文就粗糙集理论及其在数据挖掘中的应用方法进行了较为深入系统地研究。重点研究了扩展粗糙集模型;基于连续属性的粗糙集模型及其约简算法;不完备信息系统下粗糙集模型及其约简算法;以及更一般的集值信息系统及其约简算法。  相似文献   

6.
本文就粗糙集理论及其在数据挖掘中的应用方法进行了较为深入系统地研究。重点研究了扩展粗糙集模型;基于连续属性的粗糙集模型及其约简算法;不完备信息系统下粗糙集模型及其约简算法;以及更一般的集值信息系统及其约简算法。  相似文献   

7.
传统的并行属性约简算法通过利用抽样技术获取小数据样本进行知识约简,但对于大数据集来说,样本数据不具有一般性且无法代表整个数据集.为了弥补传统并行属性约简算法只能用来计算最小属性约简、处理小数据集的缺陷,论文通过分析了先验知识在粒计算中的重要性,结合云计算技术处理海量数据的优势,以粗糙集理论为背景,从不同角度、层次出发建立层次粗糙集模型,提出基于云计算的层次粗糙集模型约简算法,讨论并实现了知识约简算法中的可并行化操作,利用Hadoop在普通计算机集群上进行试验,从运行时间、加速比、可扩展性三个方面对所提出基于正区域、信息熵、边界域算法的重要性进行评价.实验证明:基于云计算的层次粗糙集模型约简算法可以有效处理大数据集.  相似文献   

8.
针对粒子群属性约简算法容易早熟、易陷入局部最优解的问题,提出一种融合混沌离散粒子群与粗糙集的属性约简算法(CBPSORS).在该算法中,首先利用混沌序列初始化粒子的位置和速度,得到一个无序的粒子种群.其次改进最优粒子进行混沌变异过程,改进惯性因子和加速因子来提高算法性能.再次用粗糙集理论对生成的属性子集相关性进行评估.最后用K-近邻(KNN)算法生成分类模型在UCI数据集上对该算法进行验证.理论分析与实验结果表明,与基于粗糙集的属性约简算法(RS)、基于粒子群的粗糙集属性约简算法(PSORS)以及基于遗传算法的粗糙集属性约简算法(GARS)相比,文中算法可以在保持决策表知识信息的前提下,约减掉更多的条件属性,提高分类精度.  相似文献   

9.
本文提出一种基于粗糙集理论的数据挖掘模型,从实际数据出发,运用不同简化层次的算法,导出每个层次上的信息集,最后得到规则集。在进行推理和决策分析时,按照一定算法进行匹配得出结论。还给出了模拟例子说明如何建立和运用这种数据挖掘模型。  相似文献   

10.
基于粗糙集理论的属性约简算法是机器学习和数据挖掘领域的研究热点之一.粗糙集理论是一种新型的处理模糊和不确定信息的数学工具,在保证分类能力不变的前提下,通过知识的约简导出概念的分类规则.文中提出了一种基于属性桶的约简算法,其约简过程类似基于属性频度函数的约简算法.该算法首先构造一组与决策表决策属性个数相同的属性桶,不同的属性桶划分了不同长度的区分矩阵项,避免了约简前的排序过程.通过构造属性桶时对核属性进行特殊处理,在一定程度上简化了属性约简过程.  相似文献   

11.
传统的不均衡数据集处理方法存在人工设置特征繁琐、普适性差等缺陷,难以适用于海军军械不均衡文本数据集处理。针对此问题,本文提出一种基于biRNN模型的海军军械不均衡文本数据集处理方法。通过biRNN模型自动学习文本序列特征,以双向文本序列预测方式扩展少数类文本,达到文本数据均衡目的,并在均衡数据集的基础上将整个文本数据集进行扩充。分别对原始数据集、均衡数据集、扩充数据集进行文本分类实验,实验结果表明,基于biRNN的不均衡数据集扩展方法对原始数据集进行均衡、扩展处理能够有效提高文本分类的性能。  相似文献   

12.
传统变精度多粒度粗糙集模型是基于单一变精度阈值的,而多粒度粗糙集模型是从多角度和多层次处理数据,数据往往是多源的或者是分布式的,其噪音数据的含量也各不相同。因此,不同知识粒度层次所应具有的变精度阈值也不相同,这使得现有的模型难以适应多粒度环境。为克服上述缺点,提出了基于多重阈值的变精度多粒度粗糙集模型,该模型使得不同知识粒度层次的变精度阈值可独立调整,更符合多粒度粗糙集模型的数据特征。该模型更好地结合了多粒度粗糙集模型和变精度粗糙集模型,可从多角度分析解决问题又兼具更灵活的容错能力。  相似文献   

13.
为提高异常入侵检测的效率,提出一种混合偏最小二乘特征提取和核心向量机算法的入侵检测模型。模型使用偏最小二乘算法在入侵数据集上进行主成分提取,在此基础上构建特征集,引入适用于解决大规模样本训练问题的核心向量机算法,在特征集上建立入侵检测模型,使用该模型对异常入侵行为进行检测和判断。通过基于KDD99数据集上的入侵检测实验,验证了混合模型的可行性和有效性。  相似文献   

14.
基于深度学习的木材缺陷图像的识别与定位   总被引:1,自引:0,他引:1  
传统的木材缺陷定位方法主要有物理设备检测和传统计算机技术检测,但这两种方法均存在数据收集困难、高度依赖数据本身等问题,不适用于实际生产。本文提出一种基于深度学习的自动缺陷定位模型(Automatic defect location model, ADLM),包含单缺陷定位模型(Single defect location model, SDLM)与多缺陷定位模型(Multi-defect location model, MDLM),满足不同需求。模型使用MobileNet作为骨干网,只需少量数据集进行训练。在公开数据集Wood Defect Database中,该模型可获得86.1%的缺陷识别率。在单缺陷数据集中,该模型可获得97.5%的定位精确率。在多缺陷数据集中,该模型可获得90.0%的定位精确率。与传统的木材缺陷识别模型相比,基于深度学习的自动缺陷定位模型无须前期人工提取特征,具有检测速度更快、精准度更高以及适用性更广等优点。  相似文献   

15.
本文提出一种基于粗糙集理论的数据挖掘模型,从实际数据出发,运用不同简化层次的算法导出每个层次上的信息集,最后得到规则集。在进行推理和决策分析时,按照一定算法进行匹配得出结论。另外,还给出了模拟例子说明如何建立和运用这种数据挖掘模型。  相似文献   

16.
基于向量空间模型的过滤不良文本方法   总被引:13,自引:3,他引:10  
李强  李建华 《计算机工程》2006,32(10):4-5,8
就向量空间模型文本表示方法以及归一化技术对不良文本过滤性能的影响进行了研究,并基于平衡样本集和不平衡样本集分别进行了试验。试验和结果分析表明,Naive Bayes方法由于采用概率模型进行文本表示,在不平衡样本集上显示了较差的准确度,而基于向量空间模型进行文本表示的方法,如中心向最法(VSM)、支持向量机(SVM)等在平衡或非平衡样本上取得了较好的准确度,并用于过滤不良文本的文本内容安全监管中。  相似文献   

17.
计算机视觉领域,多结构模型参数的提取是一个常见任务。传统的提取算法一般先对输入数据集进行分类,然后通过对相关数据类的拟合获得对模型集参数的估计。然而,由于模型集未知,对如何实现数据集的准确划分一直是一个难点。针对这个问题,借鉴免疫系统识别抗原产生抗体的工作机理,提出了一种启发式的鲁棒回归分析方法。该方法将数据集的分类过程设计成一个逐步精确化的逼近过程:先通过随机抽样模型对数据集进行粗略划分,然后利用单模型鲁棒回归方法对各数据类中的优势数据进行尝试建模,以获得更好的模型估计。接着以此模型为基础重新对数据集进行划分,以提高分类的准确性。通过这种“分类”、“提纯”、“再分类”、“再提纯”的反复尝试,逐步逼近准确的数据类划分,同时得到模型集的准确解。仿真结果表明,该方法计算时间少,数据分类准确率高,具有较强的多结构模型参数提取能力。  相似文献   

18.
如今不平衡数据存在生活中各个领域,如何有效地对其分类已经成为研究的热点。传统的过采样与欠采样方法虽然能保证数据的平衡性,但无法克服因数据分布和噪声对数据的分类造成的影响。为了降低数据分布与噪声在集值信息系统中对不平衡数据分类的影响,提出了一种基于拟单层覆盖粗集的过采样与欠采样相结合的模型。通过拟单层覆盖粗集[DA0]与[DE0]下近似将数据主要划分为两个部分,将属于下近似集的部分用BorderlineSMOTE进行过采样,将不属于下近似集的部分用ClusterCentroids进行欠采样,最终将二者合并即为最终数据集。拟单层覆盖粗集是适用于集值信息系统的高近似质量、快速计算的模型,高近似质量可以使其保留尽可能多的可靠数据来保证模型的泛化能力。通过混合处理方式,不仅能够降低噪声数据对BorderlineSMOTE的影响,还能通过ClusterCentroids极大程度地保留被过滤数据的信息完整性。通过相关对比实验,采用ExtraTree、DecisionTree、FGCNN等方法,验证了该模型的有效性。  相似文献   

19.
在分析数据——知识转换机制的基础上,引入本体的概念,根据本体的分类,基于领域本体提出了数据——知识转换模型。结合领域本体的定义,对数据——知识转换模型从领域知识基本描述、概念集合和关系集合三个角度加以分析,实现了相关的子模型,从而得出了完整的数据——知识转换模型,并基于该模型给出了具体的数据——知识转换文本(片断)。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号