首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 374 毫秒
1.
提出了基于属性重要性的关联分类方法.与传统算法不同的是根据属性重要性程度生成类别关联规则;并且在构造分类器时改进了CBA算法中对于具有相同支持度、置信度规则选择时的随机性.实验结果证明,用该方法得到的分类规则与传统的关联分类算法相比,复杂度低,且有效提高了分类效果.  相似文献   

2.
基于可变精度粗糙集理论的粗糙规则挖掘算法   总被引:18,自引:0,他引:18  
陶志  许宝栋  汪定伟  李冉 《信息与控制》2004,33(1):18-22,30
提出了一种基于变精度粗糙集理论的规则挖掘算法.通过粗糙规则集的不确定性量度,应用遗传算法求取相对属性约简,然后根据所给阈值导出粗糙规则集,并对阈值对规则集的影响进行了事后分析.由该算法得到的规则既有一定的噪声容忍度又具备较高的准确度和覆盖度,从而能充分保证预测和分类的准确性.实例分析证明,该算法是规则挖掘的有效方法.  相似文献   

3.
利用数据库技术实现的可扩展的分类算法   总被引:9,自引:0,他引:9  
刘红岩  陆宏钧  陈剑 《软件学报》2002,13(6):1075-1081
重点研究将数据挖掘中的分类技术与数据库技术紧密结合的高效的可扩展的分类算法.提出一种基于分组记数技术构造分类器的方法,利用数据库系统的结构化查询语言来实现主要计算任务.为了提高算法的执行效率,还提出了优化策略和冗余规则的剪裁策略,并将分类规则的发现过程与相关属性的选择方法有机地结合在一起.使用这些方法和策略,分类算法能够从大规模数据集中快速地发现一组简洁的规则.除了具有与现有分类算法相当的准确度和较高的执行效率以外,该分类算法还具有良好的基于训练集元组个数和属性个数两方面的可扩展性和易于实现的特点.  相似文献   

4.
如何对生产环境中经代码混淆的结构化数据集的敏感属性(字段)进行自动化识别、分类分级,已成为对结构化数据隐私保护的瓶颈。提出一种面向结构化数据集的敏感属性自动化识别与分级算法,利用信息熵定义了属性敏感度,通过对敏感度聚类和属性间关联规则挖掘,将任意结构化数据集的敏感属性进行识别和敏感度量化;通过对敏感属性簇中属性间的互信息相关性和关联规则分析,对敏感属性进行分组并量化其平均敏感度,实现敏感属性的分类分级。实验表明,该算法可识别、分类、分级任意结构化数据集的敏感属性,效率和精确率更高;对比分析表明,该算法可同时实现敏感属性的识别与分级,无须预知属性特征、敏感特征字典,兼顾了属性间的相关性和关联关系。  相似文献   

5.
一种自适应的模糊关联规则挖掘算法   总被引:4,自引:4,他引:0  
关联规则是数据挖掘的重要研究内容之一.传统的关联规则挖掘算法仅适于处理二元属性与分类属性.为更好地处理数量属性,提出了一种自适应的基于模糊概念的量化关联规则挖掘算法.该算法克服了传统的离散分区法的不足,改进了已有模糊关联规则支持度的计算方法.引入了一种基于聚类的隶属函数自动生成方法,使得模糊关联规则的发现不依赖于人类专家给出的隶属函数,使得关联规则的表示自然、简明,有利于专家理解.实验表明该算法是有效的.  相似文献   

6.
CBA算法是将关联规则挖掘与分类技术相结合的一种分类算法,在许多领域中得到了广泛应用.针对CBA处理海量数据效率低的缺点,提出了一个改进的CBA算法.该算法将粗糙集理论应用到CBA算法中,对决策表进行属性约简,提高了分类关联规则的生成效率;并应用PEP(pessimistic error pruning)方法对候选规则进行剪裁.实验结果表明,该算法比CBA具有更高的分类效率和准确度.  相似文献   

7.
粒计算中基于属性分类的形式概念属性约简   总被引:1,自引:1,他引:0  
徐怡  王泉  霍思林 《控制与决策》2018,33(12):2203-2207
针对目前已有的形式概念属性约简算法的不足(如属性约简的时间复杂度偏高、属性及属性值比较过程中存在冗余计算、存储开销大等问题),结合粒计算思想,提出基于属性分类的形式概念属性约简模型.首先,通过定义两个算子来划分属性之间分类关系;然后,由属性分类关系制定约简规则,并在此基础上提出基于属性分类的形式概念约简算法,该算法在保持目前最低时间复杂度不变的情况下,减少了冗余计算和存储开销,提高了属性约简的计算效率;最后,通过实例和仿真实验对基于属性分类关系的形式概念属性约简算法的有效性进行了验证.  相似文献   

8.
丁春荣  李龙澍 《微机发展》2007,17(11):110-113
决策树是数据挖掘任务中分类的常用方法。在构造决策树的过程中,分离属性的选择标准直接影响到分类的效果,传统的决策树算法往往是基于信息论度量的。基于粗糙集的理论提出了一种基于属性重要度和依赖度为属性选择标准的决策树规则提取算法。使用该算法,能提取出明确的分类规则,比传统的ID3算法结构简单,并且能提高分类效率。  相似文献   

9.
网络信息的多样性和多变性给信息的管理和过滤带来极大困难,为加快网络信息的分类速度和分类精度,提出了一种基于模糊粗糙集的Wdb文本分类方法.采用机器学习的方法:在训练阶段,首先对Web文本信息预处理,用向量空间模型表示文本,生成初始特征属性空间,并进行权值计算;然后用模糊粗糙集算法来进行信息过滤,用基于模糊租糙集的属性约简算法生成分类规则:最后利用知识库进行文档分类.在测试阶段,对未经预处理的文本直接进行关键属性匹配,经模糊粗糙因子加权后,用空间距离法分类.通过试验比较,该方法具有较好的分类效果.  相似文献   

10.
C4.5算法是一种非常有影响力的决策树生成算法,但该方法生成的决策树分类精度不高,分支较多,规模较大.针对C4.5算法存在的上述问题,本文提出了一种基于粗糙集理论与CAIM准则的C4.5改进算法.该算法采用基于CAIM准则的离散化方法对连续属性进行处理,使离散化过程中的信息丢失程度降低,提高分类精度.对离散化后的样本用基于粗糙集理论的属性约简方法进行属性约简,剔除冗余属性,减小生成的决策树规模.通过实验验证,该算法可以有效提高C4.5算法生成的决策树分类精度,降低决策树的规模.  相似文献   

11.
为构建一种具有实时性的配电网监控信息智能分析规则库,提出了基于机器学习的配电网监控信息智能分析规则库构建方法。将规则库中全部配电网监控规则头排序并设成主链,将规则导进链表里生成规则集,保证各个监控信息数据包都存在一个分析规则。使用基于机器学习的配电网故障数据分类方法,识别配电网监控信息中的故障数据,并提取故障数据频繁项集。使用基于MapReduce的并行关联规则增量更新算法,更新分析规则库中的信息智能分析规则,保证分析规则库中的信息智能分析规则具有实时性。实验结果表明,所提方法的识别结果准确度、检出率均值都大于0.97,假阳性率都是0.01,可以及时识别出配电网监控系统实时检测故障信息,保证信息智能分析规则更新具有实时性。  相似文献   

12.
针对传统的车流量检测系统采用感应器设备硬件安装繁杂及通用车流量检测算法无法判别车辆行驶方向的问题,提出一种基于数字信号处理器(DSP)的单车道车流量实时监测算法,并应用于停车场。首先,在虚拟检测带上使用背景差分法完成车辆检测,并对均值法背景建模进行改进;其次,提出一种邻帧二值归类算法对车辆行驶方向进行判别;最后,在虚拟检测带上进行车流量计数并将车位情况实时显示于LED显示屏上。通过模拟实验验证了所提算法的可行性,并在实际测试实验中,得到邻帧二值归类算法方向判别的准确率为96.5%,车位监控算法准确率为92.2%。实验结果表明,该单车道车流量实时监测算法准确率较高,节省了检测系统设备,可以应用于单车道停车场进行车流量实时监测。  相似文献   

13.
文章提出了一种基于模糊规则的分类方法。该方法首先介绍了基于模糊C均值聚类的模糊规则提取,然后利用所建立的模糊规则库设计了一种分类算法,并且利用启发式搜索来精简分类规则。使用IRIS数据对该文的方法进行了性能测试,结果表明该方法在训练样本较少的情况下,能得到很好的分类效果,并且通过规则精简,所使用的规则数目大大下降,而分类性能更加优良。  相似文献   

14.
本文提出了一种基于模糊规则的分类方法。首先介绍了一种新的模糊规则提取方法,然后基于所提取的模糊规则给出了一个采用二级判决的分类算法,并利用IRIS数据对此分类算法进行了仿真测试。结果表明,该算法在训练样本较少的情况下,仍能得到很好的分类效果.  相似文献   

15.
决策树作为一种经典的分类算法,因其分类规则简单易懂被广泛应用于医学数据分析中.然而,医学数据的样本不平衡问题使得决策树算法的分类效果降低.数据重采样是目前解决样本不平衡问题的常见方法,通过改变样本分布提升少数类样本的分类性能.现有重采样方法往往独立于后续学习算法,采样后的数据对于弱分类器的构建不一定有效.鉴于此,提出一种基于C4.5算法的混合采样算法.该算法以C4.5算法为迭代采样的评价准则控制过采样和欠采样的迭代过程,同时依据数据的不平衡比动态更新过采样的采样倍率,最终以投票机制组合多个弱分类器预测结果.通过在9组UCI数据集上的对比实验,表明所提出算法的有效性,同时算法也在稽留流产数据上实现了准确的预测.  相似文献   

16.
异常数据识别对于煤矿安全监测系统具有重要作用,但安全监测系统中异常数据一般只占数据总量的1%左右,不平衡性是此类数据的固有特点。目前多数机器学习算法在不平衡数据集上的分类预测准确率和灵敏度都相对较差。为了能准确识别异常数据,以煤矿分布式光纤竖井变形监测系统采集的数据为研究对象,提出了一种面向不平衡数据集、基于去重复下采样(RDU)、合成少数类过采样技术(SMOTE)和随机森林(RF)分类算法的煤矿监测系统异常数据识别方法。该方法利用RDU算法对多数类数据进行下采样,去除重复样本;利用SMOTE算法对少数类异常数据进行过采样,通过合成新的异常数据来改善数据集的不平衡性;并利用优化后的数据集训练RF分类算法,得到异常数据识别模型。在6个真实数据集上的对比实验结果表明,该方法的异常数据识别准确率平均值达到99.3%,具有较好的泛化性和较强的鲁棒性。  相似文献   

17.
半监督学习在不平衡样本集分类中的应用研究   总被引:2,自引:1,他引:1  
在对不平衡样本集进行分类时容易产生少数类样误差大的问题,而目前半监督学习中的算法多数是针对未有明显此类特征的数据集。针对一种半监督协同分类算法在该问题上的有效性进行了研究。由于进一步增强了分类器差异性,该算法在理论上对不平衡样本集具有良好的分类性能。根据该算法建立分类模型,利用其对桥梁结构健康数据进行分类实验,与Tri-Training算法的结果比较表明,该算法对不平衡样本集具有良好的适用性,从而验证了上述算法的有效性。  相似文献   

18.
由于煤矿井下环境的复杂性及动态变化性,导致监测煤矿环境中有害气体浓度及准确率难度大大增加。针对传统的传感器监测煤矿井下环境存在采集数据形式单一、可靠性低、误差大等缺点,结合计算机技术与无线传感技术提出了一种对多种异质气体源进行采样,然后利用提出的强分类算法进行优化筛选,筛选出气体浓度前后变化大的几组数据,再进行深度融合的安全监测方法。通过实验验证该方法能够明显地提高矿井监测系统的可靠性。  相似文献   

19.
非侵入式负荷监测(Non-intrusive Load Monitoring, NILM)通过分析电力总回路的电气信息得到回路中各电器的运行数据,为用户的节能优化和电网的优化调度提供依据。现有NILM方法主要将研究重点放在提高负荷识别准确度上,模型复杂度高,难以在嵌入式设备上应用。针对上述问题,提出一种基于改进kNN算法与暂稳态特征的NILM方法。首先选择无需训练的kNN算法作为负荷识别模型,采用距离权重统计方法对kNN算法进行改进,并增加余弦相似度判断机制检验kNN算法负荷识别结果准确性;然后选择暂态特征和稳态特征作为负荷特征以提高负荷特征辨识度;最后利用实验采集数据进行验证,上述NILM方法具有良好的性能。  相似文献   

20.
基于蚁群优化分类规则挖掘的遥感图像分类研究   总被引:1,自引:1,他引:0  
蚁群优化算法作为群智能理论的主要算法之一,已经成功应用在众多研究领域的优化问题上,但是在遥感数据处理领域还是一个新的研究课题。蚁群优化具有自组织、合作、通信等智能化优点,对数据无需统计分布参数的先验知识,因此在遥感数据处理领域具有很大的潜在优势。介绍了将蚁群优化分类规则挖掘算法应用到遥感图像分类研究领域的理论与算法流程。并采用北京地区的CBERS遥感数据作为实验数据,通过蚁群优化算法构造分类规则,对选择的遥感数据进行了分类实验,并和最大似然分类方法进行对比,实验结果表明,蚁群优化分类规则挖掘算法为遥感图像的分类提供了一种新方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号