共查询到18条相似文献,搜索用时 62 毫秒
1.
2.
现有的集成技术大多使用经过训练的各个分类器来组成集成系统,集成系统的庞大导致产生额外的内存开销和计算时间.为了提高集成分类模型的泛化能力和效率,在粗糙集属性约简的研究基础上,提出了一种基于属性约简的自采样集成分类方法.该方法将蚁群优化和属性约简相结合的策略应用在原始特征集上,进而得到多个最优的特征约简子空间,以任意一个... 相似文献
3.
4.
针对经典粗糙集中属性约简的不足,进一步拓展粗糙集属性约简的应用。提出了一种粗糙集属性近似约简的概念和一种新的粗糙集属性重要性的定义并给出和证明了属性近似约简的性质,理论证明了近似属性约简是传统属性约简的一种推广。在保持知识库分类能力基本不变的条件下,利用所给属性重要性作为启发信息给出了粗糙集属性近似约简的算法。通过一个具体的例子,说明了近似属性约简在信息系统中处理模糊和不确定性知识的可行性和有效性。 相似文献
5.
基于近似决策熵的属性约简 总被引:3,自引:0,他引:3
粗糙集理论已被证明是一种有效的属性约简方法. 目前有许多启发式属性约简算法已被提出, 其中基于信息熵的属性约简算法受到了广泛的关注. 为此, 针对现有的基于信息熵的属性约简算法问题, 定义一种新的信息熵模型—–近似决策熵, 并提出一种基于近似决策熵的属性约简(ADEAR) 算法. 通过在多个UCI 数据集上的实验表明, 与现有算法相比, ADEAR算法能够获得较小的约简和较高的分类精度, 具有相对较低的计算开销. 相似文献
6.
基于近似精度递归计算的一个属性约简算法 总被引:7,自引:0,他引:7
叶东毅 《小型微型计算机系统》2003,24(12):2272-2274
首先分析粗糙集中不同正区域之间的关系,在此基础上推导出近似精度计算的一个简洁的递归公式。在Jelonek属性约简算法的基础上,应用上述递归公式和独立性条件判别策略设计了一个改进的属性约简算法,与原算法相比,不仅在算法速度提高方面取得了明显的效果,而且保证了约简算法的正确性。 相似文献
7.
通过对重采样技术和属性约简方法进行研究,提出一种多模态选择性集成学习算法SE_RSAR.采用重采样方法扰乱样本空间,采用一种基于相对决策熵的属性约简方法扰乱特征空间,通过这种多模态的扰乱策略增加个体分类器之间的差异性.实验在多个UCI数据集上完成,KNN算法被用来训练个体分类器.实验结果表明,相对现有的集成学习算法,S... 相似文献
8.
9.
10.
11.
数据流挖掘是当前数据挖掘研究的一个热点,概念漂移检测是数据流挖掘的一个重要研究方向.虽然有不少概念漂移的探测方法,但是它们都有一些共同的缺陷:没有整体上删除冗余属性以及利用外部属性去探测概念漂移(比如利用对外部数据的分类准确率)等.利用粗糙集和F-粗糙集的基本原理和基本方法,把数据流中的滑动窗口当成决策子表簇,提出了一种对数据流进行并行约简、整体删除冗余属性的方法,并运用并行约简后数据流决策子表簇中属性重要性的变化探测概念漂移现象.与传统的方法不同,新方法利用数据的内部特性对概念漂移进行探测.实验结果显示,该方法能够有效地整体删除冗余属性、探测概念漂移现象,并且基于互信息的属性重要性在概念漂移探测效果方面比基于正区域的属性重要性要好些. 相似文献
12.
选择性集成是当前机器学习领域的研究热点之一。由于选择性集成属于NP"难"问题,人们多利用启发式方法将选择性集成转化为其他问题来求得近似最优解,因为各种算法的出发点和描述角度各不相同,现有的大量选择性集成算法显得繁杂而没有规律。为便于研究人员迅速了解和应用本领域的最新进展,本文根据选择过程中核心策略的特征将选择性集成算法分为四类,即迭代优化法、排名法、分簇法、模式挖掘法;然后利用UCI数据库的20个常用数据集,从预测性能、选择时间、结果集成分类器大小三个方面对这些典型算法进行了实验比较;最后总结了各类方法的优缺点,并展望了选择性集成的未来研究重点。 相似文献
13.
14.
传统的属性约简由于其时间复杂度和空间复杂度过高,几乎无法应用到大规模的数据集中.将随机抽样引入传统的模糊粗糙集中,使得属性约简的效率大幅度提升.首先,在统计下近似的基础上提出一种统计属性约简的定义.这里的约简不是原有意义上的约简,而是保持基于统计下近似定义的统计辨识度不变的属性子集.然后,采用抽样的方法计算统计辨识度的样本估计值,基于此估计值可以对统计属性重要性进行排序,从而可以设计一种快速的适用于大规模数据的序约简算法.由于随机抽样集以及统计近似概念的引入,该算法从时间和空间上均降低了约简的计算复杂度,同时又保持了数据集中信息含量几乎不变.最后,数值实验将基于随机抽样的序约简算法和两种传统的属性约简算法从以下3个方面进行了对比:计算属性约简时间消耗、计算属性约简空间消耗、约简效果.对比实验验证了基于随机抽样的序约简算法在时间与空间上的优势. 相似文献
15.
基于粗糙集约简的特征选择神经网络集成技术 总被引:1,自引:0,他引:1
为了提升集成网络的泛化性能,在Boosting或Bagging算法对样本进行扰动的基础上,通过粗糙集约简实现特征属性选择,将样本扰动和输入属性扰动结合起来,提出了Rough_Boosting和Rough_Bagging算法.该算法通过生成精确度高且差异度大的个体网络,提高了集成的泛化能力.实验结果表明,该算法泛化能力明显优于Boosting和Bagging算法,且生成的个体网络差异度更大,与同类算法相比,具有相近或相当的性能. 相似文献
16.
基于FP-Tree 的快速选择性集成算法 总被引:2,自引:1,他引:2
选择性集成通过选择部分基分类器参与集成,从而提高集成分类器的泛化能力,降低预测开销.但已有的选择性集成算法普遍耗时较长,将数据挖掘的技术应用于选择性集成,提出一种基于FP-Tree(frequent pattern tree)的快速选择性集成算法:CPM-EP(coverage based pattern mining for ensemble pruning).该算法将基分类器对校验样本集的分类结果组织成一个事务数据库,从而使选择性集成问题可转化为对事务数据集的处理问题.针对所有可能的集成分类器大小,CPM-EP算法首先得到一个精简的事务数据库,并创建一棵FP-Tree树保存其内容;然后,基于该FP-Tree获得相应大小的集成分类器.在获得的所有集成分类器中,对校验样本集预测精度最高的集成分类器即为算法的输出.实验结果表明,CPM-EP算法以很低的计算开销获得优越的泛化能力,其分类器选择时间约为GASEN的1/19以及Forward-Selection的1/8,其泛化能力显著优于参与比较的其他方法,而且产生的集成分类器具有较少的基分类器. 相似文献
17.
粗糙集理论的概念性框架之一就是利用不可分辨关系和布尔推理作为数据约简和获取决策规则的基础.在分辨矩阵和决策矩阵概念的基础上,提出将约简分为4类,即信息表的对象约简、信息表的全局约简、决策表的对象约简和决策表的全局约简,其中决策表的对象约简对应决策规则.从模式的角度对约简和决策规则进行了分析,利用决策矩阵和决策函数,给出了获取最小决策规则的一种算法,上述结论可以作为设计启发式算法的基础,并用例子对结论进行了说明. 相似文献
18.
主要目的是寻找到一种Bagging的快速修剪方法,以缩小算法占用的存储空间、提高运算的速度和实现提高分类精度的潜力.传统的选择性集成方法研究的重点是基学习器之间的差异化,从同质化的角度采研究这一问题,提出了一种全新的选择性集成思路.通过选择基学习器集合中的最差者来对Bagging集成进行快速层次修剪,获得了一种学习速度接近Bagging性能在其基础上得到提高的新算法.新算法的训练时间明显小于GASEN而性能与其相近.该算法同时还保留了与Bagging相同的并行处理能力. 相似文献