首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 15 毫秒
1.
黄云  洪佳明  覃遵跃 《计算机工程》2012,38(19):167-169,174
代表点选择是实现缩减数据集规模的有效途径,可以提高分类的准确率和执行效率.为此,通过引入分类置信度熵的概念,提出适应度评价函数,用于评估代表点的选择效果,以此找到最优的代表点集.该方法可与其他代表点选择方法结合,得到性能更优的代表点选择方法.与多个经典代表点选择方法进行实验比较,结果表明基于置信度的代表点选择方法在分类准确率和数据降低率上有一定优势.  相似文献   

2.
徐峥  炎士涛 《微计算机信息》2006,22(31):313-314
遗传算法作为一种模仿生物自然进化过程的随机优化算法,其群体规模对算法的性能影响很大,群体规模越大,越有利于提高算法的寻优能力,但随着群体规模增大,计算量也显著增加。该文在传统自适应遗传算法整个进化过程中,分阶段对一些适应度较差的父个体进行更新,增大了搜索空间,提高了算法的寻优能力且未增加群体规模。仿真实验表明,与传统自适应遗传算法相比,该算法能显著提高解的质量和鲁棒性。  相似文献   

3.
本文在以往研究工作的基础上,对遗传分类算法进行了改进。算法在种群中引入家族概念,采用族间交叉算子对算法进行综合调控,对族内交叉操作进行微调,针对分类问题的特点采用相应的编码方式和适应度函数。实验结果表明了分类算法的有效性。  相似文献   

4.
在开放环境下,数据流具有数据高速生成、数据量无限和概念漂移等特性.在数据流分类任务中,利用人工标注产生大量训练数据的方式昂贵且不切实际.包含少量有标记样本和大量无标记样本且还带概念漂移的数据流给机器学习带来了极大挑战.然而,现有研究主要关注有监督的数据流分类,针对带概念漂移的数据流的半监督分类的研究尚未引起足够的重视....  相似文献   

5.
《Neurocomputing》1999,24(1-3):37-54
This paper presents some highlights in the application of neural networks, fuzzy logic, genetic algorithms, and rough sets to automated knowledge acquisition. These techniques are capable of dealing with inexact and imprecise problem domains and have been demonstrated to be useful in the solution of classification problems. It addresses the issue of the application of appropriate evaluation criteria such as rule base accuracy and comprehensibility for new knowledge acquisition techniques. An empirical study is then described in which three approaches to knowledge acquisition are investigated. The first approach combines neural networks and fuzzy logic, the second, genetic algorithms and fuzzy logic, and in the third a rough sets approach has been examined, and compared. In this study neural network and genetic algorithm fuzzy rule induction systems have been developed and applied to three classification problems. Rule induction software based on rough sets theory was also used to generate and test rule bases for the same data. A comparison of these approaches with the C4.5 inductive algorithm was also carried out. Our research to date indicates that, based on the evaluation criteria used, the genetic/fuzzy approach compares more than favourably with the neuro/fuzzy and rough set approaches. On the data sets used the genetic algorithm system displays a higher accuracy of classification and rule base comprehensibility than the C4.5 inductive algorithm.  相似文献   

6.
基于可行域的遗传约简算法   总被引:8,自引:0,他引:8  
在已有的遗传属性约简算法的基础上,通过引入约简的可行域概念,提出了基于可行域的遗传约简算法.可行域保持系统的分类能力,缩小了原问题的搜索空间,进而减小了问题的复杂度.适应度函数中引入与互信息相关的惩罚因子保证了算法在可行域中搜索.实验结果表明谊算法既克服了启发性算法的缺陷,较之已有的基于遗传算法的约简算法也有效率改进.  相似文献   

7.
代表点选择是面向数据挖掘与模式识别的数据预处理的重要内容之一,是提高分类器分类正确率和执行效率的重要途径。提出了一种基于投票机制的代表点选择算法,该算法能使所得到的代表点尽可能分布在类别边界上,且投票选择机制易于排除异常点,减少数据量,从而有利于提高最近邻分类器的分类精度和效率。通过与多个经典的代表点选择算法的实验比较分析,表明所提出的基于投票机制的代表点选择算法在提高最近邻分类器分类精度和数据降低率上都具有一定的优势。  相似文献   

8.
徐树良  王俊红 《计算机科学》2016,43(12):173-178
数据流挖掘已经成为数据挖掘领域一个热门的研究方向,由于数据流中概念漂移现象的存在,使得传统的分类算法无法直接应用于数据流中。为了能有效地应对数据流中的概念漂移,提出了一种基于Kappa系数的数据流分类算法。该算法采用集成式分类技术,以Kappa系数度量系统的分类性能,根据Kappa系数来动态地调整分类器,当发生概念漂移时,系统能利用已有的知识很快删除不符合要求的分类器来适应新概念。实验结果表明,相对于实验中参与比较的BWE,AE和AWE算法,该算法不但具有较好的分类性能,而且在一定程度上能较为有效地降低时间开销。  相似文献   

9.
针对二类支持向量机分类器在隐秘图像检测中训练步骤复杂与推广性弱的缺点,提出了一种新的基于遗传算法和一类支持向量机的隐秘图像检测方案。采用遗传算法进行图像特征选择,一类支持向量机作为分类器。实验结果表明,与只利用一类支持向量机分类,但未进行特征选择的隐秘检测方法相比,提高了隐秘图像检测的识别率和系统检测效率。  相似文献   

10.
谭喆  胡学钢 《计算机应用》2009,29(5):1409-1411
现有的概念格并行/分布式构造算法在处理较大规模数据时,需要搜索大量不相关概念,降低了算法性能。为此,提出了一种基于索引的概念格分布式构造方法——LCBI,插入新概念时先利用索引快速找出新概念的极大相关概念,再对所有极大相关概念的子概念进行自顶向下地并行搜索以找出它们的交叉子概念,从而减少了搜索范围。理论分析和实验表明,在处理大规模稠密数据时,LCBI比其他分布式算法具有较明显的优势。  相似文献   

11.
遗传算法的粗糙集理论在文本降维上的应用   总被引:1,自引:0,他引:1  
遗传算法作为一种有效的全局并行优化搜索工具,早被众多应用领域所接受。根据问题提出了相应的适应度函数,针对遗传算法和粗糙集理论两种方法各自的特点,将两种算法适当结合。还把结合后的方法和单一的粗糙集算法在文本分类效果上进行了对比。实验结果表明将遗传算法和粗糙集理论相结合的优化方法来应用到特征提取中,比单一的粗糙集算法,具有更好的降维效果,使得降维后的特征词更有利于文本数据的分类,大大优化了文本分类的效果。  相似文献   

12.
基于决策分类熵的决策树构造算法及应用   总被引:1,自引:0,他引:1  
董广  王兴起 《计算机应用》2009,29(11):3103-3106
为了更好地完成金融数据集上的分类挖掘任务,以粗糙集理论为基础提出决策分类熵的概念,进而以属性的决策分类熵为属性分裂度量提出基于决策分类熵的决策树构造算法,并针对过拟合问题提出一种抑制参数来实现树规模的良好控制。实例分析及金融数据集上的实验表明:相比经典的C4.5决策树算法,新算法能够较好地克服其缺点和不足,构建更优的决策树,能够更好地完成分类任务。  相似文献   

13.
Incremental learning has been used extensively for data stream classification. Most attention on the data stream classification paid on non-evolutionary methods. In this paper, we introduce new incremental learning algorithms based on harmony search. We first propose a new classification algorithm for the classification of batch data called harmony-based classifier and then give its incremental version for classification of data streams called incremental harmony-based classifier. Finally, we improve it to reduce its computational overhead in absence of drifts and increase its robustness in presence of noise. This improved version is called improved incremental harmony-based classifier. The proposed methods are evaluated on some real world and synthetic data sets. Experimental results show that the proposed batch classifier outperforms some batch classifiers and also the proposed incremental methods can effectively address the issues usually encountered in the data stream environments. Improved incremental harmony-based classifier has significantly better speed and accuracy on capturing concept drifts than the non-incremental harmony based method and its accuracy is comparable to non-evolutionary algorithms. The experimental results also show the robustness of improved incremental harmony-based classifier.  相似文献   

14.
Fuzzy rule induction in a set covering framework   总被引:1,自引:0,他引:1  
  相似文献   

15.
针对标准遗传算法的不稳定性、准确性低等问题,为了提高遗传分类算法的稳定性和准确性,基于贝叶斯算法的有关理论,提出一种新的遗传算法分类方法.将初始样本集随机的分成数量相等的几组,通过朴素贝叶斯算法从初始样本集中选出部分“区分度”比较高的样本作为新的样本集,通过改进的遗传算法对选出的新样本集进行处理,从而得到最优分类规则.通过两种算法的组合对数据分类时,使分类的稳定性和准确性得到了明显的改善.仿真实验结果表明,该算法有较高的稳定性和准确性.  相似文献   

16.
多尺度数据挖掘多应用于空间遥感图像数据,以图像的分辨率或者区域分割为依据进行尺度划分,然后在每个尺度层进行分析。近期,有不少学者将多尺度数据挖掘应用于一般数据集上,以等级理论、概念分层和包含度理论尺度划分等为尺度划分依据,研究不同尺度层的分布规律,进而发现有意义的事实,如多尺度关联规则以及多尺度聚类。但是在一般数据集下,很少将多尺度数据挖掘应用于分类算法领域。本文定义了广义分形插值理论的概念,打破了局限于迭代函数系统IFS(Iterative Function Systems)的缺憾,拓展了分形插值的应用;提出了基于广义分形插值理论的多尺度分类尺度下推算法MSCSDA(Multi-Scale Classification Scaling-Down Algorithm);仿真实验建立在4个UCI基准数据集和1个H省部分人口真实数据集上,并将MSCSDA与KNN、Decision Tree以及Libsvm算法进行对比分析;实验结果表明,MSCSDA算法在不同的数据集上,均优于其他算法。  相似文献   

17.
胡耀炜  段磊  李岭  韩超 《计算机应用》2018,38(2):427-432
针对现有的基于模式的序列分类算法对于生物序列存在分类精度不理想、模型训练时间长的问题,提出密度感知模式,并设计了基于密度感知模式的生物序列分类算法——BSC。首先,在生物序列中挖掘具有"密度感知"的频繁序列模式;然后,对挖掘出的频繁序列模式进行筛选、排序制定成分类规则;最后,通过分类规则对没有分类的序列进行分类预测。在4组真实生物序列中进行实验,分析了BSC算法参数对结果的影响并提供了推荐参数设置;同时分类结果表明,相比其他四种基于模式的分类算法,BSC算法在实验数据集上的准确率至少提高了2.03个百分点。结果表明,BSC算法有较高的生物序列分类精度和执行效率。  相似文献   

18.
数据流中的不平衡问题会严重影响算法的分类性能,其中概念漂移更是流数据挖掘研究领域的一个难点问题。为了提高此类问题下的分类性能,提出了一种新的基于Hellinger距离的不平衡漂移数据流Boosting分类BCA-HD算法。该算法创新性地采用实例级和分类器级的权重组合方式来动态更新分类器,以适应概念漂移的发生,在底层采用集成算法SMOTEBoost作为基分类器,该分类器内部使用重采样技术处理数据的不平衡。在16个突变型和渐变型的数据集上将所提算法与9种不同算法进行比较,实验结果表明,所提算法的G-mean和AUC的平均值和平均排名均为第1名。因此,该算法能更好地适应概念漂移和不平衡现象的同时发生,有助于提高分类性能。  相似文献   

19.
基于遗传算法的服务器端负载均衡系统的设计   总被引:4,自引:0,他引:4  
张维勇  张华忠  柳楠 《计算机工程》2005,31(20):121-123
在IP负载均衡的方式下,将并行分布式系统中广泛使用的遗传算法应用到服务器端负载均衡系统的设计中,并针对系统的实现对遗传算法作了适当改进,降低了服务器端请求的响应时间,提高了服务器端CPU的利用率,从而改善了系统性能。  相似文献   

20.
现有概念漂移处理算法在检测到概念漂移发生后,通常需要在新到概念上重新训练分类器,同时“遗忘”以往训练的分类器。在概念漂移发生初期,由于能够获取到的属于新到概念的样本较少,导致新建的分类器在短时间内无法得到充分训练,分类性能通常较差。进一步,现有的基于在线迁移学习的数据流分类算法仅能使用单个分类器的知识辅助新到概念进行学习,在历史概念与新到概念相似性较差时,分类模型的分类准确率不理想。针对以上问题,文中提出一种能够利用多个历史分类器知识的数据流分类算法——CMOL。CMOL算法采取分类器权重动态调节机制,根据分类器的权重对分类器池进行更新,使得分类器池能够尽可能地包含更多的概念。实验表明,相较于其他相关算法,CMOL算法能够在概念漂移发生时更快地适应新到概念,显示出更高的分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号