首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
An introduction to the approaches used to discretise continuous database features is given, together with a discussion of the potential benefits of such techniques. These benefits are investigated by applying discretisation algorithms to two large commercial databases; the discretisations yielded are then evaluated using a simulated annealing based data mining algorithm. The results produced suggest that dramatic reductions in problem size may be achieved, yielding improvements in the speed of the data mining algorithm. However, it is also demonstrated under certain circumstances that the discretisation produced may give an increase in problem size or allow overfitting by the data mining algorithm. Such cases, within which often only a small proportion of the database belongs to the class of interest, highlight the need both for caution when producing discretisations and for the development of more robust discretisation algorithms.  相似文献   

2.
基于遗传算法和模拟退火算法的特征选择方法   总被引:9,自引:0,他引:9  
针对模式识别时原始特征数量大而有冗余的现象,提出了一种基于遗传退火算法的特征选优方法。首先对遗传算法和模拟退火做了简要评论,然后在遗传算法中引入模拟退火的Boltzmann更新机制,以克服传统的遗传算法易于过早收敛和易于陷入局部极小的问题。最后阐述、设计了适应度函数和遗传算子。仿真实验表明,该方法在求解的效率和解的质量方面都达到了令人满意的效果。  相似文献   

3.
基于扩张矩阵的渐进式特征子集选择算法   总被引:2,自引:0,他引:2  
特征子集选择问题一直是人工智能领域研究的重要内容,特别是近几年来,特征子集选择的算法研究已经成为机器学习和数据挖掘等领域的一个研究热点。该文在扩张矩阵的基础上提出了类扩张矩阵的概念,并将加权的期望信息和不一致错误率函数应用于特征子集的选择,实现了具有噪音处理功能的渐进式特征子集选择算法———IFSS_EM,实际领域的实验结果表明:IFSS_EM算法具有运行效率高、选择特征较具有代表性的优点,从而使其能够较好地应用于实际领域。  相似文献   

4.
基于粒子群优化算法和相关性分析的特征子集选择   总被引:3,自引:0,他引:3  
特征选择是模式识别与数据挖掘等领域的重要问题之一.针对此问题,提出了基于离散粒子群和相关性分析的特征子集选择算法,算法中采用过滤模式的特征选择方法,通过分析网络入侵数据中所有特征之间的相关性,利用离散粒子群算法在所有特征的空间里优化搜索,自动选择有效的特征子集以降低数据维度.1999 KDD Cup Data中IDS数据集的实验结果表明了提出算法的有效性.  相似文献   

5.
特征选择已经成为入侵检测的一个很重要的问题,它通过求解出有用的特征子集,去除冗余特征,来达到提高分类精度和效率的目的。提出了一种基于遗传模拟退火算法的特征选择算法,以基本遗传算法为基础,将遗传操作和模拟退火操作相结合,克服了一般遗传算法的不足,有效避免陷入局部最优并最终趋于全局优化,在入侵检测的标准数据集-KDD1999上的模拟实验证明:遗传模拟退火特征选择算法能够加快特征选择的速度;并且与当前典型的特征选择算法相比,具有更好的检测率。  相似文献   

6.
KDD中的特征选择   总被引:1,自引:0,他引:1  
随着数据库、数据仓库技术的发展,各种数据处理和分析工具不断出现,数据库中的知识发现(简称KDD)就是现在受到研究人员和软件开发商广泛关注的一种数据分析方法。文章主要针对KDD的数据预处理阶段的一类重要问题———分类问题,描述了特征选择的概念,分析了它在KDD中应用的重要性和必要性,并针对KDD的特点介绍现有的特征选择的各种方法并进行归纳,为下一步的研究和开发提供一个有益的框架。  相似文献   

7.
徐海涛  郑宁 《计算机工程与应用》2005,41(22):190-193,204
实体化视图选择问题是NP完全问题,我们通过研究和实验,提出了一种将模拟退火算法应用到实体化视图的动态选择中的方法。在定义了算法的状态、初始状态、目标函数及转换规则之后,深入讨论了模拟退火算法的参数选择对算法解的影响。最后的实验结果表明,模拟退火算法完全可以应用到实体化视图的动态选择中。  相似文献   

8.
基于信息熵的特征子集选择启发式算法的研究   总被引:2,自引:0,他引:2  
特征子集选择问题是机器学习和模式识别中的一个重要问题,最优特征子集选择问题已被证明是NP难题。然而,目前的特征子集选择的启发式算法是基于正反例一致的,没有考虑到实际应用中的噪音数据影响,使得选择一个较好的特征子集非常困难,首先从统计学的角度分析了噪音对特征子集选择的影响,给出了含有错误率的一致特征子集概念,然后利用信息熵和拉普拉斯错误估计函数构造了特征子集选择启发式算法EFS。  相似文献   

9.
Ji Rong  Li 《通讯和计算机》2013,(5):720-723
Optimal fuzzy-valued feature subset selection is a technique for fuzzy-valued feature subset selection. By viewing the imprecise feature values as fuzzy sets, the information it contains would not be lost compared with the traditional methods. The performance of classification depends directly on the quality of training corpus. In practical applications, noise examples are unavoidable in the training corpus and thus influence the effect of the classification approach. This paper presents an algorithm for eliminating the class noise based on the analysis of the representative class information of the examples. The representative class information can be acquired by mining the most classification ambiguity of feature values. The proposed algorithm is applied to fuzzy decision tree induction. The experimental results show that the algorithm can effectively reduce the introduction of noise examples and raise the accuracy of classification on the data sets with a high noise ratio.  相似文献   

10.
11.
属性选择是提高分类器性能的一种有效的方法.然而已有的属性选择算法要么假设数据无噪声,要么没有考虑属性间的交互作用,不能用于数据集中既有噪声又存在属性交互作用的情况.提出一种基于信息熵的属性选择算法,该算法用条件熵来评价属性子集对目标概念的描述能力,利用后向删除搜索策略进行属性选择.同时,根据不一致实例和关联规则中提升度的概念,给出噪声数据的定义和识别方法.该算法和典型的属性选择算法在10个UCI标准数据集上的对比实验结果表明,提出的算法在减少属性数量的同时将C4.5和NaiveBayes的平均分类精度分别提高了2.77%和3.42%.  相似文献   

12.
隐马尔可夫模型训练算法是一种局部搜索算法,对初值敏感。传统方法采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于Web挖掘效果不佳。遗传算法具有较强的全局搜索能力,但容易早熟、收敛慢,模拟退火算法具有较强的局部寻优能力,但会随机漫游,全局搜索能力欠缺。综合考虑遗传算法和模拟退火算法的特点,提出混合模拟退火-遗传算法SGA,优化HMM初始参数,弥补Baum-Welch算法对初始参数敏感的缺陷,Web挖掘的实验结果表明五个域提取的REC和PRE都有明显的提高。  相似文献   

13.
基于模拟退火算法和最近邻分类器识别率的特征选择方法   总被引:2,自引:0,他引:2  
为了提高分类器的识别率,提出一种基于模拟退火算法和最近邻类器识别率的特征选择方法。该方法采用特征度量中的准确性度量(分类器识别率),能直接评价特征组合的优劣,并结合改进的模拟退火算法使用,能确保收敛到近似全局最优解。仿真试验表明,该方法所求解的质量优于传统特征选择方法,并且有很强的噪声容忍性,有一定的工程实用价值。  相似文献   

14.
针对SQL数据挖掘在复杂动力学系统故障诊断中的模式分类问题,以决策树参数优化为例,开展SQL数据挖掘分类算法参数优化研究。目前数据挖掘中的各类算法参数往往根据经验值设定,预测精度不高;只用遗传算法进行参数优化,分类预测结果容易发生振荡和早熟现象。采用改进的退火遗传算法对SQL数据挖掘中的决策树算法参数进行优化,解决了人工经验设置参数效率低下、精度不高的问题,同时实现了全局搜索,快速收敛到全局最优解。  相似文献   

15.
A Formalism for Relevance and Its Application in Feature Subset Selection   总被引:7,自引:0,他引:7  
Bell  David A.  Wang  Hui 《Machine Learning》2000,41(2):175-195
The notion of relevance is used in many technical fields. In the areas of machine learning and data mining, for example, relevance is frequently used as a measure in feature subset selection (FSS). In previous studies, the interpretation of relevance has varied and its connection to FSS has been loose. In this paper a rigorous mathematical formalism is proposed for relevance, which is quantitative and normalized. To apply the formalism in FSS, a characterization is proposed for FSS: preservation of learning information and minimization of joint entropy. Based on the characterization, a tight connection between relevance and FSS is established: maximizing the relevance of features to the decision attribute, and the relevance of the decision attribute to the features. This connection is then used to design an algorithm for FSS. The algorithm is linear in the number of instances and quadratic in the number of features. The algorithm is evaluated using 23 public datasets, resulting in an improvement in prediction accuracy on 16 datasets, and a loss in accuracy on only 1 dataset. This provides evidence that both the formalism and its connection to FSS are sound.  相似文献   

16.
副本管理是提高网格性能、降低客户端延迟的有效手段。针对副本部署策略问题,提出基于模拟退火算法的副本部署策略,给出优化模型及算法。OptorSim的仿真结果表明,该策略可减少作业对文件请求的响应时间,提高系统的整体性能。目前该策略已在大庆油田海量数据中心副本部署中得到成功应用。  相似文献   

17.
首先给出求解决策表核属性集的算法,然后采用动态调节近邻子集的方法改进模拟退火遗传算法,应用于求解决策表的最小属性约简。该约简算法利用核属性集优化初始种群,并采用自适应方式动态选取交叉和变异概率,有效地抑制了早熟收敛现象,提高了算法在解空间中的探索能力和效率。实验结果显示该算法能有效求解决策表最小属性约简问题。  相似文献   

18.
针对在数据挖掘过程中存在的维度灾难和特征冗余问题,本文在传统特征选择方法的基础上结合强化学习中Q学习方法,提出基于强化学习的特征选择算法,智能体Agent通过训练学习后自主决策得到特征子集.实验结果表明,本文提出的算法能有效的减少特征数量并有较高的分类性能.  相似文献   

19.
在高密集多回波环境下,数据关联问题仍是多机动目标跟踪难点问题之一。为了提高跟踪的精度和可靠性,应用智能的优化算法将数据关联问题表达为一类函数求近似最优解的问题。模拟退火粒子群算法是对模拟退火算法和粒子群算法取长补短,相互结合的一种优化算法。仿真结果表明,模拟退火粒子群算法能有效的解决数据关联问题,并且明显的优于独立地使用模拟退火和粒子群算法。  相似文献   

20.
合理的配送路线可以提高物流配送的效率。针对标准模拟退火算法串行优化单个解,优化过程较长、效率较低的弱点,提出一种基于多线程模拟退火的并行机制。该机制通过将单个解的串行优化转化为多个串行解同时进行的并行的进行搜索、优化,来提高算法的整体优化效率。利用该算法求解配送路线的选择问题能够显著提高优化效率,计算结果表明该算法是有效的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号