共查询到20条相似文献,搜索用时 0 毫秒
1.
An introduction to the approaches used to discretise continuous database features is given, together with a discussion of the potential benefits of such techniques. These benefits are investigated by applying discretisation algorithms to two large commercial databases; the discretisations yielded are then evaluated using a simulated annealing based data mining algorithm. The results produced suggest that dramatic reductions in problem size may be achieved, yielding improvements in the speed of the data mining algorithm. However, it is also demonstrated under certain circumstances that the discretisation produced may give an increase in problem size or allow overfitting by the data mining algorithm. Such cases, within which often only a small proportion of the database belongs to the class of interest, highlight the need both for caution when producing discretisations and for the development of more robust discretisation algorithms. 相似文献
2.
3.
基于扩张矩阵的渐进式特征子集选择算法 总被引:2,自引:0,他引:2
特征子集选择问题一直是人工智能领域研究的重要内容,特别是近几年来,特征子集选择的算法研究已经成为机器学习和数据挖掘等领域的一个研究热点。该文在扩张矩阵的基础上提出了类扩张矩阵的概念,并将加权的期望信息和不一致错误率函数应用于特征子集的选择,实现了具有噪音处理功能的渐进式特征子集选择算法———IFSS_EM,实际领域的实验结果表明:IFSS_EM算法具有运行效率高、选择特征较具有代表性的优点,从而使其能够较好地应用于实际领域。 相似文献
4.
5.
特征选择已经成为入侵检测的一个很重要的问题,它通过求解出有用的特征子集,去除冗余特征,来达到提高分类精度和效率的目的。提出了一种基于遗传模拟退火算法的特征选择算法,以基本遗传算法为基础,将遗传操作和模拟退火操作相结合,克服了一般遗传算法的不足,有效避免陷入局部最优并最终趋于全局优化,在入侵检测的标准数据集-KDD1999上的模拟实验证明:遗传模拟退火特征选择算法能够加快特征选择的速度;并且与当前典型的特征选择算法相比,具有更好的检测率。 相似文献
6.
7.
实体化视图选择问题是NP完全问题,我们通过研究和实验,提出了一种将模拟退火算法应用到实体化视图的动态选择中的方法。在定义了算法的状态、初始状态、目标函数及转换规则之后,深入讨论了模拟退火算法的参数选择对算法解的影响。最后的实验结果表明,模拟退火算法完全可以应用到实体化视图的动态选择中。 相似文献
8.
9.
Optimal fuzzy-valued feature subset selection is a technique for fuzzy-valued feature subset selection. By viewing the imprecise feature values as fuzzy sets, the information it contains would not be lost compared with the traditional methods. The performance of classification depends directly on the quality of training corpus. In practical applications, noise examples are unavoidable in the training corpus and thus influence the effect of the classification approach. This paper presents an algorithm for eliminating the class noise based on the analysis of the representative class information of the examples. The representative class information can be acquired by mining the most classification ambiguity of feature values. The proposed algorithm is applied to fuzzy decision tree induction. The experimental results show that the algorithm can effectively reduce the introduction of noise examples and raise the accuracy of classification on the data sets with a high noise ratio. 相似文献
10.
11.
属性选择是提高分类器性能的一种有效的方法.然而已有的属性选择算法要么假设数据无噪声,要么没有考虑属性间的交互作用,不能用于数据集中既有噪声又存在属性交互作用的情况.提出一种基于信息熵的属性选择算法,该算法用条件熵来评价属性子集对目标概念的描述能力,利用后向删除搜索策略进行属性选择.同时,根据不一致实例和关联规则中提升度的概念,给出噪声数据的定义和识别方法.该算法和典型的属性选择算法在10个UCI标准数据集上的对比实验结果表明,提出的算法在减少属性数量的同时将C4.5和NaiveBayes的平均分类精度分别提高了2.77%和3.42%. 相似文献
12.
隐马尔可夫模型训练算法是一种局部搜索算法,对初值敏感。传统方法采用随机参数训练隐马尔可夫模型时常陷入局部最优,应用于Web挖掘效果不佳。遗传算法具有较强的全局搜索能力,但容易早熟、收敛慢,模拟退火算法具有较强的局部寻优能力,但会随机漫游,全局搜索能力欠缺。综合考虑遗传算法和模拟退火算法的特点,提出混合模拟退火-遗传算法SGA,优化HMM初始参数,弥补Baum-Welch算法对初始参数敏感的缺陷,Web挖掘的实验结果表明五个域提取的REC和PRE都有明显的提高。 相似文献
13.
基于模拟退火算法和最近邻分类器识别率的特征选择方法 总被引:2,自引:0,他引:2
为了提高分类器的识别率,提出一种基于模拟退火算法和最近邻类器识别率的特征选择方法。该方法采用特征度量中的准确性度量(分类器识别率),能直接评价特征组合的优劣,并结合改进的模拟退火算法使用,能确保收敛到近似全局最优解。仿真试验表明,该方法所求解的质量优于传统特征选择方法,并且有很强的噪声容忍性,有一定的工程实用价值。 相似文献
14.
针对SQL数据挖掘在复杂动力学系统故障诊断中的模式分类问题,以决策树参数优化为例,开展SQL数据挖掘分类算法参数优化研究。目前数据挖掘中的各类算法参数往往根据经验值设定,预测精度不高;只用遗传算法进行参数优化,分类预测结果容易发生振荡和早熟现象。采用改进的退火遗传算法对SQL数据挖掘中的决策树算法参数进行优化,解决了人工经验设置参数效率低下、精度不高的问题,同时实现了全局搜索,快速收敛到全局最优解。 相似文献
15.
The notion of relevance is used in many technical fields. In the areas of machine learning and data mining, for example, relevance is frequently used as a measure in feature subset selection (FSS). In previous studies, the interpretation of relevance has varied and its connection to FSS has been loose. In this paper a rigorous mathematical formalism is proposed for relevance, which is quantitative and normalized. To apply the formalism in FSS, a characterization is proposed for FSS: preservation of learning information and minimization of joint entropy. Based on the characterization, a tight connection between relevance and FSS is established: maximizing the relevance of features to the decision attribute, and the relevance of the decision attribute to the features. This connection is then used to design an algorithm for FSS. The algorithm is linear in the number of instances and quadratic in the number of features. The algorithm is evaluated using 23 public datasets, resulting in an improvement in prediction accuracy on 16 datasets, and a loss in accuracy on only 1 dataset. This provides evidence that both the formalism and its connection to FSS are sound. 相似文献
16.
17.
首先给出求解决策表核属性集的算法,然后采用动态调节近邻子集的方法改进模拟退火遗传算法,应用于求解决策表的最小属性约简。该约简算法利用核属性集优化初始种群,并采用自适应方式动态选取交叉和变异概率,有效地抑制了早熟收敛现象,提高了算法在解空间中的探索能力和效率。实验结果显示该算法能有效求解决策表最小属性约简问题。 相似文献
18.
19.
20.
陈活 《数字社区&智能家居》2009,(14)
合理的配送路线可以提高物流配送的效率。针对标准模拟退火算法串行优化单个解,优化过程较长、效率较低的弱点,提出一种基于多线程模拟退火的并行机制。该机制通过将单个解的串行优化转化为多个串行解同时进行的并行的进行搜索、优化,来提高算法的整体优化效率。利用该算法求解配送路线的选择问题能够显著提高优化效率,计算结果表明该算法是有效的。 相似文献