首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 62 毫秒
1.
基于范例推理的气象灾害预测领域,从气象数据库中提取出典型的源范例是首要的步骤,而获取高质量且无噪声干扰的气象范例,减少范例存储的时间和空间复杂度是其主要目标.提出了利用相似粗糙集进行气象范例提取的算法,通过简化相似天气的无向图,自动从原始天气数据中提取典型范例.该算法能较好的处理噪声的干扰,并能直接处理连续数值型属性,避免了复杂的属性离散化的计算.实验结果验证了算法的可行性和有效性.  相似文献   

2.
基于范例推理中的一种范例匹配方法模型   总被引:1,自引:0,他引:1  
传统的最近邻检索和匹配算法不一定能找到最优相似范例,本文提出了一种根据范例间数值型属性对应成比例的原则进行范例匹配的方法,它作为原算法的一个补充,为找到最优相似范例提供了一条有效途径.  相似文献   

3.
决策树模型是数据挖掘中最常用的一种方法,具有较好的分类预测能力,并能方便提取决策规则。基于相似性原理,以测试属性和决策属性的相似度作为启发规则构建决策树。提出了一种新的决策树生成算法。并在高校教师综合考评系统中采用了这种新算法,实验结果表明这种新的决策树生成算法预测精度较高,计算也比较简便。  相似文献   

4.
一种有效的用于范例提取的改进聚类算法   总被引:8,自引:0,他引:8  
针对传统范例提取算法随范例教增加而效率下降快的缺点,结合基于选择的CLARA聚类方法和NCL聚类算法的优点,给出了一种有效的无监督聚类学习算法.通过实验表明,该算法能在无监督下对范例进行准确归类,将它用于CBR的范例提取中,能大大地提高范例提取的速度和质量。  相似文献   

5.
一种基于概念相似度的数据分类方法   总被引:7,自引:0,他引:7  
依据数据属性间的相似信息,提出了一种分类方法.该方法将属性矢量化,属性作为m维空间的基本矢量,数据记录作为属性矢量的和.利用属性间先验的概念相似信息,给出了求取任意属性矢量对的相似距离算法,并将数据间相关度计算转换为属性矢量及其相互投影的公式,从而得到任意两条数据的相关度;利用相关度,提出了一种分类算法.用详实的实验证明了该算法的有效性.  相似文献   

6.
LEM2算法是一种有效的规则提取算法,但是效率有待提高.针对效率问题,文章对LEM2算法作了一些改进:在计算属性值对的同时获取单条件属性的确定规则,并且可以去掉某些冗余属性;定义了决策分配势矩阵作为启发信息,简化了LEM2算法内部的多重循环.最后给出了两种算法的复杂度分析和仿真对比试验,结果表明改进算法能获取更为简洁的规则,并能有效的提高算法的效率.  相似文献   

7.
一种多值属性多类标数据决策树算法   总被引:1,自引:0,他引:1  
目前处理多值属性多类标数据的算法有多值多类标分类器(MMC)和多值多类标决策树(MMDT).本文在研究前面两种算法的基础上提出新的相似度计算公式sim3,并通过改进MMDT基于一致性的评定方法,提出一种处理多值属性多类标数据的算法SCC_SP,综合考虑两个多类标集合的相似性和一致性,更有利于选择最佳分裂属性.通过对比实验证明,在相同的预测机制下,SCC_SP的预测准确度比MMDT高,能更好地处理多值属性多类标数据.  相似文献   

8.
针对数据集中无关的、干扰的属性会降低决策树算法性能的问题,提出了一个新的决策树算法,此算法根据对测试属性进行约简选择,提出以测试属性和决策属性的相似性作为决策树的启发规则来构建决策树,同时使用了分类阈值设定方法简化决策树的生成过程.实验证明,该算法运行效率和预测精度都优于传统的ID3算法.  相似文献   

9.
经典粗糙集对模糊决策表处理能力十分有限。把模糊集和经典粗糙集结合起来,对模糊决策表属性约简算法进行了研究。定义了新的相似度、相似类以及条件属性划分形成的相似类簇;给出了两个定理;提出了一个新的属性约简算法,并用实例进行了验证。  相似文献   

10.
一种基于属性重要性的启发式约简算法   总被引:2,自引:0,他引:2  
属性约简是知识发现中的关键问题之一.为了能够有效地获取决策表中条件属性集的最小相对约简,本文首先利用代数方法描述决策表中的属性的重要性,提出了限制正域的概念,得到了关于限制正域的若干结果,并据此提出一种改进的属性约简算法,即以属性核为起点并结合算子,通过向属性核不断添加重要程度最大的属性,并利用已求得的正区域和限制正域使处理数据的范围不断缩小从而减少求约简的时间. 该算法能够节省得到决策表的最小约简的时间并能得到所有相对约简.实例分析也验证了该算法的有效性.  相似文献   

11.
Density-based multiscale data condensation   总被引:10,自引:0,他引:10  
A problem gaining interest in pattern recognition applied to data mining is that of selecting a small representative subset from a very large data set. In this article, a nonparametric data reduction scheme is suggested. It attempts to represent the density underlying the data. The algorithm selects representative points in a multiscale fashion which is novel from existing density-based approaches. The accuracy of representation by the condensed set is measured in terms of the error in density estimates of the original and reduced sets. Experimental studies on several real life data sets show that the multiscale approach is superior to several related condensation methods both in terms of condensation ratio and estimation error. The condensed set obtained was also experimentally shown to be effective for some important data mining tasks like classification, clustering, and rule generation on large data sets. Moreover, it is empirically found that the algorithm is efficient in terms of sample complexity  相似文献   

12.
针对传统K近邻分类器在大规模数据集中存在时间和空间复杂度过高的问题,可采取原型选择的方法进行处理,即从原始数据集中挑选出代表原型(样例)进行K近邻分类而不降低其分类准确率.本文在CURE聚类算法的基础上,针对CURE的噪声点不易确定及代表点分散性差的特点,利用共享邻居密度度量给出了一种去噪方法和使用最大最小距离选取代表点进行改进,从而提出了一种新的原型选择算法PSCURE (improved prototype selection algorithm based on CURE algorithm).基于UCI数据集进行实验,结果表明:提出的PSCURE原型选择算法与相关原型算法相比,不仅能筛选出较少的原型,而且可获得较高的分类准确率.  相似文献   

13.
针对文本数据中含有大量噪声和冗余特征,为获取更有代表性的特征集合,提出了一种结合改进卡方统计(ICHI)和主成分分析(PCA)的特征选择算法(ICHIPCA)。首先针对CHI算法忽略词频、文档长度、类别分布及负相关特性等问题,引入相应的调整因子来完善CHI计算模型;然后利用改进后的CHI计算模型对特征进行评价,选取靠前特征作为初选特征集合;最后通过PCA算法在基本保留原始信息的情况下提取主要成分,实现降维。通过在KNN分类器上验证,与传统特征选择算法IG、CHI等同类型算法相比,ICHIPCA算法在多种特征维度及多个类别下,实现了分类性能的提升。  相似文献   

14.
传统的数据分类算法多是基于平衡的数据集创建,对不平衡数据分类时性能下降,而实践表明组合选择能有效提高算法在不平衡数据集上的分类性能。为此,从组合选择的角度考虑不平衡类学习问题,提出一种新的组合剪枝方法,用于提升组合分类器在不平衡数据上的分类性能。使用Bagging建立分类器库,直接用正类(少数类)实例作为剪枝集,并通过MBM指标和剪枝集,从分类器库中选择一个最优或次优子组合分类器作为目标分类器,用于预测待分类实例。在12个UCI数据集上的实验结果表明,与EasyEnsemble、Bagging和C4.5算法相比,该方法不但能大幅提升组合分类器在正类上的召回率,而且还能提升总体准确率。  相似文献   

15.
每一种聚类算法都有其适合处理的特定分布的数据集.为了给未知分布数据集挑选合适的聚类算法,提出了一种挑选聚类算法的网格连通图方法 SCGG.SCGG通过对数据潜在类结构的分析,若含有环形结构类则选择层次聚类的单连接算法对数据聚类,否则选择k-means算法.实验显示该方法十分的有效,能够挑选到合适的聚类算法对数据聚类.  相似文献   

16.
In this work, neural network-based models involved in hyperspectral image spectra separation are considered. Focus is on how to select the most highly informative samples for effectively training the neural architecture. This issue is addressed here by several new algorithms for intelligent selection of training samples: (1) a border-training algorithm (BTA) which selects training samples located in the vicinity of the hyperplanes that can optimally separate the classes; (2) a mixed-signature algorithm (MSA) which selects the most spectrally mixed pixels in the hyperspectral data as training samples; and (3) a morphological-erosion algorithm (MEA) which incorporates spatial information (via mathematical morphology concepts) to select spectrally mixed training samples located in spatially homogeneous regions. These algorithms, along with other standard techniques based on orthogonal projections and a simple Maximin-distance algorithm, are used to train a multi-layer perceptron (MLP), selected in this work as a representative neural architecture for spectral mixture analysis. Experimental results are provided using both a database of nonlinear mixed spectra with absolute ground truth and a set of real hyperspectral images, collected at different altitudes by the digital airborne imaging spectrometer (DAIS 7915) and reflective optics system imaging spectrometer (ROSIS) operating simultaneously at multiple spatial resolutions.  相似文献   

17.
基于嵌入式Bootstrap的主动学习示例选择方法   总被引:3,自引:0,他引:3  
在Bootstrap示例选择算法的基础上提出一种新的嵌入式Bootstrap算法.该算法适用于一大类主动机器学习中训练示例的选择问题.新算法在保持和原Bootstrap算法相当的训练时间的前提下可得到更典型的训练示例集,从而解决了计算条件对训练集规模的限制,使训练所得预测器具有更高的性能.从理论上分析了新算法的有效性,然后将其与原Bootstrap算法分别应用到基于AdaBoost的正面人脸检测任务中进行对比实验,实验结果与理论分析一致.  相似文献   

18.
A novel approach is presented in this paper for improving the performance of neural-network classifiers in image recognition, segmentation, or coding applications, based on a retraining procedure at the user level. The procedure includes: 1) a training algorithm for adapting the network weights to the current condition; 2) a maximum a posteriori (MAP) estimation procedure for optimally selecting the most representative data of the current environment as retraining data; and 3) a decision mechanism for determining when network retraining should be activated. The training algorithm takes into consideration both the former and the current network knowledge in order to achieve good generalization. The MAP estimation procedure models the network output as a Markov random field (MRF) and optimally selects the set of training inputs and corresponding desired outputs. Results are presented which illustrate the theoretical developments as well as the performance of the proposed approach in real-life experiments.  相似文献   

19.
We propose two neural net based methods for structure preserving dimensionality reduction. Method 1 selects a small representative sample and applies Sammon's method to project it. This projected data set is then used to train a multilayer perceptron (MLP). Method 2 uses Kohonen's self-organizing feature map to generate a small set of prototypes which is then projected by Sammon's method. This projected data set is then used to train an MLP. Both schemes are quite effective in terms of computation time and quality of output, and both outperform methods of Jain and Mao (1992, 1995) on the data sets tried.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号