首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 125 毫秒
1.
基于关联规则的贝叶斯网络分类器   总被引:1,自引:0,他引:1  
关联规则分类器(CBA)利用关联规则来构造分类算法,但其没有考虑分类问题中的不确定性.提出一种基于关联规则的贝叶斯网络分类算法.该算法利用关联规则挖掘算法提取初始的候选网络边集,通过贪心算法学习网络结构,得到比经典的贝叶斯网络分类器TAN更好的拓扑结构.通过在15个UCI数据集上的实验结果表明,该算法取得了比TAN,CBA更好的分类性能.  相似文献   

2.
基于类频繁模式树的关联分类   总被引:1,自引:0,他引:1  
提出一种新的基于类频繁模式树的关联分类算法CFPC(Class FP-tree based Classifier).该方法基于FP-tree实现,无需生成庞大的候选项目集;依据记录的分类属性进行指导性划分,并使用类支持度进行记录项的分类剪枝,生成类模式树,避免了小数据类别集上的强关联模式遗漏;挖掘出的规则形成分类器,用于类标号未知的记录的区分.试验结果表明CFPC的正确性和有效性.  相似文献   

3.
基于短前缀长度分割的高速二维分组分类算法   总被引:1,自引:0,他引:1  
分组分类是路由器根据IP分组的多个域,从分类器数据库中匹配每个输入分组,确定分组转发规则的技术,分类器为实现因特网新业务提供了统一的方式,这些新业务包括:防火墙,网络地址翻译等,二维分组分类问题在未来的因特网体系结构中占有十分重要的地位,目前,人们已经提出了几种分组分类算法,但没有一种是理想的,提出基于短前缀长度分割的二维分组分类算法,它使用短前缀长度分割(SPLS)技术对分类器集合进行分割,使得分割后的小分类器子集合可以使用巳有快速IP路由查找方法进行查找,实现时以多叉树作为基本数据结构,实验显示它具有存储需求小,平均查询时间快,更新时间快,适合于大的分类器等特点,是一种较好的二维分组分类算法。  相似文献   

4.
利用数据库技术实现的可扩展的分类算法   总被引:9,自引:0,他引:9  
刘红岩  陆宏钧  陈剑 《软件学报》2002,13(6):1075-1081
重点研究将数据挖掘中的分类技术与数据库技术紧密结合的高效的可扩展的分类算法.提出一种基于分组记数技术构造分类器的方法,利用数据库系统的结构化查询语言来实现主要计算任务.为了提高算法的执行效率,还提出了优化策略和冗余规则的剪裁策略,并将分类规则的发现过程与相关属性的选择方法有机地结合在一起.使用这些方法和策略,分类算法能够从大规模数据集中快速地发现一组简洁的规则.除了具有与现有分类算法相当的准确度和较高的执行效率以外,该分类算法还具有良好的基于训练集元组个数和属性个数两方面的可扩展性和易于实现的特点.  相似文献   

5.
李琳  邵峰晶  杨厚俊  孙仁诚 《计算机科学》2011,38(8):176-178,211
针对传统多层关联分类挖掘产生大量冗余规则而影响分类效率的问题,提出了一种基于类FP-tree的多层关联分类器MACCF(Multi-level Associative Classifier based on Class FP-tree)。该分类器依据事务的类标号划分训练集,采用闭频繁模式(CLOSET+)产生完全候选项目集,通过设计适当的类内规则剪枝策略和类间规则剪枝策略,减少了大量冗余的分类规则,提高了分类的准确率;采用交又关联规则方法,解决了交叉层数据的分类问题,实验结果 表明了算法的高效性。  相似文献   

6.
陈松峰  范明 《计算机科学》2010,37(8):236-239256
提出了一种使用基于贝叶斯的基分类器建立组合分类器的新方法PCABoost.本方法在创建训练样本时,随机地将特征集划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将全部的训练数据映射到新的特征空间作为新的训练集.通过不同的变换生成不同的特征空间,从而产生若干个有差异的训练集.在每一个新的训练集上利用AdaBoost建立一组基于贝叶斯的逐渐提升的分类器(即一个分类器组),这样就建立了若干个有差异的分类器组,然后在每个分类器组内部通过加权投票产生一个预测,再把每个组的预测通过投票来产生组合分类器的分类结果,最终建立一个具有两层组合的组合分类器.从UCI标准数据集中随机选取30个数据集进行实验.结果表明,本算法不仅能够显著提高基于贝叶斯的分类器的分类性能,而且与Rotation Forest和AdaBoost等组合方法相比,在大部分数据集上都具有更高的分类准确率.  相似文献   

7.
提出了一种使用基于规则的基分类器建立组合分类器的新方法PCARules。尽管新方法也采用基分类器预测的加权投票来决定待分类样本的类,但是为基分类器创建训练数据集的方法与bagging和boosting完全不同。该方法不是通过抽样为基分类器创建数据集,而是随机地将特征划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将所有训练数据映射到新的特征空间作为基分类器的训练集。在UCI机器学习库的30个随机选取的数据集上的实验表明:算法不仅能够显著提高基于规则的分类方法的分类性能,而且与bagging和boosting等传统组合方法相比,在大部分数据集上都具有更高的分类准确率。  相似文献   

8.
使用反映数据变化机制的自适应模型可以更好处理数据流问题。为实现自适应调整集成分类器使其更符合数据特性,提出一种基于动态异构集成的多标签数据流分类算法。通过使用H个不同分类算法分别训练固定大小的数据块,生成候选分类器组E={E1,…,EH},利用几何加权公式计算每个Ei中候选基分类器的权重实现组内的动态更新;提出一种新的自适应选择策略生成最终的异构集成分类器。通过在6个数据集上的大量实验验证,提出算法比现有算法在准确度、基于实例的F1值、微观F1值、宏观F1值上有更好的性能。  相似文献   

9.
一种基于粒子群算法的分类器设计   总被引:9,自引:2,他引:7  
将粒子群算法应用于数据分类,给出了适用于粒子群算法的分类规则编码,构造了新的分类规则适应度函数来更准确的提取规则集,并通过修改粒子位置更新方程使粒子群算法适于解决分类规则挖掘问题,进而实现了基于粒子群算法的分类器设计。该文进一步用UCI基准数据集对作者提出的粒子群分类器进行了测试,并将几种不同速度与位置更新策略的粒子群算法分类器与遗传算法分类器进行对比,实验结果表明,这种粒子群分类器是一种有效、可行的分类器设计方案。  相似文献   

10.
为了提高面部表情的分类识别性能,基于集成学习理论,提出了一种二次优化选择性(Quadratic Optimization Choice, QOC)集成分类模型。首先,对于9个基分类器,依据性能进行排序,选择前30%的基分类器作为集成模型的候选基分类器。其次,依据组合规则产生集成模型簇。最后,对集成模型簇进行二次优化选择,选择具有最小泛化误差的集成分类器的子集,从而确定最优集成分类模型。为了验证QOC集成分类模型的性能,选择采用最大值、最小值和均值规则的集成模型作为对比模型,实验结果表明:相对基分类器,QOC集成分类模型取得了较好的分类效果,尤其是对于识别率较差的悲伤表情类,平均识别率提升了21.11%。相对于非选择性集成模型,QOC集成分类模型识别性能也有显著提高。  相似文献   

11.
张永  浮盼盼  张玉婷 《计算机应用》2013,33(10):2801-2803
针对大规模数据的分类问题,将监督学习与无监督学习结合起来,提出了一种基于分层聚类和重采样技术的支持向量机(SVM)分类方法。该方法首先利用无监督学习算法中的k-means聚类分析技术将数据集划分成不同的子集,然后对各个子集进行逐类聚类,分别选出各类中心邻域内的样本点,构成最终的训练集,最后利用支持向量机对所选择的最具代表样本点进行训练建模。实验表明,所提方法可以大幅度降低支持向量机的学习代价,其分类精度比随机欠采样更优,而且可以达到采用完整数据集训练所得的结果  相似文献   

12.
This paper proposes a novel criterion for estimating the redundancy information of selected feature sets in multi-dimensional pattern classification. An appropriate feature selection process typically maximizes the relevancy of features to each class and minimizes the redundancy of features between selected features. Unlike to the relevancy information that can be measured by mutual information, however, it is difficult to estimate the redundancy information because its dynamic range is varied by the characteristics of features and classes.By utilizing the conceptual diagram of the relationship between candidate features, selected features, and class variables, this paper proposes a new criterion to accurately compute the amount of redundancy. Specifically, the redundancy term is estimated by conditional mutual information between selected and candidate features to each class variable, which does not need a cumbersome normalization process as the conventional algorithm does. The proposed algorithm is implemented into a speech/music discrimination system to evaluate classification performance. Experimental results by varying the number of selected features verify that the proposed method shows higher classification accuracy than conventional algorithms.  相似文献   

13.
针对KNN算法在中文文本分类时的两个不足:训练样本分布不均,分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出多级分类KNN算法。算法首先引入基于密度的思想对训练样本进行调整,通过样本裁减技术使样本分布更趋于理想的均匀状态,同时计算各类别的类中心向量。在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中。最后一级选用合适的m值(预选类别个数),根据最近邻思想对待分类文本进行所属类别判定。实验结果表明,该算法在不损失分类精度的情况下,不仅降低了计算复杂度,而且显著提高了分类速度。  相似文献   

14.
已有视图度量无法同时描述3维模型整体和局部细节特征,因此难以得到理想的最优视图.提出一种结合统计分类和视图边缘细节特征的最优视图提取算法.首先,采用Adaboost进行样例学习,通过最优视图之间的几何特征相似性得到候选视图集合.然后,定义边缘分布熵对候选视图进行局部特征分析,用以提取最优视图,从而使提取出来的最优视图能够有效描述出3维模型的结构特征和内在细节特征,符合人类视觉感知效果.最后,通过3维模型数据库对算法进行统计分析.实验结果表明,本文算法要优于类似的最优视图算法.  相似文献   

15.
为了准确地在三维网格模型上定位特征角点,提出了一种基于变形分析的三维Susan角点检测算法。算法首先利用邻接区域信息定义顶点的变形函数,由变形函数值得到候选角点集合;对于候选角点,设定比较区域,在区域内用相似比较函数确定角点;最后,在一定邻接区域内使用非极大值抑制去除虚假角点。使用特定模拟数据和真实三维人脸模型进行角点检测,实验结果验证了该算法的优越性和有效性。  相似文献   

16.
We present a classification method for learning an opponent’s preferences during a bilateral multi-issue negotiation. Similar candidate preference relations over the set of offers are grouped into classes, and a Bayesian technique is used to determine, for each class, the likelihood that the opponent’s true preference relation lies in that class. Evidence used for classification decision-making is obtained by observing the opponent’s sequence of offers, and applying the concession assumption, which states that negotiators usually decrease their offer utilities as time passes in order to find a deal. Simple experiments show that the technique can find the correct class after very few offers and can select a preference relation that is likely to match closely with the opponent’s true preferences.  相似文献   

17.
Existing multi-label support vector machine (Rank-SVM) has an extremely high computational complexity and lacks an intrinsic zero point to determine relevant labels. In this paper, we propose a novel support vector machine for multi-label classification through both simplifying Rank-SVM and adding a zero label, resulting into a quadratic programming problem in which each class has an independent equality constraint. When Frank-Wolfe method is used to solve our quadratic programming problem iteratively, our entire linear programming problem of each step is divided into a series of sub-problems, which dramatically reduces computational cost. It is illustrated that for famous Yeast data set our training procedure runs about 12 times faster than Rank-SVM does under C++ environment. Experiments from five benchmark data sets show that our method is a powerful candidate for multi-label classification, compared with five state-of-the-art multi-label classification techniques.  相似文献   

18.
Many statistical queries such as maximum likelihood estimation involve finding the best candidate model given a set of candidate models and a quality estimation function. This problem is common in important applications like land-use classification at multiple spatial resolutions from remote sensing raster data. Such a problem is computationally challenging due to the significant computation cost to evaluate the quality estimation function for each candidate model. For example, a recently proposed method of multi-scale, multi-granular classification has high computational overhead of function evaluation for various candidate models independently before comparison. In contrast, we propose an upper bound based context-inclusive approach that reduces computational overhead based on the context, i.e. the value of the quality estimation function for the best candidate model so far. We also prove that an upper bound exists for each candidate model and the proposed algorithm is correct. Experimental results using land-use classification at multiple spatial resolutions from satellite imagery show that the proposed approach reduces the computational cost significantly.  相似文献   

19.
特征选择是影响问答系统中问题分类的重要因素。本文充分利用汉语框架网在语义表达方面的特点,提出一种面向问题分类的强类别信息词(SCIW)特征选择方法。首先选择五种汉语框架网特征作为候选特征,然后采用SCIW特征选择方法,根据每一类别的分类精度对单个特征的分类能力进行排序,并通过特征组合实验,选出具有最好分类效果的组合特征,达到特征约简的效果。  相似文献   

20.
文本是计算机视觉的许多应用中的一项重要特征,图像中的文本往往包含着比较丰富的信息,将文本图像信息里的文字进行提取和识别,对于图像内容的分析、理解、信息检索等方面具有重要的意义。文本图像的识别分为预处理,文字的切分,细化,特征选择与提取,最后对候选文字进行识别。在文字的切分方面提出了一种改进的投影算法,该算法能在很大程度上提高文字切分的准确度,采用基于数学形态学算法对文字进行细化处理,并在特征选择方面引用了多级分类的算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号