共查询到20条相似文献,搜索用时 125 毫秒
1.
基于关联规则的贝叶斯网络分类器 总被引:1,自引:0,他引:1
关联规则分类器(CBA)利用关联规则来构造分类算法,但其没有考虑分类问题中的不确定性.提出一种基于关联规则的贝叶斯网络分类算法.该算法利用关联规则挖掘算法提取初始的候选网络边集,通过贪心算法学习网络结构,得到比经典的贝叶斯网络分类器TAN更好的拓扑结构.通过在15个UCI数据集上的实验结果表明,该算法取得了比TAN,CBA更好的分类性能. 相似文献
2.
基于类频繁模式树的关联分类 总被引:1,自引:0,他引:1
提出一种新的基于类频繁模式树的关联分类算法CFPC(Class FP-tree based Classifier).该方法基于FP-tree实现,无需生成庞大的候选项目集;依据记录的分类属性进行指导性划分,并使用类支持度进行记录项的分类剪枝,生成类模式树,避免了小数据类别集上的强关联模式遗漏;挖掘出的规则形成分类器,用于类标号未知的记录的区分.试验结果表明CFPC的正确性和有效性. 相似文献
3.
基于短前缀长度分割的高速二维分组分类算法 总被引:1,自引:0,他引:1
分组分类是路由器根据IP分组的多个域,从分类器数据库中匹配每个输入分组,确定分组转发规则的技术,分类器为实现因特网新业务提供了统一的方式,这些新业务包括:防火墙,网络地址翻译等,二维分组分类问题在未来的因特网体系结构中占有十分重要的地位,目前,人们已经提出了几种分组分类算法,但没有一种是理想的,提出基于短前缀长度分割的二维分组分类算法,它使用短前缀长度分割(SPLS)技术对分类器集合进行分割,使得分割后的小分类器子集合可以使用巳有快速IP路由查找方法进行查找,实现时以多叉树作为基本数据结构,实验显示它具有存储需求小,平均查询时间快,更新时间快,适合于大的分类器等特点,是一种较好的二维分组分类算法。 相似文献
4.
利用数据库技术实现的可扩展的分类算法 总被引:9,自引:0,他引:9
重点研究将数据挖掘中的分类技术与数据库技术紧密结合的高效的可扩展的分类算法.提出一种基于分组记数技术构造分类器的方法,利用数据库系统的结构化查询语言来实现主要计算任务.为了提高算法的执行效率,还提出了优化策略和冗余规则的剪裁策略,并将分类规则的发现过程与相关属性的选择方法有机地结合在一起.使用这些方法和策略,分类算法能够从大规模数据集中快速地发现一组简洁的规则.除了具有与现有分类算法相当的准确度和较高的执行效率以外,该分类算法还具有良好的基于训练集元组个数和属性个数两方面的可扩展性和易于实现的特点. 相似文献
5.
针对传统多层关联分类挖掘产生大量冗余规则而影响分类效率的问题,提出了一种基于类FP-tree的多层关联分类器MACCF(Multi-level Associative Classifier based on Class FP-tree)。该分类器依据事务的类标号划分训练集,采用闭频繁模式(CLOSET+)产生完全候选项目集,通过设计适当的类内规则剪枝策略和类间规则剪枝策略,减少了大量冗余的分类规则,提高了分类的准确率;采用交又关联规则方法,解决了交叉层数据的分类问题,实验结果
表明了算法的高效性。 相似文献
6.
提出了一种使用基于贝叶斯的基分类器建立组合分类器的新方法PCABoost.本方法在创建训练样本时,随机地将特征集划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将全部的训练数据映射到新的特征空间作为新的训练集.通过不同的变换生成不同的特征空间,从而产生若干个有差异的训练集.在每一个新的训练集上利用AdaBoost建立一组基于贝叶斯的逐渐提升的分类器(即一个分类器组),这样就建立了若干个有差异的分类器组,然后在每个分类器组内部通过加权投票产生一个预测,再把每个组的预测通过投票来产生组合分类器的分类结果,最终建立一个具有两层组合的组合分类器.从UCI标准数据集中随机选取30个数据集进行实验.结果表明,本算法不仅能够显著提高基于贝叶斯的分类器的分类性能,而且与Rotation Forest和AdaBoost等组合方法相比,在大部分数据集上都具有更高的分类准确率. 相似文献
7.
提出了一种使用基于规则的基分类器建立组合分类器的新方法PCARules。尽管新方法也采用基分类器预测的加权投票来决定待分类样本的类,但是为基分类器创建训练数据集的方法与bagging和boosting完全不同。该方法不是通过抽样为基分类器创建数据集,而是随机地将特征划分成K个子集,使用PCA得到每个子集的主成分,形成新的特征空间,并将所有训练数据映射到新的特征空间作为基分类器的训练集。在UCI机器学习库的30个随机选取的数据集上的实验表明:算法不仅能够显著提高基于规则的分类方法的分类性能,而且与bagging和boosting等传统组合方法相比,在大部分数据集上都具有更高的分类准确率。 相似文献
8.
使用反映数据变化机制的自适应模型可以更好处理数据流问题。为实现自适应调整集成分类器使其更符合数据特性,提出一种基于动态异构集成的多标签数据流分类算法。通过使用H个不同分类算法分别训练固定大小的数据块,生成候选分类器组E={E1,…,EH},利用几何加权公式计算每个Ei中候选基分类器的权重实现组内的动态更新;提出一种新的自适应选择策略生成最终的异构集成分类器。通过在6个数据集上的大量实验验证,提出算法比现有算法在准确度、基于实例的F1值、微观F1值、宏观F1值上有更好的性能。 相似文献
9.
10.
为了提高面部表情的分类识别性能,基于集成学习理论,提出了一种二次优化选择性(Quadratic Optimization Choice, QOC)集成分类模型。首先,对于9个基分类器,依据性能进行排序,选择前30%的基分类器作为集成模型的候选基分类器。其次,依据组合规则产生集成模型簇。最后,对集成模型簇进行二次优化选择,选择具有最小泛化误差的集成分类器的子集,从而确定最优集成分类模型。为了验证QOC集成分类模型的性能,选择采用最大值、最小值和均值规则的集成模型作为对比模型,实验结果表明:相对基分类器,QOC集成分类模型取得了较好的分类效果,尤其是对于识别率较差的悲伤表情类,平均识别率提升了21.11%。相对于非选择性集成模型,QOC集成分类模型识别性能也有显著提高。 相似文献
11.
12.
Estimating redundancy information of selected features in multi-dimensional pattern classification 总被引:1,自引:0,他引:1
This paper proposes a novel criterion for estimating the redundancy information of selected feature sets in multi-dimensional pattern classification. An appropriate feature selection process typically maximizes the relevancy of features to each class and minimizes the redundancy of features between selected features. Unlike to the relevancy information that can be measured by mutual information, however, it is difficult to estimate the redundancy information because its dynamic range is varied by the characteristics of features and classes.By utilizing the conceptual diagram of the relationship between candidate features, selected features, and class variables, this paper proposes a new criterion to accurately compute the amount of redundancy. Specifically, the redundancy term is estimated by conditional mutual information between selected and candidate features to each class variable, which does not need a cumbersome normalization process as the conventional algorithm does. The proposed algorithm is implemented into a speech/music discrimination system to evaluate classification performance. Experimental results by varying the number of selected features verify that the proposed method shows higher classification accuracy than conventional algorithms. 相似文献
13.
针对KNN算法在中文文本分类时的两个不足:训练样本分布不均,分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出多级分类KNN算法。算法首先引入基于密度的思想对训练样本进行调整,通过样本裁减技术使样本分布更趋于理想的均匀状态,同时计算各类别的类中心向量。在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中。最后一级选用合适的m值(预选类别个数),根据最近邻思想对待分类文本进行所属类别判定。实验结果表明,该算法在不损失分类精度的情况下,不仅降低了计算复杂度,而且显著提高了分类速度。 相似文献
14.
已有视图度量无法同时描述3维模型整体和局部细节特征,因此难以得到理想的最优视图.提出一种结合统计分类和视图边缘细节特征的最优视图提取算法.首先,采用Adaboost进行样例学习,通过最优视图之间的几何特征相似性得到候选视图集合.然后,定义边缘分布熵对候选视图进行局部特征分析,用以提取最优视图,从而使提取出来的最优视图能够有效描述出3维模型的结构特征和内在细节特征,符合人类视觉感知效果.最后,通过3维模型数据库对算法进行统计分析.实验结果表明,本文算法要优于类似的最优视图算法. 相似文献
15.
16.
《Electronic Commerce Research and Applications》2007,6(3):274-284
We present a classification method for learning an opponent’s preferences during a bilateral multi-issue negotiation. Similar candidate preference relations over the set of offers are grouped into classes, and a Bayesian technique is used to determine, for each class, the likelihood that the opponent’s true preference relation lies in that class. Evidence used for classification decision-making is obtained by observing the opponent’s sequence of offers, and applying the concession assumption, which states that negotiators usually decrease their offer utilities as time passes in order to find a deal. Simple experiments show that the technique can find the correct class after very few offers and can select a preference relation that is likely to match closely with the opponent’s true preferences. 相似文献
17.
Jianhua Xu 《Expert systems with applications》2012,39(5):4796-4804
Existing multi-label support vector machine (Rank-SVM) has an extremely high computational complexity and lacks an intrinsic zero point to determine relevant labels. In this paper, we propose a novel support vector machine for multi-label classification through both simplifying Rank-SVM and adding a zero label, resulting into a quadratic programming problem in which each class has an independent equality constraint. When Frank-Wolfe method is used to solve our quadratic programming problem iteratively, our entire linear programming problem of each step is divided into a series of sub-problems, which dramatically reduces computational cost. It is illustrated that for famous Yeast data set our training procedure runs about 12 times faster than Rank-SVM does under C++ environment. Experiments from five benchmark data sets show that our method is a powerful candidate for multi-label classification, compared with five state-of-the-art multi-label classification techniques. 相似文献
18.
Context inclusive function evaluation: a case study with EM-based multi-scale multi-granular image classification 总被引:3,自引:2,他引:1
Vijay Gandhi James M. Kang Shashi Shekhar Junchang Ju Eric D. Kolaczyk Sucharita Gopal 《Knowledge and Information Systems》2009,21(2):231-247
Many statistical queries such as maximum likelihood estimation involve finding the best candidate model given a set of candidate
models and a quality estimation function. This problem is common in important applications like land-use classification at
multiple spatial resolutions from remote sensing raster data. Such a problem is computationally challenging due to the significant
computation cost to evaluate the quality estimation function for each candidate model. For example, a recently proposed method
of multi-scale, multi-granular classification has high computational overhead of function evaluation for various candidate
models independently before comparison. In contrast, we propose an upper bound based context-inclusive approach that reduces
computational overhead based on the context, i.e. the value of the quality estimation function for the best candidate model
so far. We also prove that an upper bound exists for each candidate model and the proposed algorithm is correct. Experimental
results using land-use classification at multiple spatial resolutions from satellite imagery show that the proposed approach
reduces the computational cost significantly. 相似文献
19.
20.
文本是计算机视觉的许多应用中的一项重要特征,图像中的文本往往包含着比较丰富的信息,将文本图像信息里的文字进行提取和识别,对于图像内容的分析、理解、信息检索等方面具有重要的意义。文本图像的识别分为预处理,文字的切分,细化,特征选择与提取,最后对候选文字进行识别。在文字的切分方面提出了一种改进的投影算法,该算法能在很大程度上提高文字切分的准确度,采用基于数学形态学算法对文字进行细化处理,并在特征选择方面引用了多级分类的算法。 相似文献