首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 327 毫秒
1.
基于Boosting的TAN组合分类器   总被引:8,自引:1,他引:8  
Boosting是一种有效的分类器组合方法,它能够提高不稳定学习算法的分类性能,但对稳定的学习算法效果不明显,TAN(tree-augmented naive Bayes)是一种树状结构的贝叶斯网络,标准的TAN学习算法生成的TAN分类器是稳定的,用Boosting难以提高其分类性能,提出一种构造TAN的新算法GTAN,并将由GTAN生成的多个TAN分类器用组合方法Boosting-MultiTAN组合,最后实验比较了TAN组合分类器与标准的TAN分类器.实验结果表明,在大多数实验数据上,Boosting-MultiTAN分类器显示出较高的分类正确率。  相似文献   

2.
针对二支决策TAN分类器在处理不确定数据时有较高的错误率,提出一种新的三支扩展TAN贝叶斯分类器(3WDTAN).首先通过构建TAN贝叶斯分类模型,采用先验概率和类条件概率估计三支决策中的条件概率;其次构建3WD-TAN分类器,制定3WD-TAN分类器中正域,负域和边界域的三支分类规则,结合边界域处理不确定性数据的优势,在一定程度上纠正了传统TAN贝叶斯分类器产生的分类错误;最后通过在5个UCI数据集上选取NB、TAN、SETAN算法进行对比实验,表明3WD-TAN具有较高的准确率和召回率,且适用于不同规模数据集的分类问题.  相似文献   

3.
针对目前交通灯智能化程度低,容易造成交通拥堵的问题,提出一种基于TAN分类器的交通灯时间智能动态估计方法。首先,分析影响交通灯时间的主要因素,并对采集到的数据用模糊分类函数进行离散化处理;其次,依据K2算法学习TAN分类器结构;接着,使用最大似然估计法学习TAN分类器的参数;最后,通过基于时间窗的前向后向算法在线估计出最佳交通灯时间。仿真实验结果表明:本文提出的方法能够根据实时交通路况信息动态估计出最佳交通灯时间,当路口畅通时,交通灯时间短;反之,交通灯时间长。对有效缓解交通拥堵,减少环境污染有着重要的现实意义。  相似文献   

4.
我们提出一种监督Laplacian LLE算法,并结合正则化的最小二乘方法来有效地解决头部姿态估计问题,比传统的流形学习算法能更有效的保持数据的局部几何结构,并且能获得显式的直接映射来处理样本外扩展问题。在FacePix数据集的头部姿态估计实验结果表明,我们的算法是有效的,对于训练数据和测试数据,我们提出的算法的性能明显高于其他对比算法的性能。  相似文献   

5.
互信息是一种常用的衡量变量相关性的方法,但在互信息估计过程中,联合概率密度的估计往往十分困难.为了避免联合概率密度的估计,同时有效提高互信息估计的准确度与效率,本文提出一种基于Copula熵的互信息估计方法.利用Copula熵与互信息之间的关系,将互信息的估计转化为对Copula熵值的估计.采用基于Kendall秩相关系数的参数估计方法对Copula函数的参数进行估计.所提算法分别与直方图法、核方法、κ近邻法和极大似然法进行比较.二维高斯数据上的仿真结果表明,所提方法能够快速准确地对互信息值进行估计.  相似文献   

6.
基于数据的贝叶斯网络结构学习是一个NP难题.基于条件约束和评分搜索相结合的方法是贝叶斯网络结构学习的一个热点.基于互信息理论提出一种最大支撑树(MWST)机制,并基于最大支撑树结合贪婪搜索的思想提出一种简化贪婪算法.简化贪婪算法不依赖先验知识,完全基于数据集.首先,通过计算互信息建立目标网络的最大支撑树;然后,在最大支撑树的基础上学习初始网络结构,最后,利用简化搜索机制对初始结构进一步优化,最终完成贝叶斯网络的结构学习.数据仿真实验证明,简化贪婪算法不仅具有很高的精度而且具有高效率.  相似文献   

7.
用于数据挖掘的TAN分类器的研究与应用   总被引:2,自引:0,他引:2  
分类是数据挖掘和模式识别中的一个基本和重要的课题。文中讨论了基于贝叶斯学习的TAN分类器的基本概念和分类算法,同时将分类器算法和具体分类算法结合为一个完整的有效算法。用某高校人才识别系统这一实例来说明TAN分类器的推理过程,并介绍了TAN分类器在数据挖掘领域的应用。实验结果表明TAN分类器具有较好的分类性能和较高的分类精度。  相似文献   

8.
为解决连续值特征条件互信息计算困难和对多值特征偏倚的问题,提出了一种基于 Parzen 窗条件互信息计算的特征选择方法。该方法通过 Parzen 窗估计出连续值特征的概率密度函数,进而方便准确地计算出条件互信息;同时在评价准则中引入特征离散度作为惩罚因子,克服了条件互信息计算对于多值特征的偏倚,实现了对连续型数据的特征选择。实验证明,该方法能够达到与现有方法相当甚至更好的效果,是一种有效的特征选择方法。  相似文献   

9.
分类是数据挖掘和模式识别中的一个基本和重要的课题。文中讨论了基于贝叶斯学习的TAN分类器的基本概念和分类算法,同时将分类器算法和具体分类算法结合为一个完整的有效算法。用某高校人才识别系统这一实例来说明TAN分类器的推理过程,并介绍了TAN分类器在数据挖掘领域的应用。实验结果表明TAN分类器具有较好的分类性能和较高的分类精度。  相似文献   

10.
基于有向树算法构造的TAN分类器   总被引:1,自引:0,他引:1  
树扩展型朴素贝叶斯(TAN)分类器放松了朴素贝叶斯的属性独立性假设,是对朴素贝叶斯分类器的有效改进.但传统TAN的构造算法中树的根结点是随意选择的,这使得其无法精确表达属性间的依赖关系.通过将依赖关系设定方向,并将有向树算法引入TAN分类器的构造,提出了一种新的TAN模型构造方法--DTAN.实验结果表明,DTAN分类方法在实例个数比较多的数据集上具有显著优秀的分类性能.  相似文献   

11.
当数据存在缺值时,通常应用EM算法学习贝叶斯网络.然而,EM算法以联合似然作为目标函数,与判别预测问题的目标相偏离.与EM算法不同,CEM(Conditional Expectation Maximum)算法直接以条件似然作为目标函数.研究了判别贝叶斯网络学习的CEM算法,提出一种使得CEM算法具有单调性和收敛性的Q函数.为了简化计算,在CEM算法的E步,应用Q函数的一种简化形式;在CEM算法的M步,应用梯度下降法的一次搜索结果作为最优值的近似.最后,在UCI数据集上的实验结果表明了CEM算法在判别贝叶斯网络学习中的有效性.  相似文献   

12.
在高维数据如图像数据、基因数据、文本数据等的分析过程中,当样本存在冗余特征时会大大增加问题分析复杂难度,因此在数据分析前从中剔除冗余特征尤为重要。基于互信息(MI)的特征选择方法能够有效地降低数据维数,提高分析结果精度,但是,现有方法在特征选择过程中评判特征是否冗余的标准单一,无法合理排除冗余特征,最终影响分析结果。为此,提出一种基于最大联合条件互信息的特征选择方法(MCJMI)。MCJMI选择特征时考虑整体联合互信息与条件互信息两个因素,两个因素融合增强特征选择约束。在平均预测精度方面,MCJMI与信息增益(IG)、最小冗余度最大相关性(mRMR)特征选择相比提升了6个百分点;与联合互信息(JMI)、最大化联合互信息(JMIM)相比提升了2个百分点;与LW向前搜索方法(SFS-LW)相比提升了1个百分点。在稳定性方面,MCJMI稳定性达到了0.92,优于JMI、JMIM、SFS-LW方法。实验结果表明MCJMI能够有效地提高特征选择的准确率与稳定性。  相似文献   

13.
朱接文  肖军 《计算机应用》2014,34(9):2608-2611
针对大型数据中大量冗余特征的存在可能降低数据分类性能的问题,提出了一种基于互信息(MI)与模糊C均值(FCM)聚类集成的特征自动优选方法FCC-MI。首先分析了互信息特征及其相关度函数,根据相关度对特征进行排序;然后按照最大相关度对应的特征对数据进行分组,采用FCM聚类方法自动确定最优特征数目;最后基于相关度对特征进行了优选。在UCI机器学习数据库的7个数据集上进行实验,并与相关文献中提出的基于类内方差与相关度结合的特征选择方法(WCMFS)、基于近似Markov blanket和动态互信息的特征选择算法(B-AMBDMI)及基于互信息和遗传算法的两阶段特征选择方法(T-MI-GA)进行对比。理论分析和实验结果表明,FCC-MI不但提高了数据分类的效率,而且在有效保证分类精度的同时能自动确定最优特征子集,减少了数据集的特征数目,适用于海量、数据特征相关性大的特征约简及数据分析。  相似文献   

14.
多视图聚类是无监督学习领域研究热点之一,近年来涌现出许多优秀的多视图聚类工作,但其中大多数方法均假设各视图是完整的,然而真实场景下数据收集过程极容易发生缺失,造成部分视图不完整。同时,很多方法采取传统机器学习方法(即浅层模型)对数据进行特征学习,这导致模型难以挖掘高维数据内的复杂信息。针对以上问题,本文提出一种面向不完整多视图聚类的深度互信息最大化方法。首先利用深度自编码器挖掘各视图深层次的隐含特征,并通过最大化潜在表示间的互信息来学习各视图间的一致性知识。然后,对于不完整视图中的缺失数据,利用多视图的公共潜在表示进行补全。此外,本文采用一种自步学习策略对网络进行微调,从易到难地学习数据集中的样本,得到更加宜于聚类的特征表示。最后,在多个真实数据集上进行实验,验证了本文方法的有效性。  相似文献   

15.
树增强朴素贝叶斯模型通过放松条件属性独立来改进贝叶斯模型,结构学习效率较高且简单。然而在一些实际试验测试中,树增强朴素贝叶斯分类模型的分类精确性和失误率的效果却不好。因此在本文中,设计了平均的树增强朴素贝叶斯分类算法来改进分类的效果,并且利用条件对数似然来测试分类估计的效果,最后利用Weka平台公布的大量的UCI数据集进行试验,结果表明平均树增强朴素贝叶斯分类模型明显优于树增强的朴素贝叶斯分类模型。  相似文献   

16.
数据驱动的扩展置信规则库专家系统能够处理含有定量数据或定性知识的不确定性问题.该方法已被广泛地研究和应用,但仍缺乏在不完整数据问题上的研究.鉴于此,针对不完整数据集上的问题,提出一种新的扩展置信规则库专家系统推理方法.首先提出基于析取范式的扩展规则结构,并通过实验讨论了在新的规则结构下,置信规则前提属性参考值个数对推理...  相似文献   

17.
A Novel Bayes Model: Hidden Naive Bayes   总被引:1,自引:0,他引:1  
Because learning an optimal Bayesian network classifier is an NP-hard problem, learning-improved naive Bayes has attracted much attention from researchers. In this paper, we summarize the existing improved algorithms and propose a novel Bayes model: hidden naive Bayes (HNB). In HNB, a hidden parent is created for each attribute which combines the influences from all other attributes. We experimentally test HNB in terms of classification accuracy, using the 36 UCI data sets selected by Weka, and compare it to naive Bayes (NB), selective Bayesian classifiers (SBC), naive Bayes tree (NBTree), tree-augmented naive Bayes (TAN), and averaged one-dependence estimators (AODE). The experimental results show that HNB significantly outperforms NB, SBC, NBTree, TAN, and AODE. In many data mining applications, an accurate class probability estimation and ranking are also desirable. We study the class probability estimation and ranking performance, measured by conditional log likelihood (CLL) and the area under the ROC curve (AUC), respectively, of naive Bayes and its improved models, such as SBC, NBTree, TAN, and AODE, and then compare HNB to them in terms of CLL and AUC. Our experiments show that HNB also significantly outperforms all of them.  相似文献   

18.
It is an actual and challenging issue to learn cost-sensitive models from those datasets that are with few labeled data and plentiful unlabeled data, because some time labeled data are very difficult, time consuming and/or expensive to obtain. To solve this issue, in this paper we proposed two classification strategies to learn cost-sensitive classifier from training datasets with both labeled and unlabeled data, based on Expectation Maximization (EM). The first method, Direct-EM, uses EM to build a semi-supervised classifier, then directly computes the optimal class label for each test example using the class probability produced by the learning model. The second method, CS-EM, modifies EM by incorporating misclassification cost into the probability estimation process. We conducted extensive experiments to evaluate the efficiency, and results show that when using only a small number of labeled training examples, the CS-EM outperforms the other competing methods on majority of the selected UCI data sets across different cost ratios, especially when cost ratio is high.  相似文献   

19.
Naïve Bayes learners are widely used, efficient, and effective supervised learning methods for labeled datasets in noisy environments. It has been shown that naïve Bayes learners produce reasonable performance compared with other machine learning algorithms. However, the conditional independence assumption of naïve Bayes learning imposes restrictions on the handling of real-world data. To relax the independence assumption, we propose a smooth kernel to augment weights for the likelihood estimation. We then select an attribute weighting method that uses the mutual information metric to cooperate with the proposed framework. A series of experiments are conducted on 17 UCI benchmark datasets to compare the accuracy of the proposed learner against that of other methods that employ a relaxed conditional independence assumption. The results demonstrate the effectiveness and efficiency of our proposed learning algorithm. The overall results also indicate the superiority of attribute-weighting methods over those that attempt to determine the structure of the network.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号