首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
朴素贝叶斯分类算法由于其计算高效在生活中应用广泛。本文根据集成算法的差异性特征,聚类算法聚类点的选择方式的可变性,提出了基于K-medoids聚类技术的贝叶斯集成算法,朴素贝叶斯的泛化性能得到了提升。首先,通过样本集训练出多个朴素贝叶斯基分类器模型;然后,为了增大基分类器之间的差异性,利用K-medoids算法对基分类器在验证集上的预测结果进行聚类;最后,从每个聚类簇中选择泛化性能最佳的基分类器进行集成学习,最终结果由简单投票法得出。将该算法应用于UCI数据集,并与其他类似算法进行比较可得,本文提出的基于K-medoids聚类的贝叶斯集成算法(NBKME)提高了数据集的分类准确率。  相似文献   

2.
一种基于Bagging和混淆矩阵的自适应选择性集成   总被引:1,自引:0,他引:1       下载免费PDF全文
为了平衡集成学习中差异性和准确性的关系并提高学习系统的泛化性能,提出一种基于Bagging和混淆矩阵的选择性集成方法.基本思想是通过扰动训练集和特征空间生成基分类器,根据每一个基分类器的混淆矩阵构造一个基分类器间相关性的度量矩阵;然后基于相关性度量矩阵对基分类器集合进行子集划分,在每个划分中选择一个基分类器参与集成;最后用多数投票法融合所选基分类器的决策结果,并通过仿真实验验证该方法的有效性.  相似文献   

3.
差异性和平均精度是提高分类器集成性能的两个重要指标。增加差异性势必会降低平均精度,增大平均精度一定会减小差异性。故在差异性和平均精度之间存在一个平衡状态,使得集成性能最优。为了寻找该平衡状态,该文提出融合改进二元萤火虫算法和互补性测度的集成剪枝方法。首先,采用bootstrap抽样方法独立训练出多个基分类器,构建原始基分类器池。其次,采用互补性测度对原始基分类器池进行预剪枝。接着,通过改进萤火虫的移动方式和搜索过程,引入重新初始化机制和跳跃行为,提出改进二元萤火虫算法。最后,采用改进二元萤火虫算法对预剪枝后的基分类器,进行进一步剪枝,选择出集成性能最优的基分类器子集合。在5个UCI数据集上的实验结果表明,较其他方法,使用较少的基分类器,获得了更优的集成性能,具有良好的有效性和显著性。  相似文献   

4.
为提高Adaboost算法迭代过程中生成基分类器的分类精度以及简化整个集成学习系统的复杂度,文章提出了一种优化Adaboost迭代过程的SVM集成算法。该算法提出了一种在其迭代过程中加入样本选择和特征选择的集成方法。通过均值近邻算法对样本进行选择,并利用相对熵法进行特征选择,最后利用优化得到的特征样本子集对基分类器SVM进行训练,并用加权投票法融合各个SVM基分类器的决策结果进行最终判决。通过对UCI数据集的仿真结果表明,本算法与支持向量机集成算法相比,能够在更少的样本以及特征的基础上,实现较高的识别正确率。  相似文献   

5.
基于随机子空间和AdaBoost的自适应集成方法   总被引:4,自引:0,他引:4  
如何构造差异性大且精确度高的基分类器是集成学习的重点,为此提出一种新的集成学习方法——利用PSO寻找使得AdaBoost依样本权重抽取的数据集分类错误率最小化的最优特征权重分布,依据此最优权重分布对特征随机抽样生成随机子空间,并应用于AdaBoost的训练过程中.这就在增加分类器间差异性的同时保证了基分类器的准确度.最后用多数投票法融合各基分类器的决策结果,并通过仿真实验验证该方法的有效性.  相似文献   

6.
由于计算机内存资源限制,分类器组合的有效性及最优性选择是机器学习领域的主要研究内容。经典的集成分类算法在处理小数据集时,拥有较高的分类准确性,但面对大量数据时,由于多基分类器学习、分类共用1台计算机资源,导致运算效率较低,这显然不适合处理当今的海量数据。针对已有集成分类算法只适合作用于小规模数据集的缺点,剖析了集成分类器的特性,采用基于聚合方式的集成分类器和云计算的MapReduce技术设计了并行集成分类算法(EMapReduce),达到并行处理大规模数据的目的。并在Amazon计算集群上模拟实验,实验结果表明该算法具有一定的高效性和可行性。  相似文献   

7.
针对传统集成学习方法直接应用于单类分类器效果不理想的问题,该文首先证明了集成学习方法能够提升单类分类器的性能,同时证明了若基分类器集不经选择会导致集成后性能下降;接着指出了经典集成方法直接应用于单类分类器集成时存在基分类器多样性严重不足的问题,并提出了一种能够提高多样性的基单类分类器混合生成策略;最后从集成损失构成的角度拆分集成单类分类器的损失函数,针对性地构造了集成单类分类器修剪策略并提出一种基于混合多样性生成和修剪的单类分类器集成算法,简称为PHD-EOC。在UCI标准数据集和恶意程序行为检测数据集上的实验结果表明,PHD-EOC算法兼顾多样性与单类分类性能,在各种单类分类器评价指标上均较经典集成学习方法有更好的表现,并降低了决策阶段的时间复杂度。  相似文献   

8.
唐焕玲  林正奎  鲁明羽 《电子学报》2008,36(Z1):138-143
 Co-training算法要求两个特征视图满足一致性和独立性假设,但是,许多实际应用中不存自然的划分且满足这种假设的两个视图,且直接评估两个视图的独立性有一定的难度.分析Co-training的理论假设,本文把寻找两个满足一致性和独立性特征视图的目标,转变成寻找两个既满足一定的正确性,又存在较大的差异性的两个基分类器的问题.首先利用特征评估函数建立多个特征视图,每个特征视图包含足够的信息训练生成一个基分类器,然后通过评估基分类器之间的差异性间接评估二者的独立性,选择两个满足一定的正确性和差异性比较大的基分类器协同训练.根据每个视图上采用的分类算法是否相同,提出了两种改进算法TV-SC和TV-DC.实验表明改进的TV-SC和TV-DC算法明显优于基于随机分割特征视图的Co-Rnd算法,而且TV-DC算法的分类效果要优于TV-SC算法.  相似文献   

9.
针对JPEG图像通用隐写检测中检测效率低、训练时间长的问题,提出一种基于集成分类器的新检测方法。算法以CC-PEV为特征对图像进行描述并作为隐写分析特征;然后,随机构造若干个特征子空间,用bootstrap方法构造图像训练子集,分别进行训练得到数个基分类器;根据基分类器的分类结果赋予基分类器不同的权重,将基分类器的结果按照其权重进行融合得到最终的结果。本文对该算法进行了测试,对它的集成性、检测准确率和训练时间进行分析。实验结果表明,相对于传统的集成方法,本文方法用自举方法构造训练集、随机方法构造子特征空间、赋予基分类器不同权重进行融合能够显著地提高算法准确率。本文方法相对于SVM和传统的集成分类方法,具有更高的检测率,对于特征维数更大的图像检测,具有更好的拓展性和一般适用性。  相似文献   

10.
基于贝叶斯分类器的图像隐写分析   总被引:1,自引:1,他引:0       下载免费PDF全文
集成分类器是目前用于图像隐写分析的主流分类器。为提高集成分类器的检测精度,针对集成分类器基分类器组合方法过于简单,无法体现基分类器之间的内在联系,不能从整体上对结果进行判定的缺点,依据图像特征在集成分类器分类超平面上的投影值服从多维正态分布这一特性,提出了一种基于贝叶斯分类器的图像隐写分析算法。首先基于随机森林算法生成若干基分类器,然后计算类条件概率密度函数与先验概率并训练贝叶斯分类器,最后使用经过训练的贝叶斯分类器代替简单投票方法进行分类判决。算法的检测错误率比以往算法平均降低了1.6%,ROC曲线比简单投票方法更接近于左上角,即具有更高的检测率,AUC值平均增长约2.12%,并且训练时间仅有少量提高,最大提高约2.610s。可以有效提高集成分类器的检测精度。  相似文献   

11.
分子束外延(MBE)生长薄膜材料是一种非平衡态生长,生长过程主要由分子束流和晶体表面反应动力学控制。分子束流控制对生长的影响很大,真空蒸发理论导出的平衡蒸气压模型是目前描述分子束流的主要模型之一,但在实际应用中,模型在高蒸气压条件下对束流的描述存在较大偏差,制约生长的薄膜的化学组分均匀性和结构的单晶完整性的提高。本文系统研究了MBE生长HgCdTe薄膜过程的束流情况,采用系综理论,建立巨正则理论模型模拟束流情况,实验表明,相比平衡蒸气压模型,该模型能更准确的描述分子束流的本征物理行为。  相似文献   

12.
聚类集成是数据挖掘研究的一个热点。它是利用同一数据集的多个聚类划分集成在一起,以提高聚类分析的性能。当前相关研究大多没有考虑进行集成的聚类成员的质量,因此较差的成员会对集成结果产生不良影响。文中提出了一种基于加权co-occurrence矩阵的聚类集成算法(WCSCE)。该方法首先计算出聚类成员基于属性值的co-occurrence矩阵,然后对聚类成员的质量进行简单评价并赋予权重,生成加权co-occurrence矩阵,进而产生集成结果。最后通过实验验证了该算法的有效性,并提高了聚类质量。  相似文献   

13.
周鹏 《光电子.激光》1992,3(3):133-135,164
本文应用双波函数理论处理了多光子Jaynes—Cummings模型,给出了各力学量的测量值,并指出通常量子力学理论对这一模型处理的结果实际上是系综的平均值。  相似文献   

14.
Aiming at the problems existing in the application of machine learning algorithm,an optimization system of the machine learning model based on the heuristic algorithm was constructed.Firstly,the existing types of heuristic algorithms and the modeling process of heuristic algorithms were introduced.Then,the advantages of the heuristic algorithm were illustrated from its applications in machine learning,including the parameter and structure optimization of neural network and other machine learning algorithms,feature optimization,ensemble pruning,prototype optimization,weighted voting ensemble and kernel function learning.Finally,the heuristic algorithms and their development directions in the field of machine learning were given according to the actual needs.  相似文献   

15.
在网络入侵流量检测中,普遍存在不同攻击类型的流量分布不均现象,导致少数攻击流量类识别率较低.为解决此类问题,基于不同特征空间的分类器流水线组合方法将多分类问题转化为不同特征空间上的两分类问题,有效地实现少数类重抽样和特征空间的优化,避免了少数类受多数类特征的干扰.实验表明,此方法可以有效地提高攻击流量中少数类的分类精度和召回率.  相似文献   

16.
郑近德  程军圣  杨宇 《电子学报》2013,41(5):1030-1035
 局部特征尺度分解(Local Characteristic-Scale Decomposition,LCD)是最近提出的一种类似于经验模态分解(Empirical Mode Decomposition,EMD)的非平稳信号分析方法.为解决LCD方法的模态混淆问题,论文首先提出了基于噪声辅助分析的集成局部特征尺度分解方法(Ensemble LCD,ELCD).然而,ELCD有类似于总体平均经验模态分解(Ensemble EMD, EEMD)和互补总体平均经验模态分解(Complementary,CEEMD)的固有缺陷,在此基础上,同时结合最近提出的随机性检测方法——排列熵(Permutation Entropy,PE),论文提出了部分集成局部特征尺度分解(Partly Ensemble LCD,PELCD)方法.仿真数据分析表明,论文提出的PELCD方法不仅能够有效地抑制LCD分解的模态混淆,而且在抑制伪分量的产生以及分量精确性等方面要优于CEEMD和ELCD方法.  相似文献   

17.
为了提高支持向量机的泛化能力,研究了Bagging集成学习方法对于支持向量机的提升作用,试验结果表明提升作用不明显。通过模拟数据扰动的方法,在标准数据集上通过试验定量比较了支持向量机和神经网络的稳定性,结果表明支持向量机相对于神经网络来说是一种稳定的分类器。在此基础上,提出了双重扰动法,即通过子空间法扰动数据特征,通过Bagging算法扰动数据分布,来达到提高基分类器之间差异性的目的,在标准数据集和故障诊断数据上进行了试验,试验结果表明,双重扰动法较好地提升了支持向量机的正确识别率。  相似文献   

18.
一种基于成对采样和选择性集成的隐写分析算法   总被引:1,自引:1,他引:0  
为了进一步提高隐写分析算法的检测精度,提出 了一种基于成对采样选择性集成的隐写分析算法。 从集成分类的特点和隐写分析的特殊性出发,分析了类内以及类间样本之间的联系,研究了 4种不同的采样策 略,并基于成对采样策略构建选择性集成分类器用于隐写分析。实验表明,不同采样策略能 不同程度地影响隐 写分析的检测性能;与现有隐写分析方法相比,本文算法能明显降低隐写分析系统的检测错 误率(BER)。  相似文献   

19.
为了提高货币识别率,提出了用负相关学习算法来提高神经网络集成的泛化能力.将紫外光照射下的纸币图片作为实验样本,将负相关学习法的集成神经网络用于分类器设计,选择6种面额纸币在不同噪声下的样本共300个作为训练样本,对单个神经网络分类器和神经网络集成分类器进行了MATLAB仿真,并对仿真所得的可靠性、识别率进行对比.实验结果表明,基于负相关学习的神经网络集成对货币识别分类有很好的效果,与应用单个神经网络的系统和独立训练个体网络的集成神经网络相比,它的识别率平均可以高出4%.  相似文献   

20.
The main challenges of data streams classification include infinite length, concept-drifting, arrival of novel classes and lack of labeled instances. Most existing techniques address only some of them and ignore others. So an ensemble classification model based on decision-feedback(ECM-BDF) is presented in this paper to address all these challenges. Firstly, a data stream is divided into sequential chunks and a classification model is trained from each labeled data chunk. To address the infinite length and concept-drifting problem, a fixed number of such models constitute an ensemble model E and subsequent labeled chunks are used to update E. To deal with the appearance of novel classes and limited labeled instances problem, the model incorporates a novel class detection mechanism to detect the arrival of a novel class without training E with labeled instances of that class. Meanwhile, unsupervised models are trained from unlabeled instances to provide useful constraints for E. An extended ensemble model Ex can be acquired with the constraints as feedback information, and then unlabeled instances can be classified more accurately by satisfying the maximum consensus of Ex. Experimental results demonstrate that the proposed ECM-BDF outperforms traditional techniques in classifying data streams with limited labeled data.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号