首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 345 毫秒
1.
张震  胡学钢 《计算机应用》2011,31(6):1678-1680
针对分类数据集中属性之间的相关性及每个属性取值对属性权值的贡献程度的差别,提出基于互信息量的分类模型以及影响因子与样本预测信息量的计算公式,并利用样本预测信息量预测分类标号。经实验证明,基于互信息量的分类模型可以有效地提高分类算法的预测精度和准确率。  相似文献   

2.
推导了使用指数损失函数和0-1损失函数的Boosting 算法的严格在线形式,证明这两种在线Boosting算法最大化样本间隔期望、最小化样本间隔方差.通过增量估计样本间隔的期望和方差,Boosting算法可应用于在线学习问题而不损失分类准确性. UCI数据集上的实验表明,指数损失在线Boosting算法的分类准确性与批量自适应 Boosting (AdaBoost)算法接近,远优于传统的在线Boosting;0-1损失在线Boosting算法分别最小化正负样本误差,适用于不平衡数据问题,并且在噪声数据上分类性能更为稳定.  相似文献   

3.
通过对数据流分类中的概念漂移问题的研究,提出了一种在线装袋(Online Bagging)算法的改进算法——自适应抽样参数的在线装袋算法AdBagging(adaptive lambda bagging)。利用在分类过程中出现的误分样本数量来调整Online Bagging算法中的泊松(Poisson)分布的抽样参数,从而可以动态调整新样本在学习器中的权重,即对于数据流中的误分类样本给予较高的学习权重因子,而对于正确分类的样本给予较低的学习权重因子,同时结合样本出现的时间顺序调整权重因子,使得集成分类器可以动态调整其多样性(adversity)。该算法具有OnlineBagging算法的高效简洁优点,并能解决数据流中具有概念漂移的问题,人工数据集和实际数据集上的实验结果表明了该算法的有效性。  相似文献   

4.
5.
一种新的增量决策树算法   总被引:1,自引:0,他引:1  
对于数据增加迅速的客户行为分析、Web日志分析、网络入侵检测等在线分类系统来说,如何快速适应新增样本是确保其分类正确和可持续运行的关键。该文提出了一种新的适应数据增量的决策树算法,该算法同贝叶斯方法相结合,在原有决策树的基础上利用新增样本迅速训练出新的决策树。实验结果表明,提出的算法可以较好的解决该问题,与重新构造决策树相比,它的时间开销更少,且具有更高的分类准确率,更适用于在线分类系统。  相似文献   

6.
朱江  明月  王森 《计算机应用》2017,37(3):771-776
针对大规模网络态势要素获取时间复杂度较高和攻击样本不平衡导致小类样本分类精度不高的问题,提出一种基于深度自编码网络的态势要素获取机制。在该机制下,利用优化后的深度自编码网络作为基分类器,识别数据类型。一方面,在自编码网络的逐层训练中,提出一种结合交叉熵(CE)函数和反向传播(BP)算法的训练规则,克服传统的方差代价函数更新权值过慢的缺陷;另一方面,在深度网络的微调和分类阶段,提出一种主动在线采样(AOS)算法应用于分类器中,通过在线选择用于更新网络权值的攻击样本,达到总样本的去冗余和平衡各类攻击样本数量的目的,从而提高小类攻击样本的分类精度。经对实例数据的仿真分析,该方案有较好的态势要素获取精度,并能有效减少数据传输时的通信开销。  相似文献   

7.
为提高构建的情感语料库中情感分布的均衡性,提出一种基于主动学习的算法以保持新构建训练集中情感标签的均衡.综合信息性、代表性、多样性和互补性标准于一体,通过文本的情感预测概率和特征统计量逐层筛选样本,利用互补性准则中的标签平衡措施抽取候选样本.该算法可以抑制模型选择高频次情感标签的样本,并促进低频次情感标签的样本选择,以达到情感标签平衡的目的.多标签情感分类实验表明,该算法能有效构造情感标签均衡的文本训练集,并通过所构造的训练集逐步提高文本情感分类的效果.  相似文献   

8.
为提高构建的情感语料库中情感分布的均衡性,提出一种基于主动学习的算法以保持新构建训练集中情感标签的均衡.综合信息性、代表性、多样性和互补性标准于一体,通过文本的情感预测概率和特征统计量逐层筛选样本,利用互补性准则中的标签平衡措施抽取候选样本.该算法可以抑制模型选择高频次情感标签的样本,并促进低频次情感标签的样本选择,以达到情感标签平衡的目的.多标签情感分类实验表明,该算法能有效构造情感标签均衡的文本训练集,并通过所构造的训练集逐步提高文本情感分类的效果.  相似文献   

9.
朴素贝叶斯算法是一种简单、高效且有着广泛应用的分类方法,但在现实中,条件独立性假设影响了其分类性能。为克服该问题,给出一种改进算法——样本-属性加权的朴素贝叶斯算法。首先,对属性计算相关系数得到属性权值;其次,利用属性权结合信息熵获得样本熵权,并据此加权样本以提高泛化能力;然后,给出了样本-属性加权的朴素贝叶斯算法;最后,在UCI数据集上的实验结果验证了改进算法比原算法具有更好的分类性能。  相似文献   

10.
在一些模式识别应用中,具有类属信息的样本数量较少,此时监督学习算法会遇到小样本问题,导致分类器的识别精度大幅低于预期水平.基于叶分量分析,提出一种带监督信息的在线学习方法.该方法在训练过程进行监督学习,而在模式识别阶段能够在对输入样本进行分类的同时基于这些样本进行非监督在线学习,因此实现了监督学习与非监督学习的结合.在小本量情况下,在线学习可以弥补训练阶段监督学习的不足,仍能保证获得较高的识别精度.实验证明,该方法能够有效克服小样本问题.  相似文献   

11.
高斯过程分类是近年机器学习领域引起广泛关注的一类有监督的学习算法。该算法在高斯过程的先验假设下,以后验概率最大化的为目标,获得对新样本的预测值及属于该值的概率。针对图像数据的特性,提出一种将高斯过程应用于图像分类的方法,同时在此基础上给出对图片进行排序的一种方案。在公开的图像数据集上进行了实验,并与支持向量机分类器进行对比,证实了其有效性,为改进图像分类技术提供一条可供参考的途径。  相似文献   

12.
模型无关的元学习(MAML)是一种多任务的元学习算法,能使用不同的模型,并快速地在不同任务之间进行适应,但MAML在训练速度与准确率上还亟待提高.从高斯随机过程的角度出发对MAML的原理进行分析,提出一种基于贝叶斯权函数的模型无关元学习(BW-MAML)算法,该权函数利用贝叶斯分析设计并用于损失的加权.训练过程中,BW...  相似文献   

13.
为降低特征噪声对分类性能的影响,提出一种基于极限学习机(extreme learning machine,ELM)的收缩极限学习机鲁棒算法模型(CELM)。采用自编码器对输入数据进行重构,将隐层输出值关于输入的雅克比矩阵的F范数引入到目标函数中,提取出更具鲁棒性的抽象特征表示,利用提取到的新特征对常规的ELM层进行训练,提高方法的鲁棒性。对Mnist、UCI数据集、TE过程数据集以及添加不同强度的混合高斯噪声之后的Mnist数据集进行仿真,实验结果表明,提出的方法较ELM、HELM具有更高的分类精度和更好的鲁棒性。  相似文献   

14.
Most optimization-based motion planners use a naive linear initialization, which does not use previous planning experience. We present an algorithm called ‘Gaussian mixture spline trajectory’ (GMST) that leverages motion datasets for generating trajectories for new planning problems. Unlike other trajectory prediction algorithms, our method does not retrieve trajectories from a dataset. Instead, it first uses a Gaussian mixture model (GMM) to modelize the likelihood of the trajectories to be inside the dataset and then uses the GMM's parameters to generate new trajectories. As the use of the dataset is restricted only to the learning phase it can take advantage of very large datasets. Using both abstract and robot system planning problems, we show that the GMST algorithm decreases the computation time and number of iterations of optimization-based planners while increasing their success rates as compared to that obtained with linear initialization.  相似文献   

15.
不同城市功能区区域之间具有外在物理差异和内在功能差异,且随时间和人类活动不断发生演变。针对卫星遥感等传统监测方法存在运行周期长、成本高,不能表征内在功能差异等问题,利用通信运营商提供的用户生活数据——呼叫详细记录(CDR),进行城市功能区识别研究。首先,以人工标注的方法对基站小区进行功能区分类,得到住宅区、办公区、商业区、高校区、景点区五类训练样本;然后,提取各功能区内用户群体的通话行为和移动行为特征,进行差异性对比分析;最后,利用高斯混合模型(GMM)设计出多特征加权判决的功能区识别算法,并用训练集对该算法进行仿真。实验结果表明,CDR数据可以对城市功能区之间的内在差异进行表征,功能区性质与用户的通话行为和移动行为存在对应关系;判决权重为0.6时,该算法在现有数据集下的功能区召回率达到了最大,为51.08%。结合误差分析表明CDR数据在城市功能区识别应用上具有可行性。  相似文献   

16.
刘艳芳  李文斌  高阳 《软件学报》2022,33(4):1315-1325
与研究固定特征空间的传统在线学习相比,特征演化学习通常假设特征不会以任意方式消失或出现,而是随着收集数据特征的硬件设备更换旧特征消失、新特征出现.然而,已有的特征演化学习方法仅利用数据流的一阶信息,而忽略可以挖掘特征之间相关性和显著提高分类性能的二阶信息.提出了一种特征演化的置信-加权学习算法来解决上述问题:首先,引入...  相似文献   

17.
在大型和高维数据上进行有效检测, 在实际应用中具有重要意义. 异常点检测是指识别出偏离一般数据分布的数据点, 其核心是密度估计. 尽管像深度自编码高斯混合模型通过先降低维度, 再进行密度估计已经取得了重大进展, 但是它对低维潜在空间引入噪声, 并且在对密度估计模块优化时存在一些限制, 例如需要保证协方差是正定矩阵. 为解决这些限制, 本文提出一种用于无监督异常检测的深度自编码标准化流(deep autoencoder normalizing flow, DANF). 该模型利用深度自编码器为每个输入样本生成低维潜在空间表示和重构误差, 进而将其输入标准化流(normalizing flow, NF), 最终映射成高斯分布. 在多个公开的基准数据集上的实验结果表明, 深度自编码标准化流模型显著优于最先进的异常检测技术, 在评估指标F1-score上最高提升26.43%.  相似文献   

18.
刘然  刘宇  顾进广 《计算机应用》2005,40(10):2804-2810
人工神经网络的自适应结构学习(AdaNet)是基于Boosting集成学习的神经结构搜索框架,可通过集成子网创建高质量的模型。现有的AdaNet所产生的子网之间的差异性不显著,因而限制了集成学习中泛化误差的降低。在AdaNet设置子网网络权重和集成子网的两个步骤中,使用Adagrad、RMSProp、Adam、RAdam等自适应学习率方法来改进现有AdaNet中的优化算法。改进后的优化算法能够为不同维度参数提供不同程度的学习率缩放,得到更分散的权重分布,以增加AdaNet产生子网的多样性,从而降低集成学习的泛化误差。实验结果表明,在MNIST(Mixed National Institute of Standards and Technology database)、Fashion-MNIST、带高斯噪声的Fashion-MNIST这三个数据集上,改进后的优化算法能提升AdaNet的搜索速度,而且该方法产生的更加多样性的子网能提升集成模型的性能。在F1值这一评估模型性能的指标上,改进后的方法相较于原方法,在三种数据集上的最大提升幅度分别为0.28%、1.05%和1.10%。  相似文献   

19.
《Pattern recognition》2014,47(2):789-805
This paper studies Fisher linear discriminants (FLDs) based on classification accuracies for imbalanced datasets. An optimal threshold is found out from a series of empirical formulas developed, which is related not only to sample sizes but also to distribution regions. A mixed binary–decimal coding system is suggested to make the very dense datasets sparse and enlarge the class margins on condition that the neighborhood relationships of samples are nearly preserved. The within-class scatter matrices being or approximately singular should be moderately reduced in dimensionality but not added with tiny perturbations. The weight vectors can be further updated by a kind of epoch-limited (three at most) iterative learning strategy provided that the current training error rates come down accordingly. Putting the above ideas together, this paper proposes a type of integrated FLDs. The extensive experimental results over real-world datasets have demonstrated that the integrated FLDs have obvious advantages over the conventional FLDs in the aspects of learning and generalization performances for the imbalanced datasets.  相似文献   

20.
刘然  刘宇  顾进广 《计算机应用》2020,40(10):2804-2810
人工神经网络的自适应结构学习(AdaNet)是基于Boosting集成学习的神经结构搜索框架,可通过集成子网创建高质量的模型。现有的AdaNet所产生的子网之间的差异性不显著,因而限制了集成学习中泛化误差的降低。在AdaNet设置子网网络权重和集成子网的两个步骤中,使用Adagrad、RMSProp、Adam、RAdam等自适应学习率方法来改进现有AdaNet中的优化算法。改进后的优化算法能够为不同维度参数提供不同程度的学习率缩放,得到更分散的权重分布,以增加AdaNet产生子网的多样性,从而降低集成学习的泛化误差。实验结果表明,在MNIST(Mixed National Institute of Standards and Technology database)、Fashion-MNIST、带高斯噪声的Fashion-MNIST这三个数据集上,改进后的优化算法能提升AdaNet的搜索速度,而且该方法产生的更加多样性的子网能提升集成模型的性能。在F1值这一评估模型性能的指标上,改进后的方法相较于原方法,在三种数据集上的最大提升幅度分别为0.28%、1.05%和1.10%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号