首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
对于建立动态贝叶斯网络(DBN)分类模型时,带有类标注样本数据集获得困难的问题,提出一种基于EM和分类损失的半监督主动DBN学习算法.半监督学习中的EM算法可以有效利用未标注样本数据来学习DBN分类模型,但是由于迭代过程中易于加入错误的样本分类信息而影响模型的准确性.基于分类损失的主动学习借鉴到EM学习中,可以自主选择有用的未标注样本来请求用户标注,当把这些样本加入训练集后能够最大程度减少模型对未标注样本分类的不确定性.实验表明,该算法能够显著提高DBN学习器的效率和性能,并快速收敛于预定的分类精度.  相似文献   

2.
基于KL距离的非平衡数据半监督学习算法   总被引:2,自引:0,他引:2       下载免费PDF全文
在实际应用中,由于各种原因时常无法直接获得已标识反例,导致传统分类方法暂时失灵,因此,基于正例和未标识集的半监督学习顿时成了理论界研究的热点.研究者们提出了不同的解决方法,然而,这些方法都不能有效处理非平衡的分类问题,尤其当隐匿反例非常少或训练集中的实例分布不均匀时.因此,提出了一种基于KL距离的半监督分类算法——LiKL:依次挖掘出未标识集中的最可靠正例和反例,接着使用训练好的增强型分类器来分类.与其他方法相比,不仅提高了分类的查准率和查全率,而且具有鲁棒性.  相似文献   

3.
卷积神经网络具有高效的特征提取能力和较少的参数量,被广泛应用于图像处理、目标跟踪、自然语言等领域。针对传统分类模型对于结构化非平衡数据分类效果较差的问题,提出一种基于卷积神经网络的二分类结构化非平衡数据分类算法。设计结构化数据处理算法Data-Shuffle,将原始非平衡一维结构化数据转换为三维数组形式的多通道非平衡数据,为卷积神经网络提供更多的特征值,通过改进的VGG网络构建适合非平衡数据的网络结构卷积组,以提取不同的特征。在此基础上,提出更新权重加权采样算法UWSCNN,在每个迭代次数之后,根据模型的训练结果对易错样本进行重新加权,以优化训练结果。在adult、shoppers和diabetes数据集上的实验结果表明,相比逻辑回归、随机森林等传统机器学习模型,所提的Data-Shuffle算法的F1值提升了1%~19%,G-mean提升了2%~24%,相比SMOTECNN、BSMOTECNN、SMOTECNN+CS等采样算法,所提的UWSCNN算法对非平衡数据的分类效果提升了1%~13%,有效提高模型对非平衡数据的分类性能。  相似文献   

4.
邹薇  王会进 《微型机与应用》2011,30(16):75-77,81
实际应用中大量的不完整的数据集,造成了数据中信息的丢失和分析的不方便,所以对缺失数据的处理已经成为目前分类领域研究的热点。由于EM方法随机选取初始代表簇中心会导致聚类不稳定,本文使用朴素贝叶斯算法的分类结果作为EM算法的初始使用范围,然后按E步M步反复求精,利用得到的最大化值填充缺失数据。实验结果表明,本文的算法加强了聚类的稳定性,具有更好的数据填充效果。  相似文献   

5.
非平衡数据集分类问题研究进展   总被引:3,自引:0,他引:3  
非平衡数据集广泛存在于现实世界中,其分类问题已经成为目前数据挖掘领域中的一个研究热点.文章综述了非平衡数据集分类问题的评价方法及其常用分类算法,分析了目前存在的主要困难,并指出需进一步解决的几个问题.  相似文献   

6.
针对朴素贝叶斯分类算法中缺失数据填补问题,提出一种基于改进EM(Expectation Maximization)算法的朴素贝叶斯分类算法。该算法首先根据灰色相关度对缺失数据一个估计,估计值作为执行EM算法的初始值,迭代执行E步M步后完成缺失数据的填补,然后用朴素贝叶斯分类算法对样本进行分类。实验结果表明,改进算法具有较高的分类准确度。并将改进的算法应用于高校教师岗位等级的评定。  相似文献   

7.
为了提高不平衡数据集中少数类的分类准确率,文章对组合分类算法进行了研究,提出了一种新的组合分类算法WDB.该算法采用决策树C4.5和朴素贝叶斯两种不同的分类器作为基分类器,选择精确度(precision)作为权值,根据不同的训练集,通过"权值学习"的方式自动调整各基分类器的权值大小,然后,结合各基分类器的预测结果,利用加权平均法进行代数组合,构造出一种新的分类算法WDB.最后,以开放的不平衡数据集作为数据源,利用常见的性能评价指标进行实验验证.实验结果证明,在组合分类算法中引入"权值学习"能够发挥基分类器对于特定数据类型的分类优势,提高预测结果的准确率.WDB算法对不平衡数据集分类的性能优于决策树C4.5算法、朴素贝叶斯算法及随机森林算法,能够有效提升不平衡数据集中少数类的分类准确率.  相似文献   

8.
一种基于不完整数据的朴素贝叶斯分类器   总被引:1,自引:0,他引:1  
贝叶斯网络因其对属性间因果关系的表达能力而成为处理不完整数据的强有力的工具。然而绝大多数的贝叶斯分类器都是基于完整数据的,并且在现实世界中数据往往是不完整的,因此利用不完整数据构建有效的贝叶斯分类器是一个重要而又具有挑战性的问题。 通过分析著名的基于不完整数据的RBC分类器的不足,在BC (Bound and Collapse)方法和EM算法的基础上给出了一种基于不完整数据的分类器构建方法。实验结果表明了该算法的有效性。  相似文献   

9.
现实世界中存在着非平衡数据集,即数据集中的一类样本数量远大于另一类。而少数类样本的识别通常是人们首要关心的,将少数类样本误分为多数类要比将多数类样本误分为少数类付出更高的代价。传统的机器学习算法可能会产生偏向多数类的结果,因而对于少数类而言,预测的效果会很差。在对目前国内外非平衡数据集研究现状深入分析的基础上,针对非平衡数据集数据复杂度研究和失衡解决方法研究两个方向相对孤立及缺乏系统性的缺陷,提出了一种非平衡数据集整体解决框架,以满足日益迫切的应用需求。  相似文献   

10.
在灾害天气、故障诊断、网络攻击和金融欺诈等领域经常存在不平衡的数据集。针对随机森林算法在非平衡数据集上表现的分类性能差的问题,提出一种新的过采样方法:SCSMOTE(Seed Center Synthetic Minority Over-sampling Technique)算法。该算法的关键是在数据集的少数类样本中找出合适的候选样本,计算出候选样本的中心,在候选样本与样本中心之间产生新的少数类样本,实现了对合成少数类样本质量的控制。结合SCSMOTE算法与随机森林算法来处理非平衡数据集,通过在UCI数据集上对比实验结果表明,该算法有效提高了随机森林在非平衡数据集上的分类性能。  相似文献   

11.
张德喜  黄浩 《计算机应用》2006,26(8):1884-1887
EM算法的计算强度较大,且当数据集较大时,计算效率较低。为此,提出了基于部分E步的混合EM算法,降低了算法的计算强度,提高了算法对数据集大小的适应能力,并且保持了EM算法的收敛特性。最后通过将算法应用于大的数据集,验证了该算法能减少计算强度。  相似文献   

12.
随着高清数字播放技术的日益成熟以及计算机网络的日益普及,广告运营商希望按照广告商的要求,通过网络将定制的高清数字广告内容发送到终端,并且通过网络来管理各个播放任务和播放终端.针对这一实际的项目需求设计并实现了一套基于网络的嵌入式商清数字终端播放设备,在实际的使用测试中,效果良好,系统整体运行稳定.  相似文献   

13.
基于PIC低功耗单片机与MEMS加速度传感器.设计了一种低成本的无线传感器网络节点。该设计采用性价比较高的PIC16系列单片机,软件模拟PT2262遥控编码器,配合12C接口加速度传感器、微型高频发射器件,实现了通用MCU无线传感器的节点方案,省去了昂贵的专用RF芯片,降低了系统成本。节点整体采用3.3V单节锂电池供电。实验结果表明,该方案具有可靠、灵活、低功耗、低成本的特点,可广泛应用于低速实时测量、监控防盗等场合。
Abstract:
A low-cost wireless sensor network node is designed based on low-power consumption PIC microcontroller and MEMS acceleration sensor. The design uses low-cost PIC16 series microcontrollers, PT2262 encoder software simulation, with the 12C interface acceler  相似文献   

14.
为了快速更好地进行彩色图像分割,以图像的颜色、纹理及空间位置作为综合特征,基于t混合模型,提出了一种自适应的图像分割方法,即先采用贪婪的EM(Greedy EM)算法估计混合模型的参数,然后根据贝叶斯最小错误率准则对图像进行分割。由于t混合模型的稳健性和Greedy EM算法对于数据的初始化不敏感,且能收敛到全局最优,因此与其他的方法相比,不仅速度提高,而且能取得更好的分割结果。  相似文献   

15.
刘承旺 《福建电脑》2008,24(11):75-76
本文提出了一种基于t混合模型和Greedy EM算法的无监督廒色传递算法.综合利用图像的颜色、纹理和空闻住王等要素.来提高颜色传递的速度和质量。实验表明,谊方法能够在无需用户操作的情况下高效地完成颜色传递过程并得到较好的效果。  相似文献   

16.
在介绍ISO11784/5动物识别国际标准的基础上,通过对动物识别卡片结构的详细分析,以及对于可读写射频卡EM4205和读写基站EM4095的说明,给出一种利用EM4095基站将EM4205射频卡仿真制作为动物识别卡的设计方法。这种方法使得动物标签卡的制作更为灵活,满足了各动物标签使用国家和领域对其定义的自由度需求,是一种先进的卡片仿真设计方法。  相似文献   

17.
18.
针对负例类别很难获得训练样本的情况,提出了一种基于正例和未标文档的半监督分类方法.已知仅有正例文本的情况下,引入k-means 聚类算法对未标样本集进行聚类,从未标样本集中选出最为可靠的负例样本信息,初始化分类器.基于EM的极大似然估计理论,在每步迭代的E-step中,将中间分类器最有把握对其类别进行预测的未标注样本进行分类,并应用到M-step中修正分类器的参数值,迭代选择最优分类器.实验结果表明,该方法取得了较好的分类效果.  相似文献   

19.
通常我们用K-平均法和K-邻近法估计椭圆基函数(EBF)中心位置与函数宽度等参数。但上述的方法在输入矢量包含相关元素时存在性能次优化问题。另外,对于EBF网络来说,如何选择适当的类的数目仍是一个难以解决的问题。本提出用结合改进的RPCL算法和EM算法的EBF网络结构来解决上述问题。在话识别的软件开发中,证明这种结构具有更优越的样本表征能力以及更好的识别率。  相似文献   

20.
EM算法是一种有效的应对缺失数据的估计算法,它的应用非常广泛,比如人工智能、模式识别、数理统计、图像处理、信号检测等等。首先对最有效的估计算法极大似然估计进行简单阐述,接下来引出算法的主要内容,在原理上说明了基于迭代理论的似然估计期望最大化算法,讨论EM算法的收敛性,并提出了EM算法的应用,最后简单介绍了几种EM改进型算法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号