首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 156 毫秒
1.
《工矿自动化》2016,(10):60-64
针对现有留一校验法存在剔除异常样本耗时长、误判的缺陷,提出一种K均值改进留一校验法,并将其用于煤质分析中异常样本的检测与剔除。该方法首先利用K均值聚类法对样本进行聚类,得到可疑样本;然后将可疑样本作为验证集,通过留一校验法进行二次判别,剔除异常样本。实验结果表明,K均值改进留一校验法能快速、准确剔除异常样本,提高了模型的预测精度。  相似文献   

2.
训练样本选取对最小二乘支持向量机(LSSVM)的泛化能力有较大影响,为了提高网络流量预测精度,提出一种最优训练样本子集的LSSVM网络流量预测模型(IFCM-LSSVM)。首先采用密度方法识别和剔除网络流量数据中的孤立点,消除孤立点对模糊均值聚类(FCM)聚类结果的不利影响;然后采用FCM算法对处理后网络流量数据进行聚类,并根据预测点输入向量与聚类中心的最小距离选择最优训练集,加强训练集规律性,减少LSSVM对训练集的依赖性;最后采用非线性预测能力强的LSSVM对训练集进行学习建立网络流量预测模型,并采用仿真实验对模型性能测试。仿真结果表明,相对于对比模型,IFCM-LSSVM提高了网络流量的预测精度,加快了模型的训练速度,预测结果更加稳定、可靠。  相似文献   

3.
赵凯  雷萌 《工矿自动化》2012,38(9):35-38
针对近红外光谱灰分预测模型中样本数据特有的问题,首先采用主成分分析方法剔除建模样本集中的异常样本,并提取出煤炭光谱的特征信息;然后提出一种集成自组织映射神经网络和模糊C均值聚类算法的双层聚类方法,将样本集分为5个子集,并滤除其中的争议点;最后搭建基于GA-BP神经网络的煤炭灰分预测子模型,单独分析各子集的测试集样本。实验结果表明,基于主成分分析和双层聚类方法的煤炭样本优化方法不仅能准确排除异常样本和可疑样本,还能有效地压缩样本数据,使得各子模型的学习精度和运算速度得到显著提高。该方法为近红外光谱煤质分析技术的发展应用提供了一种有效可行的新途径。  相似文献   

4.
针对当前工业异常数据检测技术未充分考虑数据的时序特征以及训练样本中可能含有异常样本的问题,提出一种检测异常数据的方法:基于时序特征将遥测量与遥信量分为离散量与连续变化量,并分别通过改进后的K-均值算法与传统自回归模型检测离散量与连续变化量的异常数据,在训练聚类模型的过程中,通过计算异常因子来剔除含有异常样本的聚类簇,在训练自回归模型过程中,将不属于正常取值区间的异常样本剔除。最后在OMNeT 平台下搭建仿真小型储水加热工业系统并进行验证,实验结果表明:该方法可以有效地检测出现场设备中的异常数据,相比于其他同类基于聚类的异常检测模型,采用该方法检测异常数据的漏报率更低。  相似文献   

5.
基于模糊分割和邻近对的支持向量机分类器   总被引:1,自引:0,他引:1  
支持向量机算法对噪声点和异常点是敏感的,为了解决这个问题,人们提出了模糊支持向量机,但其中的模糊隶属度函数需要人为设置。提出基于模糊分割和邻近对的支持向量机分类器。在该算法中,首先根据聚类有效性用模糊c-均值聚类算法分别对训练集中的正负类数据聚类;然后,根据聚类结果构造c个二分类问题,求解得c个二分类器;最后,用邻近对策略对样本点进行识别。用4个著名的数据集进行了数值实验,结果表明该算法能有效提高带噪声点和异常点数据集分类的预测精度。  相似文献   

6.
基于有监督学习的预测模型在预测过程中存在以下缺陷:一是过分依赖训练集中有标签样本的数量,导致分类精度受有标签样本数量多少的制约;二是其预测分类一次完成,导致大量的无标签样本无法用来修正分类器的预测精度,大量数据信息被浪费,从而影响分类性能.针对以上问题,该文提出一种基于AP聚类与Renyi熵融合的自训练半监督相关向量机...  相似文献   

7.
针对互联网流量标注困难以及单个聚类器的泛化能力较弱,提出一种基于互信息(MI)理论的选择聚类集成方法,以提高流量分类的精度。首先计算不同初始簇个数K的K均值聚类结果与训练集中流量协议的真实分布之间的规范化互信息(NMI);然后基于NMI的值来选择用于聚类集成的K均值基聚类器的K值序列;最后采用二次互信息(QMI)的一致函数生成一致聚类结果,并使用一种半监督方法对聚类簇进行标注。通过实验比较了聚类集成方法与单个聚类算法在4个不同测试集上总体分类精度。实验结果表明,聚类集成方法的流量分类总体精度能达到90%。所提方法将聚类集成模型应用到网络流量分类中,提高了流量分类的精度和在不同数据集上的分类稳定性。  相似文献   

8.
支持向量机算法对噪声点和异常点是敏感的,为了解决这个问题,人们提出了模糊支持向量机,但其中的模糊隶属度函数需要人为设置。提出基于模糊分割的支持向量机分类器。在该算法中,首先根据聚类有效性用模糊c-均值聚类分别对训练集中的正负类数据聚类;然后,选择距离最近的c个聚类对构成c个二分类问题;最后,对c个二分类器用加权平均策略得到最终分类结果。为了验证所提算法的有效性,对三个UCI数据集进行了数值实验,结果表明,该算法能有效提高带噪声点和异常点数据集分类的预测精度。  相似文献   

9.
随着社会的发展,人们对于数据预测的需求日益增加,模糊时间序列因其能够处理时间序列中含糊不清的数据而备受关注。从提高模型的预测精度角度来看,论域划分作为时间序列数据预测的第一步,作用至关重要。本文提出一种基于FCM的二次论域划分方法。该方法首先根据FCM聚类算法得到的聚类中心对论域进行一次划分,然后根据样本点空间分布的疏密程度不同对论域进行二次细化,实现不等分论域,最后通过对经典样本的预测证明方法的可行性。  相似文献   

10.
采用减法聚类辅助模糊推理系统进行电力系统短期负荷预测。首先用减法聚类建立T-S模糊模型,然后通过调整聚类半径优选模糊规则数,以取得具有良好泛化性能的模型,最后利用梯度下降混合最小二乘算法精调参数。利用某局网负荷数据对ANFIS网络模型进行训练和检测,然后用于负荷预测,所得结果表明该算法鲁棒性好,抗干扰能力强,并且预测时间较ANFIS大大减少。  相似文献   

11.
近红外(near-infrared,NIR)校正模型建立时传统的训练样本选择方法只考虑光谱欧氏距离的同类就近选取,不考虑光谱特征异常的训练样本的影响.基于主元分析(principal component analysis,PCA)残差,在同类就近取样的基础上引入异常光谱剔除技术进行训练样本的二次提取,用于建立偏最小二乘(partial least squares,PLS)回归模型.实验结果表明,该方法比传统方法的预测精度有较明显的提高.  相似文献   

12.
提出了小波能量差分布和支持向量机(Support Vector Machine,SVM)相结合的电能质量扰动(Power Quality Disturbance,PQD)识别方法。该方法用小波变换对PQD信号进行分析,提取信号各层暂态能量与标准信号的能量之差和扰动持续时间为特征向量,组成训练样本和测试样本;使用基于邻域粗糙集模型对训练样本集进行预处理,剔除噪声和异常样本;使用具有二元树结构的SVM对PQD样本进行训练,实现PQD的识别。测试结果表明,该方法可以实现 7种PQD的识别,准确率高(平均可达97%),抗噪声能力强,辨识速度快,适用于PQD识别系统。  相似文献   

13.
传统时间序列分类方法存在鼠标轨迹特征挖掘不充分、数据不平衡与标记样本量少等问题,造成识别效果较差。结合特征组分层和半监督学习,提出一种鼠标轨迹识别方法。通过不同视角构建有层次的鼠标轨迹特征组,并借鉴半监督学习的思想,利用多个随机森林模型对未标记样本进行伪标记,且将抽取标签预测一致且置信度较高的部分样本加入到训练集中。基于基础特征组和辅助特征组,在扩充后的训练集上训练随机森林模型,以实现鼠标轨迹的人机识别。实验结果表明,该方法可有效识别鼠标轨迹,且精确率、召回率与调和均值分别达到97.83%、94.72%和96.56%。  相似文献   

14.
针对网络流量的非线性和时变性等特点,为了提高网络流量预测精度,提出一种组合核函数高斯过程的网络流量预测模型。用自相关法和假近邻法计算网络流量的延迟时间和嵌入维数,构建网络流量学习样本;采用组合核函数高斯过程对训练集进行学习,并且参数通过遗传算法进行优化;最后采用网络流量数据对模型性能测试。仿真表明,相对于对比模型,组合核函数高斯模型获得了更高的预测精度,预测结果更加稳定、可靠,具有较大的实际应用价值。  相似文献   

15.
基于邻域粗糙集的支持向量机分类方法研究   总被引:2,自引:0,他引:2  
针对支持向量机方法对高维大规模数据无法直接处理和对异常样本敏感的问题,提出了一种基于邻域粗糙集模型的改进支持向量机。该算法从两个方面对训练样本集进行预处理:一方面利用邻域粗糙集模型中对象邻域的上、下近似,寻找两种类别的交界部分,从而减小问题规模;然后通过对交界部分样本进行混淆度分析,剔除那些混杂在另一类样本中的异常样本或噪声数据。另一方面利用属性重要性度量对样本集进行属性约简与属性加权处理。基于合成数据集与标准数据集的有关实验证实了该算法的有效性。  相似文献   

16.
目的 肺区分割是肺癌计算机辅助诊断系统的首要步骤。主动形状模型(active shape model,ASM)能根据训练集获得肺区形状模型,再结合待分割肺区影像自身的局部特征,进行测试影像的分割。由于主成分分析(principal component analysis,PCA)仅能去除服从高斯分布的噪声,不能处理其他类型的噪声,所以当训练集含有非高斯类型的噪声样本时,采用基于PCA的ASM无法训练出正确的形状模型,使得肺区分割不能得到正确的结果。而低秩(low rank,LR)理论的鲁棒主成分分析(robust principal component analysis,RPCA)能去除各种类型的噪声,基于此,本文提出一种将RPCA与ASM相结合的方法。方法 首先对训练样本集标记点矩阵进行低秩分解,去除噪声样本对训练出的形状模型的影响。然后在ASM训练局部梯度模型时,用判断训练样本轮廓上的标记点曲率直方图的相似度来去除噪声样本。结果 在训练集含噪声样本时,将基于RPCA的ASM与传统ASM(即基于PCA的ASM)分别生成的形状模型进行对比,发现基于RPCA的ASM生成的形状模型与训练集无噪声样本时传统ASM生成的形状模型更相符。在训练集含噪声样本的情况下,基于RPCA的ASM方法分割EMPIRE10数据集中的22个肺影像,与金标准的重叠度为94.5%,而基于PCA的ASM方法分割准确率仅为69.5%。结论 实验结果表明,在训练样本集中有噪声样本的情况下,基于RPCA的ASM分割能得到比基于PCA的ASM更好的分割效果。  相似文献   

17.
粗糙集-神经网络在作战效能评估中的应用   总被引:3,自引:0,他引:3  
为了提高作战效能评估的准确度,将粗糙集理论和神经网络引入到作战效能评估研究中,提出了粗糙集与神经网络相结合的作战效能评估方法.应用粗糙集简化神经网络训练样本数据集,在保留重要信息的前提下消除冗余的数据,仿真实验表明评估精度提高了,并且能获得更好的效果.以坦克作战效能为例,构建了坦克的效能评估模型,给出了基于粗糙集和神经...  相似文献   

18.
本论文针对乳腺癌病理图像分析提出新的方法进行图像特征提取和可疑区域标记。由于深度神经网络,例如 VGG,GoogleNet,ResNet 等,均需要大量的标注样本才能完成训练,而医疗影像图像的标记成本很高,并不能为训练复杂的网络提供足够的训练数据。本论文借鉴生成对抗网络(Generative Adversarial Network, GAN) 的思想,提出基于弱监督学习的病理图像可疑区域标记网络,首先利用少量有标记的病理图像数据来训练分类模型,即判断该图像是否是乳腺癌,然后通过融合该网络提取到的具有判别力的特征来对可疑区域进行标记。由本文提出的网络在已有的国外乳腺癌病理图像数据集上达到的平均准确率为 83.8%,比基于卷积神经网络 (Convolutional Neural Network,CNN) 的分类方法在准确率上分别高 3 个百分点,说明该网络提取到的特征具有更好的判别力,不仅能够提高分类模型的准确率,还更有助于对病理图像的可疑区域进行标记。  相似文献   

19.
不同产地黄柏的近红外指纹图谱鉴别分析   总被引:7,自引:0,他引:7  
建立用近红外漫反射光谱鉴别不同产地黄柏药材的新方法.采集不同产地的黄柏药材及其伪品的近红外漫反射光谱,用模式识别方法进行聚类分析,建立判别模型并用三重交叉验证的方法对模型稳定性进行验证.黄柏样品与伪品能较好地区分开;建立模型后对已知训练集样本的分类精度高达100%,对未知样本的预测精度达到100%,该模型具有很好的预测性能,这说明了所建方法性能优良,能够适用于黄柏药材的不同种植产地分类鉴别.近红外光谱法简便、快速、不破坏样品,结合模式识别方法能够准确鉴别正品、伪品以及不同产地的黄柏药材.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号