首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
Shapelet序列分析为时间序列分类提供了一种快速分类的方法,但Shapelet序列抽取速度很慢,限制了它的应用范围。为了加快 Shapelet 序列的提取,提出了一种基于主成分分析的改进方法。首先运用主成分分析法(PCA)对时间序列数据集进行降维,采用降维后的数据表示原数据,然后对降维后的数据提取出最能代表类特征的Shapelet序列。实验结果表明:本方法在保证分类准确率的前提下,提高了运算速度。  相似文献   

2.
针对基于API序列的恶意代码检测方法中,深度学习方法特征可解释性差,传统机器学习方法依赖人工设计特征以及忽视数据间时序特性等问题,从时序分类的角度,提出一种基于API序列的可解释恶意代码检测方法。将恶意代码动态API调用序列转换为熵时间序列;使用时间序列分类中的shapelet方法提取具有辨别性的特征;使用多种分类器构造检测模型。实验结果表明,该方法能够自主学习具有辨别性的时序特征,能够在兼具高准确率的同时提供模型的可解释性分类依据。  相似文献   

3.
Shapelet作为时间序列特征,具有较好的可解释性。Shapelet在行为识别、聚类分析及异常检测等方向均得到了广泛应用。但在电力运行监测、医学图像分析以及流媒体监测等领域,时间序列具有多源、同步的特点,仅对单一源上的时间序列提取Shapelet可能丢失序列间相关性。在Shapelet概念基础上,本文提出p-Shapelet作为不同源的Shapelet间关于时间间隔的特征表达,从而实现分析不同源Shapelet间的相关性。具体地,为找出不同类别样本间时间间隔具有最显著差异的Shapelet对,设计并实现了并行化挖掘的算法p-Shapelet miner。算法采用信息增益对不同源间的Shapelet对进行评价,并找出能最大化信息增益的Shapelet对(p-Shapelet)。利用CMU人体动作捕捉数据集进行实验,验证了算法的有效性与执行效率。  相似文献   

4.
网络流量的决策树分类   总被引:2,自引:1,他引:1  
应用识别与流量分类是网络管理、安全、研究等相关事务的必要前提.随着网络的高速发展以及各种新型应用的不断涌现,基于分组传输层端口号和深度分组解析的分类技术难以满足需求.本文验证网络流量的统计特性可以有效地区分不同应用,提出一种基于C4.5决策树分类器的有监督网络流量分类方法,讨论boosting增强方法和特征选择两种改进.实验结果表明,C4.5分类器的训练复杂度适中,准确率高且分类速度快;增强方法可以进一步提高分类器的准确率,代价是训练时间大幅提高和分类时间稍微减慢;特征选择算法则提高分类速度而稍微降低准确率.  相似文献   

5.
本文采用深度学习算法中的卷积神经网络对细胞图像进行识别, 实现对宫颈细胞图像的自动分类. 首先对宫颈细胞进行预处理, 通过细胞核裁剪解决图像输入尺寸不一的问题, 对图像进行翻转平移, 对数据集进行扩充, 并解决样本量不均衡的问题; 接着选取VGG-16网络进行改进, 使用改进后的VGG-16网络进行特征提取, 以及细胞分类; 并采用迁移学习的方法加载预训练网络参数, 进而加快参数收敛速度, 提高分类准确率; 最终通过对网络的训练, 得到了较好的分类结果, 将分类结果与人工提取特征设计分类器的方法相比, 分类的准确率有所提高, 二分类的准确率达97.3%, 七分类的准确率达89%. 实验结果表明: 卷积神经网络对宫颈细胞图像进行自动分类, 分类准确率相比较人工提取特征分类器效果较好, 且分类结果不受分割图像准确率的影响.  相似文献   

6.
杨海涛  肖军  王佩瑶  王威 《信息与控制》2016,45(4):432-436,443
针对处理大量时间序列数据或数据流时,参数间隔孪生支持向量机(TPMSVM)分类训练速度依然较慢的问题.本文证明了样本满足TPMSVM的KKT条件所对应的数值条件,并根据结论提出一种适用于TPMSVM的增量学习算法用于处理时间序列数据.该算法选取新增数据中违背广义KKT条件和部分满足条件的原始数据,参加分类器训练.实验证明:本文提出的增量算法在保持一定分类精度的同时提高了TPMSVM的训练速度.  相似文献   

7.
周塔  邓赵红  蒋亦樟  王士同 《软件学报》2020,31(11):3506-3518
利用重构训练样本空间的手段,提出一种多训练模块Takagi-Sugeno-Kang (TSK)模糊分类器H-TSK-FS.它具有良好的分类性能和较高的可解释性,可以解决现有层次模糊分类器中间层输出和模糊规则难以解释的难题.为了实现良好的分类性能,H-TSK-FS由多个优化零阶TSK模糊分类器组成.这些零阶TSK模糊分类器内部采用一种巧妙的训练方式.原始训练样本、上一层训练样本中的部分样本点以及所有已训练层中最逼近真实值的部分决策信息均被投影到当前层训练模块中,并构成其输入空间.通过这种训练方式,前层的训练结果对后层的训练起到引导和控制作用.这种随机选取样本点、在一定范围内随机选取训练特征的手段可以打开原始输入空间的流形结构,保证较好或相当的分类性能.另外,该研究主要针对少量样本点且训练特征数不是很大的数据集.在设计每个训练模块时采用极限学习机获取模糊规则后件参数.对于每个中间训练层,采用短规则表达知识.每条模糊规则则通过约束方式确定不固定的输入特征以及高斯隶属函数,目的是保证所选输入特征具有高可解释性.真实数据集和应用案例实验结果表明,H-TSK-FS具有良好的分类性能和高可解释性.  相似文献   

8.
针对分层Takagi-Sugeno-Kang(TSK)模糊分类器可解释性差,以及当增加或删除一个TSK模糊子分类器时Boosting模糊分类器需要重新训练所有TSK模糊子分类器等问题,提出一种并行集成具有高可解释的TSK模糊分类器EP-Q-TSK.该集成模糊分类器每个TSK模糊子分类器可以使用最小学习机(LLM)被并行地快速构建.作为一种新的集成学习方式,该分类器利用每个TSK模糊子分类器的增量输出来扩展原始验证数据空间,然后采用经典的模糊聚类算法FCM获取一系列代表性中心点,最后利用KNN对测试数据进行分类.在标准UCI数据集上,分别从分类性能和可解释性两方面验证了EP-Q-TSK的有效性.  相似文献   

9.
曾志强  廖备水  高济 《计算机科学》2009,36(11):208-212
标准SVM学习算法运行所需的时间和空间复杂度分别为O(l~3)和O(l~2),l为训练样本的数量,因此不适用于对超大数据集进行训练.提出一种基于近似解的SVM训练算法:Approximate Vector Machine(AVM).AVM采用增量学习的策略来寻找近似最优分类超平面,并且在迭代过程中采用热启动及抽样技巧来加快训练速度.理论分析表明,该算法的计算复杂度与训练样本的数量无关,因此具有良好的时间与空间扩展性.在超大数据集上的实验结果表明,该算法在极大提高训练速度的同时,仍然保持了原始分类器的泛化性能,并且训练完毕具有较少的支持向量,因此结果分类器具有更快的分类速度.  相似文献   

10.
多分类器系统作为混合智能系统的分支,集成了具有多样性的分类器集合,使整体得到更优的分类性能.结果融合是该领域中的一个重要问题,在相同分类器成员下,好的融合策略可以有效提升系统整体的分类正确率.随着模型安全性得到重视,传统融合策略可解释性差的问题凸显.本文基于心理学中的知识线记忆理论进行建模,参考人类决策过程,提出了一种拥有较好可解释性的启发式多分类器集成算法,称为知识线集成算法.该算法模拟人类学习与推断的行为,组织多分类器结果的融合.在训练中,模型收集给定分类器集合的不同子集,构建不同特征空间到解空间的映射,构成知识线.在推断时,模型启发式地激活知识线,进行选择性结果集成,得到推断结果.知识线集成使用样本驱动的模式,易于进行中间过程与最终结果的分析.以决策树作为分类器的实验表明,在相同的决策树集合下,知识线集成算法分类正确率与随机森林相仿.在此基础之上,知识线集成算法可量化问题不同粒度下的难易程度,且在推断时能提供相关训练样本作为依据.  相似文献   

11.
针对现有恶意软件分类方法融合的静态特征维度高、特征提取耗时、Boosting算法对大量高维特征样本串行训练时间长的问题,提出一种基于静态特征融合的分类方法。提取原文件和其反编译的Lst文件的灰度图像素特征、原文件的结构特征和Lst文件的内容特征,对特征融合和分类。在训练集采样时启用GOSS算法减少对训练样本的采样,使用LightGBM作为分类器,该分类器通过EFB对互斥特征降维。实验证明在三类特征融合下分类准确率达到了97.04%,通过启用GOSS采样减少了29%的训练时间,在分类效果上,融合的特征优于融合Opcode n-gram的特征,LightGBM优于传统深度学习和机器学习算法。  相似文献   

12.
针对基于shapelets转换的时间序列分类算法因shapelets候选集中存在大量相似序列而造成耗时过长的问题,提出了一种基于LSH的shapelets转换方法(Locality Sensitive Hashing Shapelets Transform,LSHST),提出一种局部敏感哈希函数(LSH)的改进算法,对原始子序列候选集进行逐级过滤筛选,快速挑选出形态上具有代表性的shapelets集合,计算集合中shapelets的质量,采用覆盖的方法确定将要进行转换的shapelets,进一步减小shapelets的数量,进行shapelets转换。实验表明,与Shapelet Transform(ST)、ClusterShapelets(CST)和Fast Shapelet Selection(FSS)算法相比,LSHST在分类精度上最高提升了20.05、19.9和16.52个百分点,在时间节省程度上最高达8 000倍、16 000倍和8.5倍。  相似文献   

13.
分析了SVM增量学习过程中, 样本SV集跟非SV集的转化, 考虑到初始非SV集和新增样本对分类信息的影响, 改进了原有KKT条件, 并结合改进了的错误驱动策略, 提出了新的基于KKT条件下的错误驱动增量学习算法, 在不影响处理速度的前提下, 尽可能多的保留原始样本中的有用信息, 剔除新增样本中的无用信息, 提高分类器精度, 最后通过实验表明该算法在优化分类器效果, 提高分类器性能方面上有良好的作用。  相似文献   

14.
提出了一种基于Canopy与人工合成少数类别过采样技术(CSMOTE)和自适应增强学习(AdaBoostM1)的入侵检测分类方法,以有效减少入侵检测模型因训练数据集攻击类型不均衡而导致的分类误差,提高分类准确率。通过Canopy聚类消除训练集中的孤立点或噪音点,减少训练集噪声;并在预处理时通过SMOTE增加少数类别的样本数量,构造类间平衡的平衡数据集,然后在平衡数据集上用AdaBoosM1训练得到分类器。与在原始训练集上训练的分类器相比,该方法在保持整体准确率高的情况下,少数类别U2R攻击的准确率提升20%,R2L攻击的准确率提升5%,同时平均漏报率降低9%,实验结果表明该方法可以有效提升少数类别准确率,降低平均漏报率,能有效地解决网络入侵检测少数类误分类问题。  相似文献   

15.
丁要军 《计算机应用》2015,35(12):3348-3351
针对不平衡网络流量分类精度不高的问题,在旋转森林算法的基础上结合Bagging算法的Bootstrap抽样和基于分类精度排序的基分类器选择算法,提出一种改进的旋转森林算法。首先,对原始训练集按特征进行子集划分并分别使用Bagging进行样本抽样,通过主成分分析(PCA)生成主成分系数矩阵;然后,在原始训练集和主成分系数矩阵的基础上进行特征转换,生成新的训练子集,再次使用Bagging对子集进行抽样,提升训练集的差异性,并使用训练子集训练C4.5基分类器;最后,使用测试集评价基分类器,依据总体分类精度进行排序筛选,保留分类精度较高的分类器并生成一致分类结果。在不平衡网络流量数据集上进行测试实验,依据准确率和召回率两个标准对C4.5、Bagging、旋转森林和改进的旋转森林四种算法评价,依据模型训练时间和测试时间评价四种算法的时间效率。实验结果表明改进的旋转森林算法对万维网(WWW)协议、Mail协议、Attack协议、对等网(P2P)协议的分类准确度达到99.5%以上,召回率也高于旋转森林、Bagging、C4.5三种算法,可用于网络入侵取证、维护网络安全、提升网络服务质量。  相似文献   

16.
Shapelet是一种具有辨识性的时间序列子序列,通过识别局部特征达到对时间序列准确分类的目的。原始shapelet发现算法效率较低,大量工作关注于提高shapelet发现的效率。然而,对于带有趋势变化的时间序列,采用典型的时间序列表示方法进行shapelet发现,容易造成序列中趋势信息的丢失。为了解决时间序列趋势信息丢失的问题,提出一种基于趋势特征的多样化top-k shapelet分类方法:首先采用趋势特征符号化方法对时间序列的趋势信息进行表示;然后针对序列的趋势特征符号获取shapelet候选集合;最后通过引入多样化top-k查询算法从候选集中选取k个最具代表性的shapelets。在时间序列的分类实验中,与传统分类算法相比,所提方法在11个数据集上的分类准确率均有提升;与FastShapelet算法相比,提升了运行效率,缩短了算法的运行时间,并在趋势信息明显的数据上效果显著。结果表明,所提方法能有效提高时间序列的分类准确率,提升算法运行效率。  相似文献   

17.
针对大规模训练集的支持向量机的学习策略   总被引:29,自引:0,他引:29  
当训练集的规模很大特别是支持向量很多时.支持向量机的学习过程需要占用大量的内存,寻优速度非常缓慢,这给实际应用带来了很大的麻烦.该文提出了一种针对大规模样本集的学习策略:首先用一个小规模的样本集训练得到一个初始的分类器,然后用这个分类器对大规模训练集进行修剪,修剪后得到一个规模很小的约减集,再用这个约减集进行训练得到最终的分类器.实验表明,采用这种学习策略不仅大幅降低了学习的代价,而且这样获得的分类器的分类精度完全可以与直接通过大规模样本集训练得到的分类器的分类精度相媲美,甚至更优,同时分类速度也得到大幅提高.  相似文献   

18.
现有概念漂移处理算法在检测到概念漂移发生后,通常需要在新到概念上重新训练分类器,同时“遗忘”以往训练的分类器。在概念漂移发生初期,由于能够获取到的属于新到概念的样本较少,导致新建的分类器在短时间内无法得到充分训练,分类性能通常较差。进一步,现有的基于在线迁移学习的数据流分类算法仅能使用单个分类器的知识辅助新到概念进行学习,在历史概念与新到概念相似性较差时,分类模型的分类准确率不理想。针对以上问题,文中提出一种能够利用多个历史分类器知识的数据流分类算法——CMOL。CMOL算法采取分类器权重动态调节机制,根据分类器的权重对分类器池进行更新,使得分类器池能够尽可能地包含更多的概念。实验表明,相较于其他相关算法,CMOL算法能够在概念漂移发生时更快地适应新到概念,显示出更高的分类准确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号