首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 93 毫秒
1.
计算信息特征(属性)的权重问题在信息分类及模式匹配中是一个研究热点。该文提出一种基于改进ReliefF算法的主成分特征提取方法,利用此算法删除原始特征中与分类不相关的特征,并对数据进行归一化处理和主成分提取。实验将34个特征变量降维成10个主成分,大大减轻后续的分类器工作量,提高分类器的分类精度。  相似文献   

2.
WebShell根据其功能和大小可以分为多种类型,各种类型的WebShell在基本特征上又有其独有的特征,而现有的WebShell检测大多从单一层面提取特征,无法较全面的覆盖各种类型WebShell全部特征,具有种类偏向性,无差别的检测效果差,泛化能力弱等问题.针对这一问题,提出了一种基于随机森林的WebShell检测方法.该方法在数据预处理阶段分别提取文本层的统计特征和文本层源码与编译结果层字节码(opcode)的序列特征,构成较全面的组合特征,然后通过Fisher特征选择选取适当比例的重要特征,降低特征维度,构成样本的特征集,最后采用随机森林分类器训练样本得到检测模型.通过实验表明,本检测方法能有效地检测WebShell,并在准确率、召回率和误报率上都优于单一层面的WebShell检测模型.  相似文献   

3.
鄢梦迪  秦琳琳  吴刚 《计算机应用》2016,36(11):3161-3164
为解决基于文件后缀名和文件特征标识识别文件类型误判率较高的问题,在基于文件内容识别文件类型的算法基础上,提出主成分分析(PCA)和K近邻(KNN)算法相结合的文件类型识别算法。首先,使用PCA方法对样本预处理以降低样本空间的维数;然后,对降维后的训练样本集进行聚类处理,即用聚类质心代表每种类型的文件;最后,针对训练样本分布不均匀可能造成的分类误差,提出基于距离加权的KNN算法。实验结果表明,改进算法在样本数较多的情况下,能降低分类的计算复杂度,并保持了较高的识别正确率;而且该算法不依赖文件类型的特征标识,应用范围更为广泛。  相似文献   

4.
特征权重学习是基于特征赋权的K近邻算法需要解决的重要问题之一,传统上提出了许多启发式的学习方法。近年来,随着进化计算技术在模式识别及数据挖掘领域的广泛应用,基于进化计算的权重学习和距离学习方法也得到越来越多的重视。本研究针对基于特征赋权的K近邻算法的权重学习问题,提出了一种基于PSO进行权重学习的算法PSOKNN,通过与传统KNN、GAKNN及ReliefKNN的实验比较分析表明,该方法可有效地搜索出合适的特征权重,获得较好的分类精度并淘汰冗余或无关的特征。  相似文献   

5.
6.
邢艳  周勇 《计算机应用研究》2012,29(7):2524-2526
近邻传播(AP)算法是一种新提出的聚类算法,是在数据点的相似度矩阵的基础上进行聚类,通过数据点之间交换信息,最后得到聚类结果。提出了基于互近邻一致性近邻传播算法,即KMNC-AP算法,该算法利用互近邻一致性调整数据点之间的相似度,进而提高聚类效率和精确度。实验结果表明,该算法在处理能力和运算速度上优于原算法。  相似文献   

7.
壳近邻分类算法克服了k近邻分类在近邻选择上可能存在偏好的问题,使得在大数据集上的分类效果优于k近邻分类,为了进一步提高壳近邻算法的分类性能,提出了基于Relief特征加权的壳近邻分类算法.该算法在Relief算法的基础上求解训练集的特征权值,并利用特征权值来改进算法的距离度量方法和投票机制.实验结果表明,该算法在小数据和大数据上的分类性能都优于k近邻和壳近邻分类算法.  相似文献   

8.
针对超声波探测人脸识别系统中多通道探测模式,从数据融合的角度对特征进行了优化,研究了基于主成分分析(principal components analysis,PCA)的数据降维和人脸特征提取算法.利用该算法对100人的自由表情样本进行特征提取,在保证识别率超过80%前提下,可显著降低特征向量的维数达80%以上,提高系统速度85%以上.实验结果表明,PCA算法能有效降低特征数据的维数,提高运算速度.  相似文献   

9.
针对DBSCAN算法聚类参数敏感不易获取、参数固定无法适应密度不均匀数据等问题。提出了动态近邻的概念,即聚类参数随密度动态变化。设计了用于调整动态参数的近邻规模演化算法,即通过限制相对密度变化率,逐步调整近邻规模。最后根据动态的近邻规模,重新定义了DBSCAN算法核心对象的概念,并设计了基于动态近邻的DN-DBSCAN算法。仿真结果表明,DN-DBSCAN能够有效识别非凸及密度分布不均匀的数据样本,聚类效果优于传统DBSCAN算法和其他经典改进算法。  相似文献   

10.
为了解决ReliefF算法随机抽样会抽取到不具代表性的样本且未考虑特征间相关性的问题,提出基于冗余性分析的ReliefF特征选择算法。首先改进ReliefF的抽样策略,其次将特征权重序列划分为几个子集,分别利用最大信息系数及Pearson系数共同衡量特征相关性,设置相应采样比例剔除冗余特征。将改进算法与其他特征选择算法进行对比,结果表明相较于传统ReliefF,在LightGBM(Light Gradient Boosting Machine,轻量级梯度提升机器学习)上的分类准确率可提升0.63%~12.10%,在SVM(Support Vector Machine,支持向量机)上的分类准确率可提升0.92%~9.06%,改进算法的分类准确率明显优于其他几种特征选择算法,在考虑特征与标签相关性的同时,能有效剔除冗余信息。  相似文献   

11.
基因数据的特点是高维度、小样本、大噪声,在处理过程中容易造成维数灾难和过度拟合等问题。针对这种情况提出一种新的基因数据集的特征选择方法,第一步是通过ReliefF算法对基因特征进行权重重要度的筛选;第二步是对筛选过的特征集合进行mRMR算法判断,留下与目标类别高度相关而其间相关性较小的基因特征;第三步利用邻域粗糙集特征选择算法对简化后的基因数据集进行寻优处理,选出最优化的特征基因子集。为了证明新算法的有效性,以SVM为分类器,使用外部交叉验证法对整个过程来计算,从而验证本文新特征选择方法的有效性。  相似文献   

12.
乳腺癌是一种严重威胁人类生命健康的疾病。只有早发现和早治疗才不会错过治疗的最佳时机。乳腺肿块是乳腺癌最主要、最常见的病灶特征,研究乳腺图像中肿块的特征提取,有利于辅助医生诊断,提高医生阅片的效率和正确率。本文针对以往的特征提取方法没有考虑图像的空间信息,造成分类准确率不高的问题,提出一种基于边缘邻域的特征提取算法,使图像特征包含肿块边缘邻域空间信息,其基本思想结合了主动轮廓模型和词袋模型,利用参数控制并确定边缘邻域,对邻域内的特征进行组合或者加权。在保证分类器模型不变的情况下,通过与以往的特征提取算法相比,验证了本算法在分类准确率上优于其他特征提取算法。  相似文献   

13.
WebShell是常见的Web脚本入侵攻击工具.攻击者将WebShell植入网站服务器后可对网站服务器进行控制,获取服务器操作权限.WebShell通常嵌套在正常网页脚本中,具有极强的隐蔽性,对网站自身及访问者带来极大危害.针对这些问题,文章提出一种基于DPDK的高速网络流量分析检测技术,在高速网络环境中对网络流量进行...  相似文献   

14.
FSSD (fast and efficient subgroup set discovery)是一种子群发现算法, 旨在短时间内提供多样性模式集, 然而此算法为了减少运行时间, 选择域数量少的特征子集, 当特征子集与目标类不相关或者弱相关时, 模式集质量下降. 针对这个问题, 提出一种基于集成特征选择的FSSD算法,...  相似文献   

15.
针对图像特征点暴力匹配与比率测试得到的匹配点对在数量与正确率不能兼顾的情况,提出了一种基于自适应邻域测试的误匹配点对剔除算法。对特征点进行暴力匹配与高阈值的比率测试得到初始匹配点集,对初始匹配点对中的每个匹配特征点进行自适应邻域测试,测试出初始匹配点集中明显的误匹配点对并将之剔除,达到只剔除误匹配而不会误剔除正确匹配的效果。实验结果表明,在保证正确率不降低的前提下,该算法获取的匹配点对数量比原算法多3成以上,并且该算法对图像旋转、尺度缩放具有较好通用性。  相似文献   

16.
不平衡数据集上的Relief特征选择算法   总被引:1,自引:0,他引:1  
Relief算法为系列特征选择方法,包括最早提出的Relief算法和后来拓展的ReliefF算法,核心思想是对分类贡献大的特征赋予较大的权值;特点是算法简单,运行效率高,因此有着广泛的应用。但直接将Relief算法应用于有干扰的数据集或不平衡数据集,效果并不理想。基于Relief算法,提出一种干扰数据特征选择算法,称为阈值-Relief算法,有效消除了干扰数据对分类结果的影响。结合K-means算法,提出两种不平衡数据集特征选择算法,分别称为K-means-ReliefF算法和 K-means-Relief抽样算法,有效弥补了Relief算法在不平衡数据集上表现出的不足。实验证明了本文算法的有效性。  相似文献   

17.
特征选择是数据预处理中一项很重要的技术,主要从原始数据集的特征中选出一些最有效的特征以降低数据集的维度,从而提高学习算法性能.目前基于邻域粗糙集模型的特征选择算法中,由于没有考虑数据分布不均的问题,对象的邻域存在一定的缺陷.为了解决这个问题,采用方差来度量数据的分布情况,重新定义二元邻域空间,基于此提出自适应二元邻域空间的粗糙集模型,并将该模型与邻域直觉模糊熵结合作为特征评估的方式,进而构造相应的特征选择算法.UCI实验结果表明:所提出的算法能够选出更小且具有更高分类精度的特征子集,同时算法拥有更少的时间消耗.因此所提的特征选择算法具有更强的优越性.  相似文献   

18.
基于主成分分析进行特征融合的JPEG 隐写分析   总被引:2,自引:0,他引:2  
黄炜  赵险峰  冯登国  盛任农 《软件学报》2012,23(7):1869-1879
为了解决现有JPEG隐写分析方法特征冗余度高和未能充分利用特征间互补关系的问题,提出了一种基于主成分分析(principal component analysis,简称PCA)进行特征融合的JPEG隐写分析方法,并分析所选特征之间的互补性.通过融合将互补特征结合在一起,更全面地反映载体和隐写信号间的统计差异,并用PCA分离出冗余成分,最终达到进一步提升准确率的目的.实验结果表明,在不同数据集和嵌入率情况下,该方法分析高隐蔽性隐写(如F5,MME和PQ)的准确率高于主要JPEG分析方法,在耗时上较现有特征层融合降维方法大为缩短.  相似文献   

19.
开放动态环境下的机器学习任务面临着数据特征空间的高维性和动态性。目前已有在线流特征选择算法基本仅考虑特征的重要性和冗余性,忽略了特征的交互性。特征交互是指那些本身与标签单独统计时呈现无关或弱相关,但与其他特征结合时却能与标签呈强相关的特征。基于此,提出一种基于邻域信息交互的在线流特征选择算法,该算法分为在线交互特征选择和在线冗余特征剔除两个阶段,即直接计算新到特征与整个已选特征子集的交互强弱程度,以及利用成对比较机制剔除冗余特征。在10个数据集上的实验结果表明了所提算法的有效性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号