首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 187 毫秒
1.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。在分析词频方法和文档频方法不足的基础上提出了特征辨别能力,把元信息引入粗糙集并提出了一个基于元信息的属性约简算法,给出了一个综合性特征选择方法。该方法利用特征辨别能力进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,使用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明:所提特征选择方法在一定程度上具有一定的优势。  相似文献   

2.
介绍了基于辨识集的属性约简算法,把该属性约简算法同类别相关性结合起来,提出了一个综合的特征选择方法.该综合方法使用类别相关性进行特征初选,并用所提属性约简算法消除冗余.实验结果表明此种特征选择方法能够获得较具代表性的特征子集.  相似文献   

3.
序信息系统的启发式属性约简算法   总被引:4,自引:0,他引:4  
属性约简是粗糙集理论的核心问题之一,序信息系统中的属性约简也逐渐受到关注。基于优势类的概念,引入了序信息系统的一种信息粒度,用于度量属性集在序意义下的不确定性,进而给出了序信息系统中属性重要度的定义。在此基础上,设计了一种序信息系统的启发式属性约简算法,并通过实例分析进行了有效性检验。  相似文献   

4.
基于知识约简的网络入侵特征提取   总被引:2,自引:0,他引:2       下载免费PDF全文
为改善入侵检测系统的性能,提出一种基于知识约简的特征提取方法,根据粗糙集理论给出入侵检测系统的形式化描述,使用知识约简提取属性特征,通过信息损耗和信息增益分别控制连续数值属性特征的离散化和属性特征的约简过程。实验结果证明,该方法可有效消除初始数据中的冗余信息和数据噪声。  相似文献   

5.
多源信息融合故障诊断方法可以有效提高设备故障的确诊率,但同时需要使用由不同传感器获取的多种故障特征数据.此时若将所有特征的数据用于诊断,则计算量过大,诊断的实时性差.对此,将证据理论与粗糙集相结合,提出基于信度区间的属性约简定理及相应的故障特征(属性)约简方法,力图利用约简后的重要特征进行快速诊断.利用随机模糊变量和K均值对特征数据进行离散化处理,通过压缩二进制矩阵获取核属性,再将属性的信度区间大小作为迭代约简过程中属性的选取标准,向核属性中添加重要属性,最终获得属性约简结果.最后进行电机转子的特征融合诊断实验,通过与经典的粗糙集简约方法对比验证所提出方法的有效性.  相似文献   

6.
序贯三支决策方法是一种能够表示问题中的多重层次粒度,并将多粒度结合起来解决不确定决策问题的有效途径。优势-等价关系粗糙集则是针对条件属性具有偏好关系的分类问题,提取有序信息,对目标概念进行近似,从而形成决策知识。利用传统的优势关系粗糙集方法进行知识约简和提取的效率低下,而目前大部分序贯三支决策方法则局限在符号值属性的信息系统中,对连续值和有序值不能进行有效处理,造成一定程度的信息丢失。因此,将序贯三支决策的思想应用于优势关系粗糙集模型中,定义了一种新的基于序贯三支决策的属性约简及相应的属性重要度,对具有偏好值属性的信息系统进行更加高效的处理,通过多粒度的表示和关系的研究,加速了知识约简过程。选取了多组UCI数据进行实验,结果表明所提出的基于优势关系的序贯三支决策方法能够在保证约简质量的基础上明显降低时间耗费。  相似文献   

7.
结合新型文档频和二进制可辨矩阵的特征选择   总被引:1,自引:0,他引:1  
马春华  朱颢东  钟勇 《计算机应用》2009,29(8):2268-2271
特征选择是文本分类的一个核心研究课题。分析了几种经典特征选择方法并总结了它们的不足,提出了一个新型文档频,引入粗糙集理论,并给出了一个基于二进制可辨矩阵的属性约简算法,最后把该属性约简算法同新型文档频结合起来,提供了一个综合的特征选择方法。该方法首先利用新型文档频进行特征初选以过滤掉一些词条,然后利用所提属性约简算法消除冗余。通过对人民网的8类新闻组,每类300篇文档的分类实验,结果表明此种特征选择方法在分类准确率和召回率上优于互信息、CHI和信息增益方法。  相似文献   

8.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果.分析了词频法和文档频法并总结了其缺陷,给出了一个改进的文档频方法;引进粗糙集理论,提出了一个属性约简算法;最后提出了一个新的特征选择方法.该特征选择方法使用改进的文档频初选特征并用所提属性约简算法消除冗余.仿真结果表明该特征选择方法性能较好.  相似文献   

9.
特征选择是文本分类的关键步骤之一,所选特征子集的优劣直接影响文本分类的结果。首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了特征分辨率的概念,并提出了一个基于差别对象对集的属性约简算法,最后把该属性约简算法同特征分辨率结合起来,提出了一个新的特征选择方法。该方法首先利用特征分辨率进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用所提属性约简算法消除冗余,从而获得较具代表性的特征子集。实验结果表明此种特征选择方法效果良好。  相似文献   

10.
差别矩阵属性约简的信息观解释   总被引:3,自引:0,他引:3  
常见的属性约简定义有三种,即基于代数观的属性约简,基于信息观的属性约简和基于HU差别矩阵的属性约简。已有文献证明这三种属性约简彼此之间不等价。王国胤教授定义了一种新的决策表信息熵计算方法,在此方法基础上给出了粗糙集理论代数观的一种新的信息观解释。最近有学者提出了一种基于新信息熵的属性约简。经深入研究,我们证明了该属性约简与基于HU差别矩阵的属性约简是等价的,从而给出了基于HU差别矩阵的属性约简的信息观解释。  相似文献   

11.
信息系统中的属性约简是粗糙集知识发现的一个重要步骤。致力于研究一个信息系统中的特征选择、删除冗余属性。新的算法从属性重要性出发,采用迭代特征选择的标准,使得选择特征属性集不断缩小,获得信息系统的约简。通过实验证明该方法可行,有效。  相似文献   

12.
常规储层预测方法对地震属性之间的隐含关系挖掘不充分、地震属性种类繁多难以选择.针对以上问题,为提高储层岩性的分类预测精度,提出一种结合特征选择与神经网络的储层预测方法.以DenseNet与SENet为基础,使用正则惩罚项进行网络输入层稀疏化,得到每个输入节点权重,进一步使用ReLU激活函数构建特征选择层,实现地震属性的...  相似文献   

13.
针对传统Android恶意软件检测方法检测率低的问题,文中提出一种基于深度收缩降噪自编码网络(Deep Contractive Denoising Autoencoder Network,DCDAN)的Android恶意软件检测方法。首先,逆向分析APK文件获取文件中的权限、敏感API等7类信息,并将其作为特征属性;然后,将特征属性作为深度收缩降噪自编码网络的输入,使用贪婪算法自底向上逐层训练每个收缩降噪自编码网络(Contractive Denoising Autoencoder Network),将训练完成的深度收缩降噪自编码网络用于原始特征的信息抽取,以获取最优的低维表示;最后,使用反向传播算法对获取的低维表示进行训练和分类,实现对Android恶意软件的检测。对深度自编码网络的输入数据添加噪声,使得重构的数据具有更强的鲁棒性,同时加入雅克比矩阵作为惩罚项,增强了深度自编码网络的抗扰动能力。实验结果验证了该方法的可行性和高效性。与传统的检测方法相比,该检测方法有效地提高了对恶意软件检测的准确率并降低了误报率。  相似文献   

14.
Gene expression data are expected to be a significant aid in the development of efficient cancer diagnosis and classification platforms. However, gene expression data are high-dimensional and the number of samples is small in comparison to the dimensions of the data. Furthermore, the data are inherently noisy. Therefore, in order to improve the accuracy of the classifiers, we would be better off reducing the dimensionality of the data. As a method of dimensionality reduction, there are two previous proposals: feature selection and dimensionality reduction. Feature selection is a feedback method which incorporate the classifier algorithm in the future selection process. Dimensionality reduction refers to algorithms and techniques which create new attributes as combinations of the original attributes in order to reduce the dimensionality of a data set. In this article, we compared the feature selection methods and the dimensionality reduction methods, and verified the effectiveness of both types. For the feature selection methods we used one previously known method and three proposed methods, and for the dimensionality reduction methods we used one previously known method and one proposed method. From an experiment using a benchmark data set, we confirmed the effectiveness of our proposed method with each type of dimensional reduction method.  相似文献   

15.
Nowadays, most of the services from cloud are protuberant within the all commercial, public, and private areas. A primary difficulty of cloud computing system is making a virtualized environment safe from all intruders. The existing system uses signature-based methods, which cannot provide accurate detection of malware. This paper put forward an approach to detect the malware by using the approach based on feature extraction and various classification techniques. Initially the clean files and malware files are extracted. The feature selection includes gain ratio to provide subset features. The classification is used to predict any malware that has been entered in the mobile device. In this paper, it is proposed to use the ensemble classifier which contains different kinds of classifiers such as Support Vector Machine, K-Nearest Neighbor, and Naïve Bayes classification. These together are known as a meta classifier. These three classification methods had been used for proposed work and get the results with higher accuracy. This measures the correctness of the prediction happened using ensemble method with high precision and recall values which is specifically identifies the quality of the techniques used.  相似文献   

16.
本文首先简单分析了几种经典的特征选择方法,总结了它们的不足,然后提出了特征集中度的概念, 紧接着把差别对象对集引入粗糙集并提出了一个基于差别对象对集的属性约简算法,最后把该属性约简算法同特征 集中度结合起来,提出了一个综合性特征选择方法.该综合性方法首先利用特征集中度进行特征初选以过滤掉一些 词条来降低特征空间的稀疏性,然后再使用所提属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结 果表明该综合性方法效果良好.  相似文献   

17.
基于Android系统恶意软件检测的全流程,对比和分析了国内外的研究现状和进展,从样本获取的角度介绍了标准化数据样本的来源及作用,从特征选择的角度阐述了特征选择应遵循的原则;重点从检测方法的角度对比和分析了各种检测方法的优缺点,同时总结和归纳了特征数据集筛选方法以及实验结果评估方法。最后结合实际应用和需求,展望了未来Android恶意软件检测方法的研究和发展方向。  相似文献   

18.
目前移动恶意软件数量呈爆炸式增长,变种层出不穷,日益庞大的特征库增加了安全厂商在恶意软件样本处理方面的难度,传统的检测方式已经不能及时有效地处理软件行为样本大数据。基于机器学习的移动恶意软件检测方法存在特征数量多、检测准确率低和不平衡数据的问题。针对现存的问题,文章提出了基于均值和方差的特征选择方法,以减少对分类无效的特征;实现了基于不同特征提取技术的集合分类方法,包括主成分分析、Kaehunen-Loeve 变换和独立成分分析,以提高检测的准确性。针对软件样本的不平衡数据,文章提出了基于决策树的多级分类集成模型。实验结果表明,文章提出的三种检测方法都可以有效地检测 Android平台中的恶意软件样本,准确率分别提高了6.41%、3.96%和3.36%。  相似文献   

19.
Today’s security threats like malware are more sophisticated and targeted than ever, and they are growing at an unprecedented rate. To deal with them, various approaches are introduced. One of them is Signature-based detection, which is an effective method and widely used to detect malware; however, there is a substantial problem in detecting new instances. In other words, it is solely useful for the second malware attack. Due to the rapid proliferation of malware and the desperate need for human effort to extract some kinds of signature, this approach is a tedious solution; thus, an intelligent malware detection system is required to deal with new malware threats. Most of intelligent detection systems utilise some data mining techniques in order to distinguish malware from sane programs. One of the pivotal phases of these systems is extracting features from malware samples and benign ones in order to make at least a learning model. This phase is called “Malware Analysis” which plays a significant role in these systems. Since API call sequence is an effective feature for realising unknown malware, this paper is focused on extracting this feature from executable files. There are two major kinds of approach to analyse an executable file. The first type of analysis is “Static Analysis” which analyses a program in source code level. The second one is “Dynamic Analysis” that extracts features by observing program’s activities such as system requests during its execution time. Static analysis has to traverse the program’s execution path in order to find called APIs. Because it does not have sufficient information about decision making points in the given executable file, it is not able to extract the real sequence of called APIs. Although dynamic analysis does not have this drawback, it suffers from execution overhead. Thus, the feature extraction phase takes noticeable time. In this paper, a novel hybrid approach, HDM-Analyser, is presented which takes advantages of dynamic and static analysis methods for rising speed while preserving the accuracy in a reasonable level. HDM-Analyser is able to predict the majority of decision making points by utilising the statistical information which is gathered by dynamic analysis; therefore, there is no execution overhead. The main contribution of this paper is taking accuracy advantage of the dynamic analysis and incorporating it into static analysis in order to augment the accuracy of static analysis. In fact, the execution overhead has been tolerated in learning phase; thus, it does not impose on feature extraction phase which is performed in scanning operation. The experimental results demonstrate that HDM-Analyser attains better overall accuracy and time complexity than static and dynamic analysis methods.  相似文献   

20.
为解决Android恶意软件检测问题,提出一种利用多特征基于改进随机森林算法的Android恶意软件静态检测模型。模型采用了基于行为的静态检测技术,选取Android应用的权限、四大组件、API调用以及程序的关键信息如动态代码、反射代码、本机代码、密码代码和应用程序数据库等属性特征,对特征属性进行优化选择,并生成对应的特征向量集合。最后对随机森林算法进行改进,并将其应用到本模型的Android应用检测中。实验选取了6?000个正常样本和6?000个恶意样本进行分类检测,结果表明该方法具有较好的检测效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号