首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
针对新型P2P业务采用净荷加密和伪装端口等方法来逃避检测的问题,提出了一种基于决策树的P2P流量识别方法.该方法将决策树方法应用于网络流量识别领域,以适应网络流量的识别要求.决策树方法通过利用训练数据集中的信息熵来构建分类模型,并通过对分类模型的简单查找来完成未知网络流样本的分类.实验结果验证了C4.5决策树算法相比较Na(i)ve Bayes、Bayes Network算法,处理相对简单且计算量不大,具有较高的数据处理效率和分类精度,能够提高网络流量分类精度,更适用于P2P流量识别.  相似文献   

2.
基于最大互信息最大相关熵的特征选择方法   总被引:5,自引:1,他引:4  
特征选择算法主要分为filter和wrapper两大类,并已提出基于不同理论的算法模型,但依然存在算法处理能力不强、子集分类精度不高等问题。基于模糊粗糙集的信息熵模型提出最大互信息最大相关熵标准,并根据该标准设计了一种新的特征选择方法,能同时处理离散数据、连续数据和模糊数据等混合信息。经UCI数据集试验,表明该算法与其他算法相比,具有较高的精度,且稳定性较高,是有效的。  相似文献   

3.
区别于传统的基于词的中文短文本自动分类方法,以训练数据作为背景语料,利用关联规则挖掘算法挖掘训练集文本中的共现关系,创建特征共现集作为扩展词表。用特征共现集分别对训练文本和测试文本进行特征扩展建立短文本分类模型。实验表明,改进后的两种方法使短文本分类系统具有较高的精度。  相似文献   

4.
为提高分类精度,提出一种基于最大期望(EM)与遗传(GA)算法的多尺度SAR图像无监督分类方法.利用多尺度自回归(MAR)模型描述SAR图像中不同尺度之间的统计相依性,提取多尺度特征.应用混合模型描述多尺度特征,并将GA算法与EM算法相结合给出混合模型的参数估计算法,利用最小描述长度(MDL)准则选择模型的分量教.最后使用Bayes分类器实现了图像的分类与分割.该方法集EM算法和GA算法结合后的优点,对设定初值有较少的敏感性,因而避免了局部最优解.应用于SAP图像的实验表明,在分割精度上GA-EM方法优于MAR模型的算法.  相似文献   

5.
许多传统分类算法都以训练数据和测试数据具有相同或至少非常相似的分布为前提,但是在实际应用中,该前提很难得到保证,这降低支持向量机等传统分类算法的分类精度.因此,文中提出基于类标感知的KNN分类算法(CA-KNN).CA-KNN给出稀疏表示模型,基于任何测试数据都可使用训练数据集进行稀疏表示的假设.CA-KNN可有效利用数据集上的类标信息,提升稀疏表示的准确性.引入KNN的最近邻分类思想,进一步提升CA-KNN的泛化能力,并且从理论上证明CA-KNN分类器与最小误差的Bayes决策规则关联.实验和理论分析的结果表明,CA-KNN具有较好的分类性能.  相似文献   

6.
针对传统的卷积神经网络算法在训练集与测试集分布不同时分类精度较低且标注成本较高的问题,提出结合迁移学习模型的卷积神经网络算法。使用主成分分析算法对源域数据进行无监督降维,同时结合自编码机算法对目标数据集降维,使源域和目标数据集在低维度下具有相似的特征分布;根据卷积神经网络特征提取的特点,利用JS散度来判别卷积池层能否迁移,并使用初始化的隐藏层补全trCNN模型;使用少量带标注的目标数据集进行训练,完成分类模型的构建。设计实验验证分类模型能够在使用少量标注数据情况下准确地完成分类工作。  相似文献   

7.
提出了一种基于基因表达式编程(GEP)的信用评估模型挖掘方法GEP-CREDIT。该方法基于客户信贷数据,利用GEP算法自动进行属性筛选,并进行属性融合,在此基础上训练和建立信用评估模型。在德国信用数据库真实数据集上做的实验和性能分析表明,基于GEP的信用评估模型挖掘方法较Nave Bayes算法的预测精度提高了3%;较SVM算法的预测精度提高了1.6%;较KNN(K=17)算法的预测精度提高了6.83%。  相似文献   

8.
抽象出时间序列的多段线性特征,并提出一种时间序列分类算法.该算法包括3个模块:导数估值函数,线性分段方法,DDHMM模型(基于HMM).首先,利用导数估值函数与线性分段方法检测多段线性特征,若满足多线段特征,则将时间序列转化为特定结构的观察值序列;然后,利用训练观察值序列训练DDHMM模型,通过比较各模型产生测试观察值序列的概率值进行分类.实验表明,针对满足多段线性特征的时间序列,该算法具有较高的分类精度,应用在UCI数据集和实际工程中,分类效果好.  相似文献   

9.
半监督学习和集成学习是目前机器学习领域中的重要方法。半监督学习利用未标记样本,而集成学习综合多个弱学习器,以提高分类精度。针对名词型数据,本文提出一种融合聚类和集成学习的半监督分类方法SUCE。在不同的参数设置下,采用多个聚类算法生成大量的弱学习器;利用已有的类标签信息,对弱学习器进行评价和选择;通过集成弱学习器对测试集进行预分类,并将置信度高的样本放入训练集;利用扩展的训练集,使用ID3、Nave Bayes、 kNN、C4.5、OneR、Logistic等基础算法对其他样本进行分类。在UCI数据集上的实验结果表明,当训练样本较少时,本方法能稳定提高多数基础算法的准确性。  相似文献   

10.
周钢  郭福亮 《计算机科学》2021,48(z1):250-254
从集成学习的预测误差分析和偏差-方差分解可以发现使用有限的、具有正确率和差异性的基学习器进行集成学习,具有更好的泛化精度.利用信息熵构建了两阶段的特征选择集成学习方法,第一阶段先按照相对分类信息熵构建精度高于0.5的基特征集B;第二阶段先在B的基础上按互信息熵标准评判独立性,运用贪心算法构建独立的特征子集,再运用Jaccard系数评价特征子集间多样性,选取多样性的独立特征子集并构建基学习器.通过数据实验分析发现,该优化方法的执行效率和测试精度优于普通Bagging方法,在多分类的高维数据集上优化效果更好,但不适用于二分类问题.  相似文献   

11.
英语介词纠错系统,针对英语学习者英语语言中常见的介词错误进行计算机自动纠正.首先,对标注过得语料库中介词错误进行了分类统计,总结出21种常见介词,在英语wiki语料库中利用计算机自动错误插值算法获得训练集合.然后在训练集合基础之上,通过使用基于最大熵模型的分类器,选择了包括上下文、介词补足语等特征,在训练集上进行模型的训练,最后使用模型对于输入句子进行预测并纠正存在的使用错误.在NUCLE语料的实验中,给出了语料处理、模型特点、训练语料的大小、迭代次数对于测试集效果的影响,并且比较了朴素贝叶斯模型的结果,最后在测试数据达到27.68的F值,相对于CoNLL2013的shared task中最好结果有小幅提升.  相似文献   

12.
基于特征选择的网络入侵检测方法   总被引:1,自引:0,他引:1  
针对现有入侵检测算法中存在着冗余或噪音特征导致的检测模型精度下降与训练时间过长的问题进行了研究,将特征选择算法引入到入侵检测领域,提出了一种基于特征选择的入侵检测方法.利用不同的离散化与特征选择算法生成具有差异的多个最优特征子集,并对每个特征子集进行归一化处理,用分类算法对提取后的特征进行学习建模.通过实验将该方法与基于传统算法(决策树、朴素贝叶斯、支持向量机)的入侵检测方法作比较,实验结果表明,该方法有效地提高了检测攻击的准确率,并且降低了模型的训练时间.  相似文献   

13.
针对维汉机器翻译中未登录词和译文乱序问题严重的现象, 结合维吾尔语粘着性语言特点以及最大熵分类算法, 提出了一种基于粘着性模糊规则的维汉机器翻译最大熵调序模型。该模型以最大熵模型为基础, 在维吾尔语词级别构建粘着性规则约束, 从训练语料中提取更加有效的调序规则来指导翻译解码过程。实验证明, 与当前主要MSD(mono、swap、discontinuous)等调序方法相比, 该方法较好地体现了维吾尔语的粘着性特点, 提高了译文质量。  相似文献   

14.
The focus of this paper is on joint feature re-extraction and classification in cases when the training data set is small. An iterative semi-supervised support vector machine (SVM) algorithm is proposed, where each iteration consists both feature re-extraction and classification, and the feature re-extraction is based on the classification results from the previous iteration. Feature extraction is first discussed in the framework of Rayleigh coefficient maximization. The effectiveness of common spatial pattern (CSP) feature, which is commonly used in Electroencephalogram (EEG) data analysis and EEG-based brain computer interfaces (BCIs), can be explained by Rayleigh coefficient maximization. Two other features are also defined using the Rayleigh coefficient. These features are effective for discriminating two classes with different means or different variances. If we extract features based on Rayleigh coefficient maximization, a large training data set with labels is required in general; otherwise, the extracted features are not reliable. Thus we present an iterative semi-supervised SVM algorithm embedded with feature re-extraction. This iterative algorithm can be used to extract these three features reliably and perform classification simultaneously in cases where the training data set is small. Each iteration is composed of two main steps: (i) the training data set is updated/augmented using unlabeled test data with their predicted labels; features are re-extracted based on the augmented training data set. (ii) The re-extracted features are classified by a standard SVM. Regarding parameter setting and model selection of our algorithm, we also propose a semi-supervised learning-based method using the Rayleigh coefficient, in which both training data and test data are used. This method is suitable when cross-validation model selection may not work for small training data set. Finally, the results of data analysis are presented to demonstrate the validity of our approach. Editor: Olivier Chapelle.  相似文献   

15.
使用最大熵模型进行中文文本分类   总被引:52,自引:1,他引:51  
随着WWW的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术.由于最大熵模型可以综合观察到各种相关或不相关的概率知识,对许多问题的处理都可以达到较好的结果.但是,将最大熵模型应用在文本分类中的研究却非常少,而使用最大熵模型进行中文文本分类的研究尚未见到.使用最大熵模型进行了中文文本分类.通过实验比较和分析了不同的中文文本特征生成方法、不同的特征数目,以及在使用平滑技术的情况下,基于最大熵模型的分类器的分类性能.并且将其和Baves,KNN,SVM三种典型的文本分类器进行了比较,结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法.  相似文献   

16.
针对传统朴素贝叶斯分类模型在入侵取证中存在的特征项冗余问题,以及没有考虑入侵行为所涉及的数据属性间的差别问题,提出一种基于改进的属性加权朴素贝叶斯分类方法。用一种改进的基于特征冗余度的信息增益算法对特征项集进行优化,并在此优化结果的基础上,提取出其中的特征冗余度判别函数作为权值引入贝叶斯分类算法中,对不同的条件属性赋予不同的权值。经实验验证,该算法能有效地选择特征向量,降低分类干扰,提高检测精度。  相似文献   

17.
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。提出一种新的算法,该算法为避免数据预处理时,训练集的噪声及数据规模使属性约简的效果不太理想,并进而影响分类效果,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的贝叶斯分类器,进而采用遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的分类精度。  相似文献   

18.
赵跃  王欣 《传感技术学报》2018,31(4):573-578
针对直拉硅晶体生长引晶流程中生长界面温度无法自动测量和校准的问题,本文提出一种基于光圈图像特征与最小二乘支持向量机相结合的温度模式分类检测方法.以数字相机获取的籽晶熔接处的光圈图像作为输入数据,利用图像处理算法提取光圈特征,并以人工校准产生的分类数据和持续生长的后验数据为训练样本,对最小二乘支持向量机分类模型进行训练.实际生长测试证明,可通过多个分类器的组合使用,将生长界面温度在红外测温仪的基础上校准到满足自动引晶所需要的温度.  相似文献   

19.
针对传统的文本分类算法存在着各特征词对分类的结果影响相同、分类准确率较低、造成算法时间复杂度增加的问题,提出了一种改进的最大熵C-均值聚类文本分类方法。该方法充分结合了C-均值聚类和最大熵值算法的优点,以香农熵作为最大熵模型中的目标函数,简化分类器的表达形式,然后采用C-均值聚类算法对最优特征进行分类。仿真实验结果表明,与传统的文本分类方法相比,提出的方法能够快速得到最优分类特征子集,大大提高了文本分类准确率。  相似文献   

20.
Feature selection has been widely discussed as an important preprocessing step in machine learning and data mining. In this paper, a new feature selection evaluation criterion based on low-loss learning vector quantization (LVQ) classification is proposed. Based on the evaluation criterion, a feature selection algorithm that optimizes the hypothesis margin of LVQ classification through minimizing its loss function is presented. Some experiments that are compared with well-known SVM-RFE and Relief are carried out on 4 UCI data sets using Naive Bayes and RBF Network classifier. Experimental results show that new algorithm achieves similar or even higher performance than Relief on all training data and has better or comparable performance than SVM-RFE.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号