首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 125 毫秒
1.
研究了非监督学习Na?觙ve Bayes分类的原理和方法,并将其应用到文本数据——网络安全审计数据的分析中。为了提高分类准确率,根据分类的效果对数据的属性集进行选择,使用能提高分类准确性的属性作为分类的依据。对KDD CUP99数据集进行了基于不同属性集的实验,发现了与分类结果相关的属性,分类效果良好。  相似文献   

2.
研究了非监督学习Na(i)ve Bayes分类的原理和方法,并将其应用到文本数据--网络安全审计数据的分析中.为了提高分类准确率,根据分类的效果对数据的属性集进行选择,使用能提高分类准确性的属性作为分类的依据.对KDD CUP99数据集进行了基于不同属性集的实验,发现了与分类结果相关的属性,分类效果良好.  相似文献   

3.
朴素贝叶斯由于条件独立性假设使其分类效果不明显,同时在处理海量数据时缺乏灵活性。针对以上情况,提出一种基于动态约简的增量贝叶斯分类算法。算法首先利用(F-λ)广义动态约简计算出数据集的核属性,然后根据训练集的先验信息构造分类器对测试实例进行分类,最后利用类置信度进行选择性增量学习,增强处理增量数据的能力。实验结果表明,该算法在处理属性少的小量数据时,分类效果有一定的改善,在处理多属性大量数据时,分类效果明显提高。  相似文献   

4.
针对传统数据分类属性模型中存在的较为复杂且大数据分类效率低等问题,基于云计算环境,提出利用深度属性加权贝叶斯(deep attribute weighting Bayesian,AWB)算法结合改进差别信息树(differential information tree,DIT)的大数据高效分类方法.利用AWB算法构建大数据训练集的模糊知识库,提高大数据分类精度;采用改进DIT进行模糊粗糙集属性约简,以并行方式利用映射函数对信息进行分区,将洗牌算法融入模糊分类器的设计中,提高大数据分类效率;利用CloudSim仿真器在大型网络数据集对所提方法的性能进行实验论证.实验结果表明,所提方法提高了分类准确度,降低了计算时间,提高了计算效率.  相似文献   

5.
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。提出一种新的算法,该算法为避免数据预处理时,训练集的噪声及数据规模使属性约简的效果不太理想,并进而影响分类效果,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的贝叶斯分类器,进而采用遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的分类精度。  相似文献   

6.
针对目前大多数分类器简单抛弃缺失数据的问题,基于朴素信念分类提出了一种有缺失值实例的加权保守推理规则的分类算法.以数据集特征属性与决策属性之间的相关系数作为权值,根据有缺失值实例加权保守推理规则对有非随机缺失属性的待分类实例所有可能的类别进行选择.实验结果表明,提出的基于有缺失值实例的加权保守推理规则分类算法有效地提高了分类性能,是一种有效的缺失数据集分类算法.  相似文献   

7.
如何对生产环境中经代码混淆的结构化数据集的敏感属性(字段)进行自动化识别、分类分级,已成为对结构化数据隐私保护的瓶颈。提出一种面向结构化数据集的敏感属性自动化识别与分级算法,利用信息熵定义了属性敏感度,通过对敏感度聚类和属性间关联规则挖掘,将任意结构化数据集的敏感属性进行识别和敏感度量化;通过对敏感属性簇中属性间的互信息相关性和关联规则分析,对敏感属性进行分组并量化其平均敏感度,实现敏感属性的分类分级。实验表明,该算法可识别、分类、分级任意结构化数据集的敏感属性,效率和精确率更高;对比分析表明,该算法可同时实现敏感属性的识别与分级,无须预知属性特征、敏感特征字典,兼顾了属性间的相关性和关联关系。  相似文献   

8.
基于遗传算法的朴素贝叶斯分类   总被引:1,自引:0,他引:1  
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。提出一种新的算法,该算法为避免数据预处理时,训练集的噪声及数据规模使属性约简的效果不太理想,并进而影响分类效果,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的贝叶斯分类器,进而采用遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的分类精度。  相似文献   

9.
研究了利用Bayes定理发现分类规则的方法,用Bayes定理可以发现分类规则,然后用分类规则进行数据分类。结合实例针对概念性数据集及包含数值性属性和概念性属性的数据集两种情况进行讨论。通过实例说明Bayes定理是数据挖掘中一种有效的数据分类方法。  相似文献   

10.
模糊聚类分析是一种重要的分类方法。传统模糊聚类分析法着眼于全体属性,在对多属性数据集分类方面具有明显优势,对基于特定、重要属性的分类时显得不足。本文对传统方法进行改进,提出了一种基于特征属性分类的模糊聚类方法,利用特征属性进行分类,产生了较好的分类效果,展示了一个成用实例。改进的方法人人提高了特定分类问题的应用价值。  相似文献   

11.
The Naive Bayes classifier is a popular classification technique for data mining and machine learning. It has been shown to be very effective on a variety of data classification problems. However, the strong assumption that all attributes are conditionally independent given the class is often violated in real-world applications. Numerous methods have been proposed in order to improve the performance of the Naive Bayes classifier by alleviating the attribute independence assumption. However, violation of the independence assumption can increase the expected error. Another alternative is assigning the weights for attributes. In this paper, we propose a novel attribute weighted Naive Bayes classifier by considering weights to the conditional probabilities. An objective function is modeled and taken into account, which is based on the structure of the Naive Bayes classifier and the attribute weights. The optimal weights are determined by a local optimization method using the quasisecant method. In the proposed approach, the Naive Bayes classifier is taken as a starting point. We report the results of numerical experiments on several real-world data sets in binary classification, which show the efficiency of the proposed method.  相似文献   

12.
分类算法一直以来都是数据挖掘领域的研究重点,朴素贝叶斯分类算法是众多优秀分类算法之一,但由于其条件属性必需独立,使得该算法也存在着一定的局限性。为了从另外一种角度来改进该算法,提高分类性能,提出了一种基于K-近邻法的局部加权朴素贝叶斯分类算法。使用K-近邻法对属性加权,找到最合适的加权值,运用加权后的朴素贝叶斯分类算法去分类,实验表明该算法提高了分类的可靠性与准确率。  相似文献   

13.
Extended Naive Bayes classifier for mixed data   总被引:2,自引:0,他引:2  
Naive Bayes induction algorithm is very popular in classification field. Traditional method for dealing with numeric data is to discrete numeric attributes data into symbols. The difference of distinct discredited criteria has significant effect on performance. Moreover, several researches had recently employed the normal distribution to handle numeric data, but using only one value to estimate the population easily leads to the incorrect estimation. Therefore, the research for classification of mixed data using Naive Bayes classifiers is not very successful. In this paper, we propose a classification method, Extended Naive Bayes (ENB), which is capable for handling mixed data. The experimental results have demonstrated the efficiency of our algorithm in comparison with other classification algorithms ex. CART, DT and MLP’s.  相似文献   

14.
For learning a Bayesian network classifier, continuous attributes usually need to be discretized. But the discretization of continuous attributes may bring information missing, noise and less sensitivity to the changing of the attributes towards class variables. In this paper, we use the Gaussian kernel function with smoothing parameter to estimate the density of attributes. Bayesian network classifier with continuous attributes is established by the dependency extension of Naive Bayes classifiers. We also analyze the information provided to a class for each attributes as a basis for the dependency extension of Naive Bayes classifiers. Experimental studies on UCI data sets show that Bayesian network classifiers using Gaussian kernel function provide good classification accuracy comparing to other approaches when dealing with continuous attributes.  相似文献   

15.
针对传统朴素贝叶斯分类模型在入侵取证中存在的特征项冗余问题,以及没有考虑入侵行为所涉及的数据属性间的差别问题,提出一种基于改进的属性加权朴素贝叶斯分类方法。用一种改进的基于特征冗余度的信息增益算法对特征项集进行优化,并在此优化结果的基础上,提取出其中的特征冗余度判别函数作为权值引入贝叶斯分类算法中,对不同的条件属性赋予不同的权值。经实验验证,该算法能有效地选择特征向量,降低分类干扰,提高检测精度。  相似文献   

16.
朴素贝叶斯算法(NB)在处理分类问题时通常假设训练样本的数值型连续属性满足正态分布,其分类精度也受到训练数据完整性的影响,而实际采样数据很难满足上述要求。针对数据缺失问题,基于期望最大值算法(EM),将朴素贝叶斯分类器利用已有的不完整数据进行参数学习;针对样本数值型连续属性非正态分布的情况,基于核密度估计,利用其分布密度(Distribution Density)和新的分析计算方法来求最大后验分布,同时用标准数据集的分类实验验证了改进的有效性。将改良的算法EM-DNB应用在生物工程蛋白质纯化工艺预测中,实验结果表明,预测精度有所提高。  相似文献   

17.
约束高斯分类网研究   总被引:1,自引:0,他引:1  
王双成  高瑞  杜瑞杰 《自动化学报》2015,41(12):2164-2176
针对基于一元高斯函数估计属性边缘密度的朴素贝叶斯分类器不能有效利 用属性之间的依赖信息和使用多元高斯函数估计属性联合密度的完全贝叶斯分类器 易于导致对数据的过度拟合而且高阶协方差矩阵的计算也非常困难等情况,在建立 属性联合密度分解与组合定理和属性条件密度计算定理的基础上,将朴素贝叶斯分类 器的属性选择、分类准确性标准和属性父结点的贪婪选择相结合,进行约束高斯 分类网学习与优化,并依据贝叶斯网络理论,对贝叶斯衍生分类器中属性为类提供 的信息构成进行分析.使用UCI数据库中连续属性分类数据进行实验,结果显示,经过 优化的约束高斯分类网具有良好的分类准确性.  相似文献   

18.
属性加权的朴素贝叶斯集成分类器   总被引:2,自引:1,他引:1  
为提高朴素贝叶斯分类器的分类精度和泛化能力,提出了基于属性相关性的加权贝叶斯集成方法(WEBNC)。根据每个条件属性与决策属性的相关度对其赋以相应的权值,然后用AdaBoost训练属性加权后的BNC。该分类方法在16个UCI标准数据集上进行了测试,并与BNC、贝叶斯网和由AdaBoost训练出的BNC进行比较,实验结果表明,该分类器具有更高的分类精度与泛化能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号