首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
《软件工程师》2017,(9):34-41
朴素贝叶斯算法是数据挖掘领域最简单的分类算法之一。为了让朴素贝叶斯能够灵活地处理连续型数据,分类过程就需要对数据进行离散化处理。而使用模糊数学理论来解决离散化问题是一个不错的选择。因此本文考虑将这两种方法结合,同时在去模糊化过程中引用了一种新型去模糊化方法("内心法"),从而生成一种新的模糊贝叶斯混合模型。并通过一个企业评价实例简单地验证了模糊贝叶斯算法在应对连续性数据时具有良好、可靠的分类效果。  相似文献   

2.
将粗糙集理论中属性重要度和依赖度的概念与分级聚类离散化算法相结合,提出了一种纳税人连续型属性动态的离散化算法。首先将纳税数据对象的每个连续型属性划分为2类,然后利用粗糙集理论计算每个条件属性对于决策属性的重要度,再通过重要度由大至小排序进行增类运算,最后将保持与原有数据对象集依赖度一致的分类结果输出。该算法能够动态地对数据对象进行类别划分,实现纳税人连续型属性的离散化。通过采用专家分析和关联分析的实验结果,验证了该算法具有较高的纳税人连续型属性离散化精度和性能。  相似文献   

3.
为了有效解决传统的数据分类算法不能很好的适应数据流的数据无限性和概念漂移性带来的问题,提出了一种实时的数据流的挖掘算法.贝叶斯数据流分类算法充分考虑了离散属性和连续属性的不同处理,对时间窗口内的数据进行压缩,然后根据各个时间窗口的权重,重组了压缩后的数据并在重组后的压缩数据上学习和生成了单个贝叶斯分类器.实验结果表明,该算法在分类性能、分类准确率、分类速度上优于同类算法.  相似文献   

4.
针对传统贝叶斯分类算法在处理海量数据时存在的运行时间长和分类准确率低等问题,在对传统的贝叶斯分类算法和云计算进行了深入研究后,提出了面向云计算环境的基于MapReduce模型的朴素贝叶斯分类算法。该算法实现了朴素贝叶斯分类算法的并行化,实现了大规模数据在云计算环境下的集群中进行贝叶斯分类处理。实验结果证明,该算法具有较高的分类准确率,在运行时间和加速比方面也有很好的效果。  相似文献   

5.
扩展的树增强朴素贝叶斯分类器   总被引:1,自引:0,他引:1  
树增强朴素贝叶斯分类器继承了朴素贝叶斯分类器计算简单和鲁棒性的特点,同时分类性能常常优于朴素贝叶斯分类器,然而在有连续变量的情况下要求必须进行预离散化.为了更好地表达数据的分布,减少信息损失,有必要考虑混合数据的情况.本文推导混合数据的极大似然函数,提出扩展的树增强朴素贝叶斯分类器,突破必须对连续变量进行预离散化的限制,能够在树增强朴素贝叶斯分类器的框架内处理混合变量的情况.实验测试证明其具有良好的分类精度.  相似文献   

6.
基于粒子群优化和邻域约简的入侵检测日志数据特征选择   总被引:2,自引:0,他引:2  
入侵检测日志数据具有数据量大、特征数目繁多以及连续型属性多的特点.传统的特征选择方法在处理连续型数据时要先进行离散化,这需要花费大量的预处理时间并且离散化过程可能会丢失一些重要信息,导致分类精度下降.针对上述问题,首先引入能直接处理连续型数据的邻域粗糙集约简模型,在此基础上构造计算粒子群优化算法中粒子的适应度函数,最后给出一种基于邻域粗糙集模型和粒子群优化的特征选择算法.仿真实验结果表明该算法可以选择较少的特征,改善分类的能力.  相似文献   

7.
邻域粗糙协同分类模型   总被引:2,自引:0,他引:2  
Pawlak粗糙集理论是一种有监督学习模型,只适合处理离散型数据.但在一些现实问题中存在着大量的连续型数据,并且有标记数据很有限,更多的是无标记数据.结合邻域粗糙集和协同学习理论,提出了适合处理连续型数据并可有效利用无标记数据提升分类性能的邻域粗糙协同分类模型.该模型首先构建了邻域粗糙半监督约简算法,并利用该算法提取两个差异性较大的约简构造基分类器,然后迭代地在无标记数据上交互协同学习.UCI数据集实验对比分析表明,与其他同类模型相比,该模型有较好的性能.  相似文献   

8.
针对贝叶斯网络后验概率需计算样本边际分布,计算代价大的问题,将共轭先验分布思想引入贝叶斯分类,提出了基于共轭先验分布的贝叶斯网络分类模型.针对非区间离散样本,提出一种自适应的样本离散方法,将小波包提取模拟电路故障特征离散化作为分类模型属性.仿真验证表明,模型分类效果较好,算法运行速度得以提高,也可应用于连续样本和多分类的情况,扩展了贝叶斯网络分类的应用范围.  相似文献   

9.
针对化学数据分类的问题,提出一种用于挖掘化学模式分类提取规则的遗传算法.该算法以样本属性值为条件,采用实值编码方式,将化学分类提取规则演绎成种群进化规则,适应度函数与各参数的设置也以离散型化学数据和连续型化学数据的规则提取为依据.实验结果表明,设计的遗传算法在解决化学模式分类问题上性能良好,易于专业分析.  相似文献   

10.
传统关联分类方法处理数量型数据时,“先离散,再学习”的步骤使新的测试样例可能无法找到合适的离散区间,形成离散盲目性问题。基于lazy的数量型关联分类作为一种新的关联分类法,它首先利用K-近邻分类思想为测试样例求得K-近邻作为新的训练数据集,然后对包含测试样例和K个近邻的数据集离散化,并在K-近邻组成的离散数据集上挖掘关联规则并构造分类器进行分类。最后,通过与传统CBA、CMAR、CPAR算法在7个常用UCI数量型数据集上进行的对比实验结果表明,基于lazy的数量型关联分类方法的平均分类准确率提高了0.66%~1.65%,证明了该方法的可行性。  相似文献   

11.
For learning a Bayesian network classifier, continuous attributes usually need to be discretized. But the discretization of continuous attributes may bring information missing, noise and less sensitivity to the changing of the attributes towards class variables. In this paper, we use the Gaussian kernel function with smoothing parameter to estimate the density of attributes. Bayesian network classifier with continuous attributes is established by the dependency extension of Naive Bayes classifiers. We also analyze the information provided to a class for each attributes as a basis for the dependency extension of Naive Bayes classifiers. Experimental studies on UCI data sets show that Bayesian network classifiers using Gaussian kernel function provide good classification accuracy comparing to other approaches when dealing with continuous attributes.  相似文献   

12.
基于“3σ”规则的贝叶斯分类器   总被引:1,自引:0,他引:1  
在软测量建模问题中为了提高模型的估计精度,通常需要将原始数据集分类,以构造多个子模型。数据分类中利用朴素贝叶斯分类器简单高效的优点,首先对连续的类变量进行类别范围划分,然后用概率论中的3σ规则对连续的属性变量离散。可以消除训练样本中干扰数据的影响,利用遗传算法从训练样本集中优选样本。对连续变量的离散和样本的优选作为对数据的预处理,预处理后的训练样本构建贝叶斯分类器。通过对UC I数据集和双酚A生产过程在线监测数据集的实验仿真,实验结果表明,遗传算法优选样本集的3σ规则朴素贝叶斯分类方法比其它方法有更高的分类精度。  相似文献   

13.
Within the framework of Bayesian networks (BNs), most classifiers assume that the variables involved are of a discrete nature, but this assumption rarely holds in real problems. Despite the loss of information discretization entails, it is a direct easy-to-use mechanism that can offer some benefits: sometimes discretization improves the run time for certain algorithms; it provides a reduction in the value set and then a reduction in the noise which might be present in the data; in other cases, there are some Bayesian methods that can only deal with discrete variables. Hence, even though there are many ways to deal with continuous variables other than discretization, it is still commonly used. This paper presents a study of the impact of using different discretization strategies on a set of representative BN classifiers, with a significant sample consisting of 26 datasets. For this comparison, we have chosen Naive Bayes (NB) together with several other semi-Naive Bayes classifiers: Tree-Augmented Naive Bayes (TAN), k-Dependence Bayesian (KDB), Aggregating One-Dependence Estimators (AODE) and Hybrid AODE (HAODE). Also, we have included an augmented Bayesian network created by using a hill climbing algorithm (BNHC). With this comparison we analyse to what extent the type of discretization method affects classifier performance in terms of accuracy and bias-variance discretization. Our main conclusion is that even if a discretization method produces different results for a particular dataset, it does not really have an effect when classifiers are being compared. That is, given a set of datasets, accuracy values might vary but the classifier ranking is generally maintained. This is a very useful outcome, assuming that the type of discretization applied is not decisive future experiments can be d times faster, d being the number of discretization methods considered.  相似文献   

14.
属性加权的朴素贝叶斯集成分类器   总被引:2,自引:1,他引:1  
为提高朴素贝叶斯分类器的分类精度和泛化能力,提出了基于属性相关性的加权贝叶斯集成方法(WEBNC)。根据每个条件属性与决策属性的相关度对其赋以相应的权值,然后用AdaBoost训练属性加权后的BNC。该分类方法在16个UCI标准数据集上进行了测试,并与BNC、贝叶斯网和由AdaBoost训练出的BNC进行比较,实验结果表明,该分类器具有更高的分类精度与泛化能力。  相似文献   

15.
The Bayesian classifier is a fundamental classification technique. In this work, we focus on programming Bayesian classifiers in SQL. We introduce two classifiers: Naive Bayes and a classifier based on class decomposition using K-means clustering. We consider two complementary tasks: model computation and scoring a data set. We study several layouts for tables and several indexing alternatives. We analyze how to transform equations into efficient SQL queries and introduce several query optimizations. We conduct experiments with real and synthetic data sets to evaluate classification accuracy, query optimizations, and scalability. Our Bayesian classifier is more accurate than Naive Bayes and decision trees. Distance computation is significantly accelerated with horizontal layout for tables, denormalization, and pivoting. We also compare Naive Bayes implementations in SQL and C++: SQL is about four times slower. Our Bayesian classifier in SQL achieves high classification accuracy, can efficiently analyze large data sets, and has linear scalability.  相似文献   

16.
用Matlab语言建构贝叶斯分类器   总被引:2,自引:1,他引:2  
文本分类是文本挖掘的基础与核心,分类器的构建是文本分类的关键,利用贝叶斯网络可以构造出分类性能较好的分类器。文中利用Matlab构造出了两种分类器:朴素贝叶斯分类器NBC,用互信息测度和条件互信息测度构建了TANC。用UCI上下载的标准数据集验证所构造的分类器,实验结果表明,所建构的几种分类器的性能总体比文献中列的高些,从而表明所建立的分类器的有效性和正确性。笔者对所建构的分类器进行优化并应用于文本分类中。  相似文献   

17.
基于TAN贝叶斯网络分类器的测井岩性预测   总被引:3,自引:0,他引:3  
贝叶斯网络是一种建立在概率和统计理论基础上的数据分析和辅助决策工具,利用其构造出的树扩展朴素贝叶斯网络分类器是目前最优秀的分类器之一。针对石油勘探中测井数据的特殊性,利用贝叶斯网络预测出其对应的岩性,并介绍了使用此方法进行岩性预测的算法过程。通过BNT软件包用Matlab语言构建了分类器,并由实验结果的分析说明了此分类器的优点。  相似文献   

18.
朴素贝叶斯分类器具有很高的学习和分类效率,但不能充分利用属性变量之间的依赖信息.贝叶斯网络分类器具有很强的分类能力,但分类器学习比较复杂.本文建立广义朴素贝叶斯分类器,它具有灵活的分类能力选择方式、效率选择方式及学习方式,能够弥补朴素贝叶斯分类器和贝叶斯网络分类器的不足,并继承它们的优点.  相似文献   

19.
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。提出一种新的算法,该算法为避免数据预处理时,训练集的噪声及数据规模使属性约简的效果不太理想,并进而影响分类效果,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的贝叶斯分类器,进而采用遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的分类精度。  相似文献   

20.
Bayesian Network Classifiers   总被引:154,自引:0,他引:154  
Friedman  Nir  Geiger  Dan  Goldszmidt  Moises 《Machine Learning》1997,29(2-3):131-163
Recent work in supervised learning has shown that a surprisingly simple Bayesian classifier with strong assumptions of independence among features, called naive Bayes, is competitive with state-of-the-art classifiers such as C4.5. This fact raises the question of whether a classifier with less restrictive assumptions can perform even better. In this paper we evaluate approaches for inducing classifiers from data, based on the theory of learning Bayesian networks. These networks are factored representations of probability distributions that generalize the naive Bayesian classifier and explicitly represent statements about independence. Among these approaches we single out a method we call Tree Augmented Naive Bayes (TAN), which outperforms naive Bayes, yet at the same time maintains the computational simplicity (no search involved) and robustness that characterize naive Bayes. We experimentally tested these approaches, using problems from the University of California at Irvine repository, and compared them to C4.5, naive Bayes, and wrapper methods for feature selection.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号