首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
基于特征加权的朴素贝叶斯分类器   总被引:13,自引:0,他引:13  
程克非  张聪 《计算机仿真》2006,23(10):92-94,150
朴素贝叶斯分类器是一种广泛使用的分类算法,其计算效率和分类效果均十分理想。但是,由于其基础假设“朴素贝叶斯假设”与现实存在一定的差异,因此在某些数据上可能导致较差的分类结果。现在存在多种方法试图通过放松朴素贝叶斯假设来增强贝叶斯分类器的分类效果,但是通常会导致计算代价大幅提高。该文利用特征加权技术来增强朴素贝叶斯分类器。特征加权参数直接从数据导出,可以看作是计算某个类别的后验概率时,某个属性对于该计算的影响程度。数值实验表明,特征加权朴素贝叶斯分类器(FWNB)的效果与其他的一些常用分类算法,例如树扩展朴素贝叶斯(TAN)和朴素贝叶斯树(NBTree)等的分类效果相当,其平均错误率都在17%左右;在计算速度上,FWNB接近于NB,比TAN和NBTree快至少一个数量级。  相似文献   

2.
基于粗糙集的加权朴素贝叶斯邮件过滤方法   总被引:2,自引:3,他引:2  
邮件过滤中有两个关键问题,一是如何选择有效的邮件特征集,二是设计较好的邮件过滤算法。在对邮件特性进行分析的基础上,综合邮件头及邮件内容的主要形象特征给出了一种新的邮件特征集提取方法。用粗糙集的信息观点度量了各属性的重要性,并以此为权重进行加权朴素贝叶斯垃圾邮件过滤,有效地解决了朴素贝叶斯分类中的条件依赖性问题。通过在中英文邮件集上的测试实验,证明了所提出的邮件过滤方法的有效性。  相似文献   

3.
基于Rough Set的加权朴素贝叶斯分类算法   总被引:8,自引:1,他引:8  
朴素贝叶斯算法是一种简单而高效的分类算法,但其条件独立性假设并不符合客观实际,这在某种程度上影响了它的分类性能。加权朴素贝叶斯是对它的一种扩展。基于Rough Set的属性重要性理论,提出了基于Rough Set的加权朴素贝叶斯分类方法,并分别从代数观、信息观及综合代数观和信息观的角度给出了属性权值的求解方法。通过在UCI数据集上的仿真实验,验证了该方法的有效性。  相似文献   

4.
分类准确性是分类器最重要的性能指标,特征子集选择是提高分类器分类准确性的一种有效方法。现有的特征子集选择方法主要针对静态分类器,缺少动态分类器特征子集选择方面的研究。首先给出具有连续属性的动态朴素贝叶斯网络分类器和动态分类准确性评价标准,在此基础上建立动态朴素贝叶斯网络分类器的特征子集选择方法,并使用真实宏观经济时序数据进行实验与分析。  相似文献   

5.
如何高效地特征提取和分类算法设计是衡量基于内容邮件过滤技术优缺点的关键。针对互信息MI(Mutual Information)特征提取算法和朴素贝叶斯分类算法,通过引入特征项区分度的概念,分析特征项在分类中区分能力之间的差异,进而提出一种兼顾特征项区分度和互信息的特征提取算法。通过进一步将区分度添加到分类算法设计中,最终提出一种加权朴素贝叶斯算法,高效地解决基于内容邮件过滤问题。实验结果证明,改进后的算法在召回率、精确率和正确率上均有明显提高,且分类性能更加稳定。  相似文献   

6.
为进一步提高多关系朴素贝叶斯方法的分类准确率,分析了已有的特征加权方法,并在将特征加权方法扩展到多关系的情况下结合元组ID传播方法和面向元组的统计计数方法,建立了基于特征加权的多关系朴素贝叶斯分类模型(MRNBC-W)。标准数据集上的实验结果显示,新方法可以在不增加算法时间复杂度的前提下,有效提高金融数据集的分类准确率。文中也给出了结合扩展互信息标准对属性进行过滤后,加权方法和不加权方法的分类比较。  相似文献   

7.
由于朴素贝叶斯算法的特征独立性假设以及传统TFIDF加权算法仅仅考虑了特征在整个训练集的分布情况,忽略了特征与类别和文档之间关系,造成传统方法赋予特征的权重并不能代表其准确性.针对以上问题,提出了二维信息增益加权的朴素贝叶斯分类算法,进一步考虑到了特征的二维信息增益即特征类别信息增益和特征文档信息增益对分类效果的影响,并设计实验与传统的加权朴素贝叶斯算法相比,该算法在查准率、召回率、F1值指标性能上能提升6%左右.  相似文献   

8.
朴素贝叶斯分类器可以应用于岩性识别.该算法常使用高斯分布来拟合连续属性的概率分布,但是对于复杂的测井数据,高斯分布的拟合效果欠佳.针对该问题,提出基于EM算法的混合高斯概率密度估计.实验选取苏东41-33区块下古气井的测井数据作为训练样本,并选取44-45号井数据作为测试样本.实验采用基于EM算法的混合高斯模型来对测井数据变量进行概率密度估计,并将其应用到朴素贝叶斯分类器中进行岩性识别,最后用高斯分布函数的拟合效果作为对比.结果表明混合高斯模型具有更好的拟合效果,对于朴素贝叶斯分类器进行岩性识别的性能有不错的提升.  相似文献   

9.
谣言的传播会破坏社会秩序、危害国家稳定、造成大众恐慌,而社交平台的广泛应用使得信息传播速度更快、波及范围更广,加大了谣言造成的负面影响,如何快速准确地识别网络谣言成为信息传播领域的热点问题.谣言识别本质上是一个二分类问题,因而基于贝叶斯分类的思想设计了网络谣言识别的朴素贝叶斯分类算法,利用Matlab软件构建朴素贝叶斯...  相似文献   

10.
朴素贝叶斯是一种用于不确定性推理的方法,其原理简单,但是适用性却很强。将朴素贝叶斯用在文本分类中。在传统的文本分类方法的基础上,对文本特征的选择做了改进,通过实验,达到了比较满意的效果。  相似文献   

11.
基于类信息的文本特征选择与加权算法研究   总被引:2,自引:1,他引:2  
文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。  相似文献   

12.
基于高光谱吸收特征参数的分类研究   总被引:2,自引:1,他引:2  
在Weka平台上,采用决策树C4.5、朴素贝叶斯、朴素贝叶斯树三种算法进行了带缺失属性值的高光谱分类研究。针对高光谱波段数众多、信息冗余量大的特点,首先对光谱曲线进行光谱特征参数提取,然后再选择合适的吸收峰波段作为输入向量来进行分类。实验表明,由NBTree建立的铀黑-沥青铀矿分类模型的分类误差最小,分类精度最高,其次是Na?觙veBayes和J4.8,但从训练时间来看,NBTree则高于NB和J4.8。最后,对三种分类算法的分类结果进行了分析。  相似文献   

13.
针对物流新闻类别分布不均衡,分类器容易倾向大类别而忽略小类别的问题,提出基于加权补集的朴素贝叶斯分类模型.构建物流新闻语料库,结合卡方检验进行特征选择,基于局部、全局和类内、类间的思想,分析并改进传统特征加权算法,设计适用于类别分布不均衡物流新闻的加权补集朴素贝叶斯模型.实验结果表明,相较传统分类方法,加权补集朴素贝叶...  相似文献   

14.
Due to its simplicity, efficiency and efficacy, naive Bayes (NB) continues to be one of the top 10 data mining algorithms. A mass of improved approaches to NB have been proposed to weaken its conditional independence assumption. However, there has been little work, up to the present, on instance weighting filter approaches to NB. In this paper, we propose a simple, efficient, and effective instance weighting filter approach to NB. We call it attribute (feature) value frequency-based instance weighting and denote the resulting improved model as attribute value frequency weighted naive Bayes (AVFWNB). In AVFWNB, the weight of each training instance is defined as the inner product of its attribute value frequency vector and the attribute value number vector. The experimental results on 36 widely used classification problems show that AVFWNB significantly outperforms NB, yet at the same time maintains the computational simplicity that characterizes NB.  相似文献   

15.
特征权重算法TF—IDF是文本分类的重要算法之一,该算法IDF值容易受特征噪声影响出现波动。提出一种基于特征噪声加权的特征权重改进算法,该算法通过分析噪声特征的分布特点,对不能准确表达文档真实意思的特征噪声进行加权,降低特征噪声对IDF的影响,最终有效地提高算法的精度和健壮性。  相似文献   

16.
特征加权是文本分类中的重要环节,通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度因子,提出了一种基于改进的互信息特征加权方法。实验结果表明,该方法比传统的特征加权方法具有更好的分类性能。  相似文献   

17.
中文文本中,传统的n-grams特征选择加权算法(如滑动窗口法等)存在两点不足:在将每个词进行组合、生成n-grams特征之前必须对每篇文本调用分词接口。无法删除n-grams中的冗余词,使得冗余的n-grams特征对其他有用的n-grams特征产生干扰,降低分类准确率。为解决以上问题,根据汉语单、双字词识别研究理论,将文本转化为字矩阵。通过对字矩阵中元素进行冗余过滤和交运算得到n-grams特征,避免了n-grams特征中存在冗余词的情况,且不需对文本调用任何分词接口。在搜狗中文新闻语料库和网易文本语料库中的实验结果表明,相比于滑动窗口法和其他n-grams特征选择加权算法,基于字矩阵交运算的n-grams特征选择加权算法得到的n-grams特征耗时更短,在支持向量机(Support Vector Machine,SVM)中的分类效果更好。  相似文献   

18.
特征权重计算是文本分类过程的基础,传统基于概率的特征权重算法,往往只对词频,逆文档频和逆类频等进行统计,忽略了类别之间的相互关系。而对于多分类问题,类别之间的关系对统计又有重要意义。因此,针对这一不足,本文提出了基于类别方差的特征权重算法,通过计算类别文档频率的方差来度量类别之间的联系,并在搜狗新闻数据集上对五种特征权重算法进行分类实验。结果表明,与其他四种特征权重算法相比,本文提出的算法在F1宏平均和F1微平均上都有较大的提高,提升了文本分类的效果。  相似文献   

19.
属性加权的朴素贝叶斯集成分类器   总被引:1,自引:1,他引:1  
为提高朴素贝叶斯分类器的分类精度和泛化能力,提出了基于属性相关性的加权贝叶斯集成方法(WEBNC)。根据每个条件属性与决策属性的相关度对其赋以相应的权值,然后用AdaBoost训练属性加权后的BNC。该分类方法在16个UCI标准数据集上进行了测试,并与BNC、贝叶斯网和由AdaBoost训练出的BNC进行比较,实验结果表明,该分类器具有更高的分类精度与泛化能力。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号