共查询到19条相似文献,搜索用时 78 毫秒
1.
基于特征加权的朴素贝叶斯分类器 总被引:13,自引:0,他引:13
朴素贝叶斯分类器是一种广泛使用的分类算法,其计算效率和分类效果均十分理想。但是,由于其基础假设“朴素贝叶斯假设”与现实存在一定的差异,因此在某些数据上可能导致较差的分类结果。现在存在多种方法试图通过放松朴素贝叶斯假设来增强贝叶斯分类器的分类效果,但是通常会导致计算代价大幅提高。该文利用特征加权技术来增强朴素贝叶斯分类器。特征加权参数直接从数据导出,可以看作是计算某个类别的后验概率时,某个属性对于该计算的影响程度。数值实验表明,特征加权朴素贝叶斯分类器(FWNB)的效果与其他的一些常用分类算法,例如树扩展朴素贝叶斯(TAN)和朴素贝叶斯树(NBTree)等的分类效果相当,其平均错误率都在17%左右;在计算速度上,FWNB接近于NB,比TAN和NBTree快至少一个数量级。 相似文献
2.
3.
4.
分类准确性是分类器最重要的性能指标,特征子集选择是提高分类器分类准确性的一种有效方法。现有的特征子集选择方法主要针对静态分类器,缺少动态分类器特征子集选择方面的研究。首先给出具有连续属性的动态朴素贝叶斯网络分类器和动态分类准确性评价标准,在此基础上建立动态朴素贝叶斯网络分类器的特征子集选择方法,并使用真实宏观经济时序数据进行实验与分析。 相似文献
5.
《计算机应用与软件》2015,(10)
如何高效地特征提取和分类算法设计是衡量基于内容邮件过滤技术优缺点的关键。针对互信息MI(Mutual Information)特征提取算法和朴素贝叶斯分类算法,通过引入特征项区分度的概念,分析特征项在分类中区分能力之间的差异,进而提出一种兼顾特征项区分度和互信息的特征提取算法。通过进一步将区分度添加到分类算法设计中,最终提出一种加权朴素贝叶斯算法,高效地解决基于内容邮件过滤问题。实验结果证明,改进后的算法在召回率、精确率和正确率上均有明显提高,且分类性能更加稳定。 相似文献
6.
7.
由于朴素贝叶斯算法的特征独立性假设以及传统TFIDF加权算法仅仅考虑了特征在整个训练集的分布情况,忽略了特征与类别和文档之间关系,造成传统方法赋予特征的权重并不能代表其准确性.针对以上问题,提出了二维信息增益加权的朴素贝叶斯分类算法,进一步考虑到了特征的二维信息增益即特征类别信息增益和特征文档信息增益对分类效果的影响,并设计实验与传统的加权朴素贝叶斯算法相比,该算法在查准率、召回率、F1值指标性能上能提升6%左右. 相似文献
8.
朴素贝叶斯分类器可以应用于岩性识别.该算法常使用高斯分布来拟合连续属性的概率分布,但是对于复杂的测井数据,高斯分布的拟合效果欠佳.针对该问题,提出基于EM算法的混合高斯概率密度估计.实验选取苏东41-33区块下古气井的测井数据作为训练样本,并选取44-45号井数据作为测试样本.实验采用基于EM算法的混合高斯模型来对测井数据变量进行概率密度估计,并将其应用到朴素贝叶斯分类器中进行岩性识别,最后用高斯分布函数的拟合效果作为对比.结果表明混合高斯模型具有更好的拟合效果,对于朴素贝叶斯分类器进行岩性识别的性能有不错的提升. 相似文献
9.
李文丽 《计算机工程与科学》2022,44(3):495-501
谣言的传播会破坏社会秩序、危害国家稳定、造成大众恐慌,而社交平台的广泛应用使得信息传播速度更快、波及范围更广,加大了谣言造成的负面影响,如何快速准确地识别网络谣言成为信息传播领域的热点问题.谣言识别本质上是一个二分类问题,因而基于贝叶斯分类的思想设计了网络谣言识别的朴素贝叶斯分类算法,利用Matlab软件构建朴素贝叶斯... 相似文献
10.
朴素贝叶斯是一种用于不确定性推理的方法,其原理简单,但是适用性却很强。将朴素贝叶斯用在文本分类中。在传统的文本分类方法的基础上,对文本特征的选择做了改进,通过实验,达到了比较满意的效果。 相似文献
11.
基于类信息的文本特征选择与加权算法研究 总被引:2,自引:1,他引:2
文本自动分类中特征选择和加权的目的是为了降低文本特征空间维数、去除噪音和提高分类精度。传统的特征选择方案筛选出的特征往往偏爱类分布不均匀文档集中的大类,而常用的TF·IDF特征加权方案仅考虑了特征与文档的关系,缺乏对特征与类别关系的考虑。针对上述问题,提出了基于类别信息的特征选择与加权方法,在两个不同的语料集上进行比较和分析实验,结果显示基于类别信息的特征选择与加权方法比传统方法在处理类分布不均匀的文档集时能有效提高分类精度,并且降维程度有所提高。 相似文献
12.
基于高光谱吸收特征参数的分类研究 总被引:2,自引:1,他引:2
在Weka平台上,采用决策树C4.5、朴素贝叶斯、朴素贝叶斯树三种算法进行了带缺失属性值的高光谱分类研究。针对高光谱波段数众多、信息冗余量大的特点,首先对光谱曲线进行光谱特征参数提取,然后再选择合适的吸收峰波段作为输入向量来进行分类。实验表明,由NBTree建立的铀黑-沥青铀矿分类模型的分类误差最小,分类精度最高,其次是Na?觙veBayes和J4.8,但从训练时间来看,NBTree则高于NB和J4.8。最后,对三种分类算法的分类结果进行了分析。 相似文献
13.
针对物流新闻类别分布不均衡,分类器容易倾向大类别而忽略小类别的问题,提出基于加权补集的朴素贝叶斯分类模型.构建物流新闻语料库,结合卡方检验进行特征选择,基于局部、全局和类内、类间的思想,分析并改进传统特征加权算法,设计适用于类别分布不均衡物流新闻的加权补集朴素贝叶斯模型.实验结果表明,相较传统分类方法,加权补集朴素贝叶... 相似文献
14.
Due to its simplicity, efficiency and efficacy, naive Bayes (NB) continues to be one of the top 10 data mining algorithms. A mass of improved approaches to NB have been proposed to weaken its conditional independence assumption. However, there has been little work, up to the present, on instance weighting filter approaches to NB. In this paper, we propose a simple, efficient, and effective instance weighting filter approach to NB. We call it attribute (feature) value frequency-based instance weighting and denote the resulting improved model as attribute value frequency weighted naive Bayes (AVFWNB). In AVFWNB, the weight of each training instance is defined as the inner product of its attribute value frequency vector and the attribute value number vector. The experimental results on 36 widely used classification problems show that AVFWNB significantly outperforms NB, yet at the same time maintains the computational simplicity that characterizes NB. 相似文献
15.
16.
特征加权是文本分类中的重要环节,通过考察传统的特征选择函数,发现互信息方法在特征加权过程中表现尤为突出。为了提高互信息方法在特征加权时的性能,加入了词频信息、文档频率信息以及类别相关度因子,提出了一种基于改进的互信息特征加权方法。实验结果表明,该方法比传统的特征加权方法具有更好的分类性能。 相似文献
17.
中文文本中,传统的n-grams特征选择加权算法(如滑动窗口法等)存在两点不足:在将每个词进行组合、生成n-grams特征之前必须对每篇文本调用分词接口。无法删除n-grams中的冗余词,使得冗余的n-grams特征对其他有用的n-grams特征产生干扰,降低分类准确率。为解决以上问题,根据汉语单、双字词识别研究理论,将文本转化为字矩阵。通过对字矩阵中元素进行冗余过滤和交运算得到n-grams特征,避免了n-grams特征中存在冗余词的情况,且不需对文本调用任何分词接口。在搜狗中文新闻语料库和网易文本语料库中的实验结果表明,相比于滑动窗口法和其他n-grams特征选择加权算法,基于字矩阵交运算的n-grams特征选择加权算法得到的n-grams特征耗时更短,在支持向量机(Support Vector Machine,SVM)中的分类效果更好。 相似文献
18.
19.
属性加权的朴素贝叶斯集成分类器 总被引:1,自引:1,他引:1
为提高朴素贝叶斯分类器的分类精度和泛化能力,提出了基于属性相关性的加权贝叶斯集成方法(WEBNC)。根据每个条件属性与决策属性的相关度对其赋以相应的权值,然后用AdaBoost训练属性加权后的BNC。该分类方法在16个UCI标准数据集上进行了测试,并与BNC、贝叶斯网和由AdaBoost训练出的BNC进行比较,实验结果表明,该分类器具有更高的分类精度与泛化能力。 相似文献