首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
针对朴素贝叶斯分类器硬分类的不足,将模糊C-均值聚类与朴素贝叶斯分类相结合,提出一类新的基于模糊聚类的混合朴素贝叶斯分类模型,并给出它的分类误差估计方法。理论分析与实验结果表明,基于模糊聚类的混合朴素贝叶斯分类模型可行,其分类的误差估计方法有效。新的基于模糊聚类的混合朴素贝叶斯分类模型提高了模式分类能力。  相似文献   

2.
一种文本处理中的朴素贝叶斯分类器   总被引:22,自引:0,他引:22  
首先在特征独立性假设的基础上,讨论了朴素贝叶斯分类器的原理,以及训练朴素贝叶斯分类器和应用朴素贝叶斯分类器进行分类的问题。然后,通过EM算法(期望值最大算法),自动增加训练量,以得到较为完备的训练文本库,扩展了朴素贝叶斯分类器的应用,提高了朴素贝叶斯分类器的分类精度。文章最后给出一组实验数据。本文的研究发现,朴素贝叶斯分类器分类精度较高,并且不存在单分类器与多分类器的实现差异,是一个比较实用的分类器。  相似文献   

3.
详细讨论了一个基于朴素贝叶斯方法的个性化E-mail分类器的设计,给出了系统体系结构和特征提取算法,试验了一种对新邮件计算所属类别后验概率的方法.试验结果表明,结合Odds Ratio特征子集提取算法和仆素贝叶斯方法对邮件进行分类具有较好的分类精度.应用朴素贝叶斯方法在新邮件到达的同时对其进行分类,具有较好的分类速度.  相似文献   

4.
朴素贝叶斯分类器是一种简单高效的分类算法,但其属性独立性假设影响了分类效果。通过放松朴素贝叶斯假设可以增强朴素贝叶斯的分类效果,但是通常会导致计算代价大幅提高。针对以上问题,提出了一种基于粗糙集的特征加权朴素贝叶斯算法,加权参数直接从训练数据中学习得到,可以看作是计算某个后验概率时,某个特征对于该类别的影响程度。将该分类算法与朴素贝叶斯分类器(na ve bayesian classifier,NB)、贝叶斯网(bayes networks)和NBTree分类器进行实验比较。结果表明:在大多数数据集上,FWNB分类器在较小的计算代价下,具有较高的分类正确率。  相似文献   

5.
针对不确定性数据的分类问题,提出一种基于直方图估计的不确定性朴素贝叶斯分类器(HU-NBC).基于直方图估计的思想,建立估计不确定性数据概率密度函数的数学模型,并利用该模型估计不确定性朴素贝叶斯分类器的类条件概率密度函数.实验结果表明,与同类型算法相比,基于直方图估计的HU-NBC算法拥有较优的分类精度、较小的时间代价和空间需求,适合解决数据量较大的不确定性数据分类问题.  相似文献   

6.
中文微博情感分析中主客观句分类方法   总被引:2,自引:0,他引:2  
采用朴素贝叶斯分类器对微博语句的主客观分类问题进行研究。首先分析微博文本和其他文本的主要区别,并针对微博文本的表述特点提取一些主客观线索特征,然后对2-POS模式的最佳选取方式进行研究,最后以特征词和主客观线索做语义特征,2-POS模式做语法特征,采用朴素贝叶斯分类器分别研究它们对分类结果的影响。实验结果表明,同时考虑语义特征和语法结构特征的分类效果比仅考虑一种特征时要好。  相似文献   

7.
在对未知应用静态分析的基础上,提取AndroidManifest.xml中申请的权限为特征,采用信息增益算法优化选择分类特征,再采用拉普拉斯校准、乘数取自然对数改进的朴素贝叶斯算法创建恶意应用分类器.通过十折交叉试验验证改进的朴素贝叶斯分类器的准度和精度较高,且通过信息增益优化选择的分类特征在保障准确率的情况下能有效提高检测效率.与k最近邻和k-Means分类器相比,改进的朴素贝叶斯分类器具有较好的分类效果.  相似文献   

8.
基于贝叶斯分类器的图像分类技术   总被引:1,自引:0,他引:1  
分类的目的就是根据现有的图像特征建立一个分类器,能够对未知的图像类型进行预测.在现有众多分类算法中,贝叶斯分类器由于其坚实的数学理论基础并能综合先验信息和数据样本信息,成为当前机器学习和数据挖掘的研究热点之一.本文论述了内容图像检索中基于贝叶斯分类器的图像分类技术.介绍了贝叶斯分类器.叙述了利用贝叶斯分类器进行图像分类的方法,以及图像特征的分布假定.最后通过时分类器的探讨,总结了贝叶斯估计分类的不足.  相似文献   

9.
为解决路面积雪状态(轻微、严重)检测问题以保证行车安全,利用监控视频得到路面实时状态,采用朴素贝叶斯分类方法进行积雪状态检测。首先利用机器视觉和视频目标分割方法提取视频中路面视觉特征,然后采用朴素贝叶斯分类方法进行路面积雪状态分类,通过实验,综合比较了朴素贝叶斯分类与KNN分类、人工神经网络(ANN)、支撑向量机(SVM)在路面积雪状态检测问题中的有效性,结果表明,朴素贝叶斯分类器更适合积雪状态的分类。  相似文献   

10.
一种基于朴素贝叶斯的中文评论情感分类方法研究   总被引:2,自引:1,他引:1  
提出一种新的基于朴素贝叶斯的中文文本情感分类方法。该方法用情感短语作为文本特征,通过情感词典与否定副词相结合,提取情感短语,通过CHI统计法设定阈值进行特征提取,再利用朴素贝叶斯分类器进行情感分类计算。对不同CHI阈值、不同语料库、以情感短语为特征和以情感词为特征进行分类实验。实验表明,以情感短语作为特征进行朴素贝叶斯分类,在不同领域的评论中均获得了较高的查准率和查全率,证明了该方法的可行性。  相似文献   

11.
从智能卡数据挖掘客流信息的算法   总被引:1,自引:0,他引:1  
为了从广泛使用的智能卡付费系统获取公交客流信息,提出了一种利用公交调度信息和智能卡刷卡信息推断乘客上车站点的方法. 对同一辆车的连续2次刷卡进行朴素贝叶斯分类,区分是否是在同一个站刷卡;利用极大似然估计、动态规划和二次规划方法估计出各路段的行程时间;运用坐标下降法从不准确的初始参数出发,交替估计行程时间和行程时间的参数,从而推断出每次刷卡的上车站点. 实验结果验证了新方法的正确性和有效性,证明了该方法误差较小,收敛较快.   相似文献   

12.
在已有上机实验数据的基础上,使用综合的权值计算方法,将加权朴素贝叶斯分类算法应用到学生成绩分析与预测中.实验结果显示,对于学生的成绩分类,使用综合权值的结果优于传统权值的分类结果,表明使用文中的加权贝叶斯方法分析学生成绩是切实可行的.  相似文献   

13.
统计模式识别研究进展   总被引:6,自引:0,他引:6  
研究了统计模式识别研究的主要新进展。介绍了统计模式识别的原理和方法。从类条件概率分布的估计、线性判别法、贝叶斯分类器、误差界以及新的模式识别模型等方面概述了近几年有关统计模式识别方面的研究进展。最后进行了评述。  相似文献   

14.
分类器动态组合及基于分类器组合的集成学习算法   总被引:1,自引:0,他引:1  
针对目前基于分类器静态组合的集成学习算法难于推广的问题,根据组合分类器分类错误最小化原则,研究了组合系数随分类器输出变化而变化的分类器动态组合理论,包括组合系数的选取、组合分类器分类错误率的估计等.证明了在分类器相互独立时,一些动态组合分类器等价于Bayes统计推断.提出了基于分类器组合的通用集成学习算法,并把AdaBoost、Real AdaBoost、Gentle AdaBoost算法推广到了多分类问题.证明了按照集成学习算法得到的分类器,其动态组合的有效性可不依赖于分类器的独立性,这支撑了基于分类器相互独立假设来研究分类器组合的有用性.最后,通过UCI数据实验验证了动态组合的有效性.  相似文献   

15.
在刻度平方损失函数下,研究了一类刻度指数分布族参数的估计.得到了刻度参数的Bayes估计的一般形式,并研究了它的可容许性,最后在两种给定先验分布下得到了刻度参数的正常Bayes估计和广义Bayes估计的精确形式.在此基础上可以对刻度参数进行进一步的统计推断.  相似文献   

16.
对于极化合成孔径雷达(SAR)图像,由于雷达角度和地物形状导致属于同一类的数据可能存在较大的差异性.针对此问题提出了一种基于贝叶斯集成框架的极化SAR图像分类方法.该算法采用贝叶斯集成,通过学习不同个体而获得的分类面来改善极化SAR图像分类性能.首先,输入极化SAR图像,并获得其对应的极化SAR数据及特征.从图像的每一类中任意选择像素点作为图像分类的原始训练样本,并对其进行随机划分获得不同的样本子集.然后,基于获得的样本子集构造对应极化SAR图像的贝叶斯集成框架.最后,通过构造的贝叶斯集成框架对极化SAR图像进行分类.特别在构造贝叶斯集成框架中采用支撑矢量机作为基本的分类器算法.实验结果表明,所提出的算法相比经典的极化SAR分类方法和单个SVM的极化SAR分类方法获得更好的分类性能.  相似文献   

17.
朴素贝叶斯分类器是目前公认的一种简单有效的概率分类方法,具有简单、健壮而且高效的特点,但由于它是建立在属性变量相对类变量独立的假设前提下,而且这个假设在实际问题中往往不能满足,从而影响了其分类精度。针对这个很强的前提假设,提出了基于灰色关联聚类的特征选择方法,在一定程度上放松了这个限制条件;以朴素贝叶斯分类器作为基分类器,采用分类器集成技术中的AdaBoost算法进一步提高分类性能。通过对新英格兰10机39节点系统的仿真计算,结果表明了方法的有效性和正确性。  相似文献   

18.
贝叶斯文本分类中特征词缺失的补偿策略   总被引:2,自引:0,他引:2  
为了解决朴素贝叶斯分类器在处理文本分类任务时,往往存在的特征词缺失问题,即由于语料库中的词语出现分布情况遵循Zipf定律,仅依靠简单的增加训练语料方式难以解决这种因数据稀疏而引发的特征词缺失问题.引入统计语言模型中的数据平滑算法,通过从已出现词中"折扣"出一定的概率再分配到未出现词中去,来计算缺失特征词的补偿概率,以此克服数据稀疏问题带来的影响.评测数据在去掉停用词的分类过程开放测试中,引入Good-Turing算法的分类性能比Laplace原则提高了3.05%,比Lidstone方法提高1.00%.而在交叉熵选择特征词的算法中,增加Good-Turing的贝叶斯分类方法可比最大熵分类性能高1.95%.通过这种数据平滑的算法,有助于克服因数据稀疏而引发的特征词缺失问题.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号