首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 78 毫秒
1.
研究了基于SVM算法的改进朴素贝叶斯文本分类算法及在垃圾短信过滤中的应用。针对朴素贝叶斯算法条件独立性假设、过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加,提出了改进的基于SVM算法的朴素贝叶斯算法垃圾短信过滤的解决方案,充分结合了朴素贝叶斯算法高效分类和SVM算法增量学习及不依赖样本空间的特点;首先利用结构风险最小化原理和非线性变换将分类问题转化为二次寻优问题,最后利用朴素贝叶斯算法过滤短信,提高分类的准确度和稳定性;仿真实验结果表明,该算法能够快速得到最优分类特征子集,有效提高了垃圾短信过滤的准确率和分类速度。  相似文献   

2.
该文介绍一种手机垃圾短信过滤的方法,通过将朴素贝叶斯分类技术与黑名单技术相结合,应用于垃圾短信的过滤中。全文详细介绍了过滤系统的结构和流程,为了进一步提高分类器的准确性,对朴素贝叶斯分类多元模型公式进行了相应改进。  相似文献   

3.
基于上下文的短信文本分类方法   总被引:2,自引:0,他引:2       下载免费PDF全文
针对海量短信文本数据中大量词语共现的特点,提出一种基于上下文的短信文本分类方法。利用词语的上下文关系,定义词语相似度和基于上下文的词语权值,科学地表达词语在该类别中的语义表示,以提高短信文本分类效率。实验结果表明,与传统的简单向量距离分类法相比,该方法的分类效果较优。  相似文献   

4.
基于内容的垃圾短信过滤   总被引:2,自引:0,他引:2       下载免费PDF全文
李辉  张琦  卢湖川 《计算机工程》2008,34(12):154-156
研究一种基于最小风险贝叶斯决策的垃圾短信过滤方法。对于以文本信息为主的短信,采用信息增益的方法进行特征选择,使用基于最小风险贝叶斯决策方法进行分类。通过自建短信语料库对该方法进行了实验。实验结果表明,该方法能够准确地对短信进行分类,降低合法短信的分类错误率,分类正确率达到99.3%,符合了短信分类要求。  相似文献   

5.
文本分类是处理与组织文本数据的一项重要技术,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文建立的朴素贝叶斯分类器,是在已知类别的训练集的基础上,通过分析训练数据样本,产生关于类别的精确描述,用于对其它数据进行分类和预测。  相似文献   

6.
基于贝叶斯的文本分类方法   总被引:6,自引:1,他引:6  
文本分类中的两个关键问题,算法和特征提取。贝叶斯算法是最有效的文本分类算法之一,但是属性间强独立性的假设在现实中并不成立,借鉴概率论中的多项式模型提出了一种改进型的贝叶斯方法;传统的特征抽取方法有词频法、互信息法、CHI统计、信息增益法等,然而上述方法对于词条的权重未作考虑,引进了权重的表征方式,给出了改进方法,由实验证明了通过以上方面的改进,文本分类的正确率得到了提高。  相似文献   

7.
利用电子邮件的特点提出了一种面向电子邮件分类处理的特征值提取方法。本方法根据电子邮件文法随意性的特点,利用模糊集合对其同义词和多义现象都进行了处理,使得所得到的特征值能更好的契合文本的特点。通过与其它特征值提取方法的比较实验,以及在不同分类算法中应用实验结果都证明文中提出的特征值提取方法能够提高电子邮件分类处理的正确率,并达到有效降低特征向量维数的目的。  相似文献   

8.
互联网法律咨询平台为公众提供了便捷的咨询服务,公众在平台进行法律咨询后,平台精准地将咨询问题推送给相关律师进行解答.然而平台在推送前,需要先对咨询问题文本进行自动分类.针对法律咨询文本分类这一问题,从互联网法律咨询平台采集数据建立语料库,通过TF-IDF算法对经过预处理的文本进行特征提取,通过朴素贝叶斯分类算法进行分类.实验结果表明,在一定程度上能实现法律咨询文本的自动分类.  相似文献   

9.
文本分类是处理与组织文本数据的一项重要技术,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。本文建立的朴素贝叶斯分类器,是在已知类别的训练集的基础上,通过分析训练数据样本,产生关于类别的精确描述,用于对其它数据进行分类和预测。  相似文献   

10.
针对传统贝叶斯分类算法无法满足复杂网络文本过滤需求,提出一种多词 贝叶斯分类算法(Multi Word-Bayes,MWB)。该算法一方面引入了特征权重(Term Frequency-Inverse Document Frequency,TF-IDF)的计算思想,优化了传统贝叶斯分类算法只考虑词频不考虑文本间关系的问题;另一方面将词与词间的关系作为文本分类的重要参考项,克服了传统贝叶斯分类算法在分类器训练上对语义分析的忽视。实验结果表明,MWB在垃圾文本过滤上具有更好的分类性能。  相似文献   

11.
二值文本分类中基于Bayes推理的特征选择方法   总被引:7,自引:0,他引:7  
针对二值文本分类算法中的特征选择问题,本文提出了基于贝叶斯推理的评估函数算法来替代常用的、以IG或MI为评估函数的算法;同时,提出了以评估函数值的累计贡献率表示置信度,并以此确定特征选择维度的可量化的方法.对比实验显示,本文提出的新方法具有简便易行、高效实用的优点,此算法不仅对文本分类问题,对其它各类二值分类问题中的特征选择方法研究也都具有很好的参考、借鉴价值.  相似文献   

12.
朴素贝叶斯分类算法简单且高效, 但其基于属性间强独立性的假设限制了其应用范围. 针对这一问题, 提出一种基于属性选择的改进加权朴素贝叶斯分类算法(ASWNBC). 该算法将基于相关的属性选择算法(CFS)和加权朴素贝叶斯分类算法(WNBC)相结合, 首先使用CFS算法获得属性子集使简化后的属性集尽量满足条件独立性, 同时根据不同属性取值对分类结果影响的不同设计新权重作为算法的加权系数, 最后使用ASWNBC算法进行分类. 实验结果表明, 该算法在降低分类消耗时间的同时提高了分类准确率, 有效地提高了朴素贝叶斯分类算法的性能.  相似文献   

13.
基于朴素贝叶斯分类器邮件分类系统的改进   总被引:1,自引:0,他引:1  
目前朴素贝叶斯分类方法在电子邮件分类起到了良好的效果,但是并不能100%区分垃圾邮件与非垃圾邮件,然而在商业应用中,我们不能遗漏任何一封重要邮件。本文先简单介绍Bayes方法,然后提出一种对目前的Bayes分类方法的改进思想和方法。  相似文献   

14.
NB方法条件独立性假设和BAN方法小训练集难以建模。为此,提出一种基于贝叶斯学习的集成流量分类方法。构造单独的NB和BAN分类器,在此基础上利用验证集得到各分类器的权重,通过加权平均组合各分类器的输出,实现网络流量分类。以Moore数据集为实验数据,并与NB方法和BAN方法相比较,结果表明,该方法具有更高的分类准确率和稳定性。  相似文献   

15.
针对基于生理信号的情感识别问题,采用具有模拟退火机制的遗传算法、最大最小蚁群算法和粒子群算法来进行特征选择,用Fisher分类器对高兴、惊奇、厌恶、悲伤、愤怒和恐惧6种情感进行分类,获得了较高的识别率,并找出了对情感识别系统模型的构建具有较好性能的特征组合,建立了对6类情感具有预测能力的识别系统。  相似文献   

16.
基于改进贝叶斯的书目自动分类算法   总被引:1,自引:0,他引:1  
贝叶斯算法被广泛应用于书目自动分类领域。该算法常使用差分进化算法来评估概率项,但是传统的差分进化算法容易陷入局部最优解,使得贝叶斯分类精度较低。针对该问题,提出了基于改进贝叶斯的书目自动分类方法。该方法通过多父突变和交叉操作估计概率项的最优解,提高贝叶斯分类精度;在进行书目自动分类时,先采用ICTCLAS系统进行文本预处理,再提取文本的词频-逆向文件频率特征,接着采用改进的贝叶斯估计方法对特征进行训练与分类,最终实现书目的自动分类。仿真结果表明,该方法具有较高的分类准确率。  相似文献   

17.
本文讨论了一种基于正交变换的文本特征降维方法.分析了基于特征选择和特征抽取的特征降维方法各自特点,借助矩阵的分解论证了基于Fisher准则函数的特征降维模式的原理与理论基础,讨论了PCA与SVD两种模式的相互关系.实验结果表明这种特征降维模式在文本分类的准确性方面效果较好.  相似文献   

18.
基于树桩网络的贝叶斯文本分类算法   总被引:2,自引:0,他引:2  
杨延娇  王治和 《计算机工程》2009,35(16):201-202
分析贝叶斯文本分类算法的不足,提出相应的改进算法。放宽朴素贝叶斯文本分类模型中的属性独立性假设,采用一种改进的基于贝叶斯定理的文本分类模型“树桩网络”,改进朴素贝叶斯文本分类模型。实验证明,改进后的文本分类模型适合于文本分类的需要,改善了原有分类器的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号