首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
朴素贝叶斯分类器是一种简单高效的分类算法,但其属性独立性假设影响了分类效果。通过放松朴素贝叶斯假设可以增强朴素贝叶斯的分类效果,但是通常会导致计算代价大幅提高。针对以上问题,提出了一种基于粗糙集的特征加权朴素贝叶斯算法,加权参数直接从训练数据中学习得到,可以看作是计算某个后验概率时,某个特征对于该类别的影响程度。将该分类算法与朴素贝叶斯分类器(na ve bayesian classifier,NB)、贝叶斯网(bayes networks)和NBTree分类器进行实验比较。结果表明:在大多数数据集上,FWNB分类器在较小的计算代价下,具有较高的分类正确率。  相似文献   

2.
微信的快速普及加快了信息的传播,随之而来的广告、诈骗等信息严重困扰人们的生活。针对朴素贝叶斯对信息分类时考虑所有特征并将特征赋予相同权值两方面的缺陷,提出一种用于微信信息分类的改进贝叶斯算法。采用改进的互信息进行特征选择,提取关键特征,通过改进TFIDF对特征加权,优化朴素贝叶斯的分类性能。实验结果表明,改进的贝叶斯算法能有效选择关键特征属性,提高微信信息分类的精准度。  相似文献   

3.
基于知识语义权重特征的朴素贝叶斯情感分类算法   总被引:1,自引:0,他引:1  
针对文档级情感分类的准确率低于普通文本分类的问题,提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重.然后,基于词典极性的分布信息与文档情感分类的相关性,将情感词的语义权重特征融合到朴素贝叶斯分类中,实现了新算法.在标准中文数据集上的实验结果表明,提出的算法在准确率、召回率和F1测度值上都优于已有的一些算法.  相似文献   

4.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的含量。实验结果显示,这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

5.
为了解决传统串行朴素贝叶斯算法分类性能低下的问题,提出一种基于朴素贝叶斯算法的并行化分类方法。选取多项式朴素贝叶斯,搭建Hadoop集群,通过卡方检验选取特征词,利用词频-逆文本频率指数方法计算出每个特征项的权值,并求出每类的权重总和,将权值应用到朴素贝叶斯公式中得到分类结果。实验结果表明:在该集群上设计的并行化朴素贝叶斯分类方法较比传统朴素贝叶斯方法,其精确率,召回率,F1值分别至少提高了7.66%,7.56%,11.98%,且用时更短,说明本文的方法能够提高处理文本的时间效率。  相似文献   

6.
提出了一种针对小训练集环境的文本自动分类方法。在传统自动训练过程中通过训练集为每个类别建立初步类别特征向量,由于初步类别特征向量是在小训练集基础上建立的,含有的类别特征信息不够充分。在初步类别特征向量基础上,标定了一定数量的一级和二级类别核心特征词,在文本/类别相似度计算中,利用自动训练过程得到的核一心特征词权重因子对核心特征词权重加权,以提高类别特征向量中类别特征信息的舍量。实验结果显示.这种分类方法自动分类重合率达到94.12%以上,与不进行权重加权方法的52.94%相比,有很大提高。  相似文献   

7.
类别关键词是文本分类首先要解决的关键问题,在研究利用类别关键词及TF-IDF算法对文本进行分类的基础上,提出了一种改进的TF-IDF算法.首先建立类别关键词库,并对其进行扩充及去重,克服了向量空间模型不能很好调节权重的缺点.通过加入文档长度权值修正文档中关键词的权重,有效地解决了原有特征词条类别区分能力不足的问题.采用贝叶斯分类方法,结合实验验证了该算法的有效性,提高了文本分类的准确度.  相似文献   

8.
贝叶斯文本分类中特征词缺失的补偿策略   总被引:2,自引:0,他引:2  
为了解决朴素贝叶斯分类器在处理文本分类任务时,往往存在的特征词缺失问题,即由于语料库中的词语出现分布情况遵循Zipf定律,仅依靠简单的增加训练语料方式难以解决这种因数据稀疏而引发的特征词缺失问题.引入统计语言模型中的数据平滑算法,通过从已出现词中"折扣"出一定的概率再分配到未出现词中去,来计算缺失特征词的补偿概率,以此克服数据稀疏问题带来的影响.评测数据在去掉停用词的分类过程开放测试中,引入Good-Turing算法的分类性能比Laplace原则提高了3.05%,比Lidstone方法提高1.00%.而在交叉熵选择特征词的算法中,增加Good-Turing的贝叶斯分类方法可比最大熵分类性能高1.95%.通过这种数据平滑的算法,有助于克服因数据稀疏而引发的特征词缺失问题.  相似文献   

9.
目前恶意软件的安全威胁越来越严重,提高恶意软件的识别准确率已成为亟待解决的问题。针对朴素贝叶斯方法恶意软件识别准确率不高的问题,提出一种利用萤火虫算法改进加权贝叶斯的恶意软件识别方法,以恶意软件的行为数据作为特征,通过萤火虫算法不断地迭代来优化样本属性的权值,将权值带入加权贝叶斯模型中识别恶意软件,通过对virusshare网站的1300个样本进行实际检测,相比于朴素贝叶斯和互信息加权贝叶斯恶意软件识别方法,其平均识别准确率分别提高了17%和6%,表明新方法具有更好的识别效果。  相似文献   

10.
QPSO算法在朴素贝叶斯分类上的应用研究   总被引:1,自引:0,他引:1  
朴素贝叶斯分类假定类条件独立,使得所选数据集的条件属性集在预处理时必须进行属性约简,如果处理不当,就会造成分类的不准确.本文分别对在训练集上随机选取的属性子集组成粒子,构造适应度函数,从而构建了朴素贝叶斯分类器,并利用量子粒子群算法对分类效果进行择优操作.实验证明,其分类效果优于传统的朴素贝叶斯分类方法.  相似文献   

11.
文本分类中特征权重算法的改进   总被引:1,自引:0,他引:1  
TFIDF是文档特征权重表示常用方法.该方法简单易行,但忽略了特征词在各个类别中的分布情况,不能真正地反映特征词对区分每个类的贡献.针对这个不足,本文提出了BOR-TFIDF,来重新调整每个特征词对各个类别的区分度,即修正各个特征词的权重,并用分类器来验证其有效性.该方法优于原来的TFIDF算法,实验表明了改进的策略是可行的.  相似文献   

12.
为改进朴素贝叶斯(naive Bayes,NB)算法在识别未知恶意代码过程中学习速度慢的缺点,在分析研究朴素贝叶斯算法、复合贝叶斯(mu lti-naive Bayes,MNB)算法的基础上,提出了一种改进贝叶斯(half-increm entnaive Bayes,HNB)算法.算法采用特征集增量学习方式,在保证分类精度不降低的前提下,学习速度提高约30%.实际样本测试表明,分类精度达到了96%,其中对已知恶意代码的分类精度达到99%.  相似文献   

13.
机器学习中各类别样本数目不等是普遍存在且备受关注的不均衡问题。广泛用于特征选择的信息增益IG(information gain)算法,在这类不均衡问题中的表现却极少被研究。本文在讨论IG算法在不同均衡度数据集上性能的基础上,提出了一种新的解决不均衡问题的特征选择算法Im-IG(imbalanced information gain)。Im-IG通过提高小类分布在信息熵计算中的权重,优先选入有利于小类正确分离的特征。在提升整体分类性能的同时,着眼于提高小类的正确率。在多个不均衡数据集上的实验结果表明,Im-IG算法能较好地解决IG算法在不均衡问题中的不适应性,是一种有效的不均衡问题特征选择算法。  相似文献   

14.
针对现有的大多数数据流集成分类算法对分类器的评估时未考虑历史数据的重要性,同时忽略对无关属性和噪声属性干扰的处理等问题,提出一种基于深度属性加权的数据流自适应集成分类算法,旨在有效组合多个基于深度属性加权的朴素贝叶斯模型。通过在不同数据块中深入分析不同属性取值对类属性归属的贡献,并将学习到的局部属性权重作用于不同的属性取值,以降低噪声数据干扰。在评价基分类器时,权衡历史数据和当前最新数据的重要性;采用基于测试实例的分类器置信度和分类正确率权重的组合投票策略进行子分类器组合以提高整体分类性能。通过在多个基准数据集上与经典算法对比试验,本研究算法在分类正确率和概念漂移适应性上具有一定优势。  相似文献   

15.
文本分类是当今信息检索和数据挖掘等领域的研究热点,而特征加权是文本分类过程中的重要步骤.为了提高分类质量,文章通过深入分析粗糙集理论和逆文本频率加权的思想,提出了一种基于粗糙集的特征加权方法,从近似分类精度和近似分类质量两个方面考虑特征词对分类的全局作用,将文本的类别属性信息引入到权重中.通过文本分类实验证明,该加权方法有助于提高分类系统的分类效果.  相似文献   

16.
为了解决现有电力造价异常数据检测算法无法识别清单详情及清单与施工细节不符的问题,提出了一种基于规则匹配的电力造价异常数据辨识算法.利用K-means聚类算法实现了清单的初步分类和特征清单的提取,将特征清单的特征词作为清单类别特征.采用规则库对清单详情进行分词,并提取清单特征词,采用多项式贝叶斯算法计算出清单位于当前类别的概率.实验结果表明,所提出算法较传统异常数据检测算法的准确率提高了约10%.  相似文献   

17.
针对现有入侵检测算法中特征提取不充分、未考虑特征权重的影响、模型分类不够精确等问题,提出一种基于改进ReliefF算法的入侵检测模型。通过优化入侵数据特征权重计算,提出改进的ReliefF算法;根据计算特征的Pearson相关系数,建立特征相关性量表。只保留其中一个相关性高的特征,以实现特征的二次优化;对最优特征子集分别使用决策树(decision tree,DT)、k-最近邻(k-nearest neighbor, KNN)、随机森林(random forest, RF)、朴素贝叶斯(naive bayes, NB)和支持向量机(support vector machine, SVM)5种分类器评价该方法的分类性能和准确性。在NSL-KDD和UNSW-NB15两个数据集上的试验结果表明,该方法不仅具有较好的检测性能,还能有效降低特征维度,对分类器的计算复杂度有积极的影响。  相似文献   

18.
考虑因子数据的数据特征,采用连续属性服从正态分布的朴素贝叶斯分类方法,对因子分析降维前后数据集的分类性能变化进行了研究.实验结果表明:因子分析中的KMO(Kaiser-Meyer-Olkin)统计值和变量共同度与分类性能紧密相关,当KMO统计值大于0.8,并且只有很少属性的变量共同度值小于80%时,采用因子分析作为分类之前的降维是适宜的.  相似文献   

19.
基于类别加权和方差统计的特征选择方法   总被引:1,自引:0,他引:1  
为提高不均衡文本分类的准确率和稳定性,提出了一种基于类别加权和方差统计的联合特征选择方法.首先,基于类别文档数大小对特征选择的影响,给出了一种类别加权策略以强化小类别的特征;其次,在探究特征类别区分能力的基础上,设计了类别方差统计策略来凸显含有丰富类别信息的特征;最后,将2种策略相融合,实现了一种联合特征选择的新算法.在Reuters-21578和复旦大学语料这2个不均衡语料上的实验都表明:该算法有效,特别是在小类别的分类效果上远远好于IG、CHI和DFICF等流行的通用算法.  相似文献   

20.
特征抽取是文本分类的重要研究领域,针对原始特征空间的高维性与稀疏性给分类算法带来"维数灾难"问题,探讨了基于词条聚合的特征抽取方法,设计了一种利用词条聚合进行特征抽取的文本分类的方案.该方案利用改进的树型动态自组织映射(TGSOM)进行词条聚合,并根据聚合特征的特点,考虑所包含的词条的文档频率的不同和区分文档类别属性的能力的不同,提出了一种新权重计算方法,最后利用SPRINT决策树算法进行分类,实验表明该方法比普通方法分类精度提高4.32%.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号