首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
李欣倩  杨哲  任佳 《测控技术》2022,41(2):36-40
根据朴素贝叶斯算法的特征条件独立假设,提出一种基于互信息和层次聚类双重特征选择的改进朴素贝叶斯算法。通过互信息方法剔除不相关的特征,然后依据欧氏距离将删减后的特征进行分层聚类,通过粒子群算法得到聚类簇的数量,最后将每个聚类簇中与类别互信息最高的特征合并为特征子集,并由朴素贝叶斯算法得到分类准确率。根据实验结果可知,该算法可以有效减少特征之间的相关性,提升算法的分类性能。  相似文献   

2.
李静  杨小帆  孙启干 《计算机工程》2012,38(10):182-184
提出一种虚核文本分类算法。通过单类别下标记数据的特征词频计算该类别虚核在每个特征项处的特征引力场强,进而获得类别虚核,根据类别虚核对待标记文本产生的引力大小判断其所属类别。实验结果表明,与k近邻算法和朴素贝叶斯算法相比,虚核算法在分类精度和时间开销方面具有较大的优势。  相似文献   

3.
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。  相似文献   

4.
张亚萍  胡学钢 《微机发展》2007,17(11):33-35
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。  相似文献   

5.
基于K-means的朴素贝叶斯分类算法的研究   总被引:1,自引:0,他引:1  
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。  相似文献   

6.
针对物流新闻类别分布不均衡,分类器容易倾向大类别而忽略小类别的问题,提出基于加权补集的朴素贝叶斯分类模型.构建物流新闻语料库,结合卡方检验进行特征选择,基于局部、全局和类内、类间的思想,分析并改进传统特征加权算法,设计适用于类别分布不均衡物流新闻的加权补集朴素贝叶斯模型.实验结果表明,相较传统分类方法,加权补集朴素贝叶...  相似文献   

7.
针对传统朴素贝叶斯分类模型应用过程中存在的特征项冗余问题,使用遗传禁忌算法对特征项集进行优化,并在此优化结果的基础上,提出了一种改进的朴素贝叶斯分类方法来解决用户模板中存在的单类别词汇问题。经实验证明,该方法比传统的朴素贝叶斯分类模型具有更好的鲁棒性和分类性能。  相似文献   

8.
为了能够快速有效地将中文商品评论识别为好评或差评,提出一种算法。针对不同类别的商品,预先根据其评论语料构建领域情感词典,评论文本与情感词典集匹配提取情感特征,构建情感特征向量空间模型SF-VSM(Sentiment Feature Vector Space Model),解决传统的特征向量空间模型维数较高及特征选择误差问题。然后基于该模型结合改进的多项式朴素贝叶斯方法对评论进行情感倾向分类。实验结果表明,相比分别基于原始特征和基于χ2特征选取的朴素贝叶斯分类算法,该算法分类精度较高且分类速度快。  相似文献   

9.
传统串行贝叶斯算法在对大规模数据进行分类时,性能较低下.为此,在TFIDF(词频-逆向文件频率)特征加权基础上,提出ICF(逆类别因子)类别加权因子,对传统贝叶斯分类模型进行改进.利用MapReduce并行计算框架在处理海量数据方面的优势,设计并实现了一种对TFIDF改进的分布式朴素贝叶斯文本分类算法.实验结果表明,与传统分布式朴素贝叶斯算法和TFIDF加权的分布式朴素贝叶斯算法相比,改进后的分类算法在查准率、查全率、F-measure等方面都有了较大提高.  相似文献   

10.
面对大量样本特征时很多分类器无法取得较好的分类效果,样本数有限导致贝叶斯算法无法获得精确的联合概率分布估计,在样本局部构建高质量分类器需要有效的样本相似性度量指标. 针对以上问题,提出了一种基于余弦相似度进行实例加权改进的朴素贝叶斯分类算法. 算法考虑特征对分类的决策权重不同,使用余弦相似度度量样本的相似性,选出最优训练样本子集,用相似度值作为训练样本的权值来训练修正后的贝叶斯模型进行分类. 基于UCI数据集的对比实验结果表明,提出的改进算法易于实现且具有更高的平均分类准确率.  相似文献   

11.
为了有效处理迅速增长的海量信息数据安全问题,在Hadoop云计算平台上,应用朴素贝叶斯算法和Logistic回归算法对入侵检测大数据进行并行计算分析。实验在伪分布模式和分布模式下进行计算,结果表明2种算法分类准确率均超过90%,Logistic回归算法比朴素贝叶斯算法运行时间更长;集群环境下运行的朴素贝叶斯算法可以有效降低运行时间。综合算法运行时间和分类准确率等因素,朴素贝叶斯算法比Logistic回归算法更能有效处理入侵检测大数据;并行计算下朴素贝叶斯算法可以有效分析入侵检测大数据。  相似文献   

12.
针对目前基于贝叶斯或决策树的入侵检测方法存在检测率低、误检率高的问题,提出了一种基于贝叶斯和决策树的入侵检测方法。该检测方法首先采用基于特征相似度的朴素贝叶斯方法对训练集中的样本进行分类,更新每个样本的类值;然后对训练集中的样本再次使用朴素贝叶斯方法进行分类,对存在误分类样本的类采用决策树的信息增益来确定属性划分子类,再对子类进行分类和划分操作;最后建立贝叶斯和决策树的混合模型进行入侵检测。实验结果表明,与单独使用贝叶斯或者决策树的检测方法相比,该检测方法具有较高的检测率。  相似文献   

13.
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。提出一种新的算法,该算法为避免数据预处理时,训练集的噪声及数据规模使属性约简的效果不太理想,并进而影响分类效果,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的贝叶斯分类器,进而采用遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的分类精度。  相似文献   

14.
张倩  丁友东  蓝建梁  涂意 《计算机工程》2011,37(11):212-214,217
针对人脸特征分类问题,提出一种基于主动形状模型(ASM)和K近邻算法的人脸脸型分类方法。将Hausdorff距离作为K近邻算法的距离函数,利用ASM算法提取待测图像的特征点,对点集进行归一化后计算人脸轮廓特征点与样本库中所有样本点集的Hausdorff距离,根据该距离值,通过K近邻算法实现待测图像的脸型分类。实验结果证明,该方法分类正确率高、速度快、易于实现。  相似文献   

15.
针对传统时间序列分类方法需要较为繁琐的特征抽取工作以及在只有少量标记数据时分类效果不佳的问题,通过分析BP神经网络和朴素贝叶斯分类器的特点,提出一种基于BP和朴素贝叶斯的时间序列分类模型。利用了BP神经网络非线性映射能力和朴素贝叶斯分类器在少量标记数据下的分类能力,将BP神经网络抽取到的特征输入到朴素贝叶斯分类器中,可以较为有效的解决传统时间序列分类算法的问题。实验结果表明,该模型在标记数据较少的情况下的时间序列分类中具有较高的分类准确度。  相似文献   

16.
利用Copula的理论提出了基于Copula贝叶斯分类算法,克服了一般的朴素贝叶斯分类器要求属性独立性假设的不足,进一步扩展了朴素贝叶斯分类器,实验结果表明,基于Copula贝叶斯算法取得了较好的分类效果。  相似文献   

17.
基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,而基于贝叶斯的分类方法在垃圾邮件处理上表现出了很高的准确度,因此受到了广泛的关注。在朴素贝叶斯算法的基础上,提出了一种基于最小风险贝叶斯方法同Boosting算法相结合的邮件过滤改进算法,提高了分类的精确度。实验证明,算法在邮件过滤中有更好的表现。  相似文献   

18.
传统分类系统往往选择朴素贝叶斯算法作为分类算法,在研究过程中,发现朴素贝叶斯模型(NBC)具有以下前提条件:所有特征互不影响,并且特征属性的权重为1.研究后发现并非如此,在对数据进行分类时,有的特征可能对分类结果的影响较大,有的可能对结果影响较小.为了对算法进行优化,需要给不同的特征附上不同的权重值,才能更加客观的获得分类结果.本文研究了两种传统的基于属性权重的计算方法,同时考虑到手机取证数据的特点,提出两种适应于手机取证数据的改进权重计算方法,并对其改进原理进行研究,比较改进后的权重计算方法与传统的权重计算方法,在使用相同分类算法与相同数据的情况下,对分类结果的影响.  相似文献   

19.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。  相似文献   

20.
基于多重判别分析的朴素贝叶斯分类器   总被引:4,自引:1,他引:4  
通过分析朴素贝叶斯分类器的分类原理,并结合多重判别分析的优点,提出了一种基于多重判别分析的朴素贝叶斯分类器DANB(Discriminant Analysis Naive Bayesian classifier).将该分类方法与朴素贝叶斯分类器(Naive Bayesian classifier, NB)和TAN分类器(Tree Augmented Naive Bayesian classifier)进行实验比较,实验结果表明在大多数数据集上,DANB分类器具有较高的分类正确率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号