共查询到20条相似文献,搜索用时 218 毫秒
1.
2.
3.
杜选 《计算机应用与软件》2014,(9)
朴素贝叶斯分类方法由于其简单快速的特点,被广泛应用于文本分类领域。但是当训练集中各个类别的样本数据分布不均匀时,朴素贝叶斯方法分类精度不太理想。针对此问题,提出一种基于加权补集的朴素贝叶斯文本分类算法,该算法利用某个类别的补集的特征来表示当前类别的特征,且对特征权重进行归一化处理。通过实验对比了该方法与传统的朴素贝叶斯方法对文本分类效果的影响,结果表明,基于加权补集的朴素贝叶斯算法具有较好的文本分类效果。 相似文献
4.
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。 相似文献
5.
基于K-means的朴素贝叶斯分类算法的研究 总被引:1,自引:0,他引:1
将K-means算法引入到朴素贝叶斯分类研究中,提出一种基于K-means的朴素贝叶斯分类算法。首先用K-means算法对原始数据集中的完整数据子集进行聚类,计算缺失数据子集中的每条记录与k个簇重心之间的相似度,把记录赋给距离最近的一个簇,并用该簇相应的属性均值来填充记录的缺失值,然后用朴素贝叶斯分类算法对处理后的数据集进行分类。实验结果表明,与朴素贝叶斯相比,基于K-means思想的朴素贝叶斯算法具有较高的分类准确率。 相似文献
6.
针对物流新闻类别分布不均衡,分类器容易倾向大类别而忽略小类别的问题,提出基于加权补集的朴素贝叶斯分类模型.构建物流新闻语料库,结合卡方检验进行特征选择,基于局部、全局和类内、类间的思想,分析并改进传统特征加权算法,设计适用于类别分布不均衡物流新闻的加权补集朴素贝叶斯模型.实验结果表明,相较传统分类方法,加权补集朴素贝叶... 相似文献
7.
8.
《计算机应用与软件》2016,(8)
为了能够快速有效地将中文商品评论识别为好评或差评,提出一种算法。针对不同类别的商品,预先根据其评论语料构建领域情感词典,评论文本与情感词典集匹配提取情感特征,构建情感特征向量空间模型SF-VSM(Sentiment Feature Vector Space Model),解决传统的特征向量空间模型维数较高及特征选择误差问题。然后基于该模型结合改进的多项式朴素贝叶斯方法对评论进行情感倾向分类。实验结果表明,相比分别基于原始特征和基于χ2特征选取的朴素贝叶斯分类算法,该算法分类精度较高且分类速度快。 相似文献
9.
10.
面对大量样本特征时很多分类器无法取得较好的分类效果,样本数有限导致贝叶斯算法无法获得精确的联合概率分布估计,在样本局部构建高质量分类器需要有效的样本相似性度量指标. 针对以上问题,提出了一种基于余弦相似度进行实例加权改进的朴素贝叶斯分类算法. 算法考虑特征对分类的决策权重不同,使用余弦相似度度量样本的相似性,选出最优训练样本子集,用相似度值作为训练样本的权值来训练修正后的贝叶斯模型进行分类. 基于UCI数据集的对比实验结果表明,提出的改进算法易于实现且具有更高的平均分类准确率. 相似文献
11.
为了有效处理迅速增长的海量信息数据安全问题,在Hadoop云计算平台上,应用朴素贝叶斯算法和Logistic回归算法对入侵检测大数据进行并行计算分析。实验在伪分布模式和分布模式下进行计算,结果表明2种算法分类准确率均超过90%,Logistic回归算法比朴素贝叶斯算法运行时间更长;集群环境下运行的朴素贝叶斯算法可以有效降低运行时间。综合算法运行时间和分类准确率等因素,朴素贝叶斯算法比Logistic回归算法更能有效处理入侵检测大数据;并行计算下朴素贝叶斯算法可以有效分析入侵检测大数据。 相似文献
12.
13.
朴素贝叶斯分类器是一种简单而高效的分类器,但是其属性独立性假设限制了对实际数据的应用。提出一种新的算法,该算法为避免数据预处理时,训练集的噪声及数据规模使属性约简的效果不太理想,并进而影响分类效果,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的贝叶斯分类器,进而采用遗传算法进行优选。实验表明,与传统的朴素贝叶斯方法相比,该方法具有更好的分类精度。 相似文献
14.
15.
针对传统时间序列分类方法需要较为繁琐的特征抽取工作以及在只有少量标记数据时分类效果不佳的问题,通过分析BP神经网络和朴素贝叶斯分类器的特点,提出一种基于BP和朴素贝叶斯的时间序列分类模型。利用了BP神经网络非线性映射能力和朴素贝叶斯分类器在少量标记数据下的分类能力,将BP神经网络抽取到的特征输入到朴素贝叶斯分类器中,可以较为有效的解决传统时间序列分类算法的问题。实验结果表明,该模型在标记数据较少的情况下的时间序列分类中具有较高的分类准确度。 相似文献
16.
利用Copula的理论提出了基于Copula贝叶斯分类算法,克服了一般的朴素贝叶斯分类器要求属性独立性假设的不足,进一步扩展了朴素贝叶斯分类器,实验结果表明,基于Copula贝叶斯算法取得了较好的分类效果。 相似文献
17.
基于内容的垃圾邮件过滤问题是Internet安全技术研究的一个重点问题,而基于贝叶斯的分类方法在垃圾邮件处理上表现出了很高的准确度,因此受到了广泛的关注。在朴素贝叶斯算法的基础上,提出了一种基于最小风险贝叶斯方法同Boosting算法相结合的邮件过滤改进算法,提高了分类的精确度。实验证明,算法在邮件过滤中有更好的表现。 相似文献
18.
传统分类系统往往选择朴素贝叶斯算法作为分类算法,在研究过程中,发现朴素贝叶斯模型(NBC)具有以下前提条件:所有特征互不影响,并且特征属性的权重为1.研究后发现并非如此,在对数据进行分类时,有的特征可能对分类结果的影响较大,有的可能对结果影响较小.为了对算法进行优化,需要给不同的特征附上不同的权重值,才能更加客观的获得分类结果.本文研究了两种传统的基于属性权重的计算方法,同时考虑到手机取证数据的特点,提出两种适应于手机取证数据的改进权重计算方法,并对其改进原理进行研究,比较改进后的权重计算方法与传统的权重计算方法,在使用相同分类算法与相同数据的情况下,对分类结果的影响. 相似文献
19.
研究了改进的基于SVM-EM算法融合的朴素贝叶斯文本分类算法以及在垃圾邮件过滤中的应用。针对朴素贝叶斯算法无法处理基于特征组合产生的变化结果,以及过分依赖于样本空间的分布和内在不稳定性的缺陷,造成了算法时间复杂度的增加。为了解决上述问题,提出了一种改进的基于SVM-EM算法的朴素贝叶斯算法,提出的方法充分结合了朴素贝叶斯算法简单高效、EM算法对缺失属性的填补、支持向量机三种算法的优点,首先利用非线性变换和结构风险最小化原则将流量分类转换为二次寻优问题,然后要求EM算法对朴素贝叶斯算法要求条件独立性假设进行填补,最后利用朴素贝叶斯算法过滤邮件,提高分类准确性和稳定性。仿真实验结果表明,与传统的邮件过滤算法相比,该方法能够快速得到最优分类特征子集,大大提高了垃圾邮件过滤的准确率和稳定性。 相似文献
20.
基于多重判别分析的朴素贝叶斯分类器 总被引:4,自引:1,他引:4
通过分析朴素贝叶斯分类器的分类原理,并结合多重判别分析的优点,提出了一种基于多重判别分析的朴素贝叶斯分类器DANB(Discriminant Analysis Naive Bayesian classifier).将该分类方法与朴素贝叶斯分类器(Naive Bayesian classifier, NB)和TAN分类器(Tree Augmented Naive Bayesian classifier)进行实验比较,实验结果表明在大多数数据集上,DANB分类器具有较高的分类正确率. 相似文献