首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 62 毫秒
1.
基于知识语义权重特征的朴素贝叶斯情感分类算法   总被引:1,自引:0,他引:1  
针对文档级情感分类的准确率低于普通文本分类的问题, 提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先, 通过特征选择的方法, 对情感词典中的词进行重要度评分并赋予不同权重.然后, 基于词典极性的分布信息与文档情感分类的相关性, 将情感词的语义权重特征融合到朴素贝叶斯分类中, 实现了新算法.在标准中文数据集上的实验结果表明, 提出的算法在准确率、召回率和F1测度值上都优于已有的一些算法.  相似文献   

2.
针对WWW的HTML(Hyper Text Markup Language)结构采用TFE表示,给出一种新的TFE实现方法,进而提出了一种改进的朴素贝叶斯分类算法,然后对该算法的准确性和有效性进行讨论.  相似文献   

3.
针对不确定性数据的分类问题,提出一种基于直方图估计的不确定性朴素贝叶斯分类器(HU-NBC).基于直方图估计的思想,建立估计不确定性数据概率密度函数的数学模型,并利用该模型估计不确定性朴素贝叶斯分类器的类条件概率密度函数.实验结果表明,与同类型算法相比,基于直方图估计的HU-NBC算法拥有较优的分类精度、较小的时间代价和空间需求,适合解决数据量较大的不确定性数据分类问题.  相似文献   

4.
为了解决传统串行朴素贝叶斯算法分类性能低下的问题,提出一种基于朴素贝叶斯算法的并行化分类方法。选取多项式朴素贝叶斯,搭建Hadoop集群,通过卡方检验选取特征词,利用词频-逆文本频率指数方法计算出每个特征项的权值,并求出每类的权重总和,将权值应用到朴素贝叶斯公式中得到分类结果。实验结果表明:在该集群上设计的并行化朴素贝叶斯分类方法较比传统朴素贝叶斯方法,其精确率,召回率,F1值分别至少提高了7.66%,7.56%,11.98%,且用时更短,说明本文的方法能够提高处理文本的时间效率。  相似文献   

5.
一种HTML文档的朴素贝叶斯分类算法   总被引:1,自引:0,他引:1  
针对WWW的HTML(HyperTextMarkupLanguage)结构采用TFE表示,给出一种新的TFE实现方法,进而提出了一种改进的朴素贝叶斯分类算法,然后对该算法的准确性和有效性进行讨论.  相似文献   

6.
文本分类是数据挖掘领域中重要的研究分支.通过对自适应遗传算法和朴素贝叶斯分类器的研究,提出一种基于自适应遗传算法的朴素贝叶斯分类算法.将该算法应用于中文文本分类中,可以生成最优贝叶斯分类器及最优属性集合,提高分类精度.  相似文献   

7.
保持隐私的朴素贝叶斯分类   总被引:3,自引:0,他引:3       下载免费PDF全文
隐私保护是数据挖掘中很有意义的研究方向。本文所关心的问题是如何在两个私有数据库的联合样本集上施行数据挖掘算法,同时保证不向对方泄露任何与结果无关的数据库信息。这种情形在科研合作等领域已经屡见不鲜。针对数据分类算法中应用非常普遍的朴素贝叶斯分类算法,我们利用安全两方计算协议,给出一个保持隐私的朴素贝叶斯分类协议,在保持计算隐私性的同时,协议在计算复杂度和传输复杂度与一般的贝叶斯分类非常接近,协议是高效可行的。  相似文献   

8.
针对中文酒店评论自身特点设计语料特征,将评论高频词赋予权重并扩展基础情感词典;结合扩展基础情感词典和语义规则,计算情感加权值,实现对酒店频率褒贬倾向分析;选取Boson和大连理工情感词典作为基础情感词典进行了试验。试验结果表明,利用本方法进行中文酒店评论情感分析的精准率可达到90%以上,相比基础情感词典,可提高10%,且加入前50个高频词扩展基础情感词典,对精准率有较大提升,之后精准率的提升速度趋于平缓。  相似文献   

9.
一种文本处理中的朴素贝叶斯分类器   总被引:22,自引:0,他引:22  
首先在特征独立性假设的基础上,讨论了朴素贝叶斯分类器的原理,以及训练朴素贝叶斯分类器和应用朴素贝叶斯分类器进行分类的问题。然后,通过EM算法(期望值最大算法),自动增加训练量,以得到较为完备的训练文本库,扩展了朴素贝叶斯分类器的应用,提高了朴素贝叶斯分类器的分类精度。文章最后给出一组实验数据。本文的研究发现,朴素贝叶斯分类器分类精度较高,并且不存在单分类器与多分类器的实现差异,是一个比较实用的分类器。  相似文献   

10.
情感特征抽取是文本情感分类的重要步骤,正确的选择情感特征并赋予合理的情感权重是保障分类精度的前提。利用基础情感词词典、连词词典及词语距离,提出了一种基于多重词典的中文文本情感特征抽取算法,实验证明该方法优于HM,SO-PMI和词语语义距离等经典的特征抽取算法。  相似文献   

11.
中文微博情感词典构建方法   总被引:1,自引:2,他引:1  
提出了一种中文微博情感词典构建方法。采用上下文熵的网络用语发现策略,通过TF IDF(term frequency inverse document frequency)进行二次过滤得到网络用语;利用SO PMI(semantic orientation pointwise mutual information)算法在已标注的微博语料库中计算网络用语的情感倾向值,构建网络用语情感词典;将词典应用到微博情感分类实验,并与朴素贝叶斯分类器的分类性能进行了比较分析。实验结果表明,直接利用微博情感词典的分类效果好于朴素贝叶斯分类器,并具有分类过程简单、快速等优势。  相似文献   

12.
表情符号已成为网络语言重要组成部分,是分析社交媒体情感的主要特征之一.目前分析社交媒体情感符号的方法多针对Emoji,对颜文字的情感倾向没有相应分析.为获取中文媒体的多维度情感并分析热点话题的群体情感走向,本文以微博为例提出一种新的融合表情符号与短文本的多维情感分类方法.在该框架中,采用深度学习模型分析文本与Emoji组合部分、颜文字部分,分别计算两部分的7种情感强度,挖掘各部分与情感标签的深层次关联,并设计计算模型来反映语句包含的多维情感属性,实现对语句多维情感强度的检测.实验选择NLPCC2014数据集和爬取的带有颜文字的微博数据集进行验证,实验证明当文本与Emoji组合、颜文字占比分别为0.6和0.4时情感分类效果最好,且含颜文字的语句情感分类性能指标始终高于不含颜文字的语句,这表明融合表情符号和短文本的形式有效提高了情感检测精度.该方法为研究群体情感趋势提供了更细粒度的分析,为中文社交媒体的情感分析提供了新思路.  相似文献   

13.
为解决路面积雪状态(轻微、严重)检测问题以保证行车安全,利用监控视频得到路面实时状态,采用朴素贝叶斯分类方法进行积雪状态检测。首先利用机器视觉和视频目标分割方法提取视频中路面视觉特征,然后采用朴素贝叶斯分类方法进行路面积雪状态分类,通过实验,综合比较了朴素贝叶斯分类与KNN分类、人工神经网络(ANN)、支撑向量机(SVM)在路面积雪状态检测问题中的有效性,结果表明,朴素贝叶斯分类器更适合积雪状态的分类。  相似文献   

14.
针对因数据量的增加以及异常评论策略的更新,以用户内容和行为为基础的传统微博异常评论识别方法效果不断下降的问题,提出一种基于情感分析和质量控制的微博异常评论识别方法.通过将预处理后的微博评论进行情感分析,将微博评论进行量化处理,在对微博评论进行质量控制的过程中,根据异常与正常用户在时域上对热点微博的评论分布差别检测可疑时间间隔,结合用户聚类分析,设计了异常评论识别模型.结果表明:该方法利用情感评分,对于评论文本进行较为准确的情感分类,然后通过调整边界值范围和时间阈值范围来限定异常检测等级,当边界值范围增大时,对于异常评论的检测范围扩大,容忍度下降,检测灵敏度高;当时间阈值扩大时,容忍度提高,检测灵敏度较低;适当的选择边界值和时间阈值,可以有效提高与正常评论行为相似的异常评论识别准确率.  相似文献   

15.
跨领域文本情感分析时,为了使抽取的共享情感特征能够捕获更多的句子语义信息特征,提出域对抗和BERT(bidirectional encoder representations from transformers)的深度网络模型。利用BERT结构抽取句子语义表示向量,通过卷积神经网络抽取句子的局部特征。通过使用域对抗神经网络使得不同领域抽取的特征表示尽量不可判别,即源领域和目标领域抽取的特征具有更多的相似性;通过在有情感标签的源领域数据集上训练情感分类器,期望该分类器在源领域和目标领域均能达到较好的情感分类效果。在亚马逊产品评论数据集上的试验结果表明,该方法具有良好的性能,能够更好地实现跨领域文本情感分类。  相似文献   

16.
针对情感分类中采用单一特征分类精度不高的问题,提出多特征加权的分类算法:根据扩展的情感词典计算每个词的情感倾向度,经CHI特征选择后,根据情感词的极性强度调整贝叶斯分类模型中该词的正负后验概率,在原值的基础上加上极性强度影响值。实验将该方法和其他3种单特征选择方法在酒店、影视等语料上的分类精度进行了对比,分类精度得到提升。实验结果表明,将词语的情感倾向度的特征融入到分类器中方法,在有效提高情感倾向性分类精度的同时降低了特征维数。  相似文献   

17.
贝叶斯文本分类中特征词缺失的补偿策略   总被引:2,自引:0,他引:2  
为了解决朴素贝叶斯分类器在处理文本分类任务时,往往存在的特征词缺失问题,即由于语料库中的词语出现分布情况遵循Zipf定律,仅依靠简单的增加训练语料方式难以解决这种因数据稀疏而引发的特征词缺失问题.引入统计语言模型中的数据平滑算法,通过从已出现词中"折扣"出一定的概率再分配到未出现词中去,来计算缺失特征词的补偿概率,以此克服数据稀疏问题带来的影响.评测数据在去掉停用词的分类过程开放测试中,引入Good-Turing算法的分类性能比Laplace原则提高了3.05%,比Lidstone方法提高1.00%.而在交叉熵选择特征词的算法中,增加Good-Turing的贝叶斯分类方法可比最大熵分类性能高1.95%.通过这种数据平滑的算法,有助于克服因数据稀疏而引发的特征词缺失问题.  相似文献   

18.
为评估自然驾驶过程中车辆运行存在的交通风险,采用贝叶斯网络对车辆运行风险进行量化研究. 首先开展自然驾驶试验,获取车辆距离控制指标、加速度、方向盘转向熵车辆控制数据及驾驶人视线转移时间、扫视速度、眨眼频率眼动数据. 然后,分析了各项指标的风险概率,确定各项指标阈值对应风险等级. 最后,构建了基于贝叶斯网络的车辆运行风险评估模型,给出了风险量化分级方法,确定了车辆运行风险等级,并对模型进行了敏感性分析. 结果表明:基于车辆控制和眼动表征的贝叶斯网络模型能够有效地对驾驶过程中车辆运行风险进行定量评估. 研究结果可评估自然驾驶过程中的车辆运行风险,并为运行风险进行量化分级.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号