首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 359 毫秒
1.
基于知识语义权重特征的朴素贝叶斯情感分类算法   总被引:1,自引:0,他引:1  
针对文档级情感分类的准确率低于普通文本分类的问题,提出一种基于知识语义权重特征的朴素贝叶斯情感分类算法.首先,通过特征选择的方法,对情感词典中的词进行重要度评分并赋予不同权重.然后,基于词典极性的分布信息与文档情感分类的相关性,将情感词的语义权重特征融合到朴素贝叶斯分类中,实现了新算法.在标准中文数据集上的实验结果表明,提出的算法在准确率、召回率和F1测度值上都优于已有的一些算法.  相似文献   

2.
目前恶意软件的安全威胁越来越严重,提高恶意软件的识别准确率已成为亟待解决的问题。针对朴素贝叶斯方法恶意软件识别准确率不高的问题,提出一种利用萤火虫算法改进加权贝叶斯的恶意软件识别方法,以恶意软件的行为数据作为特征,通过萤火虫算法不断地迭代来优化样本属性的权值,将权值带入加权贝叶斯模型中识别恶意软件,通过对virusshare网站的1300个样本进行实际检测,相比于朴素贝叶斯和互信息加权贝叶斯恶意软件识别方法,其平均识别准确率分别提高了17%和6%,表明新方法具有更好的识别效果。  相似文献   

3.
为解决路面积雪状态(轻微、严重)检测问题以保证行车安全,利用监控视频得到路面实时状态,采用朴素贝叶斯分类方法进行积雪状态检测。首先利用机器视觉和视频目标分割方法提取视频中路面视觉特征,然后采用朴素贝叶斯分类方法进行路面积雪状态分类,通过实验,综合比较了朴素贝叶斯分类与KNN分类、人工神经网络(ANN)、支撑向量机(SVM)在路面积雪状态检测问题中的有效性,结果表明,朴素贝叶斯分类器更适合积雪状态的分类。  相似文献   

4.
一种基于朴素贝叶斯的中文评论情感分类方法研究   总被引:2,自引:1,他引:1  
提出一种新的基于朴素贝叶斯的中文文本情感分类方法。该方法用情感短语作为文本特征,通过情感词典与否定副词相结合,提取情感短语,通过CHI统计法设定阈值进行特征提取,再利用朴素贝叶斯分类器进行情感分类计算。对不同CHI阈值、不同语料库、以情感短语为特征和以情感词为特征进行分类实验。实验表明,以情感短语作为特征进行朴素贝叶斯分类,在不同领域的评论中均获得了较高的查准率和查全率,证明了该方法的可行性。  相似文献   

5.
主要介绍了文本分类问题,讨论了文本分类所涉及的关键技术,包括中文分词,文本表示,特征选取方法,以及Rocchio、朴素贝叶斯、K近邻、决策树、神经网络和支持向量机等文本分类算法的原理和方法.最后,给出了基于文本分类技术的中文垃圾短信过滤方法的实验和结果.  相似文献   

6.
针对传统网页分类中存在的准确率和查全率不高、分类效率低的情况,提出一种基于朴素贝叶斯分类的网页预分类算法.算法根据用户的网上活动情况提取相关网址,分析网页内容和网页关键词,利用朴素贝叶斯分类算法进行分类,根据用户对各类网页的浏览情况分析用户的行为特征.采用改进的文本权值计算方法,并引进网址预分类机制,提高数据的处理效率以及分类的准确率.结果表明,网址分类算法准确,能够充分发掘用户的兴趣喜好,可以作为用户行为分析的数据算法进行商业推广和司法取证.  相似文献   

7.
为了有效解决中文文本分类问题,提高文本分类的准确性,提出一种基于TF-IDF和神经网络相结合的文本自动分类算法——TI-LSTM算法。算法根据语义情景提取相应特征,进行量化,通过长短期神经网络(LSTM)对量化后的特征进行训练并赋予权重,最后以特征权重为依据对中文文本信息进行评价。使用TI-LSTM算法可以在保留原文语义的情况下准确提取特征。将该算法应用到长春理工大学贫困生等级分类研究中。与传统的KNN、逻辑回归、朴素贝叶斯和LSTM分类方法进行了比较,训练和测试的准确率都有了较大的提升,准确率达到了86%以上。  相似文献   

8.
职业是人物实体的代表性特征,能够有效地区分人物实体。传统人名消歧算法仅把职业当作一个普通的特征,忽视了它的重要性。针对以上问题,提出了基于职业特征的人名消歧算法。首先通过互联网手动构建基础职业词典;其次以维基百科的所有中文页面为训练语料,通过词激活力模型扩展基础职业词典得到职业特征词典;然后从文本中提取职业特征,并抽取人名和作品名作为其补充特征,弥补文本中职业特征缺失和同一人物具有多个职业的问题;最后采用凝聚层次聚类实现人名消歧。在CLP2010的人名消歧训练语料上进行实验,结果表明文章算法能够有效地实现人名消歧。  相似文献   

9.
为了解决计算机打印文档的自动鉴别,提出了一种基于中文汉字显微放大图像灰度共生矩阵统计纹理特征的打印文档鉴别算法.首先,从理论模型上分析了激光打印机传动系统对打印字符潜影的影响;接着对字符图像的22维灰度共生矩阵统计纹理特征进行计算,并利用ReliefF特征选择算法进行特征选择;最后提取显微字符图像激光扫描方向和纸张行进方向的灰度共生矩阵纹理特征并进行融合,利用最近邻和支持向量机2种分类器进行分类鉴别.在两种样本集上的实验结果表明:特征融合后的鉴别性能有所提高;支持向量机的分类鉴别性能优于最近邻分类器,在相同字无重复样本集上的分类准确率和平均召回率分别为96.5%和96.64%,在相同字有重复样本集上分类准确率和平均召回率分别为98%和98.18%;激光打印机品牌分类准确率为98%.上述的实验结果显示该方法具有良好的打印文档分类鉴别性能.  相似文献   

10.
针对程序在同一操作系统的不同环境下运行产生的IRP(I/O request packets)序列不完全相同,对检测结果有一定影响的问题,提出了采用路径IRP的Windows恶意进程检测方法.单独提取每一个操作路径的IRP请求序列,应用朴素贝叶斯、贝叶斯网络、支持向量机、C4.5决策树及改进的人工免疫算法(IAIS)进行检测,并比较了各种算法在不同特征选择方法下的检测效果.实验结果表明,本文所提出的采用路径IRP的Windows恶意进程检测方法是有效可行的,在所有方法中,采用Fisher Score进行特征选择的朴素贝叶斯方法得到了最高的检测率99.2%,优于基于IRP序列的恶意进程检测方法.  相似文献   

11.
提出一种事件约束下基于迁移学习的文本—图像特征映射算法.通过潜在狄利克莱分配方法对事件文本数据进行主题建模,并通过计算主题特征的信息增益选出最显著的文本特征;用视觉词袋模型和朴素贝叶斯方法对事件图片进行主题建模;通过同事件下的文本数据特征分布和文本—图像共现数据特征分布,实现了对图像特征分布的近似.在包含15个主题事件的数据集上进行实验的结果证明了所提特征映射算法的有效性.  相似文献   

12.
上下文特征对汉语词性标注性能有重要影响。为了提高标注性能,采用最大熵模型探讨了汉语词性标注的特征工程,对其中的两个关键问题:特征窗口大小和特征模板集的设定,本文作者进行了深入研究。在Bakeoff2007的PKU、NCC、CTB 3种语料上进行了封闭测试,通过对“5词语”和“3词语”不同大小的特征窗口,以及单词语、双词语和两者混合的不同特征模板集进行汉语词性标注的训练过程和标注精度的对比实验,实验结果表明:3词特征窗口训练情况和标注性能均优于5词窗口;单词语特征模板集比双词语特征模板集标注性能高出10%。这说明汉语词性标注中特征窗口开设的大小以3词窗口为宜,单词语特征模板集标注性能更好。  相似文献   

13.
为了认识树形贝叶斯网络(TAN)分类器结构中边的方向与分类精度的关系,以条件对数似然函数为优化目标,研究了TAN分类器结构空间和TAN分类器结构等价类空间,证明了随着训练数据集合的增大,TAN分类器结构中边的方向不对分类器的分类精度产生影响,并提出了一个不考虑边重定向的TAN分类器学习算法,用实验验证了其有效性.  相似文献   

14.
为分析病理人群与正常人群的发音差异性,提出一种结合语音融合特征和随机森林的语音识别方法来进行正常语音与构音障碍语音的分类识别,从而为医学诊断和治疗提供科学和客观的依据.首先,使用多伦多大学开发的病理语音数据库,提取出语音的五种韵律特征以及梅尔频率倒谱系数,再计算其统计特征,构成融合特征,最后结合随机森林算法进行分类识别.结果显示,相比于单一类型特征,提出的融合特征在识别性能上有着显著优化作用,与随机森林分类器结合后,对于男性声音的分类准确率达到99.21%,对于女性声音的分类准确率达到98.97%,综合分类准确率达到98.00%.同时研究还发现,相较于句子,患者对短语的发音更为准确.  相似文献   

15.
机械零件的形状和位置设计是精度设计中一个重要组成部分.根据形位精度的设计特点,利用专家系统法进行计算机辅助形位精度设计,建造其知识库、推理机,并采用特征建模技术获取零件信息.形位精度设计专家系统的研究为计算机辅助精度设计的深入研究作了有益的探索  相似文献   

16.
为了提高汽车牌照的识别率,考虑到摄像头安装价格低廉的特点,本文提出采用双摄像头来获取不同角度的车牌图像,并对两幅车牌图像分别进行定位、字符分割和特征提取,再用信息融合的方法来确定更可信的识别结果,以此来降低车牌字符的误识率.实验结果表明,该方法可以提高车牌号码识别的正确率.  相似文献   

17.
针对特征排序方法较少考虑特征之间的相关关系,导致选择的特征子集存在冗余的问题,提出一种引入冗余控制的特征排序模型。将特征子集判别能力最大且冗余程度最小作为模型的目标函数,以降低特征之间的冗余;使用贪心方法和非线性规划方法对模型进行求解。在9个开源数据上的实验及与特征排序方法比较表明,本模型在大部分数据上,所选择的特征子集能够获得更好的分类准确性且个数更少;使用非线性规划方法求解时,能够直接得到特征子集,有利于确定特征个数。本模型可用于特征之间存在冗余时的特征选择。  相似文献   

18.
提出了利用差分盒维数与颜色特征相结合的图像识别方法来将彩色烟雾图像从森林背景中识别出来。该方法首先用差分盒维数算法来计算整幅图像的分形维数值并基于该值对图像进行分割,再以RGB空间的烟雾颜色特征为依据,对差分盒维数方法分割出的区域进行判别,识别出烟雾区域。为改善算法的计算精度,提高算法运算速度,提出了减少子窗口内盒子的覆盖数量、改变子窗口内灰度等级的改进算法。仿真实验结果表明,基于改进的差分盒维数方法,不仅运算速度提高近50%,而且能够更好地反映图像表面的纹理信息。再结合颜色特征能从森林背景中准确的识别出烟雾。该方法可用于森林火灾的预警。  相似文献   

19.
文本情感分析是自然语言处理的典型任务,但是现有情感分析正确率不高,其中词的特征化是一个重要原因。本文提出了一种短文本特征的组合加权方法(a Combined Weighting method for Short Text Features,CWSTF),可以有效提高情感分析正确率。CWSTF方法以随机森林为基础评估特征对于情感的贡献度并排序,进而依排序来进行特征选择。然后考虑特征在文档中的重要性TF-IDF (Term Frequency-Inverse Document Frequency),以特征在文档中的重要性和情感贡献度确定该特征的权重。最后,用支持向量SVM (Support Vector Machine)、朴素贝叶斯NB (Naive Bayes)、最大熵ME (Maximum Entropy)、K最近邻KNN (K-NearestNeighbor)等分类器进行比较实验,实验结果表明采用本文方法处理的特征,比其余方法能有效提高情感分类正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号