首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
互联网时代存在大量的文本数据,为了更加有效的利用文本信息,文本分类已成为当务之急.本文介绍了朴素贝叶斯算法的原理以及解决文本分类问题的流程,分析了朴素贝叶斯用于文本分类问题的优缺点,并且提出了改进方案.  相似文献   

2.
张天润 《移动信息》2023,45(10):167-169
文中旨在研究基于深度学习的垃圾邮件文本分类方法,该方法结合了卷积神经网络(CNN)和循环神经网络(RNN)的模型,通过对邮件文本进行特征提取和分类,能高效、准确地对垃圾邮件进行分类。文中以卷积神经网络和循环神经网络为实验对象,提出了一种垃圾邮件文本分类方法,并在公开数据集上进行了实验。实验结果表明,该方法在垃圾邮件文本分类任务上具有较高的准确率和召回率。  相似文献   

3.
寇晓淮  程华 《电信科学》2017,33(11):73-82
垃圾邮件过滤技术在保证信息安全、提高资源利用、分拣信息数据等方面都发挥着重要作用。然而,垃圾邮件的出现影响了用户的体验,并且会造成不必要的经济与时间损失。针对现有的垃圾邮件过滤技术的不足,基于多个主题词理论,构建了基于朴素贝叶斯的垃圾邮件分类方法。在邮件主题获取中,采用主题模型LDA得到邮件的相关主题及主题词;并进一步采用Word2Vec寻找主题词的同义词和关联词,扩展主题词集合。在邮件分类中,对训练数据集进行统计学习得到词语的先验概率;基于扩展的主题词集合及其概率,通过贝叶斯公式推导得到某个主题和某封邮件的联合概率,以此作为垃圾邮件判定的依据。同时,基于主题模型的垃圾邮件过滤系统具有简洁易应用的特点。通过与其他典型垃圾邮件过滤方法的对比实验,证明基于主题模型的垃圾邮件分类方法及基于Word2Vec的改进方法均能有效提高垃圾邮件过滤的准确度。  相似文献   

4.
5.
基于词条时序的朴素贝叶斯垃圾邮件过滤方法   总被引:1,自引:0,他引:1  
朴素贝叶斯分类算法是一种有效的垃圾邮件过滤技术.互联网上的信息随着时间推移产生概念的变迁,最近出现的垃圾邮件词条可作为判定垃圾邮件的重要依据.将新近的垃圾邮件词条单独记录,在进行邮件分类时,对于最近出现的垃圾词条,提高其对垃圾邮件判定的先验概率.通过实验对比,提出的垃圾邮件过滤方法较传统的朴素贝叶斯垃圾邮件过滤具有更高的准确性、精确性和召回率.  相似文献   

6.
为降低对合法邮件的误判,提出一种基于朴素贝叶斯和层次聚类的两阶段垃圾邮件过滤方法。该方法将邮件划分为“合法邮件”、“可疑邮件”和“垃圾邮件”3类,在第一阶段,利用朴素贝叶斯算法速度快、分类性能好的优点,对邮件进行初步分类;在第二阶段,基于垃圾邮件的发送特征,利用层次聚类算法进行相似性比较。实验表明,该方法能够显著提高垃圾邮件的查准率,降低对合法邮件的误判,更加符合实际应用需求。  相似文献   

7.
以朴素贝叶斯理论作为基石并结合信息增益、代价因子等方法,尝试设计一种基于用户需求的垃圾邮件过滤分类模型,在垃圾邮件一次分类基础上提出邮件先过滤后分类方法,进而改进传统邮件分类一次阈值比较,变为两次阈值比较,且应用反馈技术以应对垃圾邮件的日益变化.该模型可能会对垃圾邮件多分类研究具有一定的参考价值.  相似文献   

8.
文章针对基于深度神经网络的方法给出一些具有代表性的文本分类模型,即基于词向量合成的模型、基于RNN/CNN的模型和基于注意力机制的模型,并阐述其基本思想。  相似文献   

9.
垃圾邮件过滤技术研究   总被引:1,自引:0,他引:1  
姜兰  杨悦 《现代电子技术》2006,29(15):143-146
电子邮件成为人们相互联系的一种重要方式,同时由于其本身所具有的开放性、低成本等特点使其成为无孔不入的垃圾邮件的一种重要传播途径。为了对抗日益泛滥的垃圾邮件,人们找到了许多方法,在分析了当前主流的反垃圾邮件方法,并比较几种方法优缺点的基础上,设计、实现了反垃圾邮件过滤软件。  相似文献   

10.
针对当前大数据环境下朴素贝叶斯文本分类算法在处理文本分类任务时存在的数据稀疏以及效率低的问题,提出了一种基于Hadoop的Dirichlet朴素贝叶斯文本分类算法。该算法引入统计语言建模技术中的Dirichlet数据平滑方法,采用Map Reduce编程模型,在Hadoop云计算平台上实现了算法的并行化。通过实验对比分析了该算法与传统朴素贝叶斯文本分类算法对大规模文本数据的分类效果。结果表明,该算法显著提高了传统朴素贝叶斯文本分类算法的准确率、召回率,且具有高效性和易扩展性。  相似文献   

11.
基于贝叶斯神经网络的垃圾邮件过滤方法   总被引:10,自引:2,他引:10  
垃圾邮件过滤是当前互联网应用中急需解决的一个重要课题,日益受到人们的关注。本文提出了一种基于贝叶斯神经网络BNN(Bayesian Neural Network)的垃圾邮件过滤方法,利用贝叶斯推理和神经网络相结合的贝叶斯神经网络算法对用户给定的正常/垃圾邮件集合进行训练,得到邮件过滤模型。并且提出了一种有效的特征选择方法,采用信息增益准则,有效降低了特征维数。经过实验测试,本文提出的方法可以实现对垃圾邮件的有效过滤。  相似文献   

12.
基于PLS的加权朴素贝叶斯分类测试算法   总被引:1,自引:0,他引:1  
朴素贝叶斯算法是一种简单而高效的分类算法,但是它的条件独立性假设影响了其分类性能。通过放松朴素贝叶斯假设,可以增强其分类效果,但通常会导致计算代价大幅提高。文章提出了一种基于偏最小二乘的加权朴素贝叶斯分类算法,通过建立条件属性和决策属性之间偏最小二乘回归方程,把回归系数赋给对应的条件属性,作为相应的权重,从而在保持简单性的基础上有效地提高了朴素贝叶斯算法的分类性能。最后,通过在UCI数据集上的仿真实验,验证了该算法的有效性。  相似文献   

13.
A semantic-extension-based algorithm for short texts is proposed, by involving the Word2vec and the LDA model, to improve the performance of classification, which is frequently deteriorated by semantic dependencies and scarcity of features. For every keyword within a short text, weighted synonyms and related words can be generated by the Word2Vec and LDA model, respectively, and subsequently be inserted to extend the short text to a reasonable length. We not only have established a criterion by means of similarity estimation to determine whether a sentence should be extended, we designed a scheme to choose the number of extended words. The extended text will be classified. Experimental results show that, the classification performance of the proposed algorithm, in terms of the precision rate, is approximately 5% higher than that of the TF-IDF model and approximately 10%higher than that of the VSM method.  相似文献   

14.
本文讨论了自适应谐振理论ART,分析了ART的工作原理,给出了ART的具体算法。以神经网络ART作为分类器来过滤垃圾邮件,ART克服了IBP网络的缺点,可以对垃圾邮价进行更有效地过滤,更好的解决了垃圾邮件特征不断变化而过滤方法相对固定的矛盾。并以实例详述了ART在邮件过滤中的工作过程,获得了很好的结果。  相似文献   

15.
垃圾短信问题困扰已久,存在拦截规则呆板、拦截效率低、误拦截、错拦截等问题.采用基于广义数字的垃圾短信过滤系统方案,实现基于广义数字拦截规则的智能识别,减少人工判断、提高拦截效率.  相似文献   

16.
垃圾短信目前依然是困扰用户和运营商的一大问题。本文根据运营商治理垃圾短信的现状,采用了基于用户行为特征的垃圾短信治理策略管理的技术和开启行业应用短信网关前转消息主叫号段鉴权的方法,有效提高垃圾短信的拦截效率,降低误拦率,取得了良好的社会效益。  相似文献   

17.
赵国栋  李伟  张政  王昊 《中国无线电》2020,(1):42-45,51
将人工智能技术运用到广播监管系统中可以显著提高监管的效率、降低监管成本。综合人工智能技术在无线电监管中的应用,提出了广播智能监管系统框架。通过实验研究了人工智能技术在非法广播判别过程中的应用,提出了一种基于语音识别与文本分类技术的非法广播判别方法,并结合实际应用给出了相关应用建议。  相似文献   

18.
一种新型文本自动分类系统的研究与实现   总被引:1,自引:0,他引:1  
文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。通过对文本分类中所涉及的关键技术进行研究和探讨,提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。  相似文献   

19.
浅析移动通信网垃圾短信的趋势和治理   总被引:1,自引:0,他引:1  
通过挖掘目前四川联通移动通信网上的日常短信数据,分析垃圾短信的源头和趋势,建立了二维矢量模型并对大量群发号码进行过滤,尝试使用基于朴素贝叶斯算法的运营商策略和垃圾短信治理方案,在实际短信维护工作中取得了较好的效果。  相似文献   

20.
基于一种混合语言模型的自动文本分类技术研究   总被引:1,自引:0,他引:1  
随着Internet以及Intranet中大量可利用信息的爆炸式增长,文本分类成为处理和组织大量文档数据的关键技术之一。该文提出一种本体论和统计方法相结合的混合语言模型,用以解决自动文本分类问题。首先,通过学习不同类别的训练语料,分别获得各自类别的语言本体知识库,构造成为不同类别的分类器。对于实际文档,将基于不同类别的语言本体知识库分别获得对文档的评价值,并以所获得的最高评价值决定该文档的类别归属。与Bayes,k-nearest neighbor,support vector machine等3种典型的文本分类器进行了比较。实验结果表明,该文方法的分类性能均胜于其上述3种方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号