首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 109 毫秒
1.
夏超  徐德华 《计算机与现代化》2010,(10):125-128,132
贝叶斯过滤算法是反垃圾邮件过滤技术中应用最为广泛的方法之一。考虑到邮件的错误分类对邮件接收者带来的损失不同,引入判定垃圾邮件是判定正常邮件的λ倍作为最终邮件分类依据;同时,为了提高贝叶斯过滤算法的分类质量,运用遗传算法来对邮件中正文和标题的特征词在邮件分类中不同的重要程度做区分。最后用实际的邮件样本对改进后的算法进行验证,验证结果表明,利用遗传算法优化配合贝叶斯过滤算法能有效提高邮件分类的质量。  相似文献   

2.
本文分析了目前在垃圾邮件过滤中广泛应用的朴素贝叶斯过滤算法及其优缺点,并且根据模式匹配和模糊匹配算法提出改进型的贝叶斯邮件过滤模型。首先在邮件预处理过程中进行特征项的提取——模式匹配,从训练集合中识别出正常邮件和垃圾邮件的模式集合,然后用模式集合识别垃圾邮件,再对提取出的特征项进行模糊匹配并根据匹配结果判断邮件是否为垃圾邮件。实验结果表明:应用改进后的算法有效地提高了垃圾邮件过滤的准确率。  相似文献   

3.
对简单贝叶斯过滤方法作一些应用方面的研究工作.首先讨论了简单贝叶斯的垃圾邮件过滤,在PU1语料上实现了简单贝叶斯算法,通过不同的特征词选取方法,得到了比前人更好的结果,给出了特征数、阈值等参数和过滤效果间的关系,并得出了较优的参数设定.然后讨论了基于简单贝叶斯的中文邮件过滤,并在自己收集整理建立的中文邮件语料库上进行中文邮件过滤的实验,得出了不同于英文邮件的较优的参数设定.  相似文献   

4.
翟军昌  秦玉平  车伟伟 《计算机科学》2014,41(6):214-216,224
针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法。首先利用特征词的先验概率定义增益比,然后利用增益比对特征词为整个分类所提供的信息量进行放大或弱化,从而对特征词的类别条件熵计算作了改进,采用极大后验假设朴素贝叶斯决策方法在英文语料库上进行实验,通过召回率、正确率、精确率和错误率对算法进行评价分析。实验结果表明,改进后的算法提高了过滤器的分类精度,降低了过滤器对合法邮件的误判给用户带来的损失。  相似文献   

5.
本文分析了基于朴素贝叶斯的垃圾邮件过滤技术,发现该算法忽略了把合法邮件错判为垃圾邮件带来的损失。针对该缺陷,提出了基于最小期望损失的贝叶斯过滤算法。在该算法中引入了期望损失因子,分析了期望损失因子与准确率的关系。最后用实际的邮件样本对改进后的算法进行了验证,验证结果表明,选取合适的期望损失因子值,最小期望损失的贝叶斯过滤算法能有效提高邮件过滤的准确率。  相似文献   

6.
利用改进的信息增益特征选择的方法来提取特征词,基于向量空间模型构造邮件的特征向量,最后用支持向量机算法对邮件进行过滤。实验表明,改进后的信息增益特征选择方法对邮件过滤是很有效的。  相似文献   

7.
朴素贝叶斯算法是一种常见的基于内容的垃圾邮件过滤算法,但是,传统朴素贝叶斯过滤存在判断内容的不确定性和邮件表示不完整性等问题。分析邮件信头各域在正常邮件和垃圾邮件中表现出的不同属性,提取非特征信息,结合特征信息和非特征信息改进朴素贝叶斯算法。实验结果表明,改进的朴素贝叶斯分类方法与单纯使用特征信息的方法相比,垃圾邮件的召回率和准确率更高,凸显了该方法涵盖邮件信息、克服内容判断缺陷的优势。  相似文献   

8.
设计一种基于改进贝叶斯算法的垃圾邮件过滤系统,通过朴素贝叶斯过滤算法以及该算法在反垃圾邮件中的八个处理步骤,分别建立三个哈希表,设置阈值来判别邮件是否为垃圾邮件.  相似文献   

9.
在垃圾邮件过滤中,考虑到特征词对合法邮件和垃圾邮件分类贡献的不同,通过定义分类贡献比系数,将特征词分类贡献的思想应用到特征选择和朴素贝叶斯过滤器的设计中,在英文语料库上进行实验,实验结果表明,应用特征词分类贡献的垃圾邮件过滤方法可以有效提高过滤器对合法邮件和垃圾邮件的识别能力,降低过滤器对合法邮件和垃圾邮件的误判率。  相似文献   

10.
北方工业大学信息工程学院北京100041摘要:本文在分析朴素贝叶斯分类算法基础上提出了一种改进的贝叶斯算法,并将邮件视为句间有序,句内关键词无序的集合,用改进的贝叶斯算法模型设计了一种文本广告邮件过滤系统,通过实验证明了其有效性。  相似文献   

11.
Context‐based email classification requires understanding of semantic and structural attributes of email. Most of the research has focused on generating semantic properties through structural components of email. By viewing emails as events (as a major subset of class of email), a rich contextual test‐bed representation for understanding of the semantic attributes of emails has been devised. The event‐ based emails have traditionally been studied based on simple structural properties. In this paper, we present a novel approach by first representing such class of emails as graphs, followed by heuristically applying graph mining and matching algorithm to pick templates representing contextual and semantic attributes that help classify emails. The classification templates used three key event classes: social, personal and professional. Results show that our graph mining and matching supported template‐based approach performs consistently well over event email data set with high accuracy.  相似文献   

12.
提出了一种基于行为特征描述的P2P流识别算法(BCCIA).首先建立了基于行为特征描述的P2P流的规范化统一描述,并定义了关键字的文法规则.接着,在BCCIA算法中,采用基于均匀分布的Hash函数来实现匹配和加快匹配速度,并详细阐述了模式识别的具体实现步骤.最后,在Linux环境下,以Skype为例进行仿真试验.实验数据表明,采用BCCIA算法,可以很好地实现分类和标识P2P流.  相似文献   

13.
词语间依存关系的定量识别   总被引:2,自引:1,他引:2  
本文扩展和改进了现有的词语间依存关系定量识别算法,充分考虑词项概率分布的影响;明确区分词项之间的搭配关系、并列关系和从属关系,针对它们不同的特点,提出不同的识别算法;提出字串匹配模型;充分考虑两个词项之间相互位置的离散分布和距离的影响、以及它们的概率分布特性, 提出词项间的依存强度模型,并据此构建词语间依存关系树;提出更新策略,对已经建好的依存关系树进行裁剪,并挖掘出潜在的依存关系。应用实验结果表明,本文提出的算法可以有效地识别出词语间的依存关系。  相似文献   

14.
对Aho-Corasick算法略作改变,用一个收词丰富的有优先级的字典构造Aho-Corasick树,并利用它对英文字符串进行字典匹配.对匹配的结果,利用后缀词按优先级排序的特点设计了一个高效的分词算法.实验证明该算法具有高效性.  相似文献   

15.
基于信息元的教学资源组织系统的设计与实现   总被引:4,自引:0,他引:4  
文章以文本类型教学资源为研究对象.在领域知识可拓信息网模型和CELTS-3的基础上,阐述了基于信息元的教学资源组织系统设计与实现过程.包括:信息特征元数据描述框架、特征词获取、信息元距离度量、信息元匹配规则以及匹配算法等。该系统通过有限的信息元描述无限的资源,实现了教学资源的高效组织,支持学习过程中资源自动重组。  相似文献   

16.
基于内容粘合性的邮件分类   总被引:1,自引:0,他引:1  
廖玲  文敦伟 《计算机仿真》2008,25(2):121-123
电子邮件分类一般采用向量空间模型来表示邮件,但是该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征,从而使得特征向量不能准确地表示邮件的内容.针对目前向量空间模型出现的这种缺陷,文中将粘合性衡量方法提取n-gram的思想运用于文本表示当中,对词的权重进行赋值,并以此模型设计了一个邮件分类系统,由于粘合性方法考虑到了邮件的结构特征,实例证明,这种方法能够提高系统的分类精确度.  相似文献   

17.
指纹形变问题已成为指纹鉴别准确率的瓶颈。本文针对指纹的形变问题,对现行的指纹特征点匹配算法进行了研究和探讨,提出了一种能够实现精确匹配的特征点匹配算法,从而有效地解决指纹变形等问题。  相似文献   

18.
以文本类型教学资源为研究对象,在领域知识可拓信息网模型和CELTS-3的基础上,阐述了基于信息元的教学资源组织系统设计与实现过程,包括信息特征元数据描述框架、特征词获取、信息元距离度量、信息元匹配规则以及匹配算法等.该系统通过有限的信息元描述无限的资源,实现了教学资源的高效组织,支持学习过程中资源自动重组.  相似文献   

19.
王青松  魏如玉 《计算机科学》2016,43(4):256-259, 269
朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。  相似文献   

20.
本文介绍和分析了主观题自动评分的国内外研究现状,在基于模糊数学中贴近度理论和单向贴近度字符串匹配方法的基础上,结合动态规划算法思想,设计并实现了基于语义脉络的自动评分算法。该算法以句子作为基本语义单元,将标准答案分解为代表得分点的词串,并为这些词串加入同义词链去匹配学生答案语句,使语义表达更加完善和准确;同时利用动态规划算法使匹配按照词的顺序进行,避免仅仅按照字的出现次数匹配所造成的机械式匹配错误;最后根据文本中句子与关键词的匹配程度给出得分。在给出基本算法的主要思想以及程序流程图的基础上,结合实例分析证明了该算法的可行性。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号