期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

夏超徐德华《计算机与现代化》2010,(10):125-128,132

贝叶斯过滤算法是反垃圾邮件过滤技术中应用最为广泛的方法之一。考虑到邮件的错误分类对邮件接收者带来的损失不同,引入判定垃圾邮件是判定正常邮件的λ倍作为最终邮件分类依据;同时,为了提高贝叶斯过滤算法的分类质量,运用遗传算法来对邮件中正文和标题的特征词在邮件分类中不同的重要程度做区分。最后用实际的邮件样本对改进后的算法进行验证,验证结果表明,利用遗传算法优化配合贝叶斯过滤算法能有效提高邮件分类的质量。相似文献

2.

贝叶斯垃圾邮件过滤算法的改进与实现

别玉玉刘飞张书伟《微计算机信息》2011,(3)

本文分析了目前在垃圾邮件过滤中广泛应用的朴素贝叶斯过滤算法及其优缺点,并且根据模式匹配和模糊匹配算法提出改进型的贝叶斯邮件过滤模型。首先在邮件预处理过程中进行特征项的提取——模式匹配,从训练集合中识别出正常邮件和垃圾邮件的模式集合,然后用模式集合识别垃圾邮件,再对提取出的特征项进行模糊匹配并根据匹配结果判断邮件是否为垃圾邮件。实验结果表明:应用改进后的算法有效地提高了垃圾邮件过滤的准确率。相似文献

3.

基于简单贝叶斯的中英文垃圾邮件过滤的比较分析

张学农 Zhang Licheng 《计算机应用与软件》2008,25(8)

对简单贝叶斯过滤方法作一些应用方面的研究工作.首先讨论了简单贝叶斯的垃圾邮件过滤,在PU1语料上实现了简单贝叶斯算法,通过不同的特征词选取方法,得到了比前人更好的结果,给出了特征数、阈值等参数和过滤效果间的关系,并得出了较优的参数设定.然后讨论了基于简单贝叶斯的中文邮件过滤,并在自己收集整理建立的中文邮件语料库上进行中文邮件过滤的实验,得出了不同于英文邮件的较优的参数设定. 相似文献

4.

垃圾邮件过滤中信息增益的改进研究

翟军昌秦玉平车伟伟《计算机科学》2014,41(6):214-216,224

针对垃圾邮件过滤中的特征项选择问题,提出了一种改进的信息增益方法。首先利用特征词的先验概率定义增益比,然后利用增益比对特征词为整个分类所提供的信息量进行放大或弱化,从而对特征词的类别条件熵计算作了改进,采用极大后验假设朴素贝叶斯决策方法在英文语料库上进行实验,通过召回率、正确率、精确率和错误率对算法进行评价分析。实验结果表明,改进后的算法提高了过滤器的分类精度,降低了过滤器对合法邮件的误判给用户带来的损失。相似文献

5.

基于贝叶斯的反垃圾邮件技术探讨

杨杉何跃颜锦江《网络安全技术与应用》2007,(8):54-56

本文分析了基于朴素贝叶斯的垃圾邮件过滤技术,发现该算法忽略了把合法邮件错判为垃圾邮件带来的损失。针对该缺陷,提出了基于最小期望损失的贝叶斯过滤算法。在该算法中引入了期望损失因子,分析了期望损失因子与准确率的关系。最后用实际的邮件样本对改进后的算法进行了验证,验证结果表明,选取合适的期望损失因子值,最小期望损失的贝叶斯过滤算法能有效提高邮件过滤的准确率。相似文献

6.

邮件过滤中信息增益方法的改进

卓高明林世平《计算机工程与应用》2006,(Z1)

利用改进的信息增益特征选择的方法来提取特征词,基于向量空间模型构造邮件的特征向量,最后用支持向量机算法对邮件进行过滤。实验表明,改进后的信息增益特征选择方法对邮件过滤是很有效的。相似文献

7.

结合特征和非特征信息改进Nave Bayes及其应用*

赵静刘培玉陈孝礼《计算机应用研究》2011,28(2):513-515

朴素贝叶斯算法是一种常见的基于内容的垃圾邮件过滤算法,但是,传统朴素贝叶斯过滤存在判断内容的不确定性和邮件表示不完整性等问题。分析邮件信头各域在正常邮件和垃圾邮件中表现出的不同属性,提取非特征信息,结合特征信息和非特征信息改进朴素贝叶斯算法。实验结果表明,改进的朴素贝叶斯分类方法与单纯使用特征信息的方法相比,垃圾邮件的召回率和准确率更高,凸显了该方法涵盖邮件信息、克服内容判断缺陷的优势。相似文献

8.

改进贝叶斯算法的垃圾邮件过滤技术研究

池万乐张笑笑《现代计算机》2007,(4):27-29

设计一种基于改进贝叶斯算法的垃圾邮件过滤系统,通过朴素贝叶斯过滤算法以及该算法在反垃圾邮件中的八个处理步骤,分别建立三个哈希表,设置阈值来判别邮件是否为垃圾邮件. 相似文献

9.

应用特征词分类贡献的垃圾邮件过滤研究

翟军昌秦玉平车伟伟《计算机工程与应用》2012,48(34):116-119,170

在垃圾邮件过滤中,考虑到特征词对合法邮件和垃圾邮件分类贡献的不同,通过定义分类贡献比系数,将特征词分类贡献的思想应用到特征选择和朴素贝叶斯过滤器的设计中,在英文语料库上进行实验,实验结果表明,应用特征词分类贡献的垃圾邮件过滤方法可以有效提高过滤器对合法邮件和垃圾邮件的识别能力,降低过滤器对合法邮件和垃圾邮件的误判率。相似文献

10.

基于改进贝叶斯算法的文本广告邮件过滤

张璐王景中《网络安全技术与应用》2009,(1):55-57,42

北方工业大学信息工程学院北京100041摘要：本文在分析朴素贝叶斯分类算法基础上提出了一种改进的贝叶斯算法,并将邮件视为句间有序,句内关键词无序的集合,用改进的贝叶斯算法模型设计了一种文本广告邮件过滤系统,通过实验证明了其有效性。相似文献

11.

Context‐based email classification model

下载免费PDF全文

Shaukat Wasi Syed Imran Jami Zubair Ahmed Shaikh 《Expert Systems》2016,33(2):129-144

Context‐based email classification requires understanding of semantic and structural attributes of email. Most of the research has focused on generating semantic properties through structural components of email. By viewing emails as events (as a major subset of class of email), a rich contextual test‐bed representation for understanding of the semantic attributes of emails has been devised. The event‐ based emails have traditionally been studied based on simple structural properties. In this paper, we present a novel approach by first representing such class of emails as graphs, followed by heuristically applying graph mining and matching algorithm to pick templates representing contextual and semantic attributes that help classify emails. The classification templates used three key event classes: social, personal and professional. Results show that our graph mining and matching supported template‐based approach performs consistently well over event email data set with high accuracy. 相似文献

12.

基于行为特征描述的P2P流识别方法的研究

宫婧孙知信顾强《小型微型计算机系统》2007,28(1):48-53

提出了一种基于行为特征描述的P2P流识别算法(BCCIA).首先建立了基于行为特征描述的P2P流的规范化统一描述,并定义了关键字的文法规则.接着,在BCCIA算法中,采用基于均匀分布的Hash函数来实现匹配和加快匹配速度,并详细阐述了模式识别的具体实现步骤.最后,在Linux环境下,以Skype为例进行仿真试验.实验数据表明,采用BCCIA算法,可以很好地实现分类和标识P2P流. 相似文献

13.

词语间依存关系的定量识别 总被引：2，自引：1，他引：2

王建会王雷胡运发《中文信息学报》2005,19(4):32-39

本文扩展和改进了现有的词语间依存关系定量识别算法,充分考虑词项概率分布的影响;明确区分词项之间的搭配关系、并列关系和从属关系,针对它们不同的特点,提出不同的识别算法;提出字串匹配模型;充分考虑两个词项之间相互位置的离散分布和距离的影响、以及它们的概率分布特性, 提出词项间的依存强度模型,并据此构建词语间依存关系树;提出更新策略,对已经建好的依存关系树进行裁剪,并挖掘出潜在的依存关系。应用实验结果表明,本文提出的算法可以有效地识别出词语间的依存关系。相似文献

14.

一种对英文字符串进行分词的方法

邹智敏郭荷清高英《计算机应用研究》2007,24(7):52-54

对Aho-Corasick算法略作改变,用一个收词丰富的有优先级的字典构造Aho-Corasick树,并利用它对英文字符串进行字典匹配.对匹配的结果,利用后缀词按优先级排序的特点设计了一个高效的分词算法.实验证明该算法具有高效性. 相似文献

15.

基于信息元的教学资源组织系统的设计与实现 总被引：4，自引：0，他引：4

康松林施荣华《电脑与信息技术》2006,14(4):20-23,62

文章以文本类型教学资源为研究对象．在领域知识可拓信息网模型和CELTS-3的基础上，阐述了基于信息元的教学资源组织系统设计与实现过程．包括：信息特征元数据描述框架、特征词获取、信息元距离度量、信息元匹配规则以及匹配算法等。该系统通过有限的信息元描述无限的资源，实现了教学资源的高效组织，支持学习过程中资源自动重组。相似文献

16.

基于内容粘合性的邮件分类 总被引：1，自引：0，他引：1

廖玲文敦伟《计算机仿真》2008,25(2):121-123

电子邮件分类一般采用向量空间模型来表示邮件,但是该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征,从而使得特征向量不能准确地表示邮件的内容.针对目前向量空间模型出现的这种缺陷,文中将粘合性衡量方法提取n-gram的思想运用于文本表示当中,对词的权重进行赋值,并以此模型设计了一个邮件分类系统,由于粘合性方法考虑到了邮件的结构特征,实例证明,这种方法能够提高系统的分类精确度. 相似文献

17.

指纹特征点匹配算法探析

陆述田《办公自动化》2007,(12)

指纹形变问题已成为指纹鉴别准确率的瓶颈。本文针对指纹的形变问题,对现行的指纹特征点匹配算法进行了研究和探讨,提出了一种能够实现精确匹配的特征点匹配算法,从而有效地解决指纹变形等问题。相似文献

18.

基于信息元的教学资源组织系统设计与实现 *

康松林施荣华《计算机应用研究》2007,24(9):173-175

以文本类型教学资源为研究对象,在领域知识可拓信息网模型和CELTS-3的基础上,阐述了基于信息元的教学资源组织系统设计与实现过程,包括信息特征元数据描述框架、特征词获取、信息元距离度量、信息元匹配规则以及匹配算法等.该系统通过有限的信息元描述无限的资源,实现了教学资源的高效组织,支持学习过程中资源自动重组. 相似文献

19.

基于短语的贝叶斯中文垃圾邮件过滤方法

王青松魏如玉《计算机科学》2016,43(4):256-259, 269

朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。相似文献

20.

改进型单向贴近度主观题自动评分算法的研究

郭扉扉尹文生《计算机工程与科学》2011,33(7):172

本文介绍和分析了主观题自动评分的国内外研究现状,在基于模糊数学中贴近度理论和单向贴近度字符串匹配方法的基础上,结合动态规划算法思想,设计并实现了基于语义脉络的自动评分算法。该算法以句子作为基本语义单元,将标准答案分解为代表得分点的词串,并为这些词串加入同义词链去匹配学生答案语句,使语义表达更加完善和准确;同时利用动态规划算法使匹配按照词的顺序进行,避免仅仅按照字的出现次数匹配所造成的机械式匹配错误;最后根据文本中句子与关键词的匹配程度给出得分。在给出基本算法的主要思想以及程序流程图的基础上,结合实例分析证明了该算法的可行性。相似文献