共查询到20条相似文献,搜索用时 109 毫秒
1.
贝叶斯过滤算法是反垃圾邮件过滤技术中应用最为广泛的方法之一。考虑到邮件的错误分类对邮件接收者带来的损失不同,引入判定垃圾邮件是判定正常邮件的λ倍作为最终邮件分类依据;同时,为了提高贝叶斯过滤算法的分类质量,运用遗传算法来对邮件中正文和标题的特征词在邮件分类中不同的重要程度做区分。最后用实际的邮件样本对改进后的算法进行验证,验证结果表明,利用遗传算法优化配合贝叶斯过滤算法能有效提高邮件分类的质量。 相似文献
2.
3.
对简单贝叶斯过滤方法作一些应用方面的研究工作.首先讨论了简单贝叶斯的垃圾邮件过滤,在PU1语料上实现了简单贝叶斯算法,通过不同的特征词选取方法,得到了比前人更好的结果,给出了特征数、阈值等参数和过滤效果间的关系,并得出了较优的参数设定.然后讨论了基于简单贝叶斯的中文邮件过滤,并在自己收集整理建立的中文邮件语料库上进行中文邮件过滤的实验,得出了不同于英文邮件的较优的参数设定. 相似文献
4.
5.
本文分析了基于朴素贝叶斯的垃圾邮件过滤技术,发现该算法忽略了把合法邮件错判为垃圾邮件带来的损失。针对该缺陷,提出了基于最小期望损失的贝叶斯过滤算法。在该算法中引入了期望损失因子,分析了期望损失因子与准确率的关系。最后用实际的邮件样本对改进后的算法进行了验证,验证结果表明,选取合适的期望损失因子值,最小期望损失的贝叶斯过滤算法能有效提高邮件过滤的准确率。 相似文献
6.
利用改进的信息增益特征选择的方法来提取特征词,基于向量空间模型构造邮件的特征向量,最后用支持向量机算法对邮件进行过滤。实验表明,改进后的信息增益特征选择方法对邮件过滤是很有效的。 相似文献
7.
8.
设计一种基于改进贝叶斯算法的垃圾邮件过滤系统,通过朴素贝叶斯过滤算法以及该算法在反垃圾邮件中的八个处理步骤,分别建立三个哈希表,设置阈值来判别邮件是否为垃圾邮件. 相似文献
9.
在垃圾邮件过滤中,考虑到特征词对合法邮件和垃圾邮件分类贡献的不同,通过定义分类贡献比系数,将特征词分类贡献的思想应用到特征选择和朴素贝叶斯过滤器的设计中,在英文语料库上进行实验,实验结果表明,应用特征词分类贡献的垃圾邮件过滤方法可以有效提高过滤器对合法邮件和垃圾邮件的识别能力,降低过滤器对合法邮件和垃圾邮件的误判率。 相似文献
10.
北方工业大学信息工程学院北京100041摘要:本文在分析朴素贝叶斯分类算法基础上提出了一种改进的贝叶斯算法,并将邮件视为句间有序,句内关键词无序的集合,用改进的贝叶斯算法模型设计了一种文本广告邮件过滤系统,通过实验证明了其有效性。 相似文献
11.
Context‐based email classification requires understanding of semantic and structural attributes of email. Most of the research has focused on generating semantic properties through structural components of email. By viewing emails as events (as a major subset of class of email), a rich contextual test‐bed representation for understanding of the semantic attributes of emails has been devised. The event‐ based emails have traditionally been studied based on simple structural properties. In this paper, we present a novel approach by first representing such class of emails as graphs, followed by heuristically applying graph mining and matching algorithm to pick templates representing contextual and semantic attributes that help classify emails. The classification templates used three key event classes: social, personal and professional. Results show that our graph mining and matching supported template‐based approach performs consistently well over event email data set with high accuracy. 相似文献
12.
提出了一种基于行为特征描述的P2P流识别算法(BCCIA).首先建立了基于行为特征描述的P2P流的规范化统一描述,并定义了关键字的文法规则.接着,在BCCIA算法中,采用基于均匀分布的Hash函数来实现匹配和加快匹配速度,并详细阐述了模式识别的具体实现步骤.最后,在Linux环境下,以Skype为例进行仿真试验.实验数据表明,采用BCCIA算法,可以很好地实现分类和标识P2P流. 相似文献
13.
14.
15.
基于信息元的教学资源组织系统的设计与实现 总被引:4,自引:0,他引:4
文章以文本类型教学资源为研究对象.在领域知识可拓信息网模型和CELTS-3的基础上,阐述了基于信息元的教学资源组织系统设计与实现过程.包括:信息特征元数据描述框架、特征词获取、信息元距离度量、信息元匹配规则以及匹配算法等。该系统通过有限的信息元描述无限的资源,实现了教学资源的高效组织,支持学习过程中资源自动重组。 相似文献
16.
基于内容粘合性的邮件分类 总被引:1,自引:0,他引:1
电子邮件分类一般采用向量空间模型来表示邮件,但是该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征,从而使得特征向量不能准确地表示邮件的内容.针对目前向量空间模型出现的这种缺陷,文中将粘合性衡量方法提取n-gram的思想运用于文本表示当中,对词的权重进行赋值,并以此模型设计了一个邮件分类系统,由于粘合性方法考虑到了邮件的结构特征,实例证明,这种方法能够提高系统的分类精确度. 相似文献
17.
指纹形变问题已成为指纹鉴别准确率的瓶颈。本文针对指纹的形变问题,对现行的指纹特征点匹配算法进行了研究和探讨,提出了一种能够实现精确匹配的特征点匹配算法,从而有效地解决指纹变形等问题。 相似文献
18.
以文本类型教学资源为研究对象,在领域知识可拓信息网模型和CELTS-3的基础上,阐述了基于信息元的教学资源组织系统设计与实现过程,包括信息特征元数据描述框架、特征词获取、信息元距离度量、信息元匹配规则以及匹配算法等.该系统通过有限的信息元描述无限的资源,实现了教学资源的高效组织,支持学习过程中资源自动重组. 相似文献
19.
朴素贝叶斯算法在垃圾邮件过滤领域得到了广泛应用,该算法中,特征提取是一个必不可少的环节。过去针对中文的垃圾邮件过滤方法都以词作为文本的特征项单位进行提取,面对大规模的邮件训练样本,这种算法的时间效率会成为邮件过滤技术中的一个瓶颈。对此,提出一种基于短语的贝叶斯中文垃圾邮件过滤方法,在特征项提取阶段结合文本分类领域提出的新的短语分析方法,按照基本名词短语、基本动词短语、基本语义分析规则,以短语为单位进行提取。通过分别以词和短语为单位进行垃圾邮件过滤的对比测试实验证实了所提出方法的有效性。 相似文献
20.
本文介绍和分析了主观题自动评分的国内外研究现状,在基于模糊数学中贴近度理论和单向贴近度字符串匹配方法的基础上,结合动态规划算法思想,设计并实现了基于语义脉络的自动评分算法。该算法以句子作为基本语义单元,将标准答案分解为代表得分点的词串,并为这些词串加入同义词链去匹配学生答案语句,使语义表达更加完善和准确;同时利用动态规划算法使匹配按照词的顺序进行,避免仅仅按照字的出现次数匹配所造成的机械式匹配错误;最后根据文本中句子与关键词的匹配程度给出得分。在给出基本算法的主要思想以及程序流程图的基础上,结合实例分析证明了该算法的可行性。 相似文献