首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 80 毫秒
1.
曾超  吕钊  顾君忠 《计算机应用》2008,28(12):3248-3250
提出了一个基于概念向量空间模型的电子邮件分类方法。在提取电子邮件特征向量时,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,从而建立电子邮件的概念向量空间模型作为电子邮件的特征向量。使用TF*IWF*IWF方法对概念向量进行权值修正,最后通过简单向量距离分类方法来确定电子邮件的类别。实验结果表明,当训练集合数目有限时,该方法能够有效提高电子邮件的分类准确率。  相似文献   

2.
利用电子邮件的特点提出了一种面向电子邮件分类处理的特征值提取方法。本方法根据电子邮件文法随意性的特点,利用模糊集合对其同义词和多义现象都进行了处理,使得所得到的特征值能更好的契合文本的特点。通过与其它特征值提取方法的比较实验,以及在不同分类算法中应用实验结果都证明文中提出的特征值提取方法能够提高电子邮件分类处理的正确率,并达到有效降低特征向量维数的目的。  相似文献   

3.
为了从大量的电子邮件中检测垃圾邮件,提出了一个基于Hadoop平台的电子邮件分类方法。不同于传统的基于内容的垃圾邮件检测,通过在Map Reduce框架上统计分析邮件收发记录,提取邮件账号的行为特征。然后使用Map Reduce框架并行的实现随机森林分类器,并基于带有行为特征的样本训练分类器和分类邮件。实验结果表明,基于Hadoop平台的电子邮件分类方法大大提高了大规模电子邮件的分类效率。  相似文献   

4.
为了从大量的电子邮件中检测垃圾邮件,提出了一个基于Hadoop平台的电子邮件分类方法。不同于传统的基于内容的垃圾邮件检测,通过在Map Reduce框架上统计分析邮件收发记录,提取邮件账号的行为特征。然后使用Map Reduce框架并行的实现随机森林分类器,并基于带有行为特征的样本训练分类器和分类邮件。实验结果表明,基于Hadoop平台的电子邮件分类方法大大提高了大规模电子邮件的分类效率。  相似文献   

5.
在电子邮件分类的研究中,针对研究垃圾邮件识别问题,垃圾邮件问题日益严重,影响正常工作,受到研究人员的广泛关注.而电子邮件特征维数相当的高,使传统分类方法存在分类速度慢、正确率低的问题.为了加快电子邮件分类速度、提高分类的正确率,更好的过滤出垃圾邮件,提出一种基于支持向量机的电子邮件自动分类方法.采用互信息量法提取电子邮件关键词作为分类特征,选择最优的分类特征,加快分类速度,然后支持向量机模型对分类特征进行学习训练,建立最优电子邮件分类器模型,最后对电子邮件测试集进行分类.UCI垃圾邮件数据库进行仿真,支持向量机识别正确率远远高于神经网络,且分类速度明显加快,能够很好的把垃圾分类出来.支持向量机分类方法是一种有效的电子邮件分类方法,有利于清除拉圾邮件.  相似文献   

6.
陈光 《福建电脑》2009,25(2):151-152
K-近邻方法是一种基于统计的分类方法,是分类领域中比较常用的一种方法。针对当今存在的电子邮件泛滥的问题.在分类准确率较高的K-近邻方法的基础上,提出了利用渐进式思想及树状存储结构优化算法的思想。通过对电子邮件这一特殊文本群体进行分析,在保证分类准确率的基础上有效地提高分类效率。  相似文献   

7.
基于神经网络的电子邮件分类与过滤   总被引:2,自引:0,他引:2  
任劼  项婧 《计算机工程与设计》2006,27(6):1021-1024,1064
现在电子邮件的应用非常广泛,已经成为人们生活中一种重要的通讯手段,但各种各样的垃圾邮件也是令我们十分困扰的问题,给出了一种电子邮件的分类过滤方法。电子邮件作为一种半结构化的文档,电子邮件信息包含了固定的语法部分和一定长度的可变文本部分,同时处理这两部分以得到更高的准确度。首先对邮件进行文本处理,得到特征向量;然后使用基于神经网络的方法对邮件进行分类过滤得到邮件分类器;最后通过实验验证分类器的有效性。  相似文献   

8.
通过用于垃圾文本流过滤的在线文本分类研究,提出了一种新的条件概率集成方法。采用语汇序列表示文本,使用索引结构存储分类知识,设计实现了分类模型的在线训练算法和在线分类算法。抽取电子邮件和手机短信的多种文本特征,分别在TREC07P电子邮件语料和真实中文手机短信语料上进行了垃圾信息过滤实验。实验结果表明,提出的方法能够获得很好的垃圾信息过滤效果。  相似文献   

9.
电子邮件已成为许多企业开展商务与办公的重要媒介,许多信息都保存在电子邮件系统。对大量邮件的管理,信息分类是一种有效的管理方法,但传统的人工文本分类方式相对静态且耗时较多。针对非结构化的邮件信息管理,提出采用动态分类体系,通过文本挖掘方法,开发一套基于多智能代理架构的电子邮件自动分类系统,提升邮件自动分类的效率。  相似文献   

10.
针对垃圾邮件所造成的危害,本文提出了一种面向电子邮件的基于内容过滤技术,它通过对邮件内容关键词汇的识别,实现对电子邮件内容分类,并依据统计用户对邮件的阅读情况,实现对垃圾邮件的有效判断。  相似文献   

11.
基于内容粘合性的邮件分类   总被引:1,自引:0,他引:1  
廖玲  文敦伟 《计算机仿真》2008,25(2):121-123
电子邮件分类一般采用向量空间模型来表示邮件,但是该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征,从而使得特征向量不能准确地表示邮件的内容.针对目前向量空间模型出现的这种缺陷,文中将粘合性衡量方法提取n-gram的思想运用于文本表示当中,对词的权重进行赋值,并以此模型设计了一个邮件分类系统,由于粘合性方法考虑到了邮件的结构特征,实例证明,这种方法能够提高系统的分类精确度.  相似文献   

12.
周冠玮  程娟  平西建 《计算机工程》2007,33(15):199-201
如何利用邮件的正文与附件信息有效地实现其分类,是现在邮件处理领域一个重要的课题。该文从商业应用角度提出了一种基于图像信息度量与关键词的邮件智能过滤与分发方法,通过基于朴素贝叶斯分类器的邮件关键词信息处理,及附件图像信息的基于归一化PIM文本图像检测理论的分析,能够综合运用邮件正文、地址等文本信息与附件图像信息作为分类的评价参数,有效地实现了邮件的智能分类。  相似文献   

13.
基于词频的特征表示方法难以准确表示Email的主要内容,从而导致分类的综合性能(F—score)较差,为了解决这个问题,将领域知识引入了Email的特征表示,并在此基础上提出了一种综合领域知识和词频的特征表示方法,用于Email分类.本方法在词频特征的基础上加入人工总结出的领域特征,从而更加准确地表示Email的主要内容,以提高Email分类的平均F—score.基于1080篇Email的分类测试结果表明,与基于词频的特征表示方法和基于领域知识的特征表示方法相比,本方法在针对Email标题实现的Email分类中将平均F—score分别提高了12.28%和23.08%,从而达到69.33%的分类平均F—score.  相似文献   

14.
Without imposing restrictions, many enterprises find nonwork-related contents consuming network resources. Business communication over emails thus incurs undesired delays and inflicts damages to businesses, explaining why many enterprises are concerned with the competition to use email services. Obviously, enterprises should prioritize business emails over personal ones in their email service. Therefore, previous works present content-based classification methods to categorize enterprise emails into business or personal correspondence. Accuracy of these methods is largely determined by their ability to survey as much information as possible. However, in addition to decreasing the performance of these methods, monitoring the details of email contents may violate privacy rights that are under legal protection, requiring a careful balance of accurately classifying enterprise emails and protecting privacy rights. The proposed email classification method is thus based on social features rather than a survey of emails contents. Social-based metrics are also designed to characterize emails as social features; the obtained features are treated as an input of machine learning-based classifiers for email classification. Experimental results demonstrate the high accuracy of the proposed method in classifying emails. In contrast with other content-based methods that examine email contents, the emphasis on social features in the proposed method is a promising alternative for solving similar email classification problems.  相似文献   

15.
电子邮件是互联网的重要应用之一,邮件分类问题已成为当今研究的热点。本文基于粗糙集理论,利用0-1贝努利数据提出双向邮件分类模型,在保证当前分类正确率的前提 下,约简了邮件分类所需的文本词频信息,较好地提高了分类效率,推进了粗糙集理论在邮件分类中的应用。  相似文献   

16.
Internet of Things (IoT) is gradually adopted by many organizations to facilitate the information collection and sharing. In an organization, an IoT node usually can receive and send an email for event notification and reminder. However, unwanted and malicious emails are a big security challenge to IoT systems. For example, attackers may intrude a network by sending emails with phishing links. To mitigate this issue, email classification is an important solution with the aim of distinguishing legitimate and spam emails. Artificial intelligence especially machine learning is a major tool for helping detect malicious emails, but the performance might be fluctuant according to specific datasets. The previous research figured out that supervised learning could be acceptable in practice, and that practical evaluation and users' feedback are important. Motivated by these observations, we conduct an empirical study to validate the performance of common learning algorithms under three different environments for email classification. With over 900 users, our study results validate prior observations and indicate that LibSVM and SMO-SVM can achieve better performance than other selected algorithms.  相似文献   

17.
设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号