首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 171 毫秒
1.
基于内容的邮件分类一般采用向量空间模型来表示邮件,该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征和词所在的上下文环境,这使得特征向量不能准确地表示邮件的内容,从而导致分类不够准确。文中提出了改进的向量空间模型,针对邮件特有的结构,以段落为分块单位,通过分析段落间的关系和段落中的内容来更改特征词的权重。以此模型设计了一个邮件分类系统,并对该系统进行了测试和结果分析。  相似文献   

2.
一种基于向量空间模型的邮件自动过滤算法研究   总被引:1,自引:0,他引:1  
肖旻 《福建电脑》2006,(8):12-13
对于垃圾邮件的判别和处理的研究,正逐渐成为热点。本文根据垃圾邮件过滤特点,通过对基于概率统计的贝叶斯理论的文本分类方法分析和探讨,引入基于向量空间模型中多变量贝努里事件模型的一种邮件自动过滤算法,并给出该算法的实现过程,完成垃圾邮件的分类与判别,最后给出邮件分类与过滤的实现流图。  相似文献   

3.
基于朴素贝叶斯分类器邮件分类系统的改进   总被引:1,自引:0,他引:1  
目前朴素贝叶斯分类方法在电子邮件分类起到了良好的效果,但是并不能100%区分垃圾邮件与非垃圾邮件,然而在商业应用中,我们不能遗漏任何一封重要邮件。本文先简单介绍Bayes方法,然后提出一种对目前的Bayes分类方法的改进思想和方法。  相似文献   

4.
邱科宁 《福建电脑》2011,27(12):18-19
研究并提出将AGENT的个性化信息服务应用到邮件分类管理系统中的方法,描述个性化邮件分类管理系统模型,具体阐述了个性化信息的表示和个性化推荐算法的实现。  相似文献   

5.
“垃圾”邮件是Internet上面临急待解决的问题.Naive Bayesian过滤器由于其简单高效性在文本分类中应用较广,重点研究了Naive Bayesian算法,给出了一个“垃圾”邮件过滤器,依据邮件的内容而不是通过设置规则来过滤邮件,并通过实验论证了它在客户端过滤邮件的可行性和有效性.  相似文献   

6.
对于大量的电子邮件,传统的分类方式是使用基于关键字比较的分类系统的过滤器对邮件进行分类,这种方式存在缺乏灵活性、分类粗糙等缺点.本文提出了一种基于形式概念分析(FCA)的邮件分类模型,在传统规则分类方法的基础上引入FCA分类机制,即利用FCA来抽取隐含在邮件文档中的潜在的概念关系,分析文档之间的相关性.用户对邮件文档的浏览是在一个根据概念划分的概念格结构上进行的.试验验证了该模型的可行性,试验结果表明该模型较好地解决了概括性的分类问题.  相似文献   

7.
小滔 《网迷》2002,(9):105-106
  相似文献   

8.
邮件分类是指在给定的分类体系下,根据邮件的内容和属性,确定其类别标签的过程。将最大熵模型应用于邮件分类中,给出了邮件的预处理过程,介绍了邮件信头特征,分析比较了特征数量和迭代次数、邮件特征字段对分类结果的影响,以及对层次分类和平面分类的效果进行了比较。实验表明,特征数量和迭代次数分别取2 000和250时为宜;充分利用邮件各字段信息,取得的总体分类效果最好,但对合法邮件,利用邮件头及邮件标题却取得了最好结果,并在层次分类中验证了这点,层次分类效果要优于平面分类。最后进行了总结和展望。  相似文献   

9.
基于改进贝叶斯模型的中文邮件分类算法   总被引:4,自引:0,他引:4  
通过分析常见的贝叶斯分类方法和实现模型,提出了一种适用于中文邮件的分类算法——基于混合模型的最小风险贝叶斯方法。混合模型将二项独立模型和多项式模型相结合,提高邮件分类的查全率,同时,在此基础上应用最小风险贝叶斯方法,进一步提高准确率。实验表明,应用改进的方法可以得到更准确的邮件分类效果。  相似文献   

10.
基于自动分类的网页机器人   总被引:2,自引:0,他引:2  
康平波  王文杰 《计算机工程》2003,29(21):123-124,127
随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。WWW上的网页抓取器,又称Robot讨论了抓取器与文本自动分类器相结合,对用户要求领域网页的收集。抓取器找到相关链接进行抓取,而避免对非相关链接的抓取。这样可以节省硬件、网络资源和提高抓取器的效率。  相似文献   

11.
基于文本挖掘的邮件分类与过滤   总被引:6,自引:0,他引:6  
该文提出一种基于文本挖掘的邮件分类与过滤的方法,它包括邮件采集与预处理、文本分词、特征选取、邮件分类器和过滤器等功能模块。该系统不仅可使邮件服务器具有自动过滤垃圾邮件的能力,也可以用于电子政务和电子商务,对邮件自动分类和转发。  相似文献   

12.
王丽侠 《微机发展》2005,15(9):42-44,47
研究了邮件过滤的主要方法,提出了将Agent技术、粗糙集和最小风险的Bayes分类方法结合的邮件过滤及个性化分类模型。该模型首先利用粗糙集方法对邮件样本向量空间进行约简,然后利用已知样本对最小风险的Bayes分类器进行训练,得到具有智能分类功能的邮件分类器,利用该分类器过滤掉用户不感兴趣的邮件,并利用Agent学习用户的个性化知识,最后利用学习的知识将用户感兴趣邮件进行再分类。  相似文献   

13.
Email自动分类已成为半结构化文本信息自动处理的研究热点。本文在时已有Email自动分类方法深入研究的基础上,提出了一种基于SVM和领域综合特征的Email自动分类方法。主要包括:一是将SVM引入到Email自动分类研究中,并对SVM学习算法中的核函数和参数选择进行了探讨;二是鉴于词频的特征表示方法难以准确表示Email主要内容,因此将领域知识引入Email特征表示中,并在此基础上提出了一种综合领域知识和词频的特征表示方法,用于Email分类。该方法是在词频特征的基础上加入人工总结出的领域特征,从而更能准确地表示Email的主要内容,以提高Email分类的平均F-score。通过实验,验证了基于SVM和领域综合特征的Email自动分类方法能有效地提高Email自动分类处理的准确性。  相似文献   

14.
基于领域知识的专利自动分类   总被引:5,自引:1,他引:5  
根据改进的词语权重计算方法构造给定文本的特征向量,并用之从专利分类的领域知识——国际分类表IPC中直接提取类别的概念向量和待分类专利文本的特征向量,然后采用向量空间模型实现专利的自动分类,该方法不需要大量的训练样本,具有较高的分类正确率和执行速度。  相似文献   

15.
基于自动分类的搜索引擎过滤系统   总被引:2,自引:0,他引:2  
随着互联网的普及和发展,网络上的信息资源越来越丰富,如何高效、准确地获得包含用户所需的信息的网页资源,日益成为需要迫切解决的问题。目前搜索引擎返回的搜索结果往往涉及很多领域,而且是大量的,用户从中找到自己所感兴趣的内容往往很困难。利用自动分类器对搜索引擎的返回结果进行分类,以提高检索效率和准确性,方便用户使用。  相似文献   

16.
信息处理领域中,现有的各种文本分类算法大都基于向量空间模型,而向量空间模型却不能够有效地表达文档的结构信息,从而使得它还不能充分地表达文档的语义信息.为了更有效地表达文档的语义信息,本文首先提出了一种新的文档表示模型一图模型,即通过带权标号图表达文档的特征词条及其位置关联信息,在此基础上本文继而提出了一种新的文档相似性度量标准,并用于中文文本的分类.实验结果表明,基于图模型的这种文档表示方式是有效的和可行的.  相似文献   

17.
Sentiment analysis for social media and online document has been a burgeoning area in text mining for the last decade. However, Email sentiment analysis has not been studied and examined thoroughly even though it is one of the most ubiquitous means of communication. In this research, a hybrid sentiment analysis framework for Email data using term frequency-inverse document frequency term weighting model for feature extraction, and k-means labeling combined with support vector machine classifier for sentiment classification is proposed. Empirical results indicate comparatively better classification results with the proposed framework than other combinations.  相似文献   

18.
一个基于粗糙集理论的邮件分类模型   总被引:4,自引:1,他引:3  
论文讨论了垃圾邮件对网络造成的影响。大量未经收件人请求而发送的垃圾邮件充斥了用户的电子信箱,给用户造成带宽、时间和金钱的浪费。为此,论文提出一个基于粗糙集(RoughSet)的模型,并进行了实验分析,通过与流行的邮件分类模型朴素贝叶斯模型的比较,证明本文提出的基于粗糙集(RoughSet)的模型可以大大降低把正常邮件错划为垃圾邮件的比率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号