首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 140 毫秒
1.
基于内容粘合性的邮件分类   总被引:1,自引:0,他引:1  
廖玲  文敦伟 《计算机仿真》2008,25(2):121-123
电子邮件分类一般采用向量空间模型来表示邮件,但是该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征,从而使得特征向量不能准确地表示邮件的内容.针对目前向量空间模型出现的这种缺陷,文中将粘合性衡量方法提取n-gram的思想运用于文本表示当中,对词的权重进行赋值,并以此模型设计了一个邮件分类系统,由于粘合性方法考虑到了邮件的结构特征,实例证明,这种方法能够提高系统的分类精确度.  相似文献   

2.
文本分类广泛应用于文档检索、网络搜索等领域,其中文本的向量化表示对于分类性能的提高具有重要的影响。在将变长文本表示成定长向量时,传统的段落向量化算法Doc2Vec忽视了该算法每轮训练的次数与段落长度高度相关的问题,以及长段落包含短段落信息的情况,限制了分类模型准确率的进一步提升。针对该问题,该文提出一种应用于文本分类的基于段落向量正向激励的方法。首先,根据中位数划分长、短段落向量,然后在分类模型输入过程中提升长段落向量的权重,实现提高模型分类准确率的目的。在Stanford Sentiment Treebank、IMDB和Amazon Reviews三个数据集上的实验结果表明,通过选择适当的激励系数,采用段落向量正向激励的分类模型可以获得更高的分类准确率。  相似文献   

3.
电子邮件过滤新方法的研究与实现   总被引:1,自引:0,他引:1  
谭汉松  杨盛 《微机发展》2005,15(5):152-154
电子邮件给人们带来极大便利,但垃圾邮件的日益泛滥,也给人们带来了极大的不便和危害。传统的邮件过滤方法的过滤精度较低,不能很好满足需要。文中提出了一种基于向量空间模型的电子邮件过滤系统,并对向量空间模型进行了改进:采用字作为文本向量的特征表示,并且在字频向量的特征提取时采用了一种新的特征提取函数,从而提高了邮件分类的精度,达到了较好的过滤垃圾邮件的目的。  相似文献   

4.
电子邮件给人们带来极大便利,但垃圾邮件的日益泛滥,也给人们带来了极大的不便和危害.传统的邮件过滤方法的过滤精度较低,不能很好满足需要.文中提出了一种基于向量空间模型的电子邮件过滤系统,并对向量空间模型进行了改进:采用字作为文本向量的特征表示,并且在字频向量的特征提取时采用了一种新的特征提取函数,从而提高了邮件分类的精度,达到了较好的过滤垃圾邮件的目的.  相似文献   

5.
针对传统的向量空间模型和潜在语义分析方法应用于计算机辅助评估时存在的问题,提出一种将领域本体、一阶逻辑和潜在语义分析方法相结合的本体空间表示模型.该模型采用一阶逻辑表示从短文问题得到的二元关系并建立索引,使用潜在语义分析来计算关系集合中关系和包含段落的文档的相似度,从而得到段落在关系子集的平均相似度.实验结果表明,与向量空间模型相比,该模型的表示效果更好.  相似文献   

6.
基于词共现模型的垃圾邮件过滤方法研究   总被引:3,自引:1,他引:2  
垃圾邮件过滤就是对邮件做出是垃圾或非垃圾的判断。传统的表示邮件的方法是在向量空间模型基础上通过信息增益等特征选择方法提取一部分词来表示邮件内容,存在语义信息不足的问题。该文提出一种将传统方法和词共现模型结合起来表示邮件特征的新方法,再采用交叉覆盖算法对邮件进行分类得到邮件分类器。实验表明,该文提出的邮件过滤算法与传统方法相比提高了过滤性能,词共现选择的维度要比传统方法选择的维度更具有代表性。  相似文献   

7.
该文提出了一个基于agent的个性化邮件分类系统的框架及各个组成部分的功能描述。在该系统中,对邮件分类管理建立在用户模型和邮件内容模型的基础上,其中用户模型描述了一段时间内相对稳定的用户分类需求。该文还分析了实现该系统的关键技术,如用户模型和邮件内容模型的建立,个性化分类和排序等,最后提出个性化检索过程和进一步的研究工作。  相似文献   

8.
基于数据挖掘的邮件分类识别研究   总被引:1,自引:0,他引:1  
在贝叶斯过滤技术的启发下,选择数据挖掘的方法来研究一种具有学习能力的邮件过滤技术.通过对电子邮件的分析和研究,提出对邮件结构字段信息和邮件正文信息加以离散和特征化处理,用向量的方式表示电子邮件,建立了一种基于信息熵的决策树邮件分类识别模型.  相似文献   

9.
一种基于向量空间模型的邮件自动过滤算法研究   总被引:1,自引:0,他引:1  
肖旻 《福建电脑》2006,(8):12-13
对于垃圾邮件的判别和处理的研究,正逐渐成为热点。本文根据垃圾邮件过滤特点,通过对基于概率统计的贝叶斯理论的文本分类方法分析和探讨,引入基于向量空间模型中多变量贝努里事件模型的一种邮件自动过滤算法,并给出该算法的实现过程,完成垃圾邮件的分类与判别,最后给出邮件分类与过滤的实现流图。  相似文献   

10.
一种改进的基于VSM的文本分类算法   总被引:2,自引:0,他引:2  
在文本分类中,向量空间模型(VSM)是常用的文本表示形式,但是它把文本看作词袋,忽略了文本的结构信息。通过区别对待文本的不同部分来改进基本的向量空间方法:对于标题和段落首尾句采用核心词共现的方法来计算其对分类的作用;对其它部分采用基本的向量空间模型方法进行计算。对这两部分的计算结果进行加权求和,来综合判定文本的类别。对改进的文本分类方法进行了测试,实验结果表明改进的方法提高了分类的精确率、召回率和F1测试值。  相似文献   

11.
张曼  李弼程  林琛 《计算机工程》2008,34(11):270-272
在邮件服务端和邮件客户端,重复邮件浪费了大量资源。该文提出一种基于SHA-1的邮件去重算法,将邮件按大小分开处理,根据Hash值快速去除正文相同或相似的重复邮件。实验结果表明了该算法的有效性,其运行速度比传统方法快。  相似文献   

12.
随着信息技术的发展,企业检索已成为人们越来越关注的一个新的应用领域。作为企业检索的一个典型任务,企业内部的邮件检索是在企业中常常遇到的一个问题。企业内部存在着大量的可以公开访问的电子邮件,这些是企业重要的信息资源,如何高速有效地从这些邮件中检索到需要的信息具有很大意义。本文根据电子邮件本身具有的格式化特征和语义拓扑结构提出了基于电子邮件特征的检索模型。实验表明,该模型对电子邮件可以进行有效的检索,并且使用该模型在TREC2006电子邮件话题检索评测中取得了优异的性能成绩。  相似文献   

13.
基于Linux防火墙的内部邮件监控系统   总被引:2,自引:0,他引:2  
给出了一种分布式邮件监控系统的设计和实现方案.该方案的实现建立在Linux防火墙的基础上.采用了Netfilter构架中的ip queue机制获取流经网关的邮件,根据SMTP和POP3的协议特点提取邮件内容,利用文本分类技术对邮件内容进行监控.系统中广泛地使用了插件机制,明确地划分了实时处理和离线分析两大类操作的界限.针对文本分类器的特点,系统定义了简明的接口,使不同算法的分类器可以方便地整合到系统当中来.该方案的实施可以有效地监控流经网关的邮件.  相似文献   

14.
Email classification and prioritization expert systems have the potential to automatically group emails and users as communities based on their communication patterns, which is one of the most tedious tasks. The exchange of emails among users along with the time and content information determine the pattern of communication. The intelligent systems extract these patterns from an email corpus of single or all users and are limited to statistical analysis. However, the email information revealed in those methods is either constricted or widespread, i.e. single or all users respectively, which limits the usability of the resultant communities. In contrast to extreme views of the email information, we relax the aforementioned restrictions by considering a subset of all users as multi-user information in an incremental way to extend the personalization concept. Accordingly, we propose a multi-user personalized email community detection method to discover the groupings of email users based on their structural and semantic intimacy. We construct a social graph using multi-user personalized emails. Subsequently, the social graph is uniquely leveraged with expedient attributes, such as semantics, to identify user communities through collaborative similarity measure. The multi-user personalized communities, which are evaluated through different quality measures, enable the email systems to filter spam or malicious emails and suggest contacts while composing emails. The experimental results over two randomly selected users from email network, as constrained information, unveil partial interaction among 80% email users with 14% search space reduction where we notice 25% improvement in the clustering coefficient.  相似文献   

15.
为了改进传统以向量空间模型(VSM)为代表的基于词频统计的方法在中文段落相似度计算时存在的精度不高问题,在基于加权二部图匹配的思想上提出了一种计算中文段落之间相似度的方法。该方法将相似度计算分为段落和句子两个层次,将句子作为简单段落看待,也使用二部图匹配进行相似度计算。首先利用句子主干词汇提取算法来提取句子的主干词汇,将主干词汇作为二部图的顶点,把主干词汇之间的相似度作为二部图顶点之间的权值系数,进行句子相似度的计算。其次,将句子作为加权二部图的顶点,把句子之间的相似度作为二部图顶点之间的权值系数,进行段落之间的相似度计算。实验结果表明,该方法与VSM相比,由于它能准确识别同义词,自动匹配两个在段落中不同位置的相似词语,因而在准确度上有了很大的提高。  相似文献   

16.
Without imposing restrictions, many enterprises find nonwork-related contents consuming network resources. Business communication over emails thus incurs undesired delays and inflicts damages to businesses, explaining why many enterprises are concerned with the competition to use email services. Obviously, enterprises should prioritize business emails over personal ones in their email service. Therefore, previous works present content-based classification methods to categorize enterprise emails into business or personal correspondence. Accuracy of these methods is largely determined by their ability to survey as much information as possible. However, in addition to decreasing the performance of these methods, monitoring the details of email contents may violate privacy rights that are under legal protection, requiring a careful balance of accurately classifying enterprise emails and protecting privacy rights. The proposed email classification method is thus based on social features rather than a survey of emails contents. Social-based metrics are also designed to characterize emails as social features; the obtained features are treated as an input of machine learning-based classifiers for email classification. Experimental results demonstrate the high accuracy of the proposed method in classifying emails. In contrast with other content-based methods that examine email contents, the emphasis on social features in the proposed method is a promising alternative for solving similar email classification problems.  相似文献   

17.
Context‐based email classification requires understanding of semantic and structural attributes of email. Most of the research has focused on generating semantic properties through structural components of email. By viewing emails as events (as a major subset of class of email), a rich contextual test‐bed representation for understanding of the semantic attributes of emails has been devised. The event‐ based emails have traditionally been studied based on simple structural properties. In this paper, we present a novel approach by first representing such class of emails as graphs, followed by heuristically applying graph mining and matching algorithm to pick templates representing contextual and semantic attributes that help classify emails. The classification templates used three key event classes: social, personal and professional. Results show that our graph mining and matching supported template‐based approach performs consistently well over event email data set with high accuracy.  相似文献   

18.
原始邮件松散的结构和过于灵活的定义给应用程序分析带来了困难,为了给基于邮件的应用程序开发提供统一的结构化表示和统一管理各种消息,可以选择XML来标准化邮件.在对邮件的语法结构进行简要分析的基础上,分别给出了XML表示邮件头和邮件体的方法,该方法解决了复杂邮件实体结构的表示问题.还对这种表示方法的性能进行了分析.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号