首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
一种基于向量空间模型的邮件自动过滤算法研究   总被引:1,自引:0,他引:1  
肖旻 《福建电脑》2006,(8):12-13
对于垃圾邮件的判别和处理的研究,正逐渐成为热点。本文根据垃圾邮件过滤特点,通过对基于概率统计的贝叶斯理论的文本分类方法分析和探讨,引入基于向量空间模型中多变量贝努里事件模型的一种邮件自动过滤算法,并给出该算法的实现过程,完成垃圾邮件的分类与判别,最后给出邮件分类与过滤的实现流图。  相似文献   

2.
曾超  吕钊  顾君忠 《计算机应用》2008,28(12):3248-3250
提出了一个基于概念向量空间模型的电子邮件分类方法。在提取电子邮件特征向量时,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,从而建立电子邮件的概念向量空间模型作为电子邮件的特征向量。使用TF*IWF*IWF方法对概念向量进行权值修正,最后通过简单向量距离分类方法来确定电子邮件的类别。实验结果表明,当训练集合数目有限时,该方法能够有效提高电子邮件的分类准确率。  相似文献   

3.
基于内容粘合性的邮件分类   总被引:1,自引:0,他引:1  
廖玲  文敦伟 《计算机仿真》2008,25(2):121-123
电子邮件分类一般采用向量空间模型来表示邮件,但是该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征,从而使得特征向量不能准确地表示邮件的内容.针对目前向量空间模型出现的这种缺陷,文中将粘合性衡量方法提取n-gram的思想运用于文本表示当中,对词的权重进行赋值,并以此模型设计了一个邮件分类系统,由于粘合性方法考虑到了邮件的结构特征,实例证明,这种方法能够提高系统的分类精确度.  相似文献   

4.
黄剑韬 《计算机应用》2011,31(Z2):67-69
为了降低基于向量空间模型(VSM)的文本分类方法的向量维数,并减少噪声对分类的影响,现利用商空间的粒度理论对基于VSM的分类模型进行改进,提出了一种基于商空间的新的VSM分类方法,该方法降低了基于VSM文本分类的向量维数,提高了不同文本之间的辨别能力.  相似文献   

5.
基于WordNet概念向量空间模型的文本分类   总被引:5,自引:0,他引:5  
文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表明,当训练文本集合很小时,方法能够较大地提高文本的分类准确率。  相似文献   

6.
基于向量空间模型的贝叶斯文本分类方法   总被引:2,自引:0,他引:2  
提出基于向量空间模型的贝叶斯文本分类方法。首先提取出文本训练集的特征词,建立特征向量空间模型。然后采用贝叶斯文本分类方法对未知类别文档进行分类。给出了贝叶斯文本分类方法过程的详细描述和文本分类的一个测试实例。  相似文献   

7.
根据试题具有一般文本的特点,提出把计算机分类技术应用于试题分类.借鉴文本分类的关键技术,成功创建了一个基于向量空间模型的试题分类系统.把全国专业技术人员计算机应用能力考试的"PowerPoint 2003中文演示文稿"模块题库作为试题语料,进行试题分类实验,结果表明了该试题分类系统的可靠性.同时探讨了如何利用试题分类系统对题库进行质量控制.  相似文献   

8.
邮件过滤是指从大量的邮件中过滤掉含有无用信息的垃圾邮件,以帮助用户得到所需的有用邮件。本文将介绍一个基于向量空间模型的OUTLOOK邮件过滤器的设计与实现,它包含了邮件过滤和训练两个子系统,其过滤方法还对传统的向量空间模型法做了改进,使之更适合于垃圾邮件过滤。  相似文献   

9.
一个基于向量空间模型的中文文本自动分类系统   总被引:33,自引:2,他引:33  
介绍了一个基于向量空间模型的中文文本自动分类系统,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。实践表明:该系统对文本分类具有较高的平均查全率和平均精度。  相似文献   

10.
基于向量空间模型的多主题Web文本分类方法   总被引:2,自引:0,他引:2  
对给定的网页,提取其特征向量,计算网页特征向量与分类特征向量的相似度,使用K-means聚类方法寻找归属类得到动态阈值,提出了一种基于动态阈值的向量空间模型多主题Web文本分类方法.该方法通过网页与每个类的相似度和动态阈值的比较,实现了将包含多个主题的网页划分到相应的多个类中.实验证明,这种方法具有较好的精确度和召回率.  相似文献   

11.
基于文本挖掘的邮件分类与过滤   总被引:6,自引:0,他引:6  
该文提出一种基于文本挖掘的邮件分类与过滤的方法,它包括邮件采集与预处理、文本分词、特征选取、邮件分类器和过滤器等功能模块。该系统不仅可使邮件服务器具有自动过滤垃圾邮件的能力,也可以用于电子政务和电子商务,对邮件自动分类和转发。  相似文献   

12.
基于归一化向量的文本分类算法   总被引:1,自引:0,他引:1       下载免费PDF全文
基于归一化思想和矩阵投影运算提出一种文本分类算法。该算法综合考虑单个类别内的文档频率和词频,用于进行矩阵投影运算。将训练样例中表示文本特征的三维空间投影到二维空间上,得到归一化的特征向量,可有效地达到降低特征空间维数、提高分类效率和精度的目的。与kNN算法的对比实验表明,该算法在时间性能和精度上都有较大提高。  相似文献   

13.
基于概念空间的文本分类研究   总被引:3,自引:0,他引:3  
1.引言随着文本信息的快速增长,特别是Internet上在线信息的增加,文本(网页)自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。文本分类的方法分为两类:一是基于知识的分类方法;二是基于统计的分类方法。基于知识的文本分类系统应用于某一具体领域,需要该领域的知识库作为支撑。由于知识提取、更新、维护以及自我学习等方面存在的种种问题,使得它适用  相似文献   

14.
把计算生物学中DNA序列分析的一种方法应用到文本分类中,通过分析文档集所产生的可描述类别内在特征的特征序列,给出了一种文本分类方法SSAM,并在Reuters21578数据集上和其它几种常见分类方法的分类效果进行了比较,实验结果显示SSAM的分类效果优于传统的贝叶斯方法,而且具有较快的分类速度。  相似文献   

15.
王丽侠 《微机发展》2005,15(9):42-44,47
研究了邮件过滤的主要方法,提出了将Agent技术、粗糙集和最小风险的Bayes分类方法结合的邮件过滤及个性化分类模型。该模型首先利用粗糙集方法对邮件样本向量空间进行约简,然后利用已知样本对最小风险的Bayes分类器进行训练,得到具有智能分类功能的邮件分类器,利用该分类器过滤掉用户不感兴趣的邮件,并利用Agent学习用户的个性化知识,最后利用学习的知识将用户感兴趣邮件进行再分类。  相似文献   

16.
Email自动分类已成为半结构化文本信息自动处理的研究热点。本文在时已有Email自动分类方法深入研究的基础上,提出了一种基于SVM和领域综合特征的Email自动分类方法。主要包括:一是将SVM引入到Email自动分类研究中,并对SVM学习算法中的核函数和参数选择进行了探讨;二是鉴于词频的特征表示方法难以准确表示Email主要内容,因此将领域知识引入Email特征表示中,并在此基础上提出了一种综合领域知识和词频的特征表示方法,用于Email分类。该方法是在词频特征的基础上加入人工总结出的领域特征,从而更能准确地表示Email的主要内容,以提高Email分类的平均F-score。通过实验,验证了基于SVM和领域综合特征的Email自动分类方法能有效地提高Email自动分类处理的准确性。  相似文献   

17.
基于自动分类的网页机器人   总被引:2,自引:0,他引:2  
康平波  王文杰 《计算机工程》2003,29(21):123-124,127
随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。WWW上的网页抓取器,又称Robot讨论了抓取器与文本自动分类器相结合,对用户要求领域网页的收集。抓取器找到相关链接进行抓取,而避免对非相关链接的抓取。这样可以节省硬件、网络资源和提高抓取器的效率。  相似文献   

18.
基于领域知识的专利自动分类   总被引:5,自引:1,他引:5  
根据改进的词语权重计算方法构造给定文本的特征向量,并用之从专利分类的领域知识——国际分类表IPC中直接提取类别的概念向量和待分类专利文本的特征向量,然后采用向量空间模型实现专利的自动分类,该方法不需要大量的训练样本,具有较高的分类正确率和执行速度。  相似文献   

19.
基于自动分类的搜索引擎过滤系统   总被引:2,自引:0,他引:2  
随着互联网的普及和发展,网络上的信息资源越来越丰富,如何高效、准确地获得包含用户所需的信息的网页资源,日益成为需要迫切解决的问题。目前搜索引擎返回的搜索结果往往涉及很多领域,而且是大量的,用户从中找到自己所感兴趣的内容往往很困难。利用自动分类器对搜索引擎的返回结果进行分类,以提高检索效率和准确性,方便用户使用。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号