共查询到19条相似文献,搜索用时 62 毫秒
1.
一种基于向量空间模型的邮件自动过滤算法研究 总被引:1,自引:0,他引:1
对于垃圾邮件的判别和处理的研究,正逐渐成为热点。本文根据垃圾邮件过滤特点,通过对基于概率统计的贝叶斯理论的文本分类方法分析和探讨,引入基于向量空间模型中多变量贝努里事件模型的一种邮件自动过滤算法,并给出该算法的实现过程,完成垃圾邮件的分类与判别,最后给出邮件分类与过滤的实现流图。 相似文献
2.
3.
基于内容粘合性的邮件分类 总被引:1,自引:0,他引:1
电子邮件分类一般采用向量空间模型来表示邮件,但是该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征,从而使得特征向量不能准确地表示邮件的内容.针对目前向量空间模型出现的这种缺陷,文中将粘合性衡量方法提取n-gram的思想运用于文本表示当中,对词的权重进行赋值,并以此模型设计了一个邮件分类系统,由于粘合性方法考虑到了邮件的结构特征,实例证明,这种方法能够提高系统的分类精确度. 相似文献
4.
为了降低基于向量空间模型(VSM)的文本分类方法的向量维数,并减少噪声对分类的影响,现利用商空间的粒度理论对基于VSM的分类模型进行改进,提出了一种基于商空间的新的VSM分类方法,该方法降低了基于VSM文本分类的向量维数,提高了不同文本之间的辨别能力. 相似文献
5.
基于WordNet概念向量空间模型的文本分类 总被引:5,自引:0,他引:5
文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表明,当训练文本集合很小时,方法能够较大地提高文本的分类准确率。 相似文献
6.
基于向量空间模型的贝叶斯文本分类方法 总被引:2,自引:0,他引:2
提出基于向量空间模型的贝叶斯文本分类方法。首先提取出文本训练集的特征词,建立特征向量空间模型。然后采用贝叶斯文本分类方法对未知类别文档进行分类。给出了贝叶斯文本分类方法过程的详细描述和文本分类的一个测试实例。 相似文献
7.
根据试题具有一般文本的特点,提出把计算机分类技术应用于试题分类.借鉴文本分类的关键技术,成功创建了一个基于向量空间模型的试题分类系统.把全国专业技术人员计算机应用能力考试的"PowerPoint 2003中文演示文稿"模块题库作为试题语料,进行试题分类实验,结果表明了该试题分类系统的可靠性.同时探讨了如何利用试题分类系统对题库进行质量控制. 相似文献
8.
邮件过滤是指从大量的邮件中过滤掉含有无用信息的垃圾邮件,以帮助用户得到所需的有用邮件。本文将介绍一个基于向量空间模型的OUTLOOK邮件过滤器的设计与实现,它包含了邮件过滤和训练两个子系统,其过滤方法还对传统的向量空间模型法做了改进,使之更适合于垃圾邮件过滤。 相似文献
9.
10.
11.
基于文本挖掘的邮件分类与过滤 总被引:6,自引:0,他引:6
该文提出一种基于文本挖掘的邮件分类与过滤的方法,它包括邮件采集与预处理、文本分词、特征选取、邮件分类器和过滤器等功能模块。该系统不仅可使邮件服务器具有自动过滤垃圾邮件的能力,也可以用于电子政务和电子商务,对邮件自动分类和转发。 相似文献
12.
13.
基于概念空间的文本分类研究 总被引:3,自引:0,他引:3
1.引言随着文本信息的快速增长,特别是Internet上在线信息的增加,文本(网页)自动分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。文本分类的方法分为两类:一是基于知识的分类方法;二是基于统计的分类方法。基于知识的文本分类系统应用于某一具体领域,需要该领域的知识库作为支撑。由于知识提取、更新、维护以及自我学习等方面存在的种种问题,使得它适用 相似文献
14.
15.
研究了邮件过滤的主要方法,提出了将Agent技术、粗糙集和最小风险的Bayes分类方法结合的邮件过滤及个性化分类模型。该模型首先利用粗糙集方法对邮件样本向量空间进行约简,然后利用已知样本对最小风险的Bayes分类器进行训练,得到具有智能分类功能的邮件分类器,利用该分类器过滤掉用户不感兴趣的邮件,并利用Agent学习用户的个性化知识,最后利用学习的知识将用户感兴趣邮件进行再分类。 相似文献
16.
Email自动分类已成为半结构化文本信息自动处理的研究热点。本文在时已有Email自动分类方法深入研究的基础上,提出了一种基于SVM和领域综合特征的Email自动分类方法。主要包括:一是将SVM引入到Email自动分类研究中,并对SVM学习算法中的核函数和参数选择进行了探讨;二是鉴于词频的特征表示方法难以准确表示Email主要内容,因此将领域知识引入Email特征表示中,并在此基础上提出了一种综合领域知识和词频的特征表示方法,用于Email分类。该方法是在词频特征的基础上加入人工总结出的领域特征,从而更能准确地表示Email的主要内容,以提高Email分类的平均F-score。通过实验,验证了基于SVM和领域综合特征的Email自动分类方法能有效地提高Email自动分类处理的准确性。 相似文献
17.
基于自动分类的网页机器人 总被引:2,自引:0,他引:2
随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。WWW上的网页抓取器,又称Robot讨论了抓取器与文本自动分类器相结合,对用户要求领域网页的收集。抓取器找到相关链接进行抓取,而避免对非相关链接的抓取。这样可以节省硬件、网络资源和提高抓取器的效率。 相似文献
18.
19.
基于自动分类的搜索引擎过滤系统 总被引:2,自引:0,他引:2
随着互联网的普及和发展,网络上的信息资源越来越丰富,如何高效、准确地获得包含用户所需的信息的网页资源,日益成为需要迫切解决的问题。目前搜索引擎返回的搜索结果往往涉及很多领域,而且是大量的,用户从中找到自己所感兴趣的内容往往很困难。利用自动分类器对搜索引擎的返回结果进行分类,以提高检索效率和准确性,方便用户使用。 相似文献