首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
基于内容的邮件分类一般采用向量空间模型来表示邮件,该模型只是基于独立词在邮件内容中出现的频率来建立的,而并未考虑邮件的结构特征和词所在的上下文环境,这使得特征向量不能准确地表示邮件的内容,从而导致分类不够准确。文中提出了改进的向量空间模型,针对邮件特有的结构,以段落为分块单位,通过分析段落间的关系和段落中的内容来更改特征词的权重。以此模型设计了一个邮件分类系统,并对该系统进行了测试和结果分析。  相似文献   

2.
电子邮件给人们带来极大便利,但垃圾邮件的日益泛滥,也给人们带来了极大的不便和危害.传统的邮件过滤方法的过滤精度较低,不能很好满足需要.文中提出了一种基于向量空间模型的电子邮件过滤系统,并对向量空间模型进行了改进:采用字作为文本向量的特征表示,并且在字频向量的特征提取时采用了一种新的特征提取函数,从而提高了邮件分类的精度,达到了较好的过滤垃圾邮件的目的.  相似文献   

3.
基于词共现模型的垃圾邮件过滤方法研究   总被引:3,自引:1,他引:2  
垃圾邮件过滤就是对邮件做出是垃圾或非垃圾的判断。传统的表示邮件的方法是在向量空间模型基础上通过信息增益等特征选择方法提取一部分词来表示邮件内容,存在语义信息不足的问题。该文提出一种将传统方法和词共现模型结合起来表示邮件特征的新方法,再采用交叉覆盖算法对邮件进行分类得到邮件分类器。实验表明,该文提出的邮件过滤算法与传统方法相比提高了过滤性能,词共现选择的维度要比传统方法选择的维度更具有代表性。  相似文献   

4.
电子邮件过滤新方法的研究与实现   总被引:1,自引:0,他引:1  
谭汉松  杨盛 《微机发展》2005,15(5):152-154
电子邮件给人们带来极大便利,但垃圾邮件的日益泛滥,也给人们带来了极大的不便和危害。传统的邮件过滤方法的过滤精度较低,不能很好满足需要。文中提出了一种基于向量空间模型的电子邮件过滤系统,并对向量空间模型进行了改进:采用字作为文本向量的特征表示,并且在字频向量的特征提取时采用了一种新的特征提取函数,从而提高了邮件分类的精度,达到了较好的过滤垃圾邮件的目的。  相似文献   

5.
文本聚类中权重计算的对偶性策略   总被引:15,自引:0,他引:15  
卜东波  白硕  李国杰 《软件学报》2002,13(11):2083-2089
在文本聚类/分类处理中,一个重要步骤就是寻找文本的合理表示.在被广泛采用的向量空间模型中,一个文本被表示成一个向量,向量的各维是特征项,而向量空间模型的核心问题就是如何进行特征的抽取和选择.在特征的权重计算中,存在一种对偶性现象.利用迭代的方法来处理和利用这种对偶性,获得了文本的隐含概念.实验结果表明,采用概念空间代替原始词空间来表示文本,能够得到更好的聚类结果.  相似文献   

6.
基于数据挖掘的邮件分类识别研究   总被引:1,自引:0,他引:1  
在贝叶斯过滤技术的启发下,选择数据挖掘的方法来研究一种具有学习能力的邮件过滤技术.通过对电子邮件的分析和研究,提出对邮件结构字段信息和邮件正文信息加以离散和特征化处理,用向量的方式表示电子邮件,建立了一种基于信息熵的决策树邮件分类识别模型.  相似文献   

7.
融合描述文档结构和参引特征的Web 服务发现   总被引:1,自引:0,他引:1  
魏登萍  王挺  王戟 《软件学报》2011,22(9):2006-2019
首先分析研究Web服务描述文档(WSDL文档)的两大特征——结构特征和参引特征,然后根据各个特征对Web服务功能语义描述的影响,提出相应的Web服务表示模型——多向量表示模型.区别于通用文本表示模型,该模型能够显式地表示Web服务描述文档的本质特征.其中,结构特征语义表现在多向量空间的划分上,参引特征语义映射到子向量模型中特征权重的计算上.提出了基于多向量模型的Web服务相似度计算方法,并实现了基于该模型的Web服务发现原型系统.最后,在真实Web服务描述文档集合上构造了一个具有不完全相关性判断且涵盖了1576个WSDL文档的Web服务发现测试集,并在该测试集上进行了基于多向量模型的Web服务发现实验评估.实验结果表明,基于多向量模型的Web服务发现方法的检索效果比基于简单文本向量空间模型发现方法的检索效果在95%的置信度下有了显著提高.  相似文献   

8.
研究了邮件过滤的主要方法,提出了将Agent技术、粗糙集和最小风险的Bayes分类方法结合的邮件过滤及个性化分类模型.该模型首先利用粗糙集方法对邮件样本向量空间进行约简,然后利用已知样本对最小风险的Bayes分类器进行训练,得到具有智能分类功能的邮件分类器,利用该分类器过滤掉用户不感兴趣的邮件,并利用Agent学习用户的个性化知识,最后利用学习的知识将用户感兴趣邮件进行再分类.  相似文献   

9.
邮件分类学习算法需要大量标注样本,人工标记工作费时费力.此外邮件内容因其表达方式上的特殊性,其特征空间一般是稀疏的,这种稀疏性会影响分类处理的效果.为了节省标记训练集的时间和精力,同时更好地处理稀疏的邮件数据,引入自适应选择最佳密度半径球形k-means聚类(SSk-means)算法,作为支持向量机(SVM)的前端处理,将训练集扩展后再送入SVM分类器.实验结果与性能比较表明,在训练集只有极少量标记邮件和一定量未标记邮件的情况下,该分类算法的性能较一般SVM有很大的提高.  相似文献   

10.
肖明  刘乃琦 《福建电脑》2004,(11):37-38
随着互联网的快速发展,电子邮件已成为人们传递信息的一种重要手段,而垃圾邮件正成为互联网上的一棵毒瘤,严重阻碍了网络的正常发展。针对这种情况,本文给出了一个结合简单规则与基于支持向量机技术的邮件内容过滤模型,并对模型系统中用到邮件向量表示、降维处理,训练集修剪等算法进行了说明。初步实验表明,该模型具有较好过滤效果。  相似文献   

11.
一种改进的基于VSM的文本分类算法   总被引:2,自引:0,他引:2  
在文本分类中,向量空间模型(VSM)是常用的文本表示形式,但是它把文本看作词袋,忽略了文本的结构信息。通过区别对待文本的不同部分来改进基本的向量空间方法:对于标题和段落首尾句采用核心词共现的方法来计算其对分类的作用;对其它部分采用基本的向量空间模型方法进行计算。对这两部分的计算结果进行加权求和,来综合判定文本的类别。对改进的文本分类方法进行了测试,实验结果表明改进的方法提高了分类的精确率、召回率和F1测试值。  相似文献   

12.
基于中文变形词匹配的贝叶斯邮件过滤模型   总被引:1,自引:1,他引:0  
汪霞  郑宁  徐明  陈默 《计算机应用与软件》2010,27(1):105-107,130
针对特征词变异的中文垃圾邮件问题,提出了一种基于变形特征词匹配还原的新贝叶斯邮件过滤算法。改进的模型能自动发现邮件中的变异特征词,并根据对应的变异类型还原算法将其还原,避免了变异特征词的匹配逃脱。算法提高了对于含有拼音替换、同音字替换、符号插入等变形特征词样本的分类准确率。实验表明,改进的过滤算法比普通贝叶斯算法有更好的性能。  相似文献   

13.
文档表示模型是文本自动处理的基础,是将非结构化的文本数据转化为结构化数据的有效手段。然而,目前通用的空间向量模型(Vector Space Model,VSM)是以单个的词汇为基础的文档表示模型,因其忽略了词间的关联关系,导致文本挖掘的准确率难以得到很大的提升。该文以词共现分析为基础,讨论了文档主题与词的二阶关系之间的潜在联系,进而定义了词共现度及与文档主题相关度的量化计算方法,利用关联规则算法抽取出文档集上的词共现组合,提出了基于词共现组合的文档向量主题表示模型(Co-occurrence Term based Vector Space Model, CTVSM),定义了基于CTVSM的文档相似度。实验表明,CTVSM能够准确反映文档之间的相关关系,比经典的文档向量空间模型(Vector Space Model,VSM)具有更强的主题区分能力。  相似文献   

14.
基于知网的中文问题自动分类   总被引:15,自引:1,他引:15  
问答系统应能用准确、简洁的答案回答用户用自然语言提出的问题。问题分类是问答系统所要处理的第一步,分类结果的正确率直接影响后续工作的进行。本文提出了一种使用知网作为语义资源选取分类特征,并使用最大熵模型进行分类的新方法。该方法以问题的疑问词、句法结构、疑问意向词、疑问意向词在知网中的首义原作为分类特征。实验结果表明,在知网中选取的首义原能很好的表达问题焦点词的语义信息,可作为问题分类的一个主要特征。该方法能显著地提高问题分类的精度,大类和小类的分类精度分别达到了92.18%和83.86%。  相似文献   

15.
基于潜在局部区域空间关系学习的物体分类算法   总被引:1,自引:0,他引:1  
韩东峰  李文辉  郭武 《计算机学报》2007,30(8):1286-1294
提出了一种物体分类模型--潜在局部区域空间关系模型及实现算法.模型描述物体各部分间的潜在空间关系,将抗缩放和仿射变换的特征区域方法与模型相结合,采用变分期望值最大方法进行学习.与同类空间关系模型算法比较,该文模型算法具有以下优点:(1)为非监督式学习模型;(2)可抵抗几何变换;(3)模型为稠密模型;(4)模型描述的是一种潜在的空间关系,这种关系对物体具有更本质的描述.在标准测试图像库上的实验表明了该算法在抵抗平移、旋转、尺度缩放、仿射变换和部分遮挡等难点问题上具有优势.  相似文献   

16.
一种免疫克隆特征选择算法在文本分类中的应用   总被引:2,自引:0,他引:2  
如何选择最能够表达文本主题的特征词,从而减少特征空间维数,是文本分类的一个关键问题。针对此问题本文提出了一种基于向量空间模型(VSM)的免疫克隆特征选择算法。实验表明,该方法能有效提高文本分类正确率,比文档频率方法和遗传算法具有更明显的优势。  相似文献   

17.
给出了一个词共现改进的向量空间模型(Word Co-Occurrence Mode Based On VSM,WCBVSM)与模拟退火交叉覆盖算法(Cross Cover Algorithm Based On Simulated Annealing Algorithm,SACA)相结合的文本分类新模型。传统的向量空间模型(VSM)采用词条作为文档的语义载体,没有考虑文本上下文词语之间的语义隐含信息,在词共现模型的启发下,提出WCBVSM,它通过统计文本中的词共现信息,加入VSM,以获得文档隐含的语义信息。针对交叉覆盖算法中识别精度与泛化能力之间的一对矛盾,结合模拟退火算法的思想,提出了SACA,改进了传统交叉覆盖在覆盖初始点选取时的随机性,并通过增加每个覆盖所包含的样本点来减少覆盖数,从而增强了覆盖的泛化能力。实验结果表明提出的文本分类新模型在加快识别速度的基础上,提高了分类的精度。  相似文献   

18.
传统的文本分类都是根据文本的外在特征进行的,最常见的就是基于向量空间模型的方法,使用空间向量表示文本,通过相似度比较来确定分类。为了克服向量空间模型中的词条独立性假设,文章提出了一种基于潜在语义索引的文本分类模型,通过对大量的文本集进行统计分析,揭示了词语的上下文使用含义,通过奇异值分解有效地降低了向量空间的维数,消除了同义词、多义词的影响,从而提高了文本分类的精度。  相似文献   

19.
Traditional classification methods assume that the training and the test data arise from the same underlying distribution. However, in several adversarial settings, the test set is deliberately constructed in order to increase the error rates of the classifier. A prominent example is spam email where words are transformed to get around word based features embedded in a spam filter.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号