首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
互联网容纳了海量的文本信息,文本分类系统能够在给定的类别下,自动将文本分门别类,更好地帮助人们挖掘有用信息.介绍了基于词频分类器集成文本分类算法.该算法计算代价小,分类召回率高,但准确率较低,分析了导致准确率低的原因,在此基础上提出了基于改进词频分类器集成的文本分类算法,改进后的算法在文本权重更新方面做了参数调整,使得算法的准确率有显著提高,最后用实验验证了改进后算法的性能.实验结果表明,基于改进词频分类器集成的文本分类算法不仅提高了分类的准确性,而且表现出较好的稳定性.  相似文献   

2.
用Matlab语言建构贝叶斯分类器   总被引:2,自引:1,他引:2  
文本分类是文本挖掘的基础与核心,分类器的构建是文本分类的关键,利用贝叶斯网络可以构造出分类性能较好的分类器。文中利用Matlab构造出了两种分类器:朴素贝叶斯分类器NBC,用互信息测度和条件互信息测度构建了TANC。用UCI上下载的标准数据集验证所构造的分类器,实验结果表明,所建构的几种分类器的性能总体比文献中列的高些,从而表明所建立的分类器的有效性和正确性。笔者对所建构的分类器进行优化并应用于文本分类中。  相似文献   

3.
何峰  林亚丽 《福建电脑》2005,(1):4-5,16
介绍基于KNN的文本分类方法,分析KNN方法实质,基于隐含语义、特征聚合、强化文本中语义链属性因子和与检索相结合的迭代近邻法四种改进方法进行比较,给出涉及的关键技术。  相似文献   

4.
基于改进贝叶斯算法的入侵检测方法   总被引:2,自引:0,他引:2  
文桥  王卫平 《计算机工程》2006,32(12):160-162,165
贝叶斯分类模型是入侵检测中用于攻击类型分类的有力工具。在总结前人成果的基础上,提出了一个改进的贝叶斯模型,对朴素贝叶斯算法进行了改进,降低了朴素贝叶斯算法的强独立性假设,提高了入侵检测的分类精度,并通过试验对算法进行了验证和性能分析。同时,指出了下一步的研究方向。  相似文献   

5.
用模拟退火改进的KNN分类算法   总被引:2,自引:0,他引:2  
KNN(k Nearest Neighbor)算法是1种简单、有效、非参数的文本分类法,但缺点是样本相似度的计算量大,故不适用于有大量高维样本的文本。一方面,本文分析了KNN算法的优点和缺陷,采用了1种应用特征词提取和特征词聚合的方法来改进KNN算法在特征词提取方面的不足。另一方面,本文又深入研究了模拟退火算法思想,采用退火模拟思想的典型优化组方法和模拟退火算法原理来加快KNN算法的分类速度。最后,通过2种方法的加入改进了KNN分类算法。实验结果表明,本文提出的方法大大提高了分类算法的效率和性能。  相似文献   

6.
介绍了一个改进的基于贝叶斯分类技术的垃圾邮件过滤器的系统结构,完成了系统的整体设计和实现。提出了一种改进的邮件信息增益方法,选取多个样本进行实验比较分析,提高了贝叶斯分类器的性能。  相似文献   

7.
引入EM这一个经典的迭代算法,对EM算法进行具体的推导,并对算法的具体执行步聚做进一步的描述;接着对如今常用的几种文本分类的方法做了概括,重点分析Bayes分类方法,并将EM与Bayes分类方法进行结合,提高Bayes的分类精度,并在综述里对未来海量数据时代怎样来弥补EM算法的不足做简要的介绍.  相似文献   

8.
吴昱明  曹存根 《计算机科学》2008,35(11):139-143
基于模式的知识获取方法研究是当前文本知识获取的重点研究之一,如何获得文本知识模式是该研究中的一个重要研究内容。提出一种新的基于介词和动词模式(称为PV模式)的获取方法。首先构造出一个候选的动词介词组合(称为PV组合),使用统计方法对其进行过滤。度量PV组合好坏有两个标准:一个是模式词的表示能力,另一个是模式词与概念词之间及多个概念词之间的相关性。依据这两个标准构造了6个数值特征,通过训练产生了3个分类器,采用交叉验证的方式估计出3个分类器的精度分别达到0.853,0.862和0.856。这些分类器为从PV组合中自动挑选PV模式提供依据。  相似文献   

9.
KNN算法是文本自动分类领域中的一种常用算法,对于低维度的文本分类,其分类准确率较高。然而在处理大量高维度文本时,传统KNN算法由于需处理大量训练样本导致样本相似度的计算量增加,降低了分类效率。为解决相关问题,本文首先利用粗糙集对高维文本信息进行属性约简,删除冗余属性,而后用改进的基于簇的KNN算法进行文本分类。通过仿真实验,证明该方法能够提高文本的分类精度和准确率。  相似文献   

10.
提出一个文本分类器性能评价模型,对文本分类结果的可信度进行了估计,给出计算可信度的公式。将每一个子分类器的可信度指标用于Bagging集成学习算法,得到了改进的基于子分类器性能评价的Bagging算法(PBagging)。应用支持向量机作为子分类器基本模型,对日本共同社大样本新闻集进行分类。实验表明,与Bagging算法相比,PBagging算法分类准确率有了明显提高。  相似文献   

11.
针对不平衡数据分类问题,一种基于密度的近邻分类算法(DNN)被提出。它利用核密度估计敏锐地捕捉不平衡数据的局部分布特征,由此产生更好的分类结果。用核密度估计方法估计查询实例的各类别密度,以此对其进行密度定位;将原始数据空间中的点映射到由类别密度和距离信息构成的空间;在这个映射空间中动态地选择近邻并对查询实例进行分类。实验结果表明,DNN算法在15个不平衡数据集上分类性能良好。  相似文献   

12.
随着移动通信技术的不断发展,手机的普及率在不断上升,而短信作为传统的移动通信服务,长久以来一直在人们的日常生活中占据着极为重要的位置。可以说,短信在一定程度上记录了人们生活的轨迹。但是,现有的短信管理系统仅对短信进行以联系人为特征分类、以时间为顺序显示的简单非智能化的管理,导致了用户手机中各类短信混杂不清,短信的管理效率极低。通过研究短信的特征,分析传统的基于文档频率的特征值提取方法和基于互信息的特征值提取方法的优势与不足,提出了一种适用于短信的基于词频和互信息的特征值提取方法,并结合短信长度实现了一种改进的贝叶斯分类算法。实验证明,算法在进行短信分类时可以得到相当可观的召回率和准确率。  相似文献   

13.
本文介绍了基于KNN算法的文本分类流程及相关技术,针对KNN文本分类算法过分依赖K值和文本集分布情况的不足之处,提出了一种改进的KNN文本分类算法一类内均值KNN算法。通过实验表明,相对于传统的KNN算法,该算法提高了文本分类系统的稳定性和分类性能,具有一定的应用价值。  相似文献   

14.
林珣  李志蜀  周勇 《计算机科学》2011,38(11):239-240,263
文本分类是中文信息处理的重要研究领域。给文本分配一个或多个不同的类别,可提高文本检索和存储的处理效率。粗糙集是一种不需要任何先验信息的分类方法,通过对文本分词、过滤掉停用词之后把剩余的词语作为特征项,然后把文本用向量空间模型表示出来,将文本集转化成不带决策属性的信息系统,用粗糙集理论中核心内容属性约简实现对文本的分类。实验表明,该方法的查准率和查全率都有所提高。  相似文献   

15.
针对现有很多文本分类算法必须进行训练-测试-再训练的缺点以及通用模型的语法表现度较差等问题,提出一种改进的模糊语法算法(IFGA)。首先根据一些选取的文本片段建立学习模型,为了适应轻微变化,采用增量式模型;然后将选取的文本片段转化到底层架构中,即模糊语法。最后利用模糊联合操作将单个文本片段语法进行结合,并将所学习的文本片段转化成更加一般的表示。与决策表算法、朴素贝叶斯等算法进行了两组对比实验,第一个实验结果表明IFGA和其他机器学生算法性能并无明显差异。第二个实验结果说明增量式学习算法比标准机器学习算法更加具有优势。其性能较平稳,数据的尺寸影响更小。另外,提出的算法具有较低的模型重新训练时间。  相似文献   

16.
KNN(K-Nearest Neighbor)是向量空间模型中最好的文本分类算法之一。但是,当样本集较大以及文本向量维数较多时,KNN算法分类的效率就会大大降低。该文提出了一种提高KNN分类效率的改进算法。算法在训练过程中计算出各类文本的分布范围,在分类过程中,根据待分类文本向量在样本空间中的分布位置,缩小其K最近邻搜索范围。实验表明改进的算法可以在保持KNN分类性能基本不变的情况下,显著提高分类效率。  相似文献   

17.
不平衡数据在分类时往往会偏向"多数",传统过采样生成的样本不能较好的表达原始数据集分布特征.改进的变分自编码器结合数据预处理方法,通过少数类样本训练,使用变分自编码器的生成器生成样本,用于以均衡训练数据集,从而解决传统采样导致的不平衡数据引起分类过拟合问题.我们在UCI四个常用的数据集上进行了实验,结果表明该算法在保证准确率的同时提高了F_measureG_mean.  相似文献   

18.
基于粗糙集的快速KNN文本分类算法   总被引:1,自引:1,他引:1       下载免费PDF全文
传统K最近邻一个明显缺陷是样本相似度的计算量很大,在具有大量高维样本的文本分类中,由于复杂度太高而缺乏实用性。为此,将粗糙集理论引入到文本分类中,利用上下近似概念刻画各类训练样本的分布,并在训练过程中计算出各类上下近似的范围。在分类过程中根据待分类文本向量在样本空间中的分布位置,改进算法可以直接判定一些文本的归属,缩小K最近邻搜索范围。实验表明,该算法可以在保持K最近邻分类性能基本不变的情况下,显著提高分类效率。  相似文献   

19.
文本自动分类是信息检索和数据挖掘领域的研究热点和核心技术,但是在实际应用中,经常会出现文本实例中一些类中欧冠的文本很多,而另一些类中的文本较少的情况,而这些应用往往就是为了预测其中很少出现但很重要的文本,这就是所谓的文本分类不平衡问题。传统方法对少数类的识别率低,如何有效的提高少数类的分类性能成为机器学习和模式识别领域亟待解决的问题。因此,该文针对提高不平衡数据集中的少数类文本的分类性能之一问题,从数据层面处理的角度对数据进行重抽样。使用随机抽样的方法以提高分类器在非平衡数据集上的泛化性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号