首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 78 毫秒
1.
基于类别的特征选择算法的文本分类系统   总被引:1,自引:0,他引:1  
蒋伟贞  陶宏才 《计算机应用》2005,25(11):2658-2660
目前的索引词选择算法大多是基于词频的,没有利用训练样本中的类别信息,为此提出了一种新的基于类别的特征选择算法。该算法根据某个词是否存在于文档中导致该类文档相似度的区别,来确定该词区分不同文档的分辨力,以此分辨力作为选取关键词的重要度。以该算法为基础,设计了一个英文文本自动分类系统,并对该系统进行了测试和结果分析。  相似文献   

2.
层级分类概率句法分析   总被引:3,自引:0,他引:3  
对已有的句法分析中引入知识的方法进行了归纳分析,认为多种句法分析方法都可被看作是基于特征标记的分类,然后分析了其中的欠分类和过分类问题.在此基础上,提出一种层级分类短语结构文法和一种层级分类概率句法分析方法(hierarchically classified probabilistic context-free grammar),并设计了一种通过对实例进行聚类来消除句法规则的分类歧义方法.还进一步将层级分类扩展到概率上下文相关句法分析方法,利用上下文相关性的层级分类来解决引入上下文相关时的数据稀疏性问题.通过上述一系列方法有效地克服了过分类与前分类之间的矛盾.  相似文献   

3.
基于数据挖掘的文本自动分类仿真研究   总被引:1,自引:0,他引:1  
研究文本分类优化问题,文本是一种半结构化形式,特征数常高达几万,特征互相关联、冗余比较严重,影响分类的准确性.传统分类方法难以获得高正确率.为了提高文本自动分类正确率,提出了一种数据挖掘技术的文本自动分类方法.利用支持向量机对于特征相关性和稀疏性不敏感,能很好处理高维数问题的优点对单词对分类的贡献值进行计算,将对分类贡献相近单词合并成文本向量的一个特征项,采用支持向量机对特征项进行学习和分类.用文本分类库数据进行测试,结果表明,数据挖掘技术的分类方法,不仅加快了文本分类速度,同时提高文本分类准确率.  相似文献   

4.
基于向量空间模型的文本分类由于文本向量维数较高导致分类器效率较低.针对这一不足,提出一种新的基于簇划分的文本分类方法.其主要思想是根据向量空间中向量间的距离,将训练文档分成若干簇,同一簇中的文档具有相同类别.测试时,根据测试文档落入哪个簇,确定文档的类别,并且和传统的文本分类方法k-NN进行了比较.实验结果表明,该方法在高维空间具有良好的泛化能力和很好的时间性能.  相似文献   

5.
针对韵律间断的层次性,提出了一种层次韵律间断分类方法。该方法能够充分利用韵律结构层次性,同时又能够充分利用来自声学、词典以及语法方面的特征,对不同类型的韵律间断进行分类。通过在具有韵律标注库ASCCD上的实验,该算法在综合测试集上达到平均78.25%检测正确率。  相似文献   

6.
随着网络信息的迅猛发展 ,特别是Internet上在线信息的增加 ,文本自动分类系统成为重要的研究方向。本文首先描述了基于统计 (主要是向量空间模型 )的分类方法的优点和不足 ,然后重点综述了基于概念的文本自动分类的几种方法和实现技术 ,最后 ,文章给出了今后的研究方向。  相似文献   

7.
基于自动分类的网页机器人   总被引:2,自引:0,他引:2  
康平波  王文杰 《计算机工程》2003,29(21):123-124,127
随着互联网的普及和发展,网络上的信息资源越来越丰富,它需要高效智能的工具来完成信息资源的采集。WWW上的网页抓取器,又称Robot讨论了抓取器与文本自动分类器相结合,对用户要求领域网页的收集。抓取器找到相关链接进行抓取,而避免对非相关链接的抓取。这样可以节省硬件、网络资源和提高抓取器的效率。  相似文献   

8.
基于类别空间模型的文本分类系统的设计与实现   总被引:9,自引:1,他引:8  
从理论和应用的角度对文本信息的分类方法进行研究,提出类别空间模型的概念,用于描述词语和类别之间的关系,并实现了基于类别空间模型的文本分类系统。通过实验表明,该系统有效地提高了文本分类的正确率。  相似文献   

9.
该文介绍了文本分类的定义,主要的特征选择方法,文本表示的向量空间模型,分类效果的评价指标。  相似文献   

10.
基于类别选择的改进KNN文本分类   总被引:3,自引:0,他引:3  
特征高维性以及算法的泛化能力影响了KNN分类器的分类性能.提出了一种降维条件下基于类别的KNN改进模型,解决了k近邻选择时大类别、高密度样本占优问题.首先使用一种改进的优势率方法进行特征选择,随后使用类别向量对文本类别进行初步判定,最后在压缩后的样本集上使用KNN分类器进行分类.试验结果表明,提出的改进分类模型提高了分类效率.  相似文献   

11.
唐凯 《计算机工程与应用》2007,43(3):168-172,193
提出了一种以XML文件内在的分层结构为基础的文件分类方法,井与改良的VSM方击的实验结果进行了比较。和以往XML文件的分类方法不同的是.此方法更加注重XML文件特有的结构信息。首先利用TF-IDF方法针对XML文件非蛄构的信息产生一般特征集,然后再针对XML文件各个屡次重要性赋予一定的权重。从而产生层次特征集,然后根据一些领域知识,产生知识特征榘。将三个特征集结合起来对XML进行分类。试验结果表明,这种方法比改良的VSM方法在分类的准确性方面有大幅的提高。  相似文献   

12.
基于类别关键词的突发事件新闻文本分类方法   总被引:2,自引:0,他引:2  
对突发事件新闻领域的文本自动分类问题进行了研究,提出了一种基于用向量空间模型的基础上,充分考虑了类别关键词对于文本分类的特殊作用,并进行了实验.实验结果表明,加入类别关键词后,文本分类的精度有较大的提高,该方法具有一定的实用价值.  相似文献   

13.
在图像标注、疾病诊断等实际分类任务中,数据标记空间的类别通常存在着层次化结构关系,且伴随着特征的高维性.许多层次特征选择算法因不同的实际任务需求而提出,但这些已有的特征选择算法忽略了特征空间的未知性和不确定性.针对上述问题,提出一种基于ReliefF的面向层次分类学习的在线流特征选择算法OH_ReliefF.首先将类别...  相似文献   

14.
在针对电话语音的自动语种识别系统中,训练和测试语料之间存在不同说话人、信道等因素差异带来的不匹配,是影响识别性能提高的关键因素。为了消除此类影响,提出一种层次化空间分析方法,首先对前端部分MFCC+SDC特征进行HLDA(异方差线性判别分析),增大了语种各个类的类间差异;然后对经自适应得到含有冗余信息的GSV进行PCA特征选择,有效地去除了信道等冗余信息的干扰。实验结果表明,此方法能有效消除信道等噪声影响,从而提升了原有系统的识别性能。  相似文献   

15.
网页自动分类是解决互联网信息检索困难的有效方法.虽然有很多自动分类算法和系统,但是大部分此类算法注重如何将网页准确分到某个独立的类别里面,却忽略类别之间所组成的体系结构本身也具备的一些隐藏分类信息.同时,一般的分类算法每次分类都需要搜索所有的类别.针对这些缺点,提出了一种基于结构的单路径层次化网页分类算法,该分类方法利用类别之间具有树状结构这一特点,对类别中存在父子关系的类别间进行信息传递,使得每次分类只需要搜索树中一条路径而不用遍历所有树节点.实验结果证明,这种单路径搜索技术与相关的算法相比,在减少搜索节点的同时可以提高6%的准确度.  相似文献   

16.
一种基于图的层次多标记文本分类方法   总被引:1,自引:0,他引:1  
由于一个类别在层次树上可能存在多个镜像,基于层次树来进行分类可能会导致不一致性。一种自然的解决方法是采用图结构来描述类别关系,在现实生活中人们实际的描述方式也是如此。鉴于此,提出了一种直接基于图的层次多标记分类方法,称为GraphHMLTC。该方法利用有向无圈图的拓扑排序而非树的自顶向下的层次关系来确定类别之间的分类顺序,并且该拓扑序根据分类情形进行动态维护。实验表明,采用层次图分类的GraphHMLTC方法比非层次分类方法的代表之一BoosTexter.MH在较大程度上改善了分类精度。该工作体现了基于层  相似文献   

17.
为提高地板生产过程中分类处理的自动化程度及其快速性,提出了一种基于地板颜色特征的层次分类方法。在HSV色彩空间提取出地板的颜色矩特征,并给予色调特征数据以较高权重,降低纹理特征对分类的影响。在对未知样本分类时,利用预先建立的粗细两层分类依据库,采用最短距离决策、K-最近相邻对未知地板样本由粗到细进行逐层判定。测试结果表明,该分层处理方案在保证较高的分类正确率(95.6%)的基础上,有效地减少了K-最近相邻的数据处理量。  相似文献   

18.
针对单一方法进行纹理图像分类时易受旋转、光照等干扰的情况,提出了一种结合颜色特征和纹理特征的共生纹理分类方法。将图像转换到HSV颜色空间后,对◢H◣通道使用SLIOP算法以及对◢S和V◣通道用CLBP算法提取特征,然后将各自提取到的特征进行串联共生,最后利用支持向量机对纹理图像进行分类。基于被广泛使用的纹理图像数据库,对提出方法与其他典型分类算法进行实验对比,分析表明在分类的准确率和计算效率上获得了较大提升。实验结果表明,提出了方法具有较强的旋转不变性、光照不变性以及抗噪性。  相似文献   

19.
一种改进的基于神经网络的文本分类算法   总被引:1,自引:0,他引:1  
提出并实现了一种结合前馈型神经网络和K最近邻的文本分类算法。其中,在选取特征项时考虑到Web文本不同标签组所代表的意义和权重有所区别,采用了一种改进的TFIDF特征选择法。最后对设计的分类器进行了开放性测试,实验结果表明该分类器显著地提高了文本分类的查全率和查准率。  相似文献   

20.
对文本分类中降维技术、提高分类精度和效率的方法进行了研究,提出了一种基于矩阵投影运算的新型文本分类算法——Matrix Projection(MP)分类算法。矩阵运算将训练样例中表示文本特征的三维空间投影到二维空间上,得到归一化向量,有效地达到了降维与精确计算特征项权重的目的。与其他多种文本分类算法对比实验表明,MP算法的分类精度和时间性能都有明显提高,在两套数据集上的宏平均F1值分别达到92.29%和96.03%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号