首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 0 毫秒
1.
特征抽取是中文文本分类的重点和难点,文中比较了不同特征单元对分类性能的影响,将字特征与词特征相结合以期更好地表现文本特征。并在构建的实验系统中比较了不同特征单元的分类准确性,发现采用混合特征来进行分类,能得到较好的分类效果。  相似文献   

2.
基于多特征选择的中文文本分类   总被引:1,自引:0,他引:1  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

3.
董梅  胡学钢 《微机发展》2007,17(7):117-119
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

4.
本文以比较购物搜索中的商品数据自动分类为应用背景,探讨短文本数据的分类问题,比较了常用的文本分类(Text Categorization)算法的特点,在此基础上提出k-NN与NB相结合的多分类器方案,对于NB算法分类不可信的情况下改用k-NN算法进行再次分类,并充分利用NB的中间结果供k-NN剪枝时作参考。实验数据表明该方法在与NB相近的时间复杂度下可明显地提高短文本分类的正确率和召回率,达到实际应用的要求。  相似文献   

5.
提出了一种基于字特征的中文文本分类方法。该方法的出发点是变常用的基于表层的匹配为基于概念的匹配,用汉字特征向量作为文本的表示方法。算法根据文本中汉字的特征建立文本表示矩阵和类别表示矩阵,并通过线性最小二乘算法形成分类矩阵。  相似文献   

6.
给出一种与文档段落结构相关联的文本分类神经网络模型。描述神经网络的训练算法,包括正向传播算法和反向修正算法。对于算法的主要步骤,给出了更详细计算方法。最后给出了神经网络模型性能测试结果。  相似文献   

7.
该文介绍了文本分类的定义,主要的特征选择方法,文本表示的向量空间模型,分类效果的评价指标。  相似文献   

8.
重点研究了文本的特征提取,通过对互信息和χ2统计的研究,根据其各自的缺陷,提出了一种新的特征提取算法--联合特征提取算法(CEFA).通过CEFA可以提取出更具代表性的特征项,利用粗糙集优越的约减性构造文本分类系统,提取决策规则,对文本进行分类.实验表明该方法分类准确度较高.  相似文献   

9.
为了高速度、高质量地浏览网络上的大量中文文本,提出了一种文本凹凸树结构的可视化浏览机制,并给出其彤式描述.通过以关键字和概念词典标注的最小概念集标识结点建立文本分类的层次树结构,为用户快速洲览文本提供有效路径.通过统计方法进行文本摘要抽取,按大纲、逻辑主题词段落和摘要洲览文本内容,提高了搜索查询速度与阅读效率,满足了用户快速、主动浏览文本的需求.  相似文献   

10.
文本分类是文本信息处理领域一个非常重要的研究方向,为了节省文本分类处理中所需的存储空间和运算时间,在分类之前用高效的算法减少所需分析的数据是非常必要的。该文介绍了一种文本分类中特征降维的方法。和传统的方法不同,该文所涉及的特征是从句子中提取的不同长度的词组,然后用比数比来对其进行特征选择。实验结果表明,该文提出的方法与传统方法相比,提高了文本分类的准确率。  相似文献   

11.
目前中文文本分类算法大多利用词语或词语映射为特征项的分类方式,未考虑中文语法语义的特点,导致分类性能较低。为此,提出中文文本的意群分类算法。通过中文依存句法分析结果制定规则提取意群,并作为特征项表示文本,进而采用支持向量机的方法对训练集进行学习,最终构建类别意群库对测试文本进行分类。实验结果表明,与基于词语的分类方法相比,意群分类算法在分类性能上平均提升3个百分点,平均查准率达到97%。  相似文献   

12.
使用最大熵模型进行文本分类   总被引:1,自引:0,他引:1  
最大熵模型是一种在广泛应用于自然语言处理中的概率估计方法。文中使用最大熵模型进行了文本分类的研究。通过实验,将其和Bayes、KNN、SVM三种典型的文本分类器进行了比较,并且考虑了不同特征数目和平滑技术对基于最大熵模型的文本分类器的影响。结果显示它的分类性能胜于Bayes方法,与KNN和SVM方法相当,表明这是一种非常有前途的文本分类方法。  相似文献   

13.
在T-C(term-category)双向四格表中,特征与文档类相互独立与它们互不相关是等价的.基于此,本文应用了两种新颖的独立性假设检验方法来度量特征与文档类的相关程度,从文本集特征空间中选择能够高度代表文档内容的特征子集用于文本分类.实验结果表明,把假设检验应用于文本分类特征选择中,有利于提高分类性能.  相似文献   

14.
一种应用向量聚合技术的KNN中文文本分类方法   总被引:3,自引:2,他引:3  
针对KNN文本分类方法中不考虑特征词关联的问题,提出一种改进方法.这种方法基于对体现词和类别问相关程度的CHI统计值分布的分析,应用向量聚合技术很好地解决了关联特征词的提取问题.其特点在于:聚合文本向量中相关联的特征词作为特征项,从而取代传统方法中一个特征词对应向量一维的做法,这样不但缩减了向量的维教,而且加强了特征项对文本分类的贡献.实验表明该方法明显提高了分类的准确率和召回率。  相似文献   

15.
靳小波  夏清国 《计算机工程》2006,32(2):175-176,222
David Lee从心理学的角度提出Lee模型并将其用于文本分类。该文将Lee模型引入Nafve Bayes和TFIDF中,比较了影响度和TF-IDF两种不同的文档表示方法对分类精度的影响,并对Lee模型的不同因素对算法的影响效果作了分析。结果表明影响度的文档表示方法比TF-IDF更好一些,启发式的部分读取策略能以较小的时间代价极大地改善分类算法的精度。  相似文献   

16.
文本分类技术研究   总被引:3,自引:2,他引:3  
文本分类是文本挖掘的基础和核心。文中系统地介绍了文本分类过程中涉及的各种关键技术,对特征表示、特征提取、文本分类方法及分类模型评估进行了较为详细地论述。最后,提出了文本分类中存在的问题及今后的发展。  相似文献   

17.
文本分类综述   总被引:3,自引:0,他引:3  
靳小波 《自动化博览》2006,23(Z1):24-29
1文本分类的背景和意义上世纪九十年代以来,因特网以惊人的速度发展起来,它容纳了海量的各种类型的数据和信息,包括文本、声音、图像等。文本数据与声音和图像数据相比,占用网络资源少,更容易上传和下载,这使得网络资源中的大部分是以文本(超文本)形式出现的。如何从这些浩瀚的文本中发现有价值的信息是信息处理的一大目标。基于机器学习的文本分类系统能够在给定的分类模型下,根据文本的内容自动对文本分门别类,从而更好地帮助人们组织文本、挖掘文本信息,因此得到日益广泛的关注,成为信息处理领域最重要的研究方向之一。2文本分类的研究历…  相似文献   

18.
文本分类中的特征选取   总被引:21,自引:0,他引:21  
刘丽珍  宋瀚涛 《计算机工程》2004,30(4):14-15,175
研究了文本分类学习中的特征选取,主要集中在大幅度降维的评估函数,因为高维的特征集对分类学习未必全是重要的和有用的。还介绍了分类的一些方法及其特点。  相似文献   

19.
使用KNN算法的文本分类   总被引:30,自引:2,他引:30  
张宁  贾自艳  史忠植 《计算机工程》2005,31(8):171-172,185
介绍了数据挖掘的一个分枝——文本自动分类的相关技术,在对数据进行预处理的基础上,实现了K最近邻居分类算法,并结合实验结果对数据预处理在文本分类中的重要性进行了讨论。  相似文献   

20.
文本分类中的特征抽取   总被引:52,自引:3,他引:52  
特征提取是用机器学习方法进行文本分类的重点和难点。文中比较了目前几种最常用的特征抽取方法,提出了一种改进型的互信息特征抽取方法,并在构建的实验系统中比较了这几种特征抽取方法,发现改进的特征抽取方法是有效可行的。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号