首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
特征词的选取与文本表示是文本分类信息预处理的核心问题之一,鉴于此,论文提出一种改进的加权连续词袋模型(CBOW)与基于注意力机制的双向长短期记忆网络模型(BI-LASM-ATT)应用于文本分类研究.该模型以词频作为特征选择依据,改进了频次与反频次,利用加权CBOW模型得到词向量表示,作为BI-LSTM-ATT模型的词嵌入层,得到Soft-max分类器分类结果.论文在复旦大学提供的语料集的实验结果表明,该模型在文本分类的精确率、召回率、F_meature效果对比中,比传统机器学习和深度学习算法均有明显提高.  相似文献   

2.
文本的表示与文本的特征提取是文本分类需要解决的核心问题,基于此,提出了基于改进的连续词袋模型(CBOW)与ABiGRU的文本分类模型。该分类模型把改进的CBOW模型所训练的词向量作为词嵌入层,然后经过卷积神经网络的卷积层和池化层,以及结合了注意力(Attention)机制的双向门限循环单元(BiGRU)神经网络充分提取了文本的特征。将文本特征向量输入到softmax分类器进行分类。在三个语料集中进行的文本分类实验结果表明,相较于其他文本分类算法,提出的方法有更优越的性能。  相似文献   

3.
该文提出了基于维基百科类别体系的文本特征表示方法,方法是将文本中的词映射到维基百科的类别体系中,使用类别作为特征来对文本进行表示。基于维基类别的文本特征表示方法可以增强文本特征表示能力,降低文本特征空间维数。针对维基百科条目在语料中覆盖度不足的问题,该文提出了一种基于全局信息自学习维基百科类别的方法。该文构造基于维基百科类别为文本表示的分类系统,实验结果证明,基于维基百科类别作为文本表示特征,相对于词袋模型,具有明显的降维效果,在当特征数量较少时(如:<700),分类的F1值提高了5.14%。  相似文献   

4.
提出了一种基于字特征的中文文本分类方法。该方法的出发点是变常用的基于表层的匹配为基于概念的匹配,用汉字特征向量作为文本的表示方法。算法根据文本中汉字的特征建立文本表示矩阵和类别表示矩阵,并通过线性最小二乘算法形成分类矩阵。  相似文献   

5.
基于特征相关性的汉语文本自动分类模型的研究   总被引:17,自引:1,他引:17  
本文提出一种基于预定义类别与文本特征之间相关性的自动分类算法,并在文中详细阐述了汉语文本自动分类模型的设计与实现过程。为测试分类模型实现性能,建立具有12类别的分类体系,并构造包含近500篇汉语新闻语料的测试集。实验结果表明,评价自动分类算法的两个重要指标:查全率和查准率,都比较令人满意。  相似文献   

6.
基于LSA和SVM的文本分类模型的研究   总被引:1,自引:0,他引:1  
为了提高文本分类的准确性,研究并设计了一个基于潜在语义分析和支持向量机的多类文本分类模型.利用潜在语义分析进行特征抽取,消除多义词和同义词在文本表示时造成的偏差,并实现文本向量的降维.使用具有良好分类精度和泛化能力的支持向量机进行分类,提出一种改进的一对一多类分类算法,改善不可分问题.实验结果表明,该模型在类别数目较少时具有较好的分类效果.  相似文献   

7.
基于类别特征向量表示的中文文本分类算法*   总被引:1,自引:0,他引:1  
采用一种无须分词的中文文本分类方法,以二元汉字串表示文本特征,与需要利用词典分词的分类模型相比,避免了分词的复杂计算;为提高以bi-gram项表示文本特征的分类算法的准确率,提出了基于类别特征向量表示的中文文本分类算法.通过实验结果及理论分析,验证了该算法的有效性.  相似文献   

8.
基于隐马尔可夫模型的文本分类算法   总被引:2,自引:0,他引:2  
杨健  汪海航 《计算机应用》2010,30(9):2348-2350
自动文本分类领域近年来已经产生了若干成熟的分类算法,但这些算法主要基于概率统计模型,没有与文本自身的语法和语义建立起联系。提出了将隐马尔可夫序列分析模型(HMM)用于自动文本分类的算法,首先构造表示文档类别的特征词集合,并以文档类别的特征词序列作为不同HMM分类器的观察序列,而HMM的状态转换序列则隐含地表示了不同类别文档内容的形成演化过程。分类时,具有最大生成概率的HMM分类器类标即为测试文档的分类结果。该算法构造的分类器模型一定程度上体现了不同类别文档的语法和语义特征,并可以实现多类别的自动文本分类,分类效率较高。  相似文献   

9.
董梅  胡学钢 《微机发展》2007,17(7):117-119
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

10.
基于多特征选择的中文文本分类   总被引:1,自引:0,他引:1  
自动文本分类就是在给定的分类体系下,让计算机根据文本的内容确定与它相关联的类别。特征选择作为文本分类中的关键,困难之一是特征空间的高维性,因此寻求一种有效的特征选择方法,降低特征空间的维数,成为文本分类中的重要问题。在分析已有的文本分类特征选择方法的基础上,实现了一种组合不同特征选择方法的多特征选择方法,应用于KNN文本分类算法,实验表明,多特征选择方法分类效果比单一的特征选择方法分类效果有明显的提高。  相似文献   

11.
There are two important strategies incomputer-assisted reading and analysis of text(CARAT). The first relates to theclassification process, and the second pertainsto the categorisation process. These twooften-interrelated operations have beenregularly recognised as essential components oftext analysis. However, the two operations arehighly time-consuming. A possible solution tothis problem calls upon more inductive orbottom-up strategies that are numerical andstatistical in nature. In our own research, wehave been exploring a few of these techniquesand their combination. We now know, through ourown past research and others' work, that theclassification methods allow a good empiricalthematic exploration of a corpus. Morespecifically, in this paper we shallconcentrate on the problem of assisting theautomatic categorisation of small segments of aphilosophical text into a set of thematiccategories.  相似文献   

12.
设计一个有效地基于朴素贝叶斯的中文海事文本多分类器。在文本分类的预处理步骤中,在中文分词上选取领域词典和停用词典有效地降低特征维数、选取IG特征提取方法、改进的TF-IDF公式中特征词权重的计算方法,以建立词频矩阵等,最后用选取的海事样本数据进行训练建立分类库。实验数据表明,本文的基于朴素贝叶斯的中文海事文本多分类器具有很好的高效性和准确性。  相似文献   

13.
构建的专利自动分类模型,利用国际专利分类号自身的类别信息建立类别特征词原始集合,结合现有专利进行扩充训练.计算待分类专利中所有类别的特征词频率向量,进而判断专利与各类别的关联程度,实现专利的自动分类.实验结果显示,该模型的分类效果在大类、小类层次上较好.  相似文献   

14.
中文文本分类中利用依存关系的实验研究   总被引:1,自引:0,他引:1       下载免费PDF全文
为了利用依存关系进行短文本分类,研究了利用依存关系进行短文本分类存在的四个关键问题。分别在长文本语料集和两个短文本语料集上,抽取具有依存关系的词对,并利用这些词对作为特征进行分类实验。实验结果表明:依存关系能够作为有效的特征进行文本分类,并能够改善文本分类的性能;单独把依存关系作为特征,不能提高短文本的分类性能;可以利用依存关系作为特征扩充的手段,增加短文本的特征,增强短文本的描述能力,进而进行有效的短文本分类。  相似文献   

15.
利用CHI值特征选取和前向神经网络的覆盖算法,通过对文本进行分词的预处理后,实现文本的自动分类。该方法利用CHI值进行特征选取即特征降维,应用覆盖算法进行文本分类。该方法将CHI值特征选取和覆盖算法充分结合,在提高了分类速度的同时还保证了分类的准确度。应用该方法对标准数据集中的文本进行实验,并在不同的维数上与SVM算法、朴素贝叶斯方法的实验结果进行了比较。结果表明,与SVM算法和朴素贝叶斯方法相比较,覆盖算法在准确度上更好。并且,维数的选择对分类的精确度影响很大。  相似文献   

16.
在保证文本分类准确率的情况下缩短分类时间一直是文本分类领域的一个研究目标。针对目前文本分类处理过程复杂且耗时过长的问题,将Facebook开源的句子分类和单词特征学习模型fastText引入到中文文本分类领域中,并验证其在中文分类中的效果。相对于目前主流的文本分类方法,基于fastText模型的分类方法在保证分类效果的同时,大大缩短了分类时间。此外,在分类准确率和参数设置方面进行分析并得出相应的优化规则。  相似文献   

17.
文本挖掘是对具有丰富语义的文本进行分析从而发现隐含的,令人感兴趣的,有潜在使用价值知识的过程,是数据挖掘的一个新兴主题。本文首先介绍数据挖掘的定义及其发展,进而叙述文本挖掘的含义,回顾国内外文本挖掘的研究现状,着重论述文本分类与文本聚类的一般过程并指出它们的区别之处。最后指出中文文本挖掘的特点,展望了今后的研究目标。  相似文献   

18.
文本挖掘是对具有丰富语义的文本进行分析从而发现隐含的,令人感兴趣的,有潜在使用价值知识的过程,是数据挖掘的一个新兴主题。本文首先介绍数据挖掘的定义及其发展,进而叙述文本挖掘的含义,回顾国内外文本挖掘的研究现状,着重论述文本分类与文本聚类的一般过程并指出它们的区别之处。最后指出中文文本挖掘的特点,展望了今后的研究目标。  相似文献   

19.
文本分类是Internet文本信息处理的基础,该文通过对传统文本分类方法的研究,如支持向量机理论、多组判别分析、贝叶斯方法和中心向量法等分类方法,观察到分类器对于不同类别的文本其区分程度有所不同,因此提出了一种基于综合评价方法的多分类器决策机制。在参数训练过程中,引入了最优化理论中的直接搜索方法,形成一个容纳多个分类器的容器,它是各个分类器的最优化的组合,旨在获得最佳的分类精度。通过实验验证,得到了比较理想的分类效果。  相似文献   

20.
姜倩  刘曼 《计算机系统应用》2020,29(10):248-254
细粒度的图片分类是深度学习图片分类领域中的一个重要分支,其分类任务比一般的图片分类要困难,因为很多不同分类图片中的特征相似度极高,没有特别鲜明的特征用以区分,因而需要优化一个传统的图片分类方法.在一般的图片分类中,通常通过提取视觉以及像素级别的特征用来训练,然而直接应用到细粒度分类上并不太适配,效果仍有待提高,可考虑利用非像素级别的特征来加以区分.因此,我们提出联合文本信息和视觉信息作用于图片分类中,充分利用图片上的特征,将文本检测与识别算法和通用的图片分类方法结合,应用于细粒度图片分类中,在Con-text数据集上的实验结果表明我们提出的算法得到的准确率有显著的提升.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号