首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到16条相似文献,搜索用时 171 毫秒
1.
大数据时代,随着社交媒体的不断普及,在网络以及生活中,各类文本数据日益增长,采用文本分类技术对文本数据进行分析和管理具有重要的意义。文本分类是自然语言处理领域中的一个基础研究内容,在给定标准下,根据内容对文本进行分类,文本分类的场景应用十分广泛,如情感分析、话题分类和关系分类等。深度学习是机器学习中一种基于对数据进行表征学习的方法,在文本数据处理中表现出了较好的分类效果。中文文本与英文文本在形、音、象上都有着区别,着眼于中文文本分类的特别之处,对用于中文文本分类的深度学习方法进行分析与阐述,最终梳理出常用于中文文本分类的数据集。  相似文献   

2.
从CNN、RNN、CNN-RNN、GCN及其他深度学习方法五方面,全面分析了深度学习在短文本分类应用中的研究现状,比较了各自的优缺点,总结了常用的标签数据集。结果表明:目前深度学习在短文本分类中的应用研究主要集中在高效算法改进以及文本信息拓展两方面;对模型检验中构建标签数据集的研究也处于起步阶段,大多是针对影评、商品评论、新闻等特定领域的,还需不断完善;基于深度学习的短文本分类方法研究,今后在理论研究方面将重点关注算法改进、信息拓展以及二者的相互融合,在实践中探索某些分类效果较好的特定领域应用。  相似文献   

3.
牛钦 《计算机时代》2021,(6):19-21,25
场景文本检测是计算机视觉领域研究的主要方向.文章介绍了近几年深度学习技术在场景文本检测上的应用,包括对场景文本图像检测中存在问题的描述,对近些年场景文本检测算法的分类和分析,以及场景文本检测数据集的介绍.最后总结并展望了未来场景文本检测的发展趋势.  相似文献   

4.
文本分类作为自然语言处理中一个基本任务,在20世纪50年代就已经对其算法进行了研究,现在单标签文本分类算法已经趋向成熟,但是对于多标签文本分类的研究还有很大的提升空间。介绍了多标签文本分类的基本概念以及基本流程,包括数据集获取、文本预处理、模型训练和预测结果。介绍了多标签文本分类的方法。这些方法主要分为两大类:传统机器学习方法和基于深度学习的方法。传统机器学习方法主要包括问题转换方法和算法自适应方法。基于深度学习的方法是利用各种神经网络模型来处理多标签文本分类问题,根据模型结构,将其分为基于CNN结构、基于RNN结构和基于Transfomer结构的多标签文本分类方法。对多标签文本分类常用的数据集进行了梳理总结。对未来的发展趋势进行了分析与展望。  相似文献   

5.
基于余弦距离度量学习的伪K近邻文本分类算法   总被引:2,自引:0,他引:2  
距离度量学习在分类领域有着广泛的应用,将其应用到文本分类时,由于一般采用的向量空间模型(VSM)中的TF*IDF算法在对文本向量表达时向量均是维度相同并且归一化的,这就导致传统距离度量学习过程中采用的欧式距离作为相似度判别标准在文本分类领域往往无法取得预期的效果,在距离度量学习中的LMNN算法的启发下提出一种余弦距离度量学习算法,使其适应于文本分类领域,称之为CS-LMNN.考虑到文本分类领域中样本类偏斜情况比较普遍,提出采用一种伪K近邻分类算法与CS-LMNN结合实现文本分类,该算法首先利用CS-LMNN算法对训练数据进行距离度量学习,根据训练结果对测试数据使用伪K近邻分类算法进行分类,实验结果表明,该算法可以有效的提高分类精度.  相似文献   

6.
文本分类技术是自然语言处理领域的研究热点,其主要应用于舆情检测、新闻文本分类等领域。近年来,人工神经网络技术在自然语言处理的许多任务中有着很好的表现,将神经网络技术应用于文本分类取得了许多成果。在基于深度学习的文本分类领域,文本分类的数值化表示技术和基于深度学习的文本分类技术是两个重要的研究方向。对目前文本表示的有关词向量的重要技术和应用于文本分类的深度学习方法的实现原理和研究现状进行了系统的分析和总结,并针对当前的技术发展,分析了文本分类方法的不足和发展趋势。  相似文献   

7.
在互联网信息时代,文本数据呈指数增长,如何管理和分析海量的文本数据已经成为一项挑战。近年来,自然语言处理领域中的文本分类研究取得了很大突破。本文阐述了自然语言处理领域中研究文本分类任务中使用的方法及研究进展和成果,介绍了从传统机器学习到深度学习的文本分类任务中所使用的模型,并总结和展望了文本分类在自然语言处理领域的发展趋势。  相似文献   

8.
针对传统分类算法对维吾尔文文本分类准确率不高的问题,提出了一种基于深度置信网络的维吾尔文短信文本分类模型。深度学习模拟人脑的多层次结构,对数据从低层到高层逐渐地进行特征提取,深层挖掘数据集的分布规律,从而提高分类准确性。通过逐层无监督的方法完成深度置信网络的初始化,并结合softmax回归分类器实现文本的分类。最后在收集的维吾尔文短信数据集上进行实验论证。实验结果表明,相比KNN、SVM和决策树算法,深度置信网络具有更好的分类效果,准确率更高。  相似文献   

9.
流形学习算法在模式识别领域有着重要应用,针对文本分类数据的特点,提出一种基于邻域选取进行修正的局部线性嵌入算法,用带有权值的欧式距离来构造文本数据的局部邻域,提高文本分类的识别率;同时,利用文本数据的类别信息,运用半监督局部线性嵌入算法构造分类器,提高文本分类的效果。实验表明,本文基于文本分类改进的流形学习算法,能够有效地对文本进行分类。  相似文献   

10.
为了提高文本分类的准确率并解决文本图卷积神经网络对节点特征利用不足的问题,提出了一种新的文本分类模型,其内在融合了文本图卷积和Stacking集成学习方法的优点。该模型首先通过文本图卷积神经网络学习文档和词的全局表达以及文档的语法结构信息,再通过集成学习对文本图卷积提取的特征进行二次学习,以弥补文本图卷积节点特征利用不足的问题,提升单标签文本分类的准确率以及整个模型泛化能力。为了降低集成学习的时间消耗,移除了集成学习中的k折交叉验证机制,融合算法实现了文本图卷积和Stacking集成学习方法的关联。在R8、R52、MR、Ohsumed、20NG等数据集上的分类效果相对于传统的分类模型分别提升了1.5%、2.5%、11%、12%、7%以上,该方法在同领域的分类算法比较中表现优异。  相似文献   

11.
短文本分类是互联网文本数据处理中的关键任务之一.长短时记忆网络LSTM(long short-term memory)和卷积神经网络CNN(convolutional neural network)是广泛应用于短文本分类任务的两种深度学习模型.在计算机视觉和语音识别领域的深度学习研究表明,深层次的神经网络模型具有较好的表达数据特征的能力.受此启发,面向文本深度学习分类问题,提出基于3层LSTM和CNN网络结构的ResLCNN(residual-LSTM-CNN)深度学习模型.该模型有效结合LSTM获取文本序列数据的长距离依赖特征和CNN通过卷积操作获取句子局部特征的优势,同时借鉴残差模型理论,在第1层LSTM层与CNN层之间加入恒等映射,构建残差层,缓解深层模型梯度消失问题.为了探究深层短文本分类中ResLCNN模型的文本分类能力,在多种数据集上将其与LSTM、CNN及其组合模型进行对比实验.结果表明,相比于单层LSTM与CNN组合模型,ResLCNN深层模型在MR、SST-2和SST-5数据集上分别提高了1.0%、0.5%、0.47%的准确率,取得了更好的分类效果.  相似文献   

12.
短文本情感倾向分析是自然语言处理领域的关键研究问题之一.情感倾向分析是用于检测语言所蕴含主观倾向语义的一系列方法、技术和工具,是对文本深层语义理解的关键.短文本数据的随意性、高歧义性以及简短性使得传统基于特征工程和机器学习分类技术的情感倾向分析任务性能有限.随着深度学习技术在自然语言处理中的广泛应用,基于深度学习的短文...  相似文献   

13.
文本分类任务作为文本挖掘的核心问题,已成为自然语言处理领域的一个重要课题.而短文本分类由于稀疏性、实时性和不规范性等特点,已成为文本分类亟待解决的问题之一.在某些特定场景,短文本存在大量隐含语义,由此给挖掘有限文本内的隐含语义特征等任务带来挑战.已有的方法对短文本分类主要采用传统机器学习或深度学习算法,但该类算法的模型构建复杂且工作量大,效率不高.此外,短文本包含有效信息较少且口语化严重,对模型的特征学习能力要求较高.针对以上问题,提出了KAe RCNN模型,该模型在TextRCNN模型的基础上,融合了知识感知与双重注意力机制.知识感知包含了知识图谱实体链接和知识图谱嵌入,可以引入外部知识以获取语义特征,同时,双重注意力机制可以提高模型对短文本中有效信息提取的效率.实验结果表明,KAe RCNN模型在分类准确度、F1值和实际应用效果等方面显著优于传统的机器学习算法.对算法的性能和适应性进行了验证,准确率达到95.54%, F1值达到0.901,对比4种传统机器学习算法,准确率平均提高了约14%, F1值提升了约13%.与TextRCNN相比,KAe RCNN模型在准确性方面提升了约3%...  相似文献   

14.
随着企业信息传递量的激增,围绕信息精准推送的研究成为相关领域的热点,对于企业推送短文本的精准分类更是其中非常重要的一环。传统的短文本分类多采用TF-IDF算法构建词向量,并采用机器学习方法进行分类,存在维度过高、分类精准度不够等问题。提出基于深度学习的企业推送短文本有监督分类方法,引入深度神经网络代替机器学习分类方法,创建TextCNN模型对企业推送短文本进行处理并分类。实验结果表明,提出方法在开源数据集THUCNews上达到了96.53%的准确率,平均处理时间较传统方法最少缩短400%以上,在性能和准确率上都得到了较好的提升,具有较高的应用价值。  相似文献   

15.
基于机器学习的维吾尔文文本分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型(VSM)表示下的高维性,采用词干提取和IG相结合的方法对表示空间进行降维。采用基于机器学习的分类算法(kNN和Na?ve Bayes)对维吾尔文文本语料进行了分类实验并分析了实验结果。  相似文献   

16.
随着Internet技术的发展,人们不仅可以从网络获取信息,也能够在网络上表达个人观点、分享自身体验。自Web2.0以来网络已经由原来的阅读式网络转换成为了当今的交互式网络。而伴随网络发展的是成几何速率增长的网络信息。文本信息是网络信息的重要组成部分,不同文本信息可以分成新闻、娱乐、时评、财经等不同类别。进行中文文本分类不仅能为建立文本语料库提供便利还能够应用到其它数据挖掘领域。论文基于改进TF-IDF特征并结合SVM模型设计了一种自动化的中文文本分类系统。实验证明,对比传统特征提取方式,采用改进TF-IDF特征策略进行文本分类能够获得更高的准确度。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号