首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 62 毫秒
1.
近年来卷积神经网络和循环神经网络在文本分类领域得到了越来越广泛的的应用。提出一种卷积神经网络和长短时记忆网络特征融合的模型,通过长短期记忆网络作为池化层的替代来获得长期依赖性,从而构建一个联合CNN和RNN的框架来克服单卷积神经网络忽略词语在上下文中语义和语法信息的问题。所提出的方法在减少参数数量和兼顾文本序列全局特征方面起着重要作用,实验结果表明,可以通过更小的框架来实现相同级别的分类性能,并且在准确率方面超越了同类型的其他几种方法。  相似文献   

2.
张博旭  蒲智  程曦 《计算机工程》2023,49(6):292-299+313
维吾尔语属于低资源语言和黏着性语言,现有维吾尔语文本分类方法缺少足够的语料来训练维吾尔语预训练模型。因此,维吾尔语无法基于预训练模型提取有效的句向量信息。现有的文本分类方法利用深度学习模型提取词向量,然而,维吾尔语具有特征稀疏且维度偏高的特点,使得其在文本分类上的效果较差。为此,提出基于提示学习的维吾尔语文本分类方法。基于提示学习,采用多语言预训练模型Cino构造不同的模板,利用模型的掩码预测能力对不同的掩码位置进行预测。为避免掩码预测的词汇信息具有多样性,将模板掩盖掉的词向量代替整体的句向量,利用掩码模型的预测能力,以有限大小的向量表示当前句子的语义信息,将下游任务靠近模型的预训练任务,减少在微调阶段两者不同所造成的影响。在爬取维吾尔语网站所构建新闻数据集上进行的文本分类实验结果表明,相比Cino微调预训练模型,融合提示学习的Cino模型的F1值最高可达到92.53%,精准率和召回率分别提升了1.79、1.04个百分点,具有更优的维吾尔语文本分类效果。  相似文献   

3.
周枫  李荣雨 《计算机科学》2018,45(6):235-240
针对深度学习在处理文本分类问题时存在的适应度小、精确度较低等问题,提出一种采用双向门控循环单元(BGRU)进行池化的改进卷积神经网络模型。在池化阶段,将BGRU产生的中间句子表示与由卷积层得到的局部表示进行对比,将相似度高的判定为重要信息,并通过增大其权重来保留此信息。该模型可以进行端到端的训练,对多种类型的文本进行训练,适应性较强。实验结果表明,相较于其他同类模型,提出的改进模型在学习能力上有较大优势,分类精度也有显著提高。  相似文献   

4.
以往的卷积神经网络模型在对文本建模和分类时,通常按顺序提取n-gram卷积特征,忽视了长距离依存关系中的句法结构和语义信息。提出了一种基于事件卷积特征的文本分类方法,利用事件的语义特性弥补之前模型的不足。该方法使用依存关系抽取出文本中的事件集合,通过卷积神经网络进行事件特征提取,并在此基础上进行文本分类。在对中文新闻语料的多分类实验中,该方法较传统的文本分类方法有明显的提高,较使用n-gram的卷积神经网络模型在更为稳定。实验结果说明了模型的有效性以及事件特征的优越性。  相似文献   

5.
在神经网络模型训练过程中,存在部分卷积核退化为无效卷积核,在神经网络推理过程失去作用的问题。针对该问题,提出了一种仅使用单个模型就能在训练过程中激活无效卷积核,提高模型性能的方法。首先将初始模型训练至收敛时刻;然后通过L1正则和卷积核相关性两种方式衡量卷积核的有效性;最后将无效卷积核的权值回退到模型训练的初期阶段并对模型进行重训练。在CIFAR-10、CIFAR-100等图像分类的数据集上的实验结果表明,无论是在残差网络还是在轻量级网络上,提出的方法都能有效地恢复无效卷积核,提高神经网络模型精度。相比之前的方法,该方法在低代价下达到了最佳效果,在图像分类任务上平均提高了0.93%的准确率。  相似文献   

6.
《软件》2017,(6):30-34
针对现有基于机器学习的文本分类中由于数据噪点和特征不稀疏所导致学习精确度不高,深度不够等问题,本文提出了一种基于卷积升级网络的文本分类改进方法。首先利用一种新的TF-IDF统计法和Word2vec的skip-gram模型提取出描述文本的特征,然后通过卷积神经网络训练,得到更深层次的特征学习,最后使用softmax操作算出类别的概率分布,从而实现对职位描述文本的分类。实验结果表明,相比基于knn的传统分类方法,本文所设计的方法精确度更高。  相似文献   

7.
在对中文文本进行分类的过程中,由于关键特征在整个文本中具有分布不均匀的特点,容易出现关键特征丢失的问题,降低了分类的准确性。针对这一问题,提出一种基于注意力机制的双通道文本分类模型。将输入文本通过词嵌入进行向量表示,利用Bi-LSTM通道提取文本中的上下文关联信息,利用CNN通道提取文本中连续词间的局部特征。在两个通道中均引入注意力机制进行全局权重分配,使模型能够进一步关注到文本中的关键词。在CNN通道中,将原始输入向量与各层CNN的输出向量进行选择性融合,从而实现特征重利用。在今日头条和THUCNews两个公开数据集上进行性能评估,实验结果表明,与其他分类模型相比,所提模型的分类准确率分别为97.59%、90.09%,具有更好的分类性能。  相似文献   

8.
9.
传统文本分类使用word embedding作为文档表示,忽略词在当前上下文的含义,潜在的认为相同词在不同文本中含义相同。针对此问题提出一种词义消歧的卷积神经网络文本分类模型——WSDCNN(Word Sense Disambiguation Convolutional Neural Network)。使用双向长短时记忆网络(BLSTM) 建模上下文,得到词义消歧后的文档特征图。利用卷积神经网络(CNN)进一步提取对文本分类最重要的特征。在四个数据集上进行对比实验,结果表明,所提出方法在两个数据集,特别是文档级数据集上优于先前最好的方法,在另外两个数据集上得到与此前最好方法相当的结果。  相似文献   

10.
自然语言处理是人工智能与机器学习领域的重要方向,它的目标是利用计算机技术来分析、理解和处理自然语言。自然语言处理的一个重点研究方向是从文本内容中获取信息,并且按照一定的标签体系或标准将文本内容进行自动分类标记。相比于单一标签文本分类而言,多标签文本分类具有一条数据属于多个标签的特点,使得更难从文本信息中获得多类别的数据特征。层级多标签文本分类又是其中的一个特别的类别,它将文本中的信息对应划分到不同的类别标签体系中,各个类别标签体系又具有互相依赖的层级关系。因此,如何利用其内部标签体系中的层级关系更准确地将文本分类到对应的标签中,也就成了解决问题的关键。为此,提出了一种基于并行卷积网络信息融合的层级多标签文本分类算法。首先,该算法利用BERT模型对文本信息进行词嵌入,接着利用自注意力机制增强文本信息的语义特征,然后利用不同卷积核对文本数据特征进行抽取。通过使用阈值控制树形结构建立上下位的节点间关系,更有效地利用了文本的多方位语义信息实现层级多标签文本分类任务。在公开数据集Kanshan-Cup和CI企业信息数据集上的结果表明,该算法在宏准确率、宏召回率与微F1值3种评价指标上均优于主流的...  相似文献   

11.
在研究区分性关键词提取方法的基础上,对维吾尔语中的生气和高兴等常见情感类型进行基于文本句子的情感分类研究。结合维吾尔文本句子中的情感表达特点,以词频和文档频率作为基本统计量,通过计算同一词语在不同组合统计量下的类间差异得到区分性关键词,并基于这些关键词进行特征提取和区分性情感模型构建。从维吾尔语电影字幕、小说等文本库中提取生气和高兴2种情感构造实验数据集,并验证所提出的情感分类方法。实验结果表明,基于区分性关键词的建模方法能有效地对维吾尔文本句子进行情感分类。  相似文献   

12.
在文本分类研究中,向量空间模型具有表示形式简单的特点,但只能表示特征词的词频信息而忽视了特征词间的结构信息和语义语序信息,所以可能导致不同文档被表示为相同向量。针对这种问题,本文采用图结构模型表示文本,把文本表示成一个有向图(简称文本图),可有效解决结构化信息缺失的问题。本文将图核技术应用于文本分类,提出适用于文本图之间的相似度计算的图核算法--间隔通路核,然后利用支持向量机对文本进行分类。在文本集上的实验结果表明:与向量空间模型相比,间隔通路核相比于其他核函数的分类准确率更高,所以间隔通路核是一种很好的图结构相似性计算算法,能广泛应用于文本分类中。  相似文献   

13.
维吾尔语是一种派生类语言,其词是由词干和词缀连接而成的。其中,词干是有实际意义的词汇单元,词缀提供语法功能。该文提出了基于词干单元和长短期记忆(LSTM)网络的维吾尔语短文本分类技术。用基于词-词素平行训练语料的稳健词素切分和词干提取方法,从互联网下载的文本中提取其词干,以此构建词干序列文本语料库,并通过Word2Vec算法映射到实数向量空间。然后用LSTM网络作为特征选择和文本分类算法进行维吾尔语短文本分类实验,并得到95.48%的分类准确率。从实验结果看,对于维吾尔语等派生类语言而言,特别是对于带噪声的文本,基于词干的分类方法有更多优异的性能。  相似文献   

14.
基于SVM的维吾尔文文本分类研究   总被引:1,自引:0,他引:1       下载免费PDF全文
文本自动分类技术在提高文本信息利用的有效性和准确性上具有重要的现实意义和广阔的应用前景。随着Internet上维吾尔文信息的迅速发展,维吾尔文文本分类成为处理和组织这些大量文本数据的关键技术。研究维吾尔文文本分类相关技术和方法,针对维吾尔文文本在向量空间模型表示下的高维性,本文采用词干提取和χ2统计量相结合的方法对表示空间进行降维。采用SVM算法构造了维吾尔文文本分类器。针对维吾尔文文本分类语料进行的实验结果表明,SVM分类器的MacroF1值达到了84.6%,明显好于kNN方法。  相似文献   

15.
提出了一种基于模糊形式概念分析的文本分类模型,通过概念化文本到一个更加抽象的概念形式,以概念而非文本作为训练样本,最终结合近邻分类算法实现文本分类决策。实验结果表明该算法有很好的性能。  相似文献   

16.
现有的维吾尔文文本情感分类方法以从空格分词中得到的unigram特征作为文本表示,因而无法挖掘与情感表达相关的深层语言现象。该文从维吾尔文词汇之间的顺序依赖关系入手,总结若干个词性组合规则,提取能够表达丰富情感信息的Bi-tagged特征,并基于支持向量机(SVM)分类器对维吾尔文情感语料库进行了正负情感分类。实验结果表明,在维吾尔文文本情感分类中: (1)当包含该文提出的各项词性规则时,Bi-tagged特征的性能最优;(2)Bi-tagged特征不仅能够提取情感丰富的信息,而且可以提取否定信息;(3)与常用的unigram、bigram特征以及unigram和bigram的组合特征在该文数据集上的分类效果相比,该文所提取的Bi-tagged与unigram的组合特征分类效果更佳,比该文的Baseline的分类准确率提高了4.225%。该研究成果不但可以进一步提高维吾尔文文本情感分类效率,也可为哈萨克语、柯尔克孜语等亲属语言的情感分类提供借鉴。  相似文献   

17.
面向特定领域文本分类的实际应用,存在大量样本相互掺杂的现象,使其无法线性表述,在SVM中引入核函数可以有效地解决非线性分类的问题,而选择不同的核函数可以构造不同的SVM,其识别性能也不同,因此,选择合适的核函数及其参数优化成为SVM的关键.本文基于单核核函数的性质,对多项式核函数与径向基核函数进行线性加权,构建具有良好的泛化能力与良好的学习能力的组合核函数.仿真实验结果表明,在选择正确参数的情况下,组合核函数SVM的宏平均准确率、宏平均召回率及宏平均综合分类率都明显优于线性核、多项式核与径向基核,而且能够兼顾准确率与召回率.  相似文献   

18.
为了准确有效地定位出图像中的维吾尔文本区域,提出了一种基于通道增强最大稳定极值区域(Maximally Stable Extremal Region,MSER)和卷积神经网络(Convolutional Neural Network,CNN)的图像文本区域定位方法。应用通道增强MSER提取候选区域,根据文本特征的启发式规则以及CNN分类结果去除非文本和重复区域,通过区域融合算法得到词级别文本区域,根据该区域的色彩相近程度和空间关系召回遗漏的文本区域,并通过CNN网络对召回的区域分类融合,定位出图像文本区域。实验结果表明,该方法可以准确有效地定位文本区域,具有鲁棒性和应用性。  相似文献   

19.
为了高速度、高质量地浏览网络上的大量中文文本,提出了一种文本凹凸树结构的可视化浏览机制,并给出其彤式描述.通过以关键字和概念词典标注的最小概念集标识结点建立文本分类的层次树结构,为用户快速洲览文本提供有效路径.通过统计方法进行文本摘要抽取,按大纲、逻辑主题词段落和摘要洲览文本内容,提高了搜索查询速度与阅读效率,满足了用户快速、主动浏览文本的需求.  相似文献   

20.
汉语复句关系识别是对复句语义关系的识别,复句关系类别的自动识别对促进语言学和中文信息处理的研究有重要的价值。因果类复句是使用频率最高的复句,文中以二句式有标广义因果复句为研究对象, 使用语言技术平台LTP 进行依存句法分析, 获得词性、依存父节点的词序、与父节点的依存关系等特征,将特征的不同组合与预训练的词向量拼接,得到新的向量,将新的向量输入到 DPCNN 模型中来进行关系类别识别。通过实验对提出的方法进行检验,实验结果显示: 与未融合任何特征相比,DPCNN模型中融合语句特征使实验结果的指标均有提升,表明融合语句特征能取得更好的识别效果。在各种特征组合中,融合POS特征组合得到的准确度和F1值最高, 分别为98.41%, 98.28%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号