首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 218 毫秒
1.
针对中文文本分类准确率低、单一的卷积神经网络模型难以提取多方面特征的问题,本文提出一种基于CNN的并行门控机制的混合文本分类模型——CGGA(Convolutional Neural Network with parallel gating unit and attention mechanism).利用卷积提取文本的局部特征,并加入双向门控循环单元对数据进行上下文数据建模,提取关系特征,同时,引入门控Tanh-ReLU单元进行进一步的特征筛选,从而控制信息向下层流动的力度,并且减轻梯度弥散,提高模型分类准确率.最后,使用多头注意力机制进行权重更新计算,以提高在相应文本类别上的输出,进而优化模型分类性能.实验结果显示,本文提出的文本分类模型和分类算法,在THUCNews数据集和搜狐数据集上,比基线模型的宏平均精确率分别提高了2.24%、6.78%.  相似文献   

2.
针对私有协议的Airmax设备,提出了一种新的射频指纹提取方法。首先,介绍了软硬件实验环境的搭建并简要介绍了Airmax技术,然后介绍了帧前导信号的提取方法,分为粗定位和精确定位,接着从理论分析和实验验证阐述了Airmax射频指纹的提取方法。提取的特征维数为14,其中频率偏移相关的特征有2个,幅度相关的特征有12个。最后,基于这14维特征使用K-means算法及决策树模型对设备特征数据集进行了训练和分类,计算了分类准确率,两个模型的准确率都达到了100%,对于4个设备的分类问题,K-means算法的准确率为92.4%,决策树模型的准确率为100%。  相似文献   

3.
短文本通常是由几个到几十个词组成,长度短、特征稀疏,导致短文本分类的准确率难以提升。为了解决此问题,提出了一种基于局部语义特征与上下文关系融合的中文短文本分类算法,称为Bi-LSTM_CNN_AT,该算法利用CNN提取文本的局部语义特征,利用Bi-LSTM提取文本的上下文语义特征,并结合注意力机制,使得Bi-LSTM_CNN_AT模型能从众多的特征中提取出和当前任务最相关的特征,更好地进行文本分类。实验结果表明,Bi-LSTM_CNN_AT模型在NLP&CC2017的新闻标题分类数据集18个类别中的分类准确率为81.31%,比单通道的CNN模型提高2.02%,比单通道的Bi-LSTM模型提高1.77%。  相似文献   

4.
周浩  王莉 《智能系统学报》2019,14(1):171-178
鉴于常规的序列化标注方法提取中文评价对象准确率低,存在忽略中文语义与语法信息的缺陷,提出了融合语义与语法信息的中文评价对象提取模型。该模型在原始字向量的基础上通过优化字符含义策略强化语义特征,弥补忽略的字符与词语的内部信息;并通过词性序列标注,对句子的词性信息进行表征,深化输入的语法特征。网络训练使用双向长短期记忆网络并用条件随机场克服标注标签的偏差,提高了提取准确率。该模型在BDCI2017数据集上进行验证,与未融入语义和语法的提取模型相比,中文主题词与情感词提取准确率分别提高了2.1%与1.68%,联合提取的准确率为77.16%,具备良好的中文评价对象提取效果。  相似文献   

5.
针对基于机器学习的人物关系抽取需要人工选取特征的问题,提出一种基于卷积神经网络的中文人物关系抽取方法。采用搜狗实验室公开的中文全网新闻语料库来训练Word2vec模型,得到基于分布式表示的词向量表达,并完成了对百度百科数据集的词向量转化工作。设计一种基于经典CNN模型的中文人物关系抽取系统方案,用CNN模型自动提取特征并进行人物关系的分类,实现了5类常见人物关系的提取,准确率达到92.87%,平均召回率达到86.92%。实验结果表明,该方法无需人工构建复杂特征即可得到较好的人物关系抽取效果。  相似文献   

6.
针对传统的卷积神经网络未能充分利用不同通道间的文本特征语义信息和关联信息,以及传统的词向量表示方法采用静态方式对文本信息进行提取,忽略了文本的位置信息,从而导致文本情感分类不准确的问题,提出了一种结合ALBERT(a lite BERT)和注意力特征分割融合网络(attention feature split fusion network,AFSFN)的中文短文本情感分类模型ALBERT-AFSFN。该模型利用ALBERT对文本进行词向量表示,提升词向量的表征能力;通过注意力特征分割融合网络将特征分割为两组,对两组不同通道的特征进行提取和融合,最大程度保留不同通道之间的语义关联信息;借助Softmax函数对中文短文本情感进行分类,得到文本的情感倾向。在三个公开数据集Chnsenticorp、waimai-10k和weibo-100k上的准确率分别达到了93.33%、88.98%和97.81%,F1值也分别达到了93.23%、88.47%和97.78%,结果表明提出的方法在中文短文本情感分析中能够达到更好的分类效果。  相似文献   

7.
基于句法结构特征分析及分类技术的答案提取算法   总被引:1,自引:0,他引:1  
由于中文自然语言处理的特点和困难以及相应的语言处理基础资源的相对缺乏,使得国外一些成熟技术和研究成果不能直接应用到中文问答系统中.为此,针对中文事实型问答系统,提出一种新的基于句法结构特征分析及分类技术的答案提取算法,该方法将答案提取问题看成是候选答案的分类问题,即将候选答案分类为正确和错误两类.首先,该方法根据与问题类型所对应的候选答案的类型信息,从文本片断中提取出候选答案及其在句子中的简单特征和句法结构特征;然后利用这些特征训练分类器;最后用训练得到的分类器判别候选答案是否为正确答案.针对中文事实性问题,该方法与目前典型的基于模式匹配的中文答案提取算法相比,准确率提升6.2%,MRR提升9.7%.  相似文献   

8.
在当今商业领域,对网络评论的情感分类一直是一个比较热门的研究方向,而为了克服传统机器学习方法所构建分类器会产生较大计算开销,精度表现较差的缺点,提出一种基于深度学习模型中卷积神经网络(CNN)与循环神经网络(RNN)模型的情感分类方法。在以往的研究中,卷积神经网络往往被用来提取文本的局部特征信息,但却容易忽视文本的长距离特征,而RNN则往往被用来提取句子的长距离依赖信息,但容易陷入梯度爆炸问题。因此,结合卷积神经网络对于局部特征信息的良好提取能力与循环神经网络对于长距离依赖信息的记忆能力,构建了一个CNN-BIGRU混合模型,用以提取文本的局部特征以及文本的长距离特征。其中循环神经网络模型使用了双向GRU模型,以避免RNN模型的梯度爆炸与梯度消失问题。在谭松波的酒店评论数据集上的实验结果表明,利用该模型,实验分类的准确率比单独使用卷积神经网络模型最高提升了26.3%,比单独使用循环神经网络模型最高提升了7.9%,从而提高了对中文文本情感分类的精度,并减少了计算开销。  相似文献   

9.
为解决卷积神经网络在中文语音识别中识别准确率低、鲁棒性差的问题,提出一种基于双路卷积神经网络的声学建模方法。利用多尺度学习方法提取多尺度特征信息;将软阈值非线性转换层和注意力机制进行融合后嵌入残差网络,减轻网络梯度问题,加强网络特征信息传递,提高特征学习效果;采用连接时序分类技术分类,简化语音识别流程。实验结果表明,该模型与传统识别模型相比,词错误率降低了7.52%,在3种噪声环境下,错误率也低于传统模型。  相似文献   

10.
图像在日常生活中广泛存在,图像分类具有重要的现实意义。针对当前多标签图像分类中因神经网络模型复杂以及提取到的图像特征信息不足而导致分类准确率较低、计算复杂度高等问题,提出一种融合卷积神经网络与交互特征的多标签分类方法,即MLCNN-IF模型。MLCNN-IF模型主要分成2步,首先参考传统CNN基本结构搭建一个仅有9层的轻量级神经网络(MLCNN),用于处理图像数据并提取特征;其次基于MLCNN提取的特征,通过交互特征方法产生各独立特征的组合特征,以此获得新的更丰富的特征集。实验结果表明,MLCNN-IF模型对比Alex Net、Goog Le Net和VGG16在4种多标签图像数据集上取得了更好的分类结果,其准确率和精准率分别平均提高9%和4.8%;同时MLCNN网络结构相对更简洁,有效降低了模型参数量和时间复杂度。  相似文献   

11.
在癌症分类研究领域,高维、高冗余、类分布不平衡的基因表达数据如何进行特征选择与分类模型构建一直是影响分类准确率的难点。为了提高癌症分类的准确率,提出了基于特征交互与权重集成的癌症分类方法。在特征选择层面,利用多特征对分类信息的增益性交互作用来选出对于标签联合互信息大于单独互信息之和的特征组合,并利用条件互信息选择低冗余的特征,解决基因表达数据的高维、高冗余问题。在分类模型层面,提出结合权重集成反馈机制的二次学习集成模型,综合不同模型对不同类别样本的差异拟合能力,构造不依赖于样本数量的类权重,解决数据类分布不平衡的问题。应用该方法对六种癌症数据进行分类测试,accuracy、sensitivity、precision和F-measure四项指标均稳定在99.39%以上、specificity在94.74%以上,表明该方法能有效提高癌症分类的准确率和稳定性,同时具有对于不同癌症分类的通用性。  相似文献   

12.
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此不足,提出一种基于信息增益的文 本特征选择方法(TDpIU)。首先对数据集按类进行特征选择,以减少数据集不平衡性对特征选取的影响。其次运用 特征出现概率计算信息增益权值,以降低低频词对特征选择的千扰。最后使用离散度分析特征在每类中的信息增益 值,过滤掉高频词中的相对冗余特征,并对选取的特征应用信息增益差值做进一步细化,获取均匀精确的特征子集。 通过对比实验表明,选取的特征具有更好的分类性能。  相似文献   

13.
Sprinkling方法是一种集成了训练样本类别信息的监督潜在语义模型。但是该方法特征权重采用词频,降低了文本分类效果,同时该模型并没有考虑不同样本对分类的贡献能力,而是认为样本对分类的贡献相同,另外,该模型采用多个特征映射一个类别来加强类别知识对分类的贡献。为此,文章在Sprinkling方法的基础上提出了一种新的监督潜在语义模型。实验结果表明,该文方法的总体性能优于原始的Sprinkling方法,在特征数为1 100时,获得了最高分类精度,提高幅度达到1.71%。  相似文献   

14.
特征选择是影响问答系统中问题分类的重要因素。本文充分利用汉语框架网在语义表达方面的特点,提出一种面向问题分类的强类别信息词(SCIW)特征选择方法。首先选择五种汉语框架网特征作为候选特征,然后采用SCIW特征选择方法,根据每一类别的分类精度对单个特征的分类能力进行排序,并通过特征组合实验,选出具有最好分类效果的组合特征,达到特征约简的效果。  相似文献   

15.
基于汉语框架网的中文问题分类   总被引:3,自引:0,他引:3       下载免费PDF全文
问题分类是问答系统中重要的组成部分,问题分类结果的准确性直接影响到问答系统的质量。基于汉语框架网(Chinese FrameNet,CFN)提出了一种用于中文问题分类的新方法。该方法通过构建一系列汉语框架语义特征来表达每个问句的语义信息,进而使用最大熵模型进行中文问题的自动分类,与传统的问题分类技术相比,汉语框架语义信息的加入使得中文问题分类的精度得到了显著提高。实验结果进一步验证了该方法的有效性,大类和小类的分类精度分别达到了91.38%和83.20%。  相似文献   

16.
基于自学习规则和改进贝叶斯结合的问题分类*   总被引:8,自引:2,他引:6  
根据对中文问题的分析可知,问题中的疑问词和中心词等关键词对问题所属类型起着决定性的作用。提出利用自学习方法建立疑问词—类别和疑问词+中心词—类别两种规则,并结合改进贝叶斯模型的问题分类方法。该方法充分利用了关键词对分类的贡献。实验结果表明,该分类方法有很大的改进,准确率达到了84%。  相似文献   

17.
研究运用复旦中文文本及搜狗中文文档作为研究对象,提高了中文文本分类精确度及召回率,分析得出特征词的最佳贡献值。应用朴素贝叶斯分类方法和改进的TFIDF关键字提取及权重计算,提出TNBIF模型分类方法,在Spark平台上并行分类实现。实验结果表明:应用TNBIF模型实行中文文本分类,精确度高达95.49%,比传统文本分类方法精确度提高5.41%,召回率提高了6.64%。本研究得出最佳贡献值为0.95。  相似文献   

18.
目前大多数池化方法主要是从一阶池化层或二阶池化层提取聚合特征信息,忽略了多种池化策略对场景的综合表示能力,进而影响到场景识别性能。针对以上问题,提出了联合一二阶池化网络学习的遥感场景分类模型。首先,利用残差网络ResNet-50的卷积层提取输入图像的初始特征。接着,提出基于特征向量相似度的二阶池化方法,即通过特征向量间的相似度求出其权重系数来调制特征值的信息分布,并计算有效的二阶特征信息。同时,引入一种有效的协方差矩阵平方根逼近求解方法,以获得高阶语义信息的二阶特征表示。最后,基于交叉熵和类距离加权的组合损失函数训练整个网络,从而得到富于判别性的分类模型。所提方法在AID(50%训练比例)、NWPU-RESISC45 (20%训练比例)、CIFAR-10和CIFAR-100数据集上的分类准确率分别达到96.32%、93.38%、96.51%和83.30%,与iSQRT-COV方法相比,分别提高了1.09个百分点、0.55个百分点、1.05个百分点和1.57个百分点。实验结果表明,所提方法有效提高了遥感场景分类性能。  相似文献   

19.
Facial expression recognition is a challenging field in numerous researches, and impacts important applications in many areas such as human-computer interaction and data-driven animation, etc. Therefore, this paper proposes a facial expression recognition system using active shape model (ASM) landmark information and appearance-based classification algorithm, i.e., embedded hidden Markov model (EHMM). First, we use ASM landmark information for facial image normalization and weight factors of probability resulted from EHMM. The weight factor is calculated through investigating Kullback-Leibler (KL) divergence of best feature with high discrimination power. Next, we introduce the appearance-based recognition algorithm for classification of emotion states. Here, appearance-based recognition means the EHMM algorithm using two-dimensional discrete cosine transform (2D-DCT) feature vector. The performance evaluation of proposed method was performed with the CK facial expression database and the JAFFE database. As a result, the method using ASM information showed performance improvements of 6.5 and 2.5% compared to previous method using ASM-based face alignment for CK database and JAFFE database, respectively.  相似文献   

20.
利用深度学习模型和注意力机制对微博文本进行细粒度情感分类,已成为研究的热点,但是现有注意力机制只考虑单词对单词的影响,对单词本身的多种维度特性(如词义、词性、语义等特征信息)缺乏有效的融合.为了解决这个问题,文中提出了一种双重权重机制WDWM(Word and Dimension Weight Mechanism),并...  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号