首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 218 毫秒
1.
李平  戴月明  吴定会 《计算机应用》2018,38(6):1542-1546
针对单通道卷积神经网络(CNN)视角单一、不能充分学习到文本的特征信息的问题,提出双通道CNN (DCCNN)算法。首先,采用Word2Vec训练词向量,利用词向量获得句子的语义信息;其次,采用两个不同的通道进行卷积运算,一个通道为字向量,另一个通道为词向量,利用细粒度的字向量辅助词向量捕捉深层次的语义信息;最后,通过不同尺寸的卷积核,发现句子内部更高层次抽象的特征。实验结果表明,所提DCCNN算法能够准确识别文本情感极性,其正确率和F1值均达到95%以上,相比逻辑回归算法、支持向量机(SVM)算法以及CNN算法等都有显著提升。  相似文献   

2.
问句意图分类作为问答系统的关键任务之一,其能否正确分类对于后续的问答任务十分重要。针对民事纠纷问句中存在的长短不一、特征分散、种类繁多的问题,以及传统卷积神经网络和词向量的不足,为了准确获取民事纠纷问句意图类别,构建了结合BERT与多尺度CNN的民事纠纷问句意图分类模型。对民事纠纷问句数据集进行预处理;采用BERT预训练模型对问句进行语义编码和语义补充;使用4个不同的卷积通道进行卷积运算,每个卷积通道由不同尺度的卷积核进行卷积,将4种不同尺度的问句特征进行拼接得到多层次问句特征信息;通过全连接层和Softmax对问句进行分类。实验结果表明,所提出的模型在中文民事纠纷问句数据集上取得了87.41%的准确率,召回率、F1值分别达到了87.52%、87.39%,能够有效解决民事纠纷问句意图分类的问题。  相似文献   

3.
针对传统图像分类方法分类精度不高的问题,文章采用了两层卷积和池化的卷积神经网络(Convolutional Neural Network, CNN)算法来对图像进行分类。从不同方面将CNN与支持向量机(Support Vector Machines, SVM)、反向传播算法(Back Propagation, BP)进行图像分类的准确率对比,实验结果表明,CNN算法图像分类的准确率高于其它两种算法。  相似文献   

4.
王义  沈洋  戴月明 《计算机工程》2020,46(5):102-108
以词向量为输入的单通道卷积神经网络无法充分利用文本的特征信息,并且不能准确识别中文文本的多义词。针对上述问题,建立一种细粒度的多通道卷积神经网络模型。采用word2vec进行词向量的预训练,利用3个不同的通道做卷积运算,分别为原始词向量、词向量与词性表示相结合的词性对向量以及细粒度的字向量。通过词性标注进行词义消歧,利用细粒度的字向量发现深层次的语义信息。在此基础上,设置不同尺寸的卷积核以学习句子内部更高层次抽象的特征。仿真结果表明,该模型较传统卷积神经网络模型在情感分类的准确率和F1值上性能均有明显提升。  相似文献   

5.
微博情感倾向性分析旨在发现用户对热点事件的观点态度。由于微博噪声大、新词多、缩写频繁、有自己的固定搭配、上下文信息有限等原因,微博情感倾向性分析是一项有挑战性的工作。该文主要探讨利用卷积神经网络进行微博情感倾向性分析的可行性,分别将字级别词向量和词级别词向量作为原始特征,采用卷积神经网络来发现任务中的特征,在COAE2014任务4的语料上进行了实验。实验结果表明,利用字级别词向量及词级别词向量的卷积神经网络分别取得了95.42%的准确率和94.65%的准确率。由此可见对于中文微博语料而言,利用卷积神经网络进行微博情感倾向性分析是有效的,且使用字级别的词向量作为原始特征会好于使用词级别的词向量作为原始特征。  相似文献   

6.
文本情感倾向性分析是自然语言处理研究领域的一个基础问题。基于深度学习的模型是处理此问题的常用模型。而当前的多数深度学习模型在中文文本情感倾向性分析方面的应用存在两个问题: 一是未能充分考虑到文本的层次化结构对情感倾向性判定的重要作用,二是传统的分词技术在处理文本时会产生歧义。该文针对这些问题基于卷积神经网络与层次化注意力网络的优点提出了一种深度学习模型C-HAN(Convolutional Neural Network-based and Hierarchical Attention Network-based Chinese Sentiment Classification Model),先用并行化卷积层学习词向量间的联系与组合形式,再将其结果输入到基本单元为双向循环神经网络的层次化注意力网络中判定情感倾向。实验表明: 模型在中文评论数据集上倾向性分类准确率达到92.34%,和现有多个情感分析模型相比有所提升;此外,对于中文文本,选择使用字级别词向量作为原始特征会优于词级别词向量作为原始特征。  相似文献   

7.
语言模型的建立对挖掘句子内部语义信息有着直接的影响,为了提高中文命名实体识别率,字的语义表示是关键所在。针对传统的中文命名实体识别算法没有充分挖掘到句子内部的隐藏信息问题,该文利用LSTM提取经过大规模语料预训练生成的字向量特征,同时将词向量预测矩阵传入到字向量特征提取阶段,通过矩阵运算融合为词向量特征,并进一步利用CNN提取词语之间的空间信息,将其与得到的词向量特征整合到一起输入语言模型XLnet(Generalized autoregressive pretraining for language understanding)中,然后经过BiGRU-CRF输出最优标签序列,提出了CAW-XLnet-BiGRU-CRF网络框架。并与其他的语言模型作了对比分析,实验结果表明,该框架解决了挖掘内部隐藏信息不充分问题,在《人民日报》1998年1月份数据集上的F1值达到了95.73%,能够较好地应用于中文命名实体识别任务。  相似文献   

8.
为了准确有效地定位出图像中的维吾尔文本区域,提出了一种基于通道增强最大稳定极值区域(Maximally Stable Extremal Region,MSER)和卷积神经网络(Convolutional Neural Network,CNN)的图像文本区域定位方法。应用通道增强MSER提取候选区域,根据文本特征的启发式规则以及CNN分类结果去除非文本和重复区域,通过区域融合算法得到词级别文本区域,根据该区域的色彩相近程度和空间关系召回遗漏的文本区域,并通过CNN网络对召回的区域分类融合,定位出图像文本区域。实验结果表明,该方法可以准确有效地定位文本区域,具有鲁棒性和应用性。  相似文献   

9.
为早期发现和及时治疗浸润性肺腺癌,提高医疗系统的运行效率和患者的早期检测的准确率,文章提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)和支持向量机(Support Vector Machine,SVM)的初步诊断筛选模型。该诊断筛选模型通过对病理苏木精-伊红(Hematoxylin and Eosin,HE)图像进行卷积神经网络的训练,提取图像中的特征信息,并利用支持向量机算法进行分类判定。实验结果表明,该方法能够自动识别和标记图像中的癌细胞,为医生提供更准确的初步诊断结果,辅助医生制定治疗方案。与其他方法相比,设计方法的分类准确率更高,泛化能力更强。  相似文献   

10.
《软件》2019,(11):114-118
地表分类技术对地面无人驾驶车辆的感知能力有着重要影响。而针对传统卷积神经网络CNN(Convolutional Neural Networks)地表分类效果不佳的问题,本文提出一种结合多通道深度学习和随机森林的地表分类算法。算法先通过图像计算得到人工设计的特征LBP;再采用多通道融合技术,将原彩色图像的RGB三通道和LBP通道加以融合形成融合图像;然后构建并预训练卷积神经网络,以此提取融合图像的关键特征信息;最后用随机森林分类器代替卷积神经网络输出层完成地表分类。实验结果表明,本文算法识别正确率达到98.56%,相比于传统卷积神经网络能取得更好的分类结果,具有一定的鲁棒能力。  相似文献   

11.
词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词。该文分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词,通过对自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,这说明词向量计算结果与人的语言直觉具有较高的一致性。总体来说,该文所采用的方法有助于提高藏文语义相似词知识库构建效率。  相似文献   

12.
文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。  相似文献   

13.
分析和研究文本读者情绪有助于发现互联网的负面信息,是舆情监控的重要组成部分。考虑到引起读者不同情绪主要因素在于文本的语义内容,如何抽取文本语义特征因此成为一个重要问题。针对这一问题,提出首先使用word2vec模型对文本进行初始的语义表达;在此基础上结合各个情绪类别分别构建有代表性的语义词簇,进而采用一定准则筛选对类别判断有效的词簇,从而将传统的文本词向量表达改进为语义词簇上的向量表达;最后使用多标签分类方法进行情绪标签的学习和分类。实验结果表明,该方法相对于现有的代表性方法来说能够获得更好的精度和稳定性。  相似文献   

14.
在针对短文本分类中文本特征稀疏难以提取、用词不规范导致OOV (out of vocabulary)等问题,提出了基于FastText模型多通道嵌入词向量,和GRU (gate recurrent unit)与多层感知机(multi-layer perceptron, MLP)混合网络结构(GRU-MLP hybrid network architecture, GM)的短文本分类模型GM-FastText.该模型使用FastText模型以N-gram方式分别产生不同的嵌入词向量送入GRU层和MLP层获取短文本特征,通过GRU对文本的特征提取和MLP层混合提取不同通道的文本特征,最后映射到各个分类中.多组对比实验结果表明:与TextCNN、TextRNN方法对比, GM-FastText模型F1指标提升0.021和0.023,准确率提升1.96和2.08个百分点;与FastText,FastText-CNN, FastText-RNN等对比, GM-FastText模型F1指标提升0.006、0.014和0.016,准确率提升0.42、1.06和1.41个百分点.通过对比发现,在Fas...  相似文献   

15.
句子排序是自然语言处理中的重要任务之一,其应用包括多文档摘要、问答和文本生成。不当的句子排序会产生逻辑不通顺的文本,使得文本的可读性降低。该文采用在中英文上大规模使用的深度学习方法,同时结合朝鲜语词语形态变化丰富的特点,提出了一种基于子词级别词向量和指针网络的朝鲜语句子排序模型,其目的是解决传统方法无法挖掘深层语义信息的问题。该文提出基于形态素拆分的词向量训练方法(MorV),同时对比子词n元词向量训练方法(SG),得到朝鲜语词向量;采用了两种句向量方法:基于卷积神经网络(CNN)、基于长短时记忆网络(LSTM),结合指针网络分别进行实验。结果表明采用MorV和LSTM的句向量结合方法可以更好地捕获句子间的语义逻辑关系,提升句子排序的效果。  相似文献   

16.
目前多数文本分类方法无法有效反映句子中不同单词的重要程度,且在神经网络训练过程中获得的词向量忽略了汉字本身的结构信息。构建一种GRU-ATT-Capsule混合模型,并结合CW2Vec模型训练中文词向量。对文本数据进行预处理,使用传统的词向量方法训练的词向量作为模型的第1种输入,通过CW2Vec模型训练得到的包含汉字笔画特征的中文词向量作为第2种输入,完成文本表示。利用门控循环单元分别提取2种不同输入的上下文特征并结合注意力机制学习文本中单词的重要性,将2种不同输入提取出的上下文特征进行融合,通过胶囊网络学习文本局部与全局之间的关系特征实现文本分类。在搜狗新闻数据集上的实验结果表明,GRU-ATT-Capsule混合模型相比TextCNN、BiGRU-ATT模型在测试集分类准确率上分别提高2.35和4.70个百分点,融合笔画特征的双通道输入混合模型相比单通道输入混合模型在测试集分类准确率上提高0.45个百分点,证明了GRU-ATT-Capsule混合模型能有效提取包括汉字结构在内的更多文本特征,提升文本分类效果。  相似文献   

17.
随着基于知识点题库系统的广泛应用,实现试题与知识点的自动匹配,成为当下研究的重要问题。利用word2vec分别得到试题和知识点所包含的每个词的K维空间向量,通过计算空间向量间的余弦距离得到题干与知识点的语义相似度,进而自动发现知识点与试题之间的语义关联关系。实验结果显示此方法能快速发现试题与知识点的关系,提高题库系统的工作效率。  相似文献   

18.
汉语复句关系识别是对复句语义关系的识别,复句关系类别的自动识别对促进语言学和中文信息处理的研究有重要的价值。因果类复句是使用频率最高的复句,文中以二句式有标广义因果复句为研究对象, 使用语言技术平台LTP 进行依存句法分析, 获得词性、依存父节点的词序、与父节点的依存关系等特征,将特征的不同组合与预训练的词向量拼接,得到新的向量,将新的向量输入到 DPCNN 模型中来进行关系类别识别。通过实验对提出的方法进行检验,实验结果显示: 与未融合任何特征相比,DPCNN模型中融合语句特征使实验结果的指标均有提升,表明融合语句特征能取得更好的识别效果。在各种特征组合中,融合POS特征组合得到的准确度和F1值最高, 分别为98.41%, 98.28%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号