首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到10条相似文献,搜索用时 105 毫秒
1.
针对现有文本分类算法处理中文数据时存在的分类精度低、参数量庞大、模型难训练等问题,对BERT算法进行了优化.BERT算法处理中文文本时无法提取词向量特征,为此提出了均匀词向量卷积模块AWC.通过在传统卷积神经网络中引入注意力机制来提取可靠词向量特征,再进一步获取到文本的局部特征,由此弥补了BERT模型无法提取词向量的缺...  相似文献   

2.
为了深入了解新冠肺炎疫情期间微博用户舆论的焦点、更好地把握网络舆情的走向,本实验以疫情期间微博内容为基础,利用深度学习的相关算法,对数据内容进行情感分析。初始数据集已有一部分进行过人工标注,经过预处理后,将BiGRU与注意力机制相结合成BiGRU-attention模型对数据进行实验,TextCNN、BiGRU、BERT三种模型分类效果进行对比,实验结果证明,BiGRU-attention模型效果略优于TextCNN、BiGRU模型,相比于BERT模型则略差,证实在本数据集上BERT模型对文本分类的效果更加优秀,在后续实验中会对BERT模型进行更进一步地优化,以达到较好分类效果。  相似文献   

3.
传统的神经网络模型主要是以词向量的形式处理短文本的分类任务,造成模型过度依赖分词的精度,而短文本又具有语料短、特征发散的特点,针对这一系类问题提出一种基于BERT和BiLSTM相融合的短文本情感分类模型。首先,利用BERT模型将训练的文本转换成以字为单位的向量表示形式;随后,将生成的字向量作为双向长短期记忆网络输入,获取到相关字的上下文的语义表示;并通过加入随机Dropout机制防止模型发生过拟合;最后,将提取的特征向量输入到全连接层,经过Softmax函数计算出文本所属的情感类别。经实验表明,在处理短文本方面,基于BERT-BiLSTM的算法模型比传统的利用词向量的神经网络模型分类更加精准可靠。  相似文献   

4.
张小为  邵剑飞 《电视技术》2021,45(7):146-150
语言处理模型层出不穷,从在图像领域运用的卷积神经网络(Convolutional Neural Networks,CNN)、被改进后的TextCNN到循环神经网络(Rerrent Neural Network,RNN)、谷歌推出的transformer模型以及百度公司提出的ERNIE模型等.为了区分出在新闻文本领域处理效果最佳的文本分类模型,基于新闻文本任务数据对来自变换器的双向编码器表征量(Bidirectional Encoder Representations from Transformers,BERT)进行微调,再将BERT作为embedding输入到其他深度学习模型中,最后对比目前几个深度学习模型的训练效果.实验结果表明,BERT-CNN模型分类效果最佳,其准确率比原BERT模型的准确率多了0.31%,且更为稳定.  相似文献   

5.
针对中文短文本上下文依赖性强,特征信息难以提取的问题,提出一种融合MacBERT、双向长短期记忆神经网络(BiLSTM)、注意力(Attention)机制的短文本分类模型方法。利用预训练模型MacBERT得到动态词向量,输入BiLSTM模型中提取上下文关系特征。结合注意力机制分配不同的权重值,最后使用Softmax分类器得到分类结果。研究表明,该模型在THUCNews数据集上F1值达到了95.63%,相较于基准模型BERT提高了2.18%,验证了其在短文本分类任务中的可行性和有效性。  相似文献   

6.
李明超  张寿明 《电视技术》2021,45(10):116-119
为了解决双向长短时记忆网络(Bi-directional Long Short-Term Memory,BiLSTM)模型不能解决一词多义、不能充分学习文本深层次语义的问题,提出一种基于Bert-A-BiR的文本情感分析模型.首先,对预训练模型(Bidirectional Encoder Representations from Transformers,BERT)进行微调,利用BERT预训练模型对词向量动态调整,将包含上下文信息的真实语义嵌入模型;其次,利用双向门控循环网络(BiGRU)层对BERT层输出文本进行深层特征采集;再次,引入注意力机制,为采集的深层情感特征分配相应的不同权重;最后,将包含权重信息的情感特征送入softmax层进行情感分类.同时,为了进一步提升模型对文本深层语义的学习能力,设计6组相关模型进行进一步实验验证.实验结果表明,所提出的神经网络模型在IMDB数据集上的最高准确率为93.66%,在SST-5数据集上的最高准确率为53.30%,验证了Bert-BiR-A模型的有效性.  相似文献   

7.
传统的文本关键词提取方法忽略了上下文语义信息,不能解决一词多义问题,提取效果并不理想。基于LDA和BERT模型,文中提出LDA-BERT-LightG BM(LB-LightG BM)模型。该方法选择LDA主题模型获得每个评论的主题及其词分布,根据阈值筛选出候选关键词,将筛选出来的词和原评论文本拼接在一起输入到BERT模型中,进行词向量训练,得到包含文本主题词向量,从而将文本关键词提取问题通过LightG BM算法转化为二分类问题。通过实验对比了textrank算法、LDA算法、LightG BM算法及文中提出的LB-LightG BM模型对文本关键词提取的准确率P、召回率R以及F1。结果表明,当Top N取3~6时,F1的平均值比最优方法提升3.5%,该方法的抽取效果整体上优于实验中所选取的对比方法,能够更准确地发现文本关键词。  相似文献   

8.
传统的谣言识别方法耗费人力物力并且准确率较低。为了有效识别社交网络中的谣言,提出一种基于融合模型的谣言识别方法.该方法首先通过BERT预训练模型构建文本句向量;其次构建TextCNN模型挖掘文本的语义特征,构建TextRNN模型用于挖掘文本的时序特征;最后,对两种模型进行加权融合,实现对谣言的识别.此外,还对原始主流模...  相似文献   

9.
随着万维网的发展,文本分类成为处理和组织大量文档数据的关键技术。在阐述了文本分类算法的研究现状,分析了朴素贝叶斯(Na ve Bayes)、kNN和支持向量机(SVM)经典文本分类算法之后,提出了应用最小二乘支持向量机(LSSVM)算法来实现文本分类。对使用用最小二乘支持向量机和一般支持向量机的文本分类结果进行了比较,并得出了结论:使用最小二乘支持向量机进行文本分类缩短了文本分类的时间,并保证了一定的召回率和准确率。  相似文献   

10.
脱婷  马慧芳  李志欣  赵卫中 《电子学报》2000,48(11):2131-2137
针对短文本特征稀疏性问题,提出一种熵权约束稀疏表示的短文本分类方法.考虑到初始字典维数较高,首先,利用Word2vec工具将字典中的词表示成词向量形式,然后根据加权向量平均值对原始字典进行降维.其次,利用一种快速特征子集选择算法去除字典中不相关和冗余短文本,得到过滤后的字典.再次,基于稀疏表示理论在过滤后的字典上,为目标函数设计一种熵权约束的稀疏表示方法,引入拉格朗日乘数法求得目标函数的最优值,从而得到每个类的子空间.最后,在学习到的子空间下通过计算待分类短文本与每个类中短文本的距离,并根据三种分类规则对短文本进行分类.在真实数据集上的大量实验结果表明,本文提出的方法能够有效缓解短文本特征稀疏问题且优于现有短文本分类方法.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号