共查询到20条相似文献,搜索用时 62 毫秒
1.
电力投诉工单中往往存在长文本数据,这对工单分类模型的构建是一种挑战。以提升工单分类准确度为目的,提出了一种基于分级信息融合的电力投诉工单分类模型来提高模型分析长文本的能力。使用Word2vec方法对句中的单词进行处理,进而得到单词向量和句子矩阵。利用双向长短时记忆网络(BiLSTM)来学习单词间的依赖关系,同时运用TextCNN学习句子间的相互关联。将各级学习到的深度语义特征利用多层感知机(MLP)实现特征层融合。所提出模型在包含3万真实电力投诉工单样本的数据集上进行实验,5类投诉的平均分类正确率为0.921,平均宏-F1分数为0.901,正确率相较于TextCNN、BiLSTM以及深度置信网络(DBN)分别提升了1.9%、5.3%和13.5%,能够完成投诉工单分类任务。 相似文献
2.
基于语义嵌入模型与交易信息的智能合约自动分类系统 总被引:1,自引:0,他引:1
作为区块链技术的一个突破性扩展,智能合约允许用户在区块链上实现个性化的代码逻辑从而使得区块链技术更加的简单易用.在智能合约代码信息迅速增长的背景下,如何管理和组织海量智能合约代码变得更具挑战性.基于人工智能技术的代码分类系统能根据代码的文本信息自动分门别类,从而更好地帮助人们管理和组织代码的信息.本文以Ethereum平台上的智能合约为例,鉴于词嵌入模型可以捕获代码的语义信息,提出一种基于词嵌入模型的智能合约分类系统.另外,每一个智能合约都关联着一系列交易,我们又通过智能合约的交易信息来更深入地了解智能合约的逻辑行为.据我们所知,本文是对智能合约代码自动分类问题的首次研究尝试.测试结果显示该系统具有较为令人满意的分类性能. 相似文献
3.
4.
5.
针对化妆品安全监管部门抽样检测所含违法违规行为自动识别且分类困难的问题,建立语义分类自动识别模型,辅助有关部门构建智能化管理体系,依靠数据实现科学决策及有效监管。本文分别使用中文词向量及字向量作为双路模型输入,采用CNN(convolutional neural network)网络模型训练字向量, BLSTM(bidirectional long short-term memory)网络模型训练词向量,并在BLSTM中引入位置注意力机制,构建基于CNN-BLSTM的字词双维度化妆品违法违规行为分类模型。在染发类化妆品抽样检测数据集上进行的对比实验结果表明,CNN-BLSTM 模型准确率比常用的几种深度神经网络模型均有明显提高,验证了其合理性和有效性。 相似文献
6.
基于BiLSTM-CRF的中医文言文文献分词模型研究 总被引:1,自引:0,他引:1
由于中医文献内容繁杂数目庞大、专业术语词汇较多,且包含使用文言文、古人口语等多样的书写方式,使用通用领域的分词器进行分词的效果较差。为了解决这一问题,该方法构建了BiLSTM-CRF的模型对中医领域的文献尤其是文言文文献进行分词,并在中医领域文献上对比了BiLSTM-CRF模型、BiLSTM模型及主流通用中文分词器jieba、Ansj的分词结果。结果表明基于Bi-LSTM-CRF模型的分词取得了更优秀的分类性能和鲁棒性。 相似文献
8.
定义抽取是从非结构化文本中自动识别定义句的任务,定义抽取问题可建模为句子中术语及相应定义的序列标注问题,并利用标注结果完成抽取任务。针对传统的定义抽取方法在抽取定义特征过程中费时且容易造成错误传播的不足,提出一个基于双向长短时记忆(BiLSTM)的序列标注神经网络模型,对输入文本进行自动化定义抽取。通过将原始数据输入到BiLSTM神经网络中,完成输入句的特征表示,并采用基于LSTM的解码器进行解码得到标注结果。在Wikipedia英文数据集上的实验结果表明,该方法的精确率、召回率和F1值分别为94.21%、90.10%和92.11%,有效提升了基准模型效果。 相似文献
9.
在双向长短时记忆网络的基础上,提出一种用于口语理解的标签拆分策略,并构建一个联合模型。通过将1次127种标签分类转换成3次独立的分类,平衡ATIS数据集的标签。针对ATIS数据集资源较少的问题,引入外部词向量以提升模型的分类性能。实验结果表明,与循环神经网络及其变体结构相比,该模型的F1值有显著提升,最高可达95.63%。 相似文献
10.
文本情感分类是自然语言处理中的经典任务,在判断文本的情感极性、舆情监控、市场呼声、商品评论等领域有重要的应用价值。该文提出了一种基于预训练模型进行细粒度文本情感分类的新方法。基于文章级别的情感分类任务,需要模型同时具有较高的语义概括能力和抗噪能力。为此,该文利用BiLSTM网络对预训练模型中每层Transformer的权重进行调整,通过将各层表达的不同粒度的语义表征进行动态融合的方式,提高模型的语义空间表达能力。为了增强模型的泛化性能,该文在下游任务结合BiLSTM和BiGRU等结构对得到的语义向量进行特征过滤。利用该模型,作者在CCF 2020年举办的科技战疫·大数据公益挑战赛—疫情期间网民情绪识别赛道中位列第三,最终测试集的F1值为0.745 37,该模型的参数量比第一名模型少67%,但二者分数差距仅为0.000 1,说明该方法具备可行性与有效性。 相似文献
11.
为提取文本的局部最优情感极性、捕捉文本情感极性转移的语义信息,提出一种基于卷积注意力机制的神经网络模型(CNNattentionLSTM)。使用卷积操作提取文本注意力信号,将其加权融合到Word-Embedding文本分布式表示矩阵中,突出文本关注重点的情感词与转折词,使用长短记忆网络LSTM来捕捉文本前后情感语义关系,采用softmax线性函数实现情感分类。在4个数据集上进行的实验结果表明,在具有情感转折词的文本中,该模型能够更精准捕捉文本情感倾向,提高分类精度。 相似文献
12.
针对传统机器学习的情感分类方法存在长距离依赖问题、深度学习存在忽略情感词库的弊端,提出了一种基于注意力机制与双向长短记忆网络和卷积神经网络模型相结合的维吾尔文情感分类方法。将多特征拼接向量作为双向长短记忆网络的输入捕获文本上下文信息,使用注意力机制和卷积网络获取文本隐藏情感特征信息,有效增强了对文本情感语义的捕获能力。实验结果表明,该方法在二分类和五分类情感数据集上的◢F◣▼1▽值相比于机器学习方法分别提高了5.59%和7.73%。 相似文献
13.
为提高新能源汽车领域术语抽取准确率,面向新能源汽车专利文本提出一种领域术语抽取模型。传统的领域术语抽取方法过度依赖人工定义特征和领域知识,无法自动挖掘隐含特征,其识别性能过度依赖所选特征的质量。因此,从深度学习的角度出发,提出了一种基于Attention的双向长短时记忆网络(bidirectional long short-term memory,BLSTM)与条件随机场(conditional random fields,CRF)相结合的领域术语抽取模型(BLSTM_Attention_CRF模型),并使用基于词典与规则相结合的方法对结果进行校正,准确率可达到86%以上,该方法切实可行。 相似文献
14.
在大数据时代,医药专利数据的有效收集、整理和挖掘分析对医药行业发展愈发重要。当前文本分类神经网络对医药专利标签的分类准确率不够高,为了有效提升专利标签的分类效果,设计了一种基于注意力机制的双向长短时记忆神经网络分类模型。该模型避免了传统循环神经网络的长期依赖问题,并充分利用全局信息,以实现文本信息的权重分布。 相似文献
15.
16.
方面级情感分析主要有两大类任务:a)抽取任务,旨在抽取出语句中的方面词及观点词;b)分类任务,旨在分析情感极性。在这两种复合任务的基础上,针对目前方面词与观点词耦合性较差,导致分类任务出错这一问题,提出了融合位置信息的观点三元组情感分析模型OTPM。该模型利用双向长短时记忆网络获得文本表示,接着利用自注意力机制来增强方面词与情感词之间的关联性,之后在多任务框架中进行观点三元组的抽取,同时将抽取出的表示与位置信息进行加权融合,最后利用biaffine评分器分析加权后的方面词与观点词之间的情感依赖关系,并利用stop-on-non-I算法对三元组进行解码输出三元组。在Lap14、Rest14、Rest15、Rest16四个数据集上进行大量实验,结果表明所提模型优于一系列基线模型。 相似文献
17.
从信息论的角度,提出了一种新的文本分类模型.该模型以文本提供的关于类别的信息作为分类依据,从另一个角度来思考文本分类问题.从实用性的角度来看,该模型与传统的朴素贝叶斯模型和基于KL距离的中心向量法具有一定的关系,并给出了证明.根据广义信息论的基本概念,又对此模型进行推广,提出了特征权重的概念,可以通过修正特征权重来修正文本分类模型,为成功解决文本分类模型的修正问题提供了理论基础. 相似文献
18.
针对日渐丰富的多语种文本数据,为了实现对同一类别体系下不同语种的文本分类,充分发挥多语种文本信息的价值,提出一种结合双向长短时记忆单元和卷积神经网络的多语种文本分类模型BiLSTM-CNN模型。针对每个语种,利用双向长短时记忆神经网络提取文本特征,并引入卷积神经网络进行特征优化,获得各语种更深层次的文本表示,最后将各语种的文本表示级联输入到softmax函数预测类别。在中英朝科技文献平行数据集上进行了实验验证,实验结果表明,该方法相比于基准方法分类正确率提高了4%,且对任一语种文本均能正确分类,具有良好的扩展性。 相似文献
19.
锂离子电池作为一种高效的储能元件,被广泛应用到生产生活的各个领域,其健康状态事关系统的安全性,受到越来越多的重视。基于粒子群优化算法,优化了具有注意力机制的双向长短期记忆网络,实现了锂离子电池的健康评估。首先,考虑到锂电池数据的时序特征,采取了一种双向长短期记忆网络提高预测效果,并且引入注意力机制解决信息过载问题,提高任务处理的效率和准确性。接着,利用粒子群优化算法优化网络模型结构的参数,获得高效的锂电池健康状态估计。最后,引入NASA锂离子电池数据集。实验结果验证了所提方法的有效性。 相似文献
20.
胸部X光片是患者胸部检查的优先选择,对患者的诊断治疗起着重要的作用。医生依据自身的经验和习惯书写胸部X光片诊断报告,由于一些主观或者客观的原因,会开具一些影像描述与诊断结论不相符的异常诊断报告,因此对诊断报告进行异常检测有着重要的研究意义。胸片诊断报告未登录词多、数据高维稀疏,缺乏大量有效标注,传统方法检测异常胸片诊断报告效果不佳,为此,提出了一种基于主题模型的胸部X光片诊断报告异常检测方法。首先用双向LSTM-CRF模型结合诊断报告中的字符级特征,获取特定的医疗术语特征,解决诊断报告中未登录词多,描述自由的问题。然后依据领域知识和模板将诊断报告进行有效的特征扩展,缓解数据稀疏问题。最后用LDA模型判断诊断报告中影像描述与诊断结论特征是否匹配,检测出异常胸片诊断报告。实验结果表明,在阈值为2的情况下,异常检测的准确率为92.82%,召回率为69.54%,检测性能优于传统方法的。 相似文献