首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 203 毫秒
1.
为了实现文本描述中的快速并发症的准确预判,该文结合知识图谱、表示学习、深度神经网络等方法构建了一个并发症辅助诊断模型。该模型首先构建医疗领域的知识图谱,并通过知识表示模型对医疗领域知识进行编码,结合患者主诉文本获取患者症状实体的表示向量,再将患者主诉表示向量和指标表示向量通过CNN-DNN网络对并发症进行辅助诊断。实验选取了糖尿病的3种并发症: 高血压、糖尿病肾病和糖尿病视网膜病变作为测试。该文模型的准确率对比支持向量机、随机森林和单独的深度神经网络在高血压、糖尿病肾病和糖尿病视网膜病变上分别提高了5%、5%、14%和27%、6%、9%,说明该文模型能够充分融合医疗知识图谱和深度学习技术,对提高并发症的诊断起到积极作用。  相似文献   

2.
传统词嵌入通常将词项的不同上下文编码至同一参数空间,造成词向量未能有效辨别多义词的语义;CNN网络极易关注文本局部特征而忽略文本时序语义,BiGRU网络善于学习文本时序整体语义,造成关键局部特征提取不足.针对上述问题,提出一种基于词性特征的CNN_BiGRU文本分类模型.引入词性特征构建具有词性属性的词性向量;将词性向量与词向量交叉组合形成增强词向量,以改善文本表示;采用CNN网络获取增强词向量的局部表示,利用BiGRU网络捕获增强词向量的全局上下文表示;融合两模型学习的表示形成深度语义特征;将该深度语义特征连接至Softmax分类器完成分类预测.实验结果表明,该模型提高了分类准确率,具有良好的文本语义建模和识别能力.  相似文献   

3.
肿瘤分期是指从病人的电子病历文本中推测肿瘤对应阶段的过程。在电子病历数据中存在类别严重不均衡现象,因此使用深度学习方法进行肿瘤分期具有一定的挑战性。该文提出医学知识增强的多任务学习KEMT(knowledge enhanced multi-task) 模型,将肿瘤分期问题视作面向医疗电子病历的文本分类任务,同时引入医生在人工预测肿瘤分期时参考的医学属性,提出基于医学问题的机器阅读理解任务,对上述两种任务进行联合学习。我们与医疗机构合作构建了真实场景下的肿瘤分期的数据集,实验结果显示,KEMT模型可以将医学知识与神经网络结合起来,预测准确率高于传统的文本分类模型。在数据分布不均衡的条件下,在小样本类别上的准确率提升了4.2个百分点,同时模型也具有一定的解释性。  相似文献   

4.
随着企业信息传递量的激增,围绕信息精准推送的研究成为相关领域的热点,对于企业推送短文本的精准分类更是其中非常重要的一环。传统的短文本分类多采用TF-IDF算法构建词向量,并采用机器学习方法进行分类,存在维度过高、分类精准度不够等问题。提出基于深度学习的企业推送短文本有监督分类方法,引入深度神经网络代替机器学习分类方法,创建TextCNN模型对企业推送短文本进行处理并分类。实验结果表明,提出方法在开源数据集THUCNews上达到了96.53%的准确率,平均处理时间较传统方法最少缩短400%以上,在性能和准确率上都得到了较好的提升,具有较高的应用价值。  相似文献   

5.
针对现有文本情感分析基础深度学习模块特征提取不够全面,语义表示不准确及训练效率低等问题,提出了基于多通道融合特征网络的文本情感分析模型。首先,采用针对汉字优化的预训练模型ChineseBERT提取文本的动态词向量表征,解决静态词向量存在的无法表示多义词问题,提升词向量语义表征质量;然后,通过多通道融合特征网络全面捕捉文本不同尺度下的语义特征融合向量表示,增强模型对文本深层次情感特征的学习能力;并利用软注意力机制计算每个特征对情感极性类型识别的影响权重,赋予关键特征更高权重,避免无关特征对结果造成干扰;最后,由线性层输出文本情感分类结果。在SMP2020微博疫情相关情绪分类评测数据集、购物评论数据集和酒店评论数据集上进行实验验证,分别取得了76.59%、97.59%和95.72%的F1分数以及76.6%、97.59%和95.73%的准确率,高于近期表现优秀的对比深度学习模型,验证了该模型在文本情感分析任务上的有效性。  相似文献   

6.
胡庆辉  丁立新  何进荣 《软件学报》2013,24(11):2522-2534
在机器学习领域,核方法是解决非线性模式识别问题的一种有效手段.目前,用多核学习方法代替传统的单核学习已经成为一个新的研究热点,它在处理异构、不规则和分布不平坦的样本数据情况下,表现出了更好的灵活性、可解释性以及更优异的泛化性能.结合有监督学习中的多核学习方法,提出了基于Lp范数约束的多核半监督支持向量机(semi-supervised support vector machine,简称S3VM)的优化模型.该模型的待优化参数包括高维空间的决策函数fm和核组合权系数θm.同时,该模型继承了单核半监督支持向量机的非凸非平滑特性.采用双层优化过程来优化这两组参数,并采用改进的拟牛顿法和基于成对标签交换的局部搜索算法分别解决模型关于fm的非平滑及非凸问题,以得到模型近似最优解.在多核框架中同时加入基本核和流形核,以充分利用数据的几何性质.实验结果验证了算法的有效性及较好的泛化性能.  相似文献   

7.
文本情感倾向性分析是自然语言处理研究领域的一个基础问题。基于深度学习的模型是处理此问题的常用模型。而当前的多数深度学习模型在中文文本情感倾向性分析方面的应用存在两个问题: 一是未能充分考虑到文本的层次化结构对情感倾向性判定的重要作用,二是传统的分词技术在处理文本时会产生歧义。该文针对这些问题基于卷积神经网络与层次化注意力网络的优点提出了一种深度学习模型C-HAN(Convolutional Neural Network-based and Hierarchical Attention Network-based Chinese Sentiment Classification Model),先用并行化卷积层学习词向量间的联系与组合形式,再将其结果输入到基本单元为双向循环神经网络的层次化注意力网络中判定情感倾向。实验表明: 模型在中文评论数据集上倾向性分类准确率达到92.34%,和现有多个情感分析模型相比有所提升;此外,对于中文文本,选择使用字级别词向量作为原始特征会优于词级别词向量作为原始特征。  相似文献   

8.
文本分类是自然语言处理的基本任务之一。该文在原型网络基础上,提出了按时序移动平均方式集成历史原型向量的均值原型网络,并将均值原型网络与循环神经网络相结合,提出了一种新的文本分类模型。该模型利用单层循环神经网络学习文本的向量表示,通过均值原型网络学习文本类别的向量表示,并利用文本向量与原型向量的距离训练模型并预测文本类别。与己有的神经网络文本分类方法相比,模型在训练和预测过程中有效利用了样本间的特征相似关系,并具有网络深度浅、参数少的特点。该方法在多个公开的文本分类数据集上取得了最好的分类准确率。  相似文献   

9.
为提升传统中文电子病历实体识别预训练模型的语义特征提取能力并增强中文隐含特征表示,提出基于改进预训练语言模型的医疗命名实体识别方法。提出动态词长的逆向最大匹配算法对病历文本进行标注歧义处理,在此基础上构建用户自定义医疗实体字典辅助PKU分词,提高预训练模型掩码效果。输入向量层加入字向量,引入注意力机制学习字向量的全局语义特征。改进预训练模型mask策略和机制并去掉下一句预测,提升词向量语义表征能力。实验结果表明,该方法有效提高了医疗实体的识别效果,F1值达到90.57%。  相似文献   

10.
将深度神经网络模型应用于藏文文本情感分类中,虽然取得不错的分类效果,但仍然存在因藏文评论文本长度较短引起的特征稀疏的问题,使得深度学习模型不能够提取到更为全面的藏文文本语义特征。该文提出一种以藏文音节和藏文词条同时作为文本基本表示对象,采用CNN、BiLSTM和Multi-Headed Self-Attention机制等深度学习模型完成对藏文评论文本情感分类的研究方法。实验首先对音节和词条进行向量化表示,然后分别采用多核卷积神经网络、BiLSTM和Multi-Headed Self-Attention机制获取藏文文本中多维度的内部特征,最后通过特征拼接,再经激活函数为Softmax的全连接神经网络完成文本情感分类。研究结果表明,在该文的实验测试语料集上,融合音节和词条特征模型的分类准确率要优于基于音节的模型和基于词条的模型。  相似文献   

11.
由于Bert-base,Chinese预训练模型参数巨大,在做分类任务微调时内部参数变化较小,易产生过拟合现象,泛化能力弱,且该模型是以字为单位进行的预训练,包含词信息量较少。针对这些问题,提出了BERT-TECNN模型,模型使用Bert-base,Chinese模型作为动态字向量模型,输出包含深度特征信息的字向量,Transformer encoder层再次对数据进行多头自注意力计算,提取特征信息,以提高模型的泛化能力,CNN层利用不同大小卷积核,捕捉每条数据中不同长度词的信息,最后应用softmax进行分类。该模型与Word2Vec+CNN、Word2Vec+BiLSTM、Elmo+CNN、BERT+CNN、BERT+BiLSTM、BERT+Transformer等深度学习文本分类模型在三种数据集上进行对比实验,得到的准确率、精确率、召回率、F1测度值均为最高。实验表明该模型有效地提取了文本中字词的特征信息,优化了过拟合问题,提高了泛化能力。  相似文献   

12.
为解决经典方法预测全社会用电总量预测数值精度较低、模型结构参数过于复杂等技术难题,本文提出将电力大数据和人工智能领域深度学习算法相结合的研究方法。采用计算机建立具有阶层结构的深度神经网络,根据仿生学原理引入线性整流函数解决梯度消失及神经网络收敛速度减慢问题,采用梯度下降来进行优化模型,同时通过引入指数衰减法由神经网络模型自动设定学习率以提高模型预测精度并降低迭代次数。从数量场的梯度原理并结合泰勒公式,推导出梯度下降法背后数学原理。为解决过拟合问题引入早停算法以提高模型训练速度及泛化能力。最后深度学习算法预测数值与经典线性回归算法预测数值相比较,深度学习算法在对全社会月用电总量的预测精准度、稳定性指标上明显优于线性回归算法,深度神经网络模型对未来全社会电力需求的预测数值具有高度的可信性。  相似文献   

13.
通过对目前现有的肺癌检测技术研究,发现大部分研究人员主要针对肺癌(Computed tomography,CT)影像进行研究,忽略了电子病历所隐藏的肺癌信息,本文提出一种基于图像与文本相结合的肺癌分类方法,从现有的基于深度学习的肺癌图像分类出发,引入了电子病历信息,使用Multi-head attention以及(Bi-directional long short-term memory,Bi-LSTM)对文本建模.实验结果证明,将电子病历信息引入到图像分类模型之后,对模型的性能有进一步的提升.相对仅使用电子病历进行预测,准确率提升了大约14%,精确率大约提升了15%,召回率提升了14%.相对仅使用肺癌CT影像来进行预测,准确率提升了3.2%,精确率提升了4%,召回率提升了4%.  相似文献   

14.
阿尔兹海默症(Alzheimer's Disease,AD)是一种在老年人群中常见的痴呆疾病,由于病程不可逆且无法治愈,常会对病人的生活质量产生极大影响,因此尽早诊断病情并对病程加以干预是唯一有效的手段。由于良好的实验效果,深度学习模型在医学图像领域受到了越来越多研究者的关注,但深度学习方法常需要较大的数据量作为支撑,而医学图像由于设备成本以及病例数量的限制,常存在着数据量不足的问题,因而在某些情况下会出现过拟合的问题。提出一种参数高效的深度学习模型,引入了可分离卷积、全局平均池化、残差结构,使得模型参数量成倍地减少,同时引入多模态数据,增大了输入样本的信息量,以求减少过拟合问题。最后,通过对照试验,验证了该文所提出模型的优越性。  相似文献   

15.
由于具有较高的模型复杂度,深层神经网络容易产生过拟合问题,为了减少该问题对网络性能的不利影响,提出一种基于改进的弹性网模型的深度学习优化方法。首先,考虑到变量之间的相关性,对弹性网模型中的L1范数的不同变量进行自适应加权,从而得到L2范数与自适应加权的L1范数的线性组合。其次,将改进的弹性网络模型与深度学习的优化模型相结合,给出在这种新正则项约束下求解神经网络参数的过程。然后,推导出改进的弹性网模型在神经网络优化中具有群组选择能力和Oracle性质,进而从理论上保证该模型是一种更加鲁棒的正则化方法。最后,在多个回归问题和分类问题的实验中,相对于L1、L2和弹性网正则项,该方法的回归测试误差可分别平均降低87.09、88.54和47.02,分类测试准确度可分别平均提高3.98、2.92和3.58个百分点。由此,在理论和实验两方面验证了改进的弹性网模型可以有效地增强深层神经网络的泛化能力,提升优化算法的性能,解决深度学习的过拟合问题。  相似文献   

16.
由于维吾尔语形态丰富且资源匮乏,因此直接使用现有的深度学习模型并不能很好地完成文本分类任务.基于此,该文提出了MDPLC文本分类模型,即首先将预先训练的词向量和经Bi-LSTM处理得到的语义信息进行融合,进而得到全句语义依赖,然后通过组合池化的CNN进一步加强局部语义学习,同时以双通道的方式使用多卷积核DPCNN捕获文...  相似文献   

17.
电子病历文本挖掘研究综述   总被引:1,自引:0,他引:1  
电子病历是医院信息化发展的产物,其中包含了丰富的医疗信息和临床知识,是辅助临床决策和药物挖掘等的重要资源.因此,如何高效地挖掘大量电子病历数据中的信息是一个重要的研究课题.近些年来,随着计算机技术尤其是机器学习以及深度学习的蓬勃发展,对电子病历这一特殊领域数据的挖掘有了更高的要求.电子病历综述旨在通过对电子病历研究现状...  相似文献   

18.
为在模型训练期间保留更多信息, 用预训练词向量和微调词向量对双向长短期记忆网络(Bi-LSTM)神经模型进行扩展, 并结合协同训练方法来应对医疗文本标注数据缺乏的情况, 构建出改进模型CTD-BLSTM (Co-Training Double word embedding conditioned Bi-LSTM)用于医疗领域的中文命名实体识别. 实验表明, 与原始BLSTM与BLSTM-CRF相比, CTD-BLSTM模型在语料缺失的情况下具有更高的准确率和召回率, 能够更好地支持医疗领域知识图谱的构建以及知识问答系统的开发.  相似文献   

19.
基于信息早期的传播特征来预测其未来的传播范围具有广泛的应用价值。DeepHawkes模型将Hawkes模型与深度学习相结合,不仅继承了Hawkes模型能够表征和建模信息扩散过程的高度可解释性,又具备深度学习自主学习流行度预测隐含特征的高准确预测能力,弥合了传统方法中信息级联的预测与理解之间的间隙。然而,DeepHawkes模型忽略了信息本身的文本内容对于传播的影响。在DeepHawkes模型的基础上提出了既考虑级联的因素又考虑文本内容的LDA-DeepHawkes模型,更加全面地建模信息扩散过程,在继承DeepHawkes高解释性的同时,进一步提高预测准确度。在两个新浪微博数据集上对比了LDA-DeepHawkes模型与其他模型的预测准确度,分析了模型中参数对预测效果的影响。实验结果表明:LDA-DeepHawkes模型有较好的预测精度,说明信息的文本内容也是影响信息扩散的重要因素。  相似文献   

20.
针对现存交通事故文本信息中存在的大量时间、地点、伤亡损失等关键异构数据难以有效提取,以及用静态词向量深度学习模型提取交通事故文本信息精确度较低的问题,本文利用BERT(Bidirectional Encoder Representations from Transformers)对文本字符进行动态向量映射,从数据表达源头解决一词多义、上下文依赖不充分等问题;利用BiGRU(Bi-Gate Recurrent Unit)提取文本向量化后的特征,输出高特征的文本序列;利用CRF(Conditional Random Fields)计算全局最优输出节点的概率优势,优化文本序列特征结果,提出一种基于动态字向量的BERT-BiGRU-CRF融合模型,用于交通事故文本关键信息提取。通过对比实验表明,该模型在交通事故文本信息提取中平均准确率为0.952,F1为0.925,比基于静态词向量Word2Vec模型的精确率与F1值分别提高了6.3个百分点和7.9个百分点。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号