首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 31 毫秒
1.
文章针对中医临床症状实体及属性抽取存在医疗短文本语义信息欠缺,常用的流水线方法易导致多任务之间产生错误累积的问题,提出一种基于深度学习的症状实体及属性抽取方法。首先通过基于BLSTM-CRF的序列标注模型完成“实体/修饰属性”识别;其次根据扩展步长的就近匹配原则生成高覆盖率、低冗余度的“实体—属性值”候选对;最后基于ERNIE-BGRU-MP完成关系分类,利用ERNIE丰富文本上下文信息,联合BGRU提取文本全局特征信息,采用最大池化法过滤冗余和噪声信息,提高模型的泛化性和鲁棒性。  相似文献   

2.
实体关系抽取能够从文本中提取事实三元组信息,这对于构建大规模的知识图谱是十分重要的。在现有的研究中,通常以先进行实体识别,而后进行关系分类或者进行统一标注的方式来完成这一任务,虽然这些方法能够使关系抽取任务变得更易实现,并且模型的网络框架灵活性更高,但是也存在误差积累和暴露误差等问题,且对于关系抽取中的关系重叠和实体嵌套等重难点问题不能够很好的处理。为了解决上述存在的问题,文章构建一种基于深度学习的中文实体关系联合抽取模型。该模型由基于评分的分类器和特定关系的角标记策略以及分区过滤网络构成,首先通过分区过滤网络,将输入的文本划分成三个分区,实体分区和关系分区以及共享分区,能够确保实体识别任务和关系抽取任务进行更好的双向交互;接着应用特定关系的角标记策略来解码实体信息,最后通过一个基于评分的分类器来输出事实关系三元组。实验表明,提出的方法能够改善传统方法带来的误差积累和交互缺失以及实体冗余等问题,提高了三元组抽取的准确率。  相似文献   

3.
汪少敏  杨迪  任华 《电信科学》2018,34(12):117-124
大数据时代,文本分类是文本数据挖掘和文本价值探索领域的重要工作。传统的文本分类系统存在特征提取能力弱、分类准确率不高的问题。相对于传统的文本分类技术,深度学习技术具有准确率高、特征提取有效等诸多优势,有必要将深度学习技术引入文本分类系统,以解决传统文本分类系统存在的问题。在分析传统文本分类系统的基础上,提出了基于深度学习的文本分类系统的体系架构和关键技术,同时对传统分类模型、TextCNN、CNN+LSTM多种分类模型进行了验证比对。  相似文献   

4.
关系抽取是信息抽取技术的重要环节,旨在从无结构的文本中抽取出实体之间的关系.目前基于深度学习的实体关系抽取已经取得了一定的成果,但其特征提取不够全面,在各项实验指标方面仍有较大的提升空间.实体关系抽取不同于其他自然语言分类和实体识别等任务,它主要依赖于句子和两个目标实体的信息.本文根据实体关系抽取的特点,提出了SEF-...  相似文献   

5.
针对当前的在线协作讨论交互文本分类仅采用深度学习方法时,存在无法充分获取上下文语义关联以及忽略关键特征词,造成分类结果准确率下降的问题,文中提出一种结合注意力机制的深度学习网络模型—CNNBiLSTM-Attention,进一步强化文本的语义特征。利用该模型对在线协作讨论活动中产生的12000条交互文本进行分类,分类结果表明,CNN-BiLSTM-Attention的分类准确率整体上可达到82.40%,有效提升了文本分类的效果。  相似文献   

6.
知识图谱可辅助现场人员处理配电网运行过程中积累的海量异构文本,挖掘高价值运行信息。针对知识图谱构建需求人工标注成本过高的问题,提出一种基于知识增强的远程监督关系抽取方法。利用GloVe编码与Bi-GRU网络对配电网运行语料库的句包进行向量表征;同时,新增外部知识增强模块,通过Attention-GCN模型获取编码文本的句法结构以及非线性关系,实现低成本的关系抽取,解决传统远程监督学习存在的长尾分布及噪声问题,提升关系抽取精度。实验结果表明,该方法在配电网运行信息关系抽取任务中表现优秀,相较于主流模型在精确率上提升6%。  相似文献   

7.
针对目前数据库知识发现模型系统中传统文本信息抽取算法无法满足用户业务需求的问题,提出了一种基于用户需求描述的文本信息特征抽取模型。通过用户的业务需求模型进行特征化描述,将数据库中存储的原始本文信息进行预处理加工,计算的词频、权重,初步选取文本特征,根据用户需求描述计算特征相似度,过滤不相关的"噪声"信息,进而保留能够精确描述文本信息的特征。  相似文献   

8.
针对通过微博文本获取用户情感倾向,以提高舆情监控效率的问题。利用深度学习的方法实现微博语料的情感分类,构建符合近年文本长度分布特点的高质量微博情感分类数据集,分析微博文本长度对情感分类的影响。由于中长语料主观性强、句子关联度弱,其检测准确率偏低。针对此问题,本文提出一种基于胶囊网络的中长微博情感分析模型。采用注意力机制,在融合局部特征与全局特征的基础上,利用胶囊向量实现深层情感特征提取,提高中长语料的检测效果。利用本文搜集的数据集进行实验,结果表明,相较于多种深度学习算法,本文模型性能更佳。在不同文本长度语料的对比实验中,伴随着文本长度的增加,分类准确率逐渐降低。相较于传统的LSTM算法,本文模型随文本长度增加效果提升,证明了该模型针对中长微博文本情感分类的可行性。  相似文献   

9.
针对文本生成图像任务中的文本编码器不能深度挖掘文本信息,导致后续生成的图像存在语义不一致的问题,本文提出了一种改进DMGAN模型的文本生成图像方法。首先使用XLnet的预训练模型对文本进行编码,该模型在大规模语料库的预训练之下能够捕获大量文本的先验知识,实现对上下文信息的深度挖掘;然后在DMGAN模型生成图像的初始阶段和图像细化阶段均加入通道注意力模块,突出重要的特征通道,进一步提升生成图像的语义一致性和空间布局合理性,以及模型的收敛速度和稳定性。实验结果表明,所提出模型在CUB数据集上生成的图像相比原DMGAN模型,IS指标提升了0.47,FID指标降低了2.78,充分说明该模型具有更好的跨模态生成能力。  相似文献   

10.
文档图像标题检测作为文档版面分析的特定应用在信息检索、机器翻译等方面存在广泛应用,也是学术研究的热点之一。传统基于规则的文档图像标题检测算法存在因为规则覆盖率有限导致算法泛化能力差的问题。本文提出一种基于CTPN的文档图像标题检测算法,首先检测图像中文本块,将每个文本块位置信息转化为标题检测模型所需的特征向量,并形成训练样本集,利用随机森林分类器学习样本分布。该算法结合了神经网络和随机森林分类器,算法泛化能力强,同时在给定样本分布下,标题检测算法具有较优的性能,可用于一般场景下文本图像标题检测。  相似文献   

11.
王亚珅  黄河燕  冯冲  刘全超 《电子学报》2016,44(10):2459-2465
随着社交媒体的发展及成熟,每天在互联网环境中都会产生大量的用户评论信息。抽取评价短语、评价对象和观点持有者等情感要素,已经成为了中文观点挖掘和情感分析的重要先决任务。针对中文情感要素抽取任务,本文提出了一个统计和规则相结合的级联模型,主要贡献包括:(1)针对汽车领域评论信息,构建情感要素标注语料库和相关词典;(2)对于以往研究较少关注的中文评价短语,本文详细分析阐述其定义和分类;(3)结合统计和规则,分别针对评价短语和情感要素提出级联抽取策略。实验结果充分证明了该级联模型的有效性,相比较于其它基于规则的情感要素抽取算法有效提升了召回率,同时为后续社交媒体情感分析任务提供了有力的支持。  相似文献   

12.
与传统的机器学习模型相比,深度学习模型试图模仿人的学习思路,通过计算机自动进行海量数据的特征提取工作。文本分类是自然语言处理中的一个重要应用,在文本信息处理过程中具有关键作用。过去几年,使用深度学习方法进行文本分类的研究激增并取得了较好效果。文中简要介绍了基于传统模型的文本分类方法和基于深度学习的文本分类方法,回顾了先进文本分类方法并重点关注了其中基于深度学习的模型,对近年来用于文本分类的深度学习模型的研究进展以及成果进行介绍和总结,并对深度学习在文本分类领域的发展趋势和研究的难点进行了总结和展望。  相似文献   

13.
近年来,全民考编成为时代趋势,大量政府机构职位如公务员、军队文职等启动线上报考招聘工作。但大量繁杂的岗位信息也为求职者选岗带来了困难。针对选岗慢、选岗难等问题,基于少量人工标注的岗位文本信息,提出了一种新型的精准岗位推荐算法。通过特征构建,明确不同招考信息的匹配规则;通过基于文本分类的ERNIE-BiLSTM-CRF训练实体识别模型,实现长文本岗位描述信息的隐含条件抽取;提出改进的基于动态词向量的加权余弦相似度算法,解决文本相似度计算中无关信息噪音问题。在自标注的数据集上的实验结果表明,上述条件抽取模型的F1值较最优算法提升14.97%,相似度匹配命中率和DCG值分别提升20.5%和22.9%,可有效实现基于小样本的人岗模糊匹配,为求职者提供准确、鲁棒的文职岗位推荐服务。  相似文献   

14.
针对在传统语义融合的文本相似度算法设计与实现中由于汉语语义复杂存在容易形成局部极小值而得不到全局最优、训练次数较多、学习效率降低、隐节点的选取缺乏理论依据等问题,提出一种改进算法。首先在把握文本相似度算法内涵和分类情况的基础上,通过调整数字识别方向、选取合适的数据来源,依据图像识别技术和算法深度学习的共性需求,从语义融合角度提出以核心词为节点进行文本相似度计算;然后通过多特征融合向量空间模型对特征项的类间分布问题进行分析,最终通过加权计算得到文本相似度。从算法实现效果来看,相较于传统算法能够获得更高文本分类准确度,改进基于文本相似度算法的语言处理技术更加高效、准确。  相似文献   

15.
基于最大熵的隐马尔可夫模型文本信息抽取   总被引:29,自引:3,他引:26       下载免费PDF全文
文本信息抽取是处理海量文本的重要手段之一.最大熵模型提供了一种自然语言处理的方法.提出了一种基于最大熵的隐马尔可夫模型文本信息抽取算法.该算法结合最大熵模型在处理规则知识上的优势,以及隐马尔可夫模型在序列处理和统计学习上的技术基础,将每个观察文本单元所有特征的加权之和用来调整隐马尔可夫模型中的转移概率参数,实现文本信息抽取.实验结果表明,新的算法在精确度和召回率指标上比简单隐马尔可夫模型具有更好的性能.  相似文献   

16.
文本分类任务中,不同领域的文本很多表达相似,具有相关性的特点,可以解决有标签训练数据不足的问题。采用多任务学习的方法联合学习能够将不同领域的文本利用起来,提升模型的训练准确率和速度。该文提出循环卷积多任务学习(MTL-RC)模型用于文本多分类,将多个任务的文本共同建模,分别利用多任务学习、循环神经网络(RNN)和卷积神经网络(CNN)模型的优势获取多领域文本间的相关性、文本长期依赖关系、提取文本的局部特征。基于多领域文本分类数据集进行丰富的实验,该文提出的循环卷积多任务学习模型(MTL-LC)不同领域的文本分类平均准确率达到90.1%,比单任务学习模型循环卷积单任务学习模型(STL-LC)提升了6.5%,与当前热门的多任务学习模型完全共享多任务学习模型(FS-MTL)、对抗多任务学习模型(ASP-MTL)、间接交流多任务学习框架(IC-MTL)相比分别提升了5.4%, 4%和2.8%。  相似文献   

17.
针对传统广播电视自动分类系统存在的内容特征提取单一、内容分类准确率不理想问题,提出基于文本语义的混合多层分类模型。模型通过引入TextRank算法,完成对广播电视节目文本介绍内容的关键语义词的提取,进而使用BM25算法对冗余的语义关键词进行去除,最终通过FastText模型完成对广播电视节目的文本自动分类操作。搭建实验环境对提出的模型进行实现与仿真,实验结果表明,改进后的方式能够有效提升广播电视节目分类系统的分类准确性。  相似文献   

18.
文本分类任务中,不同领域的文本很多表达相似,具有相关性的特点,可以解决有标签训练数据不足的问题.采用多任务学习的方法联合学习能够将不同领域的文本利用起来,提升模型的训练准确率和速度.该文提出循环卷积多任务学习(MTL-RC)模型用于文本多分类,将多个任务的文本共同建模,分别利用多任务学习、循环神经网络(RNN)和卷积神经网络(CNN)模型的优势获取多领域文本间的相关性、文本长期依赖关系、提取文本的局部特征.基于多领域文本分类数据集进行丰富的实验,该文提出的循环卷积多任务学习模型(MTL-LC)不同领域的文本分类平均准确率达到90.1%,比单任务学习模型循环卷积单任务学习模型(STL-LC)提升了6.5%,与当前热门的多任务学习模型完全共享多任务学习模型(FS-MTL)、对抗多任务学习模型(ASP-MTL)、间接交流多任务学习框架(IC-MTL)相比分别提升了5.4%,?4%和2.8%.  相似文献   

19.
随着社会法治化发展,法院受案数量呈爆发式增长,各证据要素之间关联较弱,影响法律审判效率.基于上述问题,提出一种基于深度学习的多维度证据要素关联关系抽取模型,设计基于BERT_BiGRU_CNN模型的证据要素关联关系抽取算法.本文以裁判文书为数据集,使用BERT训练所需字词向量,开展BERT、BERT_CNN、BERT_...  相似文献   

20.
针对信息增益模型在文本分类中的不足之处,提出了一种基于灰关系与信息增益的文本分类算法.首先基于改进的χ2统计进行类别特征选择用于类内文本表示,提高类别中心向量的表示能力;其次针对IG模型对低频词赋权过大问题,提出了基于频数和位置的改进加权方法;最后提出了基于灰关系的文本相似度计算途径,改善了基于距离的相似度计算模式的不足.试验表明,此算法提高了文本分类效率.  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号