共查询到19条相似文献,搜索用时 218 毫秒
1.
为解决谓语中心词识别中的唯一性问题,提出一种基于回归模型的谓语中心词识别模型,使用回归网络与神经网络结合直接输出预测的谓语中心词结束位置与开始位置。对数据集进行预训练,利用BILSTM层捕捉句子上下文的信息,通过卷积神经网络对句子中的特征进行进一步提取,使用多元线性回归层对特征进行线性回归计算,预测唯一谓语中心词的位置,训练过程中不断修正预测值与真实值的距离。使用中国判决网上获取的判决文书作为数据集进行唯一谓语中心词识别的实验,结果达到了82.99%的F值评分,验证了该模型的可行性和有效性。 相似文献
2.
基于序列标注的中文依存句法分析方法 总被引:2,自引:0,他引:2
提出了一种基于序列标注模型的中文依存句法分析方法.该方法将依存句法分析转化成序列标注问题,利用条件随机场CRF(Conditional Random Field)建立序列标注模型.在宾州中文树库的测试中,达得了76.59%的依存关系准确率,句子准确率也达到了23.5%.同时我们改进了Viterbi算法,使得依存关系的准确率提高了近2个百分点,句子准确率提高了近3.5个百分点. 相似文献
3.
抽象语义表示(abstract meaning representation, AMR)是一种领域无关的句子语义表示方法,它将一个句子的语义抽象为一个单根有向无环图,AMR解析旨在将句子解析为对应的AMR图。目前,中文AMR研究仍然处于起步阶段。该文结合中文AMR特性,采用基于转移神经网络的方法对中文AMR解析问题展开了试验性研究。首先,实现了一个基于转移解码方法的增量式中文AMR解析神经网络基线系统;然后,通过引入依存路径语义关系表示学习和上下文相关词语语义表示学习,丰富了特征的表示;最后,模型中应用序列化标注的模型实现AMR概念识别,优化了AMR概念识别效果。实验结果表明,该模型在中文AMR解析任务中达到了0.61的Smatch F1值,明显优于基线系统。 相似文献
4.
植物属性文本的命名实体识别对林业领域的信息抽取和知识图谱的构建起着重要的作用,针对该问题,提出了一种基于双向长短时记忆网络(BiLSTM)、卷积神经网络(CNN)和条件随机场(CRF)模型的植物属性文本命名实体识别方法 BCC-P。分析了植物属性文本的特点,并进行预处理和标注,完成数据集的构建。BCC-P方法通过BiLSTM模型对植物属性文本进行建模,有效捕捉植物属性文本中的上下文语义特征。将获得的特征传递到CNN模型,进一步提取深度特征。最后使用了CRF模型进行植物属性文本的标注,输出在句子序列上最优的标注结果。在植物属性文本语料上的实验表明,该方法的准确率达到了91.8%,因此能够有效应用于植物属性文本的命名实体识别任务。 相似文献
5.
新能源汽车命名实体存在实体边界模糊,多为未登录词,现存标注样本较少等问题,识别精确率和召回率较低。据此,提出了一种基于多通道神经网络(Multiple Channel Neural Network,MCNN)的新能源汽车实体识别模型,该模型融合了字词特征和片段特征,不再将实体识别当作传统的序列标注任务,利用半马尔科夫条件随机场(Semi-Markov CRF,SCRF)针对片段特征建模,对输入的句子切分片段并对片段整体分配标记,同时完成实体边界的识别和实体分类,弥补了传统字词序列标注模型采用局部标记区分实体边界的不足。为解决现存标注样本较少的问题,在训练模型的过程中,引入了一种基于不确定性和相似度相结合的主动学习(Active Learning,AL)。通过多组对比实验表明,该模型在大幅度减少人工标注量的同时,能够提高识别精确率和召回率。 相似文献
6.
7.
8.
针对目前中文事件检测中词语之间句法依存关系利用不充分和缺乏文章全局语义信息的问题,提出了一种基于句法和全文信息增强的中文事件检测模型。模型首先引入图卷积网络 (Graph convolutional network, GCN),通过捕获词语之间的依存句法关系来增强词语的特征表示。之后采用双向门控循环单元(Bidirectional gate recurrent unit, Bi-GRU)分别学习句子内和句子之间的上下文信息,得到包含文章全局信息的句向量。最后将字、词、句3个粒度的信息通过门结构进行动态融合,使用条件随机场(Conditional random field, CRF)完成对句子中触发词的识别和标注。在ACE2005和CEC中文数据集上的实验结果表明,本文方法有效提升了中文事件检测的效果。 相似文献
9.
《软件》2019,(2):1-5
传统的中文分词方法是一种基于单词标注的传统机器学习方法,但学习方法需要人工配置和提取中文文本的特征。缺点是同义词库维度较高且CPU训练模型较长。本文针对以上问题进行了研究,构建了内嵌条件随机场的长短时神经网络模型,使用长短时神经网络隐含层的上下文向量作为输出层标注的特征,使用内嵌的条件随机场模型表示标注之间的约束关系采用双向LSTM和CRF相结合的训练方法进行特定领域知识点的中文分词。对中文分词测试常用语料库的实验比较表明,基于BLSTM和CRF网络模型的方法可以获得比传统机器学习方法更好的性能;使用六字标记并添加预训练的字嵌入向量可以实现相对较好的分词性能;BLSTM-CRF网络模型方法更易于推广并应用于其他自然语言处理中的序列标注任务。 相似文献
10.
针对中文问题分类的中心词识别不准确的问题, 提出了一种基于条件随机场(CRF)和错误驱动学习相结合的识别方法。该方法采用CRF模型对问题的中心词进行初始标注, 依据词的上下文信息用错误驱动的学习方法对其标注结果进行纠正。在训练有序规则的过程中, 为了减少训练时间, 结合中心词的特点对错误驱动算法进行了改进。实验结果表明, 该方法在一定程度上提高了中心词的标注精度, 达到88%。 相似文献
11.
12.
13.
谌志群 《计算机工程与应用》2007,43(17):176-178
谓词的自动识别是浅层句法分析的重要内容。以汉语的“谓词中枢论”为语言学基础,详细分析了汉语句子中谓词所处的上下文环境,讨论了影响谓词出现的主要语境因素。提出了一种基于统计学原理的汉语句子谓词自动识别概率模型,通过极大似然估计对谓词候选词在句中充当谓词的概率进行近似计算,利用绝对折扣模型对参数进行平滑。在小规模语料库上进行的实验显示,谓词识别率最高分别达到了80.6%(动词性谓词)和83.2%(形容词性谓词),表明了该方法的可行性和有效性。 相似文献
14.
本文讨论藏语述说动词管控的句子性小句宾语。藏语述说动词包括“说”类动词、认知动词、思考动词、询问动词及其他语义相关的动词。从小句自身结构看,可以是完整的句子,带主语、谓语以及句末动词体貌标记和语气词,也可能只是单一的谓语动词。小句宾语自身具有谓词性,通常通过添加名词化标记使之名词化。小句宾语的标记来自古代述说类动词的类典型zer 的语法化,而在现代藏语中作为小句标记语音和书写形式上都有多个变体。小句宾语内部也有复杂的关系和层次,类似于英语的直接引语与间接引语。小句缺省主语的情况下,动作发出者可通过表示体貌、情态的语法词以及上下文来确定。小句的句类包括陈述、疑问、祈使和感叹,可带不同的句类语气词。最后应该指出,有一部分述说动词小句宾语经常不带名词化标记,这种现象会给句法处理算法带来一定的麻烦,相关原因和解决办法还须进一步研究。 相似文献
15.
16.
命名实体识别(named entity recognition,NER)是自然语言处理中重要的基础任务,而中文命名实体识别(Chinese named entity recognition,CNER)因分词歧义和一词多义等问题使其尤显困难.针对这些问题,提出多头注意力机制(multi-heads attention m... 相似文献
17.
针对中文电子病历中命名实体识别和实体关系抽取研究方法中存在的问题,提出了一种基于双向长短时记忆网络(bidirectional long short term memory)与CRF(conditional random field)结合的实体识别和实体关系抽取方法。该方法首先使用词嵌入技术将文本转换为数值向量,作为神经网络BiLSTM的输入,再结合CRF链式结构进行序列标注,输出最大概率序列,并对识别结果知识图谱化。实验证明,该方法对中文电子病历进行实体识别和实体关系抽取时的准确率、召回率、◢F◣值有明显的提升。实验结果满足临床中系统应用需求,对帮助研究构建临床决策支持系统、个性化医疗推荐服务有引导作用。 相似文献
18.
命名实体识别是自然语言处理中的一个关键.在需求文档中存在过长的实体:虚功能,使得普适的传统命名实体识别方法无法有效地识别得到完整的实体.本文针对需求文档实体识别模型进行深入研究,引入深度学习方法,提出基于深度残差网络(ResNet)的CNER方法与基于规则的方法相结合,进行针对中文需求文档的分词.本文的命名实体识别模型... 相似文献
19.
司法数据中的事件主要用于描述案件中犯罪主体和客体之间行为状态的改变,通过识别司法事件能有效地支撑智能化辅助办案研究。目前,现有事件抽取技术主要通过触发词识别事件,然后根据预定义的模板抽取对应参数。其主要缺点是只能抽取预定义的事件类型,并且抽取的事件不一定是句子语义表达的中心。针对上述问题,提出一种基于谓语中心词的司法事件定义方法,并搭建一个结合字词语义信息的神经网络模型。该模型采用字的Embedding获取字的语义信息,并通过CNN获得词特征信息。将词特征信息结合后,使用Cross-BiLSTM交叉学习字词交互信息在上下文的依赖表示,由CRF计算出每个字的最优标签路径。通过实验表明,该模型在司法数据集上的F1值达到84.41%,超出对比方法4.8%。 相似文献