首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 218 毫秒
1.
为解决谓语中心词识别中的唯一性问题,提出一种基于回归模型的谓语中心词识别模型,使用回归网络与神经网络结合直接输出预测的谓语中心词结束位置与开始位置。对数据集进行预训练,利用BILSTM层捕捉句子上下文的信息,通过卷积神经网络对句子中的特征进行进一步提取,使用多元线性回归层对特征进行线性回归计算,预测唯一谓语中心词的位置,训练过程中不断修正预测值与真实值的距离。使用中国判决网上获取的判决文书作为数据集进行唯一谓语中心词识别的实验,结果达到了82.99%的F值评分,验证了该模型的可行性和有效性。  相似文献   

2.
基于序列标注的中文依存句法分析方法   总被引:2,自引:0,他引:2  
提出了一种基于序列标注模型的中文依存句法分析方法.该方法将依存句法分析转化成序列标注问题,利用条件随机场CRF(Conditional Random Field)建立序列标注模型.在宾州中文树库的测试中,达得了76.59%的依存关系准确率,句子准确率也达到了23.5%.同时我们改进了Viterbi算法,使得依存关系的准确率提高了近2个百分点,句子准确率提高了近3.5个百分点.  相似文献   

3.
抽象语义表示(abstract meaning representation, AMR)是一种领域无关的句子语义表示方法,它将一个句子的语义抽象为一个单根有向无环图,AMR解析旨在将句子解析为对应的AMR图。目前,中文AMR研究仍然处于起步阶段。该文结合中文AMR特性,采用基于转移神经网络的方法对中文AMR解析问题展开了试验性研究。首先,实现了一个基于转移解码方法的增量式中文AMR解析神经网络基线系统;然后,通过引入依存路径语义关系表示学习和上下文相关词语语义表示学习,丰富了特征的表示;最后,模型中应用序列化标注的模型实现AMR概念识别,优化了AMR概念识别效果。实验结果表明,该模型在中文AMR解析任务中达到了0.61的Smatch F1值,明显优于基线系统。  相似文献   

4.
植物属性文本的命名实体识别对林业领域的信息抽取和知识图谱的构建起着重要的作用,针对该问题,提出了一种基于双向长短时记忆网络(BiLSTM)、卷积神经网络(CNN)和条件随机场(CRF)模型的植物属性文本命名实体识别方法 BCC-P。分析了植物属性文本的特点,并进行预处理和标注,完成数据集的构建。BCC-P方法通过BiLSTM模型对植物属性文本进行建模,有效捕捉植物属性文本中的上下文语义特征。将获得的特征传递到CNN模型,进一步提取深度特征。最后使用了CRF模型进行植物属性文本的标注,输出在句子序列上最优的标注结果。在植物属性文本语料上的实验表明,该方法的准确率达到了91.8%,因此能够有效应用于植物属性文本的命名实体识别任务。  相似文献   

5.
新能源汽车命名实体存在实体边界模糊,多为未登录词,现存标注样本较少等问题,识别精确率和召回率较低。据此,提出了一种基于多通道神经网络(Multiple Channel Neural Network,MCNN)的新能源汽车实体识别模型,该模型融合了字词特征和片段特征,不再将实体识别当作传统的序列标注任务,利用半马尔科夫条件随机场(Semi-Markov CRF,SCRF)针对片段特征建模,对输入的句子切分片段并对片段整体分配标记,同时完成实体边界的识别和实体分类,弥补了传统字词序列标注模型采用局部标记区分实体边界的不足。为解决现存标注样本较少的问题,在训练模型的过程中,引入了一种基于不确定性和相似度相结合的主动学习(Active Learning,AL)。通过多组对比实验表明,该模型在大幅度减少人工标注量的同时,能够提高识别精确率和召回率。  相似文献   

6.
缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔符的识别上,利用句子自身特征、领域迁移特征以及双语对齐特征来识别最大名词短语的边界。结果说明,双语信息较好地促进了动词、介词、连词等MNP边界的识别。MNP识别的F值可达83.27%。  相似文献   

7.
为了充分发掘中文简历数据中所蕴含的信息,提高构建社交网络知识图谱和档案知识图谱的实体丰富度,提出了基于BERT的中文简历命名实体识别技术.该技术模型首先通过BERT网络将大规模未标注文本生成具有语义特征的字符向量,接着通过嵌入条件随机场(CRF)的双向长短时记忆(BiLSTM)神经网络模型获取输入文本序列的上下文特征,解码标注提取出相应的8个实体类型.实验结果表明,该网络模型在个人中文简历数据集上取得了97.07%的平均F1值,可以运用于中文简历数据的实体识别任务.  相似文献   

8.
针对目前中文事件检测中词语之间句法依存关系利用不充分和缺乏文章全局语义信息的问题,提出了一种基于句法和全文信息增强的中文事件检测模型。模型首先引入图卷积网络 (Graph convolutional network, GCN),通过捕获词语之间的依存句法关系来增强词语的特征表示。之后采用双向门控循环单元(Bidirectional gate recurrent unit, Bi-GRU)分别学习句子内和句子之间的上下文信息,得到包含文章全局信息的句向量。最后将字、词、句3个粒度的信息通过门结构进行动态融合,使用条件随机场(Conditional random field, CRF)完成对句子中触发词的识别和标注。在ACE2005和CEC中文数据集上的实验结果表明,本文方法有效提升了中文事件检测的效果。  相似文献   

9.
《软件》2019,(2):1-5
传统的中文分词方法是一种基于单词标注的传统机器学习方法,但学习方法需要人工配置和提取中文文本的特征。缺点是同义词库维度较高且CPU训练模型较长。本文针对以上问题进行了研究,构建了内嵌条件随机场的长短时神经网络模型,使用长短时神经网络隐含层的上下文向量作为输出层标注的特征,使用内嵌的条件随机场模型表示标注之间的约束关系采用双向LSTM和CRF相结合的训练方法进行特定领域知识点的中文分词。对中文分词测试常用语料库的实验比较表明,基于BLSTM和CRF网络模型的方法可以获得比传统机器学习方法更好的性能;使用六字标记并添加预训练的字嵌入向量可以实现相对较好的分词性能;BLSTM-CRF网络模型方法更易于推广并应用于其他自然语言处理中的序列标注任务。  相似文献   

10.
针对中文问题分类的中心词识别不准确的问题, 提出了一种基于条件随机场(CRF)和错误驱动学习相结合的识别方法。该方法采用CRF模型对问题的中心词进行初始标注, 依据词的上下文信息用错误驱动的学习方法对其标注结果进行纠正。在训练有序规则的过程中, 为了减少训练时间, 结合中心词的特点对错误驱动算法进行了改进。实验结果表明, 该方法在一定程度上提高了中心词的标注精度, 达到88%。  相似文献   

11.
汉语功能块描述了句子的基本骨架,是联结句法结构和语义描述的重要桥梁。本文提出了两种不同功能块分析模型: 边界识别模型和序列标记模型,并使用不同的机器学习方法进行了计算模拟。通过两种模型分析结果的有机融合,充分利用了两者分析结果的互补性,对汉语句子的主谓宾状四个典型功能块的自动识别性能达到了80%以上。实验结果显示,基于局部词汇语境机器学习算法可以从不同侧面准确识别出大部分功能块,句子中复杂从句和多动词连用结构等是主要的识别难点。  相似文献   

12.
连动句是具备连动结构的句子,是汉语中一种特殊的句法结构,在现代汉语中十分常见且使用频繁.连动句语法结构和语义关系都很复杂,在识别中存在许多问题,对此该文针对连动句的识别问题进行了研究,提出了一种基于神经网络的连动句识别方法.该方法分两步:第一步,运用简单的规则对语料进行预处理;第二步,利用文本分类的思想,使用BERT编...  相似文献   

13.
谓词的自动识别是浅层句法分析的重要内容。以汉语的“谓词中枢论”为语言学基础,详细分析了汉语句子中谓词所处的上下文环境,讨论了影响谓词出现的主要语境因素。提出了一种基于统计学原理的汉语句子谓词自动识别概率模型,通过极大似然估计对谓词候选词在句中充当谓词的概率进行近似计算,利用绝对折扣模型对参数进行平滑。在小规模语料库上进行的实验显示,谓词识别率最高分别达到了80.6%(动词性谓词)和83.2%(形容词性谓词),表明了该方法的可行性和有效性。  相似文献   

14.
江荻 《中文信息学报》2007,21(4):111-115
本文讨论藏语述说动词管控的句子性小句宾语。藏语述说动词包括“说”类动词、认知动词、思考动词、询问动词及其他语义相关的动词。从小句自身结构看,可以是完整的句子,带主语、谓语以及句末动词体貌标记和语气词,也可能只是单一的谓语动词。小句宾语自身具有谓词性,通常通过添加名词化标记使之名词化。小句宾语的标记来自古代述说类动词的类典型zer 的语法化,而在现代藏语中作为小句标记语音和书写形式上都有多个变体。小句宾语内部也有复杂的关系和层次,类似于英语的直接引语与间接引语。小句缺省主语的情况下,动作发出者可通过表示体貌、情态的语法词以及上下文来确定。小句的句类包括陈述、疑问、祈使和感叹,可带不同的句类语气词。最后应该指出,有一部分述说动词小句宾语经常不带名词化标记,这种现象会给句法处理算法带来一定的麻烦,相关原因和解决办法还须进一步研究。  相似文献   

15.
针对现有的基于深度学习的神经网络模型通常都是对单一的语料库进行训练学习,提出了一种大规模的多语料库联合学习的中文分词方法。语料库分别为简体中文数据集(PKU、MSRA、CTB6)和繁体中文数据集(CITYU、AS),每一个数据集输入语句的句首和句尾分别添加一对标志符。应用BLSTM(双向长短时记忆模型)和CRF(条件随机场模型)对数据集进行单独训练和多语料库共同训练的实验,结果表明大规模的多语料库共同学习训练能取得良好的分词效果。  相似文献   

16.
命名实体识别(named entity recognition,NER)是自然语言处理中重要的基础任务,而中文命名实体识别(Chinese named entity recognition,CNER)因分词歧义和一词多义等问题使其尤显困难.针对这些问题,提出多头注意力机制(multi-heads attention m...  相似文献   

17.
针对中文电子病历中命名实体识别和实体关系抽取研究方法中存在的问题,提出了一种基于双向长短时记忆网络(bidirectional long short term memory)与CRF(conditional random field)结合的实体识别和实体关系抽取方法。该方法首先使用词嵌入技术将文本转换为数值向量,作为神经网络BiLSTM的输入,再结合CRF链式结构进行序列标注,输出最大概率序列,并对识别结果知识图谱化。实验证明,该方法对中文电子病历进行实体识别和实体关系抽取时的准确率、召回率、◢F◣值有明显的提升。实验结果满足临床中系统应用需求,对帮助研究构建临床决策支持系统、个性化医疗推荐服务有引导作用。  相似文献   

18.
命名实体识别是自然语言处理中的一个关键.在需求文档中存在过长的实体:虚功能,使得普适的传统命名实体识别方法无法有效地识别得到完整的实体.本文针对需求文档实体识别模型进行深入研究,引入深度学习方法,提出基于深度残差网络(ResNet)的CNER方法与基于规则的方法相结合,进行针对中文需求文档的分词.本文的命名实体识别模型...  相似文献   

19.
司法数据中的事件主要用于描述案件中犯罪主体和客体之间行为状态的改变,通过识别司法事件能有效地支撑智能化辅助办案研究。目前,现有事件抽取技术主要通过触发词识别事件,然后根据预定义的模板抽取对应参数。其主要缺点是只能抽取预定义的事件类型,并且抽取的事件不一定是句子语义表达的中心。针对上述问题,提出一种基于谓语中心词的司法事件定义方法,并搭建一个结合字词语义信息的神经网络模型。该模型采用字的Embedding获取字的语义信息,并通过CNN获得词特征信息。将词特征信息结合后,使用Cross-BiLSTM交叉学习字词交互信息在上下文的依赖表示,由CRF计算出每个字的最优标签路径。通过实验表明,该模型在司法数据集上的F1值达到84.41%,超出对比方法4.8%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号