首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 93 毫秒
1.
贺瑞芳  段绍杨 《软件学报》2019,30(4):1015-1030
事件抽取旨在从非结构化的文本中提取人们感兴趣的信息,并以结构化的形式呈现给用户.当前,大多数中文事件抽取系统采用连续的管道模型,即:先识别事件触发词,后识别事件元素.其容易产生级联错误,且处于下游的任务无法将信息反馈至上游任务,辅助上游任务的识别.将事件抽取看作序列标注任务,构建了基于CRF多任务学习的中文事件抽取联合模型.针对仅基于CRF的事件抽取联合模型的缺陷进行了两个扩展:首先,采用分类训练策略解决联合模型中事件元素的多标签问题(即:当一个事件提及中包含多个事件时,同一个实体往往会在不同的事件中扮演不同的角色).其次,由于处于同一事件大类下的事件子类,其事件元素存在高度的相互关联性.为此,提出采用多任务学习方法对各事件子类进行互增强的联合学习,进而有效缓解分类训练后的语料稀疏问题.在ACE 2005中文语料上的实验证明了该方法的有效性.  相似文献   

2.
事件检测是自然语言处理领域中事件抽取的主要任务之一,它旨在从众多非结构化信息中自动提取出结构化的关键信息.现有的方法存在特征提取不全面、特征分布不均等情况.为了提高事件检测的准确率,提出了一种融合BERT预训练模型与多尺度CNN的神经网络模型(BMCC,BERT+Multi-scale CNN+CRF).首先通过BERT(Bidirectional Encoder Representations from Transformers)预训练模型来进行词向量的嵌入,并利用其双向训练的Transformer机制来提取序列的状态特征;其次使用不同尺度的卷积核在多个卷积通道中进行卷积训练,以此来提取不同视野的语义信息,丰富其语义表征.最后将BIO机制融入到条件随机场(CRF)来对序列进行标注,实现事件的检测.实验结果表明,所提出的模型在MAVEN数据集上的F1值为65.17%,表现了该模型的良好性能.  相似文献   

3.
基于SVM的组块识别及其错误驱动学习方法   总被引:1,自引:0,他引:1  
给出了一种错误驱动学习机制与SVM相结合的汉语组块识别方法。该方法在SVM组块识别的基础上,对SVM识别结果中的错误词语序列的词性、组块标注信息等进行分析,获得候选校正规则集;之后按照阈值条件对候选集进行筛选,得到最终的校正规则集;最后应用该规则集对SVM的组块识别结果进行校正。实验结果表明,与单独采用SVM模型的组块识别相比,加入错误驱动学习方法后,组块识别的精确率、召回率和F值均得到了提高。  相似文献   

4.
条件随机场模型通过抓取问句中心词各方面统计特征来进行中心词标注,但未能充分利用中心词特征间存在的深层统计关系。该文利用中文问句的依存关系树结构,通过挖掘问句依存关系树所蕴藏的中心词各维度特征之间的统计概率关系,为正确提取中心词提供依据,通过挖掘频繁依存子树模式以生成相应统计规则模式,使用条件随机场模型进行中心词初始标注,使用频繁依存子树模式统计规则进行中心词标注校正等。该文方法属于典型的客观方法,建立在严格的统计语料基础上,标注的稳定性、适应性和鲁棒性较好。实验结果表明,该文方法将条件随机场模型的中心词标注准确率提高约3%。
  相似文献   

5.
目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。  相似文献   

6.
藏语句法功能组块分析旨在识别出藏语句子的句法成分,为后续句子级深入分析提供支持。根据藏语的语言特点,该文在藏语句法功能组块描述体系基础上,提出基于错误驱动学习策略的藏语功能组块边界识别方法。具体思路为,首先基于条件随机场(Conditional Random Fields,CRFs)识别组块,然后分别基于转换规则的错误驱动学习(Transformation-based Error-driven Learning,TBL)及基于新特征模板的CRFs错误驱动学习进行二次识别,并对初次结果进行校正,F值分别提高了1.65%、 8.36%。最后通过实验分析,进一步将两种错误驱动学习机制融合,在18073词级的藏语语料上开展实验,识别性能进一步提高,准确率、召回率与F值分别达到94.1%、94.76%与94.43%,充分验证了本文提出方法的有效性。  相似文献   

7.
许多的生物医学命名实体识别(Bio-NER)工作都集中于提取扁平化的实体,而忽略了嵌套实体和不连续实体.此外,大多数生物医学命名实体都未遵循统一的命名法,具有许多典型的领域特征,但其使用效率较低.为此提出一种结合CRF的边界组合命名实体识别方法,有效地利用了生物医学实体特征.该方法包括边界检测、边界组合和实体筛选三个步骤.首先使用神经网络模型和基于特征的CRF模型识别实体开始和结束边界,然后经过边界组合产生候选实体,最后使用多输入的卷积神经网络模型对候选实体进行筛选并分类.实验表明,该方法能够有效地识别生物医学文献中的嵌套和不连续实体,在GENIA数据集上达到81.89%的F值.  相似文献   

8.
中文机构名称识别是中文自然语言处理的一项重要的研究课题。以中文医疗机构名识别为目标,从因特网上抓取了30余万条机构名和1 500篇包含医疗机构名的文本语料,对医疗机构名的组成特点和上下文信息进行详细的分析,总结出若干模式、规则和特征,最后结合条件随机场模型,建立了一个统计和规则相结合的中文医疗机构名识别模型。实验结果表明,该模型的识别效果很好。  相似文献   

9.
提出条件随机场(CRF)与规则相结合的地理空间命名实体识别方法.该方法以丰富的知识作为触发条件,用CRF对满足条件的片段作地名及机构名识别.识别出来的命名实体又被解构,CRF及知识用来进一步判断该命名实体是否表示事件发生地的地理空间信息.实验结果表明,统计与规则方法的结合以及解构算法有效提升了地理空间命名实体识别的性能...  相似文献   

10.
11.
中文语音合成系统中的一种两层韵律结构生成体系   总被引:1,自引:0,他引:1  
董远  周涛  董乘宇  王海拉 《自动化学报》2010,36(11):1569-1574
韵律结构生成是改进一个语音合成系统中的合成语音的完整度和自然度的重要组成部分. 韵律词和韵律短语的自动切分是中文层级韵律结构的两个重要的基本层面, 本文调研了这个基本问题, 并提出了一种两层韵律结构生成体系. 为此, 我们建立了条件随机场模型为韵律词和韵律短语的预测选取不同的前端特征. 除此之外, 我们还引入了基于转换的错误驱动学习模块来修正后端的初始预测. 实验结果显示, 这种结合条件随机场和错误驱动学习的方法使得韵律词和韵律短语的自动分割的F-score值达到了94.66%.  相似文献   

12.
本文研究了一种支持向量机(SVM)和基于转换的错误驱动学习相结合的汉语组块识别方法。SVM在选取特征方面有突出的优点,并且在高维特征空间也具有较高的泛化性能,通过核函数的原则,SVM能够在独立于训练数据维数的小计算范围内进行训练。利用基于转换的错误驱动学习方法对SVM的标注结果进行校正,转换规则较好地处理了语言现象中的
的特殊情况,进一步提高了SVM的识别结果。实验结果表明,该方法具有较好的效果。  相似文献   

13.
许勇  宋柔 《计算机工程》2007,33(10):16-18
CRF模型是标注、切分序列数据的较新的概率模型,在信息抽取等文本处理领域广受关注。该文介绍了CRF方法,并将其应用到百科全书文本段落的划分上,利用CRF的特征表述机制加入了文本单元序列中的长距离约束,取得了比传统的隐马尔科夫方法更好的结果。  相似文献   

14.
中文词法分析与句法分析融合策略研究   总被引:4,自引:2,他引:2  
利用外部资源是提升句法分析性能的一种有效方法。本文利用中文词法分析器这一外部资源,提出了一种通用转换方法将中文词法分析器与句法分析器有机地融合在一起。通过基于转换的错误驱动学习和条件随机场解决不同切词、词性标注标准间的转换问题。在句法分析方面,本文提出了多子模型句法分析器,将中心词驱动模型和结构上下文模型有效结合在一起。融合后的中文句法分析性能在宾州中文树库1.0版①测试集上F1值达到了82.5%的最好水平。  相似文献   

15.
在生物医学文本挖掘领域,化学药物命名实体识别具有重要意义.目前的主流方法是基于条件随机场(conditional random fields, CRF)的方法,但是该方法需要大量的人工特征,并且存在实体标签的全文非一致性问题.针对此问题,提出一种基于注意(Attention)机制的深度学习方法.该方法首先从海量生物文本中学习词向量,然后利用双向长短期记忆网络(BiLSTM)学习字符向量,随后将词向量和字符向量再经过另一个BiLSTM以获得词的上下文表示,然后再利用Attention机制获得词在全文范围下的上下文表示,最后利用CRF层得到整篇文章的标签序列.实验结果表明:相比之前的研究方法,提高了在同一篇文章中实体识别的一致性,并在BioCreative IV评测中的CHEMDNER数据集上取得了更好的结果(F值为90.77%).  相似文献   

16.
刘彤  黄修添  马建设  苏萍 《计算机应用》2017,37(10):2841-2846
传统的图像标注模型通常存在两个问题:只能够对短距离的像素上下文信息进行建模和复杂的模型推理过程。为了提高图像标注的精度、简化图像标注的模型推理过程,采用完全联系的条件随机场模型进行图像标注,提出利用基于高斯kd树的平均场估计方法实现该模型的高效推理。为了更好地验证算法的有效性,实验的图片数据库不仅包含标准的图片库--剑桥大学微软研究图片库(MSRC-9),还包含作者制作的机械零件图片库(MyDataset_1)和办公桌图片库(MyDataset_2)。新算法在三个图片库上的平均标注精度分别可以达到77.96%、97.15%和95.35%,每幅图的平均运行时间为2s。实验结果表明,基于完全联系的条件随机场的图像标注能够更充分地考虑不同的像素上下文信息来提高标注精度,而基于高斯kd树的模型推理能够提高模型推理的效率。  相似文献   

17.
针对电子病历结构化中命名实体识别困难的问题,提出了一种基于CRF与规则相结合的医学病历实体识别算法.该算法采用CRF进行病历实体的初始识别,然后基于规则进行病历实体识别结果优化,其中规则包括基于决策树生成的规则和临床知识规则.实验证明,该算法对病历实体进行识别时准确率及召回率分别最高达到91.03%和87.26%,满足临床中系统应用需求,同时实验表明该算法具有很好的鲁棒性和稳定性.  相似文献   

18.
为了能正确检测显著性图中的多个显著性目标, 提出了一种基于全局颜色对比的显著性目标检测算法。该算法首先提取图像的全局颜色对比度特征, 然后把显著性图和全局颜色对比度作为特征输入条件随机场框架中, 得到二值显著性掩模, 最后经区域描绘子计算得到包含显著性目标的最小外接矩形。在两种公开的数据集上的实验结果表明, 该算法在精度、召回率以及F-测度方面的表现优于现有其他几种算法, 在计算效率上也具有一定的优势。因此, 所提出的算法在检测效果上优于现有的显著性目标检测算法, 而且还能够检测到多个显著性目标。  相似文献   

19.
对工具及其功用性部件的认知是共融机器人智能提升的重要研究方向.本文针对家庭日常工具的功用性部件建模与检测问题展开研究,提出了一种基于条件随机场(Conditional random field,CRF)和稀疏编码联合学习的家庭日常工具功用性部件检测算法.首先,从工具深度图像提取表征工具功用性部件的几何特征;然后,分析CRF和稀疏编码之间的耦合关系并进行公式化表示,将特征稀疏化后作为潜变量构建初始条件随机场模型,并进行稀疏字典和CRF的协同优化:一方面,将特征的稀疏表示作为CRF的随机变量条件及权重参数选择器;另一方面,在CRF调控下对稀疏字典进行更新.随后使用自适应时刻估计(Adaptive moment estimation,Adam)方法实现模型解耦与求解.最后,给出了基于联合学习的工具功用性部件模型离线构建算法,以及基于该模型的在线检测方法.实验结果表明,相较于使用传统特征提取和模型构建方法,本文方法对功用性部件的检测精度和效率均得到提升,且能够满足普通配置机器人对工具功用性认知的需要.  相似文献   

20.
目的 为进一步提高遥感影像的分类精度,将卷积神经网络(CNN)与条件随机场(CRF)两个模型结合,提出一种新的分类方法。方法 首先采用CNN对遥感图像进行预分类,并将其类成员概率定义为CRF模型的一阶势函数;然后利用高斯核函数的线性组合定义CRF模型的二阶势函数,用全连接的邻域结构代替常见的4邻域或8邻域;接着加入区域约束,使用Mean-shift分割方法得到超像素,通过计算超像素的后验概率均值修正各像素的分类结果,鼓励连通区域结果的一致性;最后采用平均场近似算法实现整个模型的推断。结果 选用3组高分辨率遥感图像进行地物分类实验。本文方法不仅能抑制更多的分类噪声,同时还可以改善过平滑现象,保护各类地物的边缘信息。实验采用类精度、总体分类精度OA、平均分类精度AA,以及Kappa系数4个指标进行定量分析,与支持向量机(SVM)、CNN和全连接CRF相比,最终获得的各项精度均得到显著提升,其中,AA提高3.28个百分点,OA提高3.22个百分点,Kappa提高5.07个百分点。结论 将CNN与CRF两种模型融合,不仅可以获得像元本质化的特征,而且同时还考虑了图像的空间上下文信息,使分类更加准确,后加入的约束条件还能进一步保留地物目标的局部信息。本文方法适用于遥感图像分类领域,是一种精确有效的分类方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号