共查询到17条相似文献,搜索用时 62 毫秒
1.
基于单字提示特征的中文命名实体识别快速算法 总被引:2,自引:1,他引:2
近年来条件随机场(CRF)模型在自然语言处理中的应用越来越广泛。标准的线性链(Linear-chain)模型一般采用L-BFGS参数估计方法,收敛速度慢。本文在分析模型复杂度的基础上提出了一种改进的快速CRF算法。该算法通过引入小规模单字特征降低特征的规模,并通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格搜索空间,提高了训练的速度。在中文863命名实体识别评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文命名实体识别精度的同时,有效地降低了模型的训练代价。 相似文献
2.
3.
4.
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。 相似文献
5.
基于BERT-BiLSTM-CRF模型的中文实体识别 总被引:1,自引:0,他引:1
命名实体识别是自然语言处理的一项关键技术.基于深度学习的方法已被广泛应用到中文实体识别研究中.大多数深度学习模型的预处理主要注重词和字符的特征抽取,却忽略词上下文的语义信息,使其无法表征一词多义,因而实体识别性能有待进一步提高.为解决该问题,本文提出了一种基于BERT-BiLSTM-CRF模型的研究方法.首先通过BERT模型预处理生成基于上下文信息的词向量,其次将训练出来的词向量输入BiLSTM-CRF模型做进一步训练处理.实验结果表明,该模型在MSRA语料和人民日报语料库上都达到相当不错的结果, F1值分别为94.65%和95.67%. 相似文献
6.
基于BERT+BiLSTM+CRF的中文景点命名实体识别 总被引:1,自引:0,他引:1
为解决旅游文本在特征表示时的一词多义问题,针对旅游游记文本景点实体识别中景点别名的问题,研究了一种融合语言模型的中文景点实体识别模型.首先使用BERT语言模型进行文本特征提取获取字粒度向量矩阵,BiLSTM用于上下文信息的提取,同时结合CRF模型提取全局最优序列,最终得到景点命名实体.实验表明,提出的模型性能提升显著,在实际旅游领域内景点识别的测试中,与以往研究者方法比较下准确率,召回率分别提升了8.33%, 1.71%. 相似文献
7.
基于层叠条件随机场的旅游领域命名实体识别 总被引:3,自引:0,他引:3
针对旅游领域,提出了一种基于层叠条件随机场模型的旅游领域命名实体识别方法。该方法在低层条件随机场中以字为切分粒度,结合旅游景点常用字表、景点常用后缀表、地名常用字表等特征词典,实现简单旅游命名实体的识别;其识别结果传递到高层模型,以词为切分粒度,结合复杂特征,实现嵌套景点、特产风味、地点的识别。最后进行了两组相关实验,结果表明,在开放测试中,层叠条件随机场模型相比于单层模型,F值提高了8个百分点;相比于HMM模型,正确率提高了8个百分点,召回率提高了22个百分点,F值提高了15个百分点。 相似文献
8.
俞一乘 《计算机应用与软件》2012,29(4):192-194,219
在自然语言处理中,实体指代项识别通常被看作是序列标注任务进行处理.而实体指代项又是由多个连续的序列标注子任务组成的.这些子任务包括切分识别、实体识别和指代项识别.传统的管道方法经常会导致每步间的错误向下传递.级联方式的联合模型会带来大量的标记.虚结点方法同时规避了上面两个方法的缺点.系统采用虚结点的在线联合模型,不仅减少了训练时间,性能也比普通的在线联合模型要好. 相似文献
9.
人工智能技术的发展推动了医疗领域的智能化,为提升医疗效率、改善医疗水平提供了新的助力。同时,这一新的趋势也催生了海量的电子病历文本,其所蕴含的丰富信息具有巨大的潜在挖掘与应用价值。然而,当前中文电子病历的命名实体识别研究工作并没有全面考虑中文及中文医疗领域的特殊性,而是将面向通用数据集的模型迁移到医疗领域的实体类型中,分析效果较为有限。针对这一问题,该文设计了长短期记忆网络与条件随机场的联合模型并引入BERT模型;在此基础之上,考虑到医疗领域命名实体鲜明的部首特征,通过将部首信息编码到字向量中,并且结合部首信息修改条件随机场层得分函数的计算方式,有效地提升了医疗领域命名实体的抽取能力。通过两项电子病历数据集的实验结果表明,该文提出的模型整体效果略高于通用的实体识别模型,并对疾病诊断等特定类型的实体词的识别效果具有较为明显的提升。 相似文献
10.
中文实体关系抽取中的特征选择研究 总被引:9,自引:4,他引:9
命名实体关系抽取是信息抽取研究领域中的重要研究课题之一。通过分析,本文提出将中文实体关系划分为: 包含实体关系与非包含实体关系。针对同一种句法特征在识别它们时性能的明显差异,本文对这两种关系采用了不同的句法特征集,并提出了一些适合各自特点的新的句法特征。在CRF 模型框架下,以ACE2007 的语料作为实验数据,结果表明本文的划分方法和新特征有效的提高了汉语实体关系抽取任务的性能。关键词: 计算机应用;中文信息处理;实体关系抽取;包含关系;非包含关系;特征选择;ACE 评测 相似文献
11.
实体识别在许多自然语言处理应用系统中发挥着极其重要的作用。目前大部分研究集中在命名实体识别,且不考虑实体之间的嵌套,本文在自动内容抽取评测(Automatic Content Extraction, ACE)背景下,对汉语文本中各种实体提及(命名性,名词性,代词性)的多层嵌套识别进行了研究。我们将嵌套实体识别分成两个子任务: 嵌套实体边界检测和实体多层信息标注。首先,本文提出了一种层次结构信息编码方法,将多层嵌套边界检测问题转化为传统的序列标注问题,利用条件随机场模型融合多种特征进行统计决策。其次,将多层信息标注问题看作分类问题,从实现的角度设计了含有两个分类引擎的并行SVM分类器,避免了对每层信息标注都设计一个分类器,比采用单一分类器在性能上有明显提高。在标准ACE语料上的实验表明,基于条件随机场的多层实体边界检测模型正确率达到71%,融合特征选择策略的两个并行分类引擎的正确率也分别达到了89.05%和82.17%。 相似文献
12.
13.
嵌套命名实体含有丰富的实体和实体间语义关系,有助于提高信息抽取的效率。由于缺少统一的标准中文嵌套命名实体语料库,目前中文嵌套命名实体的研究工作难于比较。该文在已有命名实体语料的基础上采用半自动化方法构建了两个中文嵌套命名实体语料库。首先利用已有中文命名实体语料库中的标注信息自动地构造出尽可能多的嵌套命名实体,然后再进行手工调整以满足对中文嵌套实体的标注要求,从而构建高质量的中文嵌套命名实体识别语料库。语料内和跨语料嵌套实体识别的初步实验表明,中文嵌套命名实体识别仍是一个比较困难的问题,需要进一步研究。 相似文献
14.
基于语义组块分析的汉语语义角色标注 总被引:1,自引:1,他引:0
近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的“句法分析——语义角色识别——语义角色分类”,而是一种简化的“语义组块识别——语义组块分类”流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。 相似文献
15.
实体关系自动抽取 总被引:36,自引:7,他引:36
实体关系抽取是信息抽取领域中的重要研究课题。本文使用两种基于特征向量的机器学习算法,Winnow 和支持向量机(SVM) ,在2004 年ACE(Automatic Content Extraction) 评测的训练数据上进行实体关系抽取实验。两种算法都进行适当的特征选择,当选择每个实体的左右两个词为特征时,达到最好的抽取效果,Winnow和SVM算法的加权平均F-Score 分别为73108 %和73127 %。可见在使用相同的特征集,不同的学习算法进行实体关系的识别时,最终性能差别不大。因此使用自动的方法进行实体关系抽取时,应当集中精力寻找好的特征。 相似文献
16.