共查询到19条相似文献,搜索用时 66 毫秒
1.
本文提出了一种基于统计的中文人名识别方法,此方法使用最大概率分词模型对源句子进行粗切分,将粗切分信息融入到条件随机场模型中进行模型的训练。运用此方法分别对来自同一源语料的测试集和非同源语料的测试集进行了测试,F-值分别达到了91.3%和90.6%,证明了此方法的有效性。 相似文献
2.
唐钊 《电脑与微电子技术》2012,(14):3-7
中文人名的识别至今还是自然语言研究领域一个比较困难的课题.因此提出一种基于条件随机场模型的文中人名识别方法。条件随机场模型是一种无向图模型.有效避免有向图在标记的过程中出现偏执的问题,并且通过二次识别.有效解决人名在上下文环境中的识别问题。通过实验分析,基于条件随机场模型的人名识别能比较准确地识别出中文的人名。 相似文献
3.
4.
改革开放后,新疆与国内以及国际交往越来越频繁。新疆少数民族人名汉字音译转写缺少统一标准,维吾尔人名汉字音译转写时,在户口上是一种写法,在身份证上另一种写法,在护照上更不一样的用字写法,机票、汇款单等又是一种写法。为解决这些问题,前人作了研究并取得了一定成果以及使用维吾尔人名汉语音译撰写系统来规范维吾尔人名汉语音译。但是这些成果正确率只有52%。利用规则和维吾尔人名特征相结合的方法,提高系统自动维吾尔人名汉语音译正确率30%。介绍该领域研究进展,通论维吾尔音节切分与维吾尔人名特征相结合方法。陈述基于字形的DOM音译框架解决的问题,介绍基于音节切分的维吾尔人名汉字音译转写的实现方法,给出了实验结果与分析。 相似文献
5.
基于统计和规则相结合的科技术语自动抽取研究 总被引:4,自引:0,他引:4
科技术语自动抽取是中文信息处理领域的一个重要研究课题,在信息检索、机器翻译等领域,特别是在专利翻译中有着广泛应用。结合专利翻译任务,主要研究专利中科技术语的识别方法,在分析目前已有方法的基础之上,提出了一种使用条件随机场模型进行标注识别,并结合规则对错误识别结果进行后处理的科技术语识别方法。实验结果表明,提出的统计和规则相结合的识别方法是有效的,开放测试结果F值达到了84.4%。 相似文献
6.
7.
8.
维吾尔语音节语音识别与识别基元的研究 总被引:1,自引:0,他引:1
1 引言现代维吾尔语(以下简称维语)是维吾尔族人民的主要交际工具,是我国新疆维吾尔自治区的法定工作用语之一,也是新疆其它少数民族共同的交际用语之一。维语属阿尔泰语系,突厥语族。维语语音有元音8个、辅音24个。由辅音和元音构成维语语音音节,每个音节必须且只能有一个元音,单元音可构成音节。维语句子由词构成。句子中有意群重音和句重音。部分音节在语流中产生语流音变现象,常见的有同化、弱化、脱落以及元音和谐等现象。 相似文献
9.
10.
基于CRF和规则相结合的地理命名实体识别方法 总被引:1,自引:0,他引:1
为了识别文本中海量的地理命名信息,以CRF(条件随机场)模型识别为基础,加入制定的规则,来提高CRF模型识别的召回率,从而提高整体的地理命名实体识别效果。通过选取适合的地理命名实体识别的特征模板,验证特征的有效性以及分析CRF模型识别结果中的未识别实体样本,设计针对未识别实体的规则用以修正识别结果。实验表明,对地名和组织名结合规则进行修正后的F值达到了91.61%和85.74%,有了显著提高。 相似文献
11.
受限于标注语料的领域和规模以及类别不均衡,中文人名识别性能偏低。相比人名识别训练语料,人名词典获取较为容易,利用词典提升人名识别性能有待进一步研究。该文提取人名词典特征,融入到双向长短期记忆(Bi-LSTM)网络模型中,在损失函数中提高人名标签权重,设计加权条件随机场(WCRF)。从人名词典中获取姓和名相关的特征信息,Bi-LSTM网络捕获句子中上下文信息,WCRF提高人名识别的召回率。在《人民日报》语料和工程法律领域语料上进行实验,结果表明: 在领域测试语料上,与基于隐马尔可夫模型的方法相比,人名识别的F1值提高18.34%,与传统Bi-LSTM-CRF模型相比,召回率提高15.53%,F1提高8.83%。WCRF还可以应用到其他类别不均衡的序列标注或分类问题中。 相似文献
12.
近年来电影行业蓬勃发展,相关的信息抽取和分析技术日益受到行业内的重视,其中对电影主创人物的分析尤为重要。而电影评论作为观影群体的主要反馈信息,具有重要的分析价值。如何从影评中自动抽取主创人名成为重要的基础工作。然而评论中观众对人物的称谓方式多样复杂,而且新电影的影评中往往存在大量人名未登录词,传统方法难以有效识别。针对影评的这些特点,该文提出一种基于多特征Bi-LSTM-CRF的影评人名识别方法。该方法通过利用外部人名语料和未标注影评提取字符级的特征,并采用Bi-LSTM-CRF模型进行人名字符序列标注。实验结果表明,该方法能够有效识别影评中的复杂称谓和人名未登录词,从而有效地抽取影评中的人名实体。 相似文献
13.
训练语料的标注成本是资源稀缺语言处理研究面临的一个重要问题,通过主动学习(active learning)方法可以选择信息量大、无冗余的语料供人工标注,进而大大降低语料标注成本。该文基于CRF模型给出的标注置信度提出了四种主动学习方法,并通过实验确定了这四种主动学习方法的相关参数。实验显示:选择置信度低于0.7的语料进行人工标注,直到新旧模型标注结果的差异度小于0.01%时,仅需6轮迭代;人工标注3.2MB的语料,藏文人名识别的F值可以达到88%,若要达到该识别效果,基于CRF的监督式学习模型需要标注约10MB的语料,该主动学习方法降低了约66%的语料标注规模。 相似文献
14.
15.
目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。 相似文献
16.
人名识别常被作为命名实体识别任务的一部分,与其他类型的实体同时进行识别。当前使用NER方法的人名识别依赖于训练语料对特定类型人名的覆盖,在遇到新类型人名时性能显著下降。针对上述问题,该文提出了一种基于数据增强(data augmentation)的方法,使用新类型人名实体替换的策略来生成伪训练数据,该方法能够有效提升系统对新类型人名的识别性能。为了选择有代表性的特定类型人名实体,该文提出了贪心的代表性子类型人名选择算法。在使用1998年《人民日报》数据自动生成的伪测试数据和人工标注的新闻数据的测试结果中,多个模型上人名识别的F1值分别提升了至少12个百分点和6个百分点。 相似文献
17.
在生物医学文本挖掘领域,化学药物命名实体识别具有重要意义.目前的主流方法是基于条件随机场(conditional random fields, CRF)的方法,但是该方法需要大量的人工特征,并且存在实体标签的全文非一致性问题.针对此问题,提出一种基于注意(Attention)机制的深度学习方法.该方法首先从海量生物文本中学习词向量,然后利用双向长短期记忆网络(BiLSTM)学习字符向量,随后将词向量和字符向量再经过另一个BiLSTM以获得词的上下文表示,然后再利用Attention机制获得词在全文范围下的上下文表示,最后利用CRF层得到整篇文章的标签序列.实验结果表明:相比之前的研究方法,提高了在同一篇文章中实体识别的一致性,并在BioCreative IV评测中的CHEMDNER数据集上取得了更好的结果(F值为90.77%). 相似文献
18.
中文文本中外国人名与中国人名同步识别方法 总被引:1,自引:0,他引:1
根据中国人名和外国人名的构成特点产生潜在中国人名和外国人名,然后把它们作为节点词加入到句子的分词有向图中,利用上下文信息对有向图的边赋值.使有向图最短路径对应句子正确切分.在确定句子正确切分时识别出句子中的外国人名和中国人名,该方法可以避免由分词结果造成的人名不能被召回的现象,提高了人名识别的召回率.通过对真实语料的测试,在封闭测试中该方法对中国人名和外国人名识别的综合指标F值为97.30%. 相似文献
19.
现有的维吾尔文命名实体识别主要采用基于条件随机场的统计学习方法,但依赖于人工提取的特征工程和领域知识。针对该问题,该文提出了一种基于深度神经网络的学习方法,并引入不同的特征向量表示。首先利用大规模未标注语料训练的词向量模型获取每个单词具有语义信息的词向量;其次,利用Bi-LSTM提取单词的字符级向量;然后,利用直接串联法或注意力机制处理词向量和字符级向量,进一步获取联合向量表示;最后,用Bi-LSTM-CRF深度神经网络模型进行命名实体标注。实验结果表明,以基于注意力机制的联合向量表示作为输入的Bi-LSTM-CRF方法在维吾尔文命名实体识别上F值达到90.13%。 相似文献