首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
《计算机工程》2017,(6):189-194
针对TempEval-2010会议所提供中文语料中的时序关系识别任务,采用基于条件随机场的方法自动识别获得信号词,并融入跨事件理论,利用基于最大熵模型的分类算法对信号词与其他语言特征进行时序关系识别,同时使用约束传播的推理方法解决语料稀疏问题。实验结果表明,基于条件随机场的方法信号词自动识别准确率为69.21%,融入跨事件理论的时序关系识别准确率达到84.7%,表明所提方法可有效改善识别效果。  相似文献   

2.
中文机构名称识别是中文自然语言处理的一项重要的研究课题。以中文医疗机构名识别为目标,从因特网上抓取了30余万条机构名和1 500篇包含医疗机构名的文本语料,对医疗机构名的组成特点和上下文信息进行详细的分析,总结出若干模式、规则和特征,最后结合条件随机场模型,建立了一个统计和规则相结合的中文医疗机构名识别模型。实验结果表明,该模型的识别效果很好。  相似文献   

3.
张栋  陈文亮 《计算机科学》2021,48(3):233-238
命名实体识别(NER)旨在识别出文本中的专有名词,并对其进行分类。由于用于监督学习的训练数据通常由人工标注,耗时耗力,因此很难得到大规模的标注数据。为解决中文命名实体识别任务中因缺乏大规模标注语料而造成的数据稀缺问题,以及传统字向量不能解决的一字多义问题,文中使用在大规模无监督数据上预训练的基于上下文相关的字向量,即利用语言模型生成上下文相关字向量以改进中文NER模型的性能。同时,为解决命名实体识别中的未登录词问题,文中提出了基于字语言模型的中文NER系统。把语言模型学习到的字向量作为NER模型的输入,使得同一中文汉字在不同语境中有不同的表示。文中在6个中文NER数据集上进行了实验。实验结果表明,基于上下文相关的字向量可以很好地提升NER模型的性能,其平均性能F1值提升了4.95%。对实验结果进行进一步分析发现,新系统在OOV实体识别上也可以取得很好的效果,同时对一些特殊类型的中文实体识别也有不错的表现。  相似文献   

4.
叶琳莉  黄日茂 《福建电脑》2007,(12):184-184,161
机构名称层出不穷,本文以高校名称为例,采用一种结合决策树的方法对机构名称进行识别,实验结果表明该方法效果良好,能应用于一定范围的中文专名识别工作.  相似文献   

5.
SVM与规则相结合的中文地名自动识别   总被引:4,自引:0,他引:4  
在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对错误识别结果的分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面导致召回率偏低的不足。实验表明,用SVM与规则相结合的机制识别中文文本中的地名是有效的:系统开式召回率、精确率和F-值分别达89.57%、93.52%和91.50%。  相似文献   

6.
语言模型自适应的目的是减小模型与识别任务之间的语言差异。这些差异包括词典差异、风格和内容差异以及模型的概率分布差异。本文提出一种新的非迭代的中文新词提取方法和一种新的开放式词典的中文语言模型。基于这些技术,本文提出一个面向广播语音识别的语言模型自适应框架,该框架联合了以下技术: 一种新的非迭代的新词提取方法,一种新的中文开放式词典语言模型,一种基于困惑度( PPL) 的背景语料筛选方法和一个 N2gram 概率分布自适应模块。另外,本文还专门分析了在语言模型自适应过程中命名实体词的识别情况。实验表明,通过使用该框架,误识率相对下降了10 % ,实体词识别准确率提高了4 %。  相似文献   

7.
此文研究涉恐类刑事案件法律文本的中文命名实体识别任务,对涉恐类案件的实体识别对后续的公安对于涉恐类刑事案件信息提取、案情辅助研判、构建公安领域犯罪侦查知识图谱等一系列应用具有重要意义。此文提出了一种基于深度学习的模型来自动识别涉恐刑事案件法律文书中的实体。此文使用从互联网获取的涉恐类刑事案件的裁判文书作为数据集对该模型进行训练,验证,测试。在文中还加入了对比实验,将该模型的实验结果与CRF模型的实验结果进行对比。实验表明,BiLSTM-CRF模型在数据集上能够取得最优的结果,准确率为0.9541,召回率为0.9550,F1值为0.9543。实验结果证明BiLSTM-CRF模型在涉恐类案件法律文书实体识别上的可行性。  相似文献   

8.
近十多年来,中文自动校对取得了许多重要进展,但是单字错别字识别精度和召回率低一直是该领域的一个重要问题。该文提出一种基于BiLSTM-CRF的神经网络模型和单字分组策略识别中文错别字的方法。首先,该文提出一种构建分组单字混淆集的方法,并根据采集的分组单字混淆集自动生成错别字识别训练语料,构造了一个含有13组的汉字单字错别字识别训练语料。其次,针对传统的错别字识别方法在单字错别字召回率较低的问题,该文对错别字识别训练语料中错别字采用多标签标记的策略。再次,针对训练样本存在的数据稀疏问题,该文对训练数据集中的人名、地名、时间和机构名称这四类词语进行抽象。最后,该文利用BiLSTM-CRF的模型在错别字识别训练语料上进行训练。实验结果表明,该文提出的单字错别字识别方法在13组单字上的平均识别精确率为87.30%,平均召回率为84.36%。  相似文献   

9.
手写中文地址识别后处理方法的研究   总被引:1,自引:0,他引:1  
OCR(光学字符识别技术)作为方便有效的字体识别技术,在办公自动化、信息恢复、数字图书馆等方面发挥着日益重要的作用。语言模型在OCR后处理,特别是在中文的文字识别后处理方面有着广泛的应用。本文针对手写中文地址的后处理,讨论了语言模型的粒度对识别正确率的影响,分析了基于字和基于词的语言模型各自的优点和缺点,并采用了基于词的语言模型,在此基础上提出了加权词图搜索算法。实验证明,在58269条中文手写地址的测试集上,手写地址的整体识别率由原来的28.56%上升到了75.66% ,错误率下降了65.93% ,大大提高了系统的性能。  相似文献   

10.
互联网上蒙古语文本正在不断地增加,如何让网络中的蒙古语内容为搜索引擎和舆情分析等应用提供服务引起了社会的高度关注。首先要解决如何采集网络中蒙古语文本数据,核心是准确识别网络中蒙古语文本的问题。该文提出了基于N-Gram模型的平均距离识别算法,建立了一个能够对目标语种识别的实验平台。实验结果表明,识别算法能够很好地从中文、英文、蒙古文以及混合语言文本中识别出蒙古语文本,准确率达到99.5%以上。  相似文献   

11.
基于HMM的汉语文本识别后处理研究   总被引:9,自引:1,他引:8  
本文用HMM(Hidden Markov Model)描述汉语文本识别后处理,将汉语语言和单字识别这两个概率模型结合起来,以充分利用单字识别器提供的信息。语言模型的参数由语料库统计得到;单字识别模型的参数为条件概率,经理论分析,它可转化为后验概率来求解。在分析训练样本集单字识别结果的基础上,提出一种统计方法估计候选字的后验概率。HMM在脱机手写体汉语文本识别中的实验表明,后处理性能除取决于语言模型外,还取决于后验概率的精确估计。  相似文献   

12.
汉语统计语言模型的N值分析   总被引:10,自引:0,他引:10  
N 元语言模型(n - gram) 作为统计语言处理的主要方法,目前在汉语语言处理(词性标注、字符识别、语音识别等) 中已得到广泛的应用。但是,具体N 取何值为较优,目前尚没有明确的定论。本文从对汉语短语语法模式的近似表示、对未登录语词的自动检测与重构能力、和实际的音文转换应用系统性能测试三个方面出发,综合比较和分析了基于汉语词的N 元语言模型中N 值的选择。并得出结论:对于基于真实词的汉语N 元语言模型,N 的取值范围应介于3 至6 之间,且N = 4 为较优。这一结论将有助于汉语统计语言处理的发展。  相似文献   

13.
传统的手指语识别采用卷积神经网络的方法,模型结构单一,在池化层会丢弃很多信息; Capsule(胶囊)是在神经网络中构建和抽象出的子网络,每个胶囊都专注于一些单独的任务,又能保留图像的空间特征。分析了中国手语中手指语的特征,构建并扩展了手指语图片训练集,试图用CapsNet(胶囊网络)模型解决手指语的识别任务,对比了不同参数下CapsNet的识别率,并与经典的GoogLeNet卷积网络作对比。实验结果表明,CapsNet在手语识别任务上能达到较好的识别效果。  相似文献   

14.
中文人名的识别至今还是自然语言研究领域一个比较困难的课题.因此提出一种基于条件随机场模型的文中人名识别方法。条件随机场模型是一种无向图模型.有效避免有向图在标记的过程中出现偏执的问题,并且通过二次识别.有效解决人名在上下文环境中的识别问题。通过实验分析,基于条件随机场模型的人名识别能比较准确地识别出中文的人名。  相似文献   

15.
一种利用校对信息的汉字识别自适应后处理方法   总被引:1,自引:1,他引:0  
后处理技术是汉字识别系统的重要组成部分。传统的识别后处理技术在很大程度上依赖于所训练的统计语言模型,没有考虑所处理文本的特殊性;而且没有利用识别器的动态识别特性。本文利用部分校对过的正确本文信息,一方面可以构建自适应语言模型,及时发现所处理文本的语言特点;另一方面可以利用识别器的动态识别特性,以修正候选字集;从而使得后续文本的识别后处理具有自适应性。40 万字的数据测试表明:这种方法的文本平均错误率较传统的后处理方法下降35.24%了,可以大大减轻数据录入人员的工作量,具有较高的实用价值。  相似文献   

16.
命名实体识别是自然语言处理必不可少的重要部分, 其中组织机构名识别占了很大的比例。提出了基于词频统计的组织机构名识别方法。训练数据主要通过百度百科词条整理得到。训练时, 利用百度百科词条名在词条文本中的频数统计进行机构构成词的词频统计。在此基础上, 构建了数学模型, 实现了组织机构名识别算法。该识别算法集成到了中文分词中, 取得了较好的识别结果, 可以满足一定的实际应用需求。  相似文献   

17.
语言模型的建立对挖掘句子内部语义信息有着直接的影响,为了提高中文命名实体识别率,字的语义表示是关键所在。针对传统的中文命名实体识别算法没有充分挖掘到句子内部的隐藏信息问题,该文利用LSTM提取经过大规模语料预训练生成的字向量特征,同时将词向量预测矩阵传入到字向量特征提取阶段,通过矩阵运算融合为词向量特征,并进一步利用CNN提取词语之间的空间信息,将其与得到的词向量特征整合到一起输入语言模型XLnet(Generalized autoregressive pretraining for language understanding)中,然后经过BiGRU-CRF输出最优标签序列,提出了CAW-XLnet-BiGRU-CRF网络框架。并与其他的语言模型作了对比分析,实验结果表明,该框架解决了挖掘内部隐藏信息不充分问题,在《人民日报》1998年1月份数据集上的F1值达到了95.73%,能够较好地应用于中文命名实体识别任务。  相似文献   

18.
多层DGMM识别器在中国手语识别中的应用   总被引:4,自引:0,他引:4  
吴江琴  高文  陈熙霖  马继涌 《软件学报》2000,11(11):1430-1439
手语是聋人使用的语言,是由手形动作辅之以表情姿势由符号构成的比较稳定的表达系统 ,是一种靠动作/视觉交际的语言.手语识别的研究目标是让机器“看懂”聋人的语言.手 语识别和手语合成相结合,构成一个“人-机手语翻译系统”,便于聋人与周围环境的交 流.手语识别问题是动态手势信号即手语信号的识别问题.考虑到系统的实时性及识别效率, 该系统选取Cyberglove型号数据手套作为手语输入设备,采用DGMM(dynamic Gaussian mixt ure model)作为系统的识别技术,并根据中国手语的具体特点,在识别模块中选取了多层识 别器,可识别中国手语字典中的274个词条,识别率为97.4%.与基于单个DGMM的识别系统比 较,这种模型的识别精度与单个DGMM模型的识别精度基本相同,但其识别速度比单个DGMM的 识别速度有明显的提高.  相似文献   

19.
语音识别中统计与规则结合的语言模型   总被引:2,自引:1,他引:1  
王轩  王晓龙  张凯 《自动化学报》1999,25(3):309-315
在分析语音识别系统中,基于规则方法和统计方法的语言模型,提出了一种对规则 进行量化的合成语言模型.该模型既避免了规则方法无法适应大规模真实文本处理的缺点, 同时也提高了统计模型处理远距离约束关系和语言递归现象的能力.合成语言模型使涵盖6 万词条的非特定人孤立词的语音识别系统的准确率比单独使用词的TRIGRAM模型提高了 4.9%(男声)和3.5%(女声).  相似文献   

20.
基于多层条件随机场的中文命名实体识别   总被引:2,自引:0,他引:2       下载免费PDF全文
命名实体识别属于自然语言处理的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。主要研究中文命名实体中对复杂地名和复杂机构名的识别,提出一种基于多层条件随机场的命名实体识别的方法。对大规模真实语料进行开放测试,两项识别的召回率、准确率和F值分别达到91.95%、89.99%、90.50%和90.07%、88.72%、89.39%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号