首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 562 毫秒
1.
当前中文人名识别的研究主要针对中国人名,而对日本人名及音译人名的专门研究相对较少,识别效果也亟待提高。提出利用CRRM方法进行中、日及音译人名同步识别。该方法基于CRF(Conditional Random Fields)并结合了上下文规则及人名可信度模型。此外,利用局部统计算法对边界识别错误的人名进行修正,并利用扩散操作召回未被识别的人名。实验结果表明,中、日、音译人名识别的F值均高于90%,提出的方法可以取得较好的识别效果。  相似文献   

2.
搜索日志中人名识别一直是日志挖掘中的一个重点和难点,其结果好坏直接关系搜索引擎的检索效率和准确率。由于分析了长文本中人名识别方法在搜索日志中使用存在很多困难与不足,因而该文提出了一种在搜索日志中识别中文人名的方法。该方法将搜索日志中人名内部用字的概率特征引入条件随机场,再根据搜索日志的特点计算人名可信度提取搜索日志中的中文人名。在搜狗查询日志上进行实验,正确率平均达到了81.97%、召回率平均达到了85.81%,综合指标F值平均达到了83.79%。  相似文献   

3.
为了提高藏文人名识别的效果,提出了结合三层的层次特征的藏文人名识别算法。提出了无需分词,仅在藏文音节粒度上,基于藏文人名三层特征:内部特征、上下文信息、并列关系特征,利用条件随机场(Conditional Random Fields, CRF)算法,进行藏文人名识别的研究。首先将人名的内部和上下文特征作为CRF特征,然后将人名并列关系特征设计为规则进一步提高识别效果。在不影响准确率的情况下,最终将人名识别的召回率提高了10.43%,综合F值达到了95.02%。其中对于藏族人名的F值提升了11%,音译人名识别的F值达到了94.09%。实验结果表明,该方法可以有效提升藏文人名的识别效果。  相似文献   

4.
目前在中文命名实体识别的任务中经常采用有监督的字序列标注模型。我们在实际应用中发现,基于字序列标注模型的中文命名实体识别模型对于词语边界的识别错误是影响识别效果的主要因素之一,边界错误平均占错误结果中的47.5%。该文通过在平均感知机模型中引入全局的词语边界特征,使得人名、地名、机构名识别的F值平均提升了0.04并降低了边界错误占错误结果的比例。  相似文献   

5.
命名实体识别是自然语言处理的一个重要基础任务。传统基于统计学习模型的命名实体识别方法严重依赖特征工程,特征设计需要大量人工参与和专家知识,而且已有的方法通常大多将中文命名实体识别任务看作一个字符序列标注问题,需要依赖局部字符标记区分实体边界。为了减弱系统对人工特征设计的依赖,避免字符序列化标注方法的不足,该文对基于神经网络的片段级中文命名实体识别方法进行探索研究。通过采用深度学习片段神经网络结构,实现特征的自动学习,并通过获取片段信息对片段整体分配标记,同时完成实体边界识别和分类。基于神经网络的片段级中文命名实体识别方法在MSRA数据集上对人名、地名和机构名识别的总体F1值达到了90.44%。  相似文献   

6.
边界模板和局部统计相结合的中国人名识别   总被引:3,自引:1,他引:3  
本文提出了一种基于篇章信息的中国人名识别算法。我们从标注语料中提取人名左右边界词语及人名用字频度作为系统知识源。识别过程是:首先利用带有频度的边界模板识别出可能的人名,并把识别结果扩散到整篇文章以召回数据稀疏导致的遗漏人名。然后应用上下文局部统计量及几条启发式规则对识别结果进行边界校正。该算法具有线性时间复杂度,大规模开放测试(针对1354篇新闻报道约304万字,含人名3.7万个)的正确率为94.52%,召回率为98.97%,效果非常令人满意。  相似文献   

7.
藏语句法功能组块分析旨在识别出藏语句子的句法成分,为后续句子级深入分析提供支持。根据藏语的语言特点,该文在藏语句法功能组块描述体系基础上,提出基于错误驱动学习策略的藏语功能组块边界识别方法。具体思路为,首先基于条件随机场(Conditional Random Fields,CRFs)识别组块,然后分别基于转换规则的错误驱动学习(Transformation-based Error-driven Learning,TBL)及基于新特征模板的CRFs错误驱动学习进行二次识别,并对初次结果进行校正,F值分别提高了1.65%、 8.36%。最后通过实验分析,进一步将两种错误驱动学习机制融合,在18073词级的藏语语料上开展实验,识别性能进一步提高,准确率、召回率与F值分别达到94.1%、94.76%与94.43%,充分验证了本文提出方法的有效性。  相似文献   

8.
摘要:该研究以蒙古文人名识别为目的,实现了基于条件随机场模型的人名自动识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中人名的存在形式以及各类人名的特点,针对蒙古语语料库中人名的特点,在词汇特征、词性特征和指示词特征等基本特征基础上引入了汉语姓氏特征、人名词典特征、兼类人名特征以及双词根特征。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的人名识别性能达到了94.56%的准确率,90.60%的召回率和92.54%的F值。该方法比起以往的基于的规则的系统取得了较好的结果。  相似文献   

9.
针对哈萨克语文本中人名构成特点,提出了一种基于位置概率模型的哈萨克语人名可信度计算方法,构建了一个哈萨克语人名识别系统.系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的人名进行识别,实验结果表明此方法可行.  相似文献   

10.
缺少标注语料和难以识别动词和名词类是阻碍中文专利最大名词短语识别的主要问题。针对上述问题,该文提出了一种基于马尔科夫逻辑网的中文最大名词短语识别方法。该方法避免对开放类的名词短语的识别,而将主要精力放在了相对封闭的分隔符的识别上,利用句子自身特征、领域迁移特征以及双语对齐特征来识别最大名词短语的边界。结果说明,双语信息较好地促进了动词、介词、连词等MNP边界的识别。MNP识别的F值可达83.27%。  相似文献   

11.
中文组织机构名称与简称的识别   总被引:2,自引:0,他引:2  
本文提出了一种基于规则识别中文组织机构全称和简称的方法。全称的识别首先借助机构后缀词库获得其右边界,然后通过规则匹配并借助贝叶斯概率模型加以决策获得其左边界。简称的识别是在全称的基础上应用其对应的简称规则实现的。在开放性测试中,该方法的总体查全率为85.19%,查准率为83.03%,F Measure为84.10%;简称的查全率为67.18%,查准率为74.14%。目前该方法已应用于中文关系的抽取系统。  相似文献   

12.
藏文命名实体识别是藏文分词和标注系统中必须要解决的问题。通过对命名实体构词规律及分词歧义进行分析,提出基于音节特征感知机训练模型的藏文命名实体识别方案。重点研究了利用藏文紧缩格识别音节的方法,命名实体内部和边界音节的模型训练特征模板,训练模型,以及命名实体分类识别方法。提出的藏文命名实体识别方法在测试集上获得86.03%的F值,相对基于分词的基线系统高出10.5%个点。  相似文献   

13.
为了减少分词的负面效果,提出了基于用字共现频率统计的外国译名自动识别方法.对译名的用字特征进行了统计,提出译名共现字串的概念,并由译名用字表与汉语常用字表得到了非译名用字表.在上述工作的基础上定义了译名的边界,在边界定义的基础上设计了一种对分词错误的调整方法.对开放语料的测试结果表明,与最大词频分词算法相比,该算法在译名识别中的准确率、召回率、F值均有所提高.  相似文献   

14.
统计与规则相结合的维吾尔语人名识别方法   总被引:1,自引:0,他引:1  
命名实体识别(Named entity recognition,NER)是自然语言处理(Natural language processing,NLP)中重要的任务,其中人名实体是主要的识别对象之一.本文从维吾尔语黏着性特点出发,从词干、音节、字符串三个角度对维吾尔语单词进行拆分,获得更小的语言单元,并把切分的新单元作为特征加入到条件随机场(Conditional random field,CRF)中,明显缓解了数据稀疏的影响,取得了比以单词为基本单元的人名识别方法更好的性能.同时还从维吾尔语中汉族人名的特点出发,提出了基于规则的维吾尔语中汉族人名的识别方法,最终利用统计和规则相结合的方法进一步提高了识别的准确率.实验结果表明,该方法人名识别的准确率、召回率和F1值分别达到了87.47%、89.12%和88.29%.  相似文献   

15.
Individual recognition using gait energy image   总被引:8,自引:0,他引:8  
In this paper, we propose a new spatio-temporal gait representation, called gait energy image (GEI), to characterize human walking properties for individual recognition by gait. To address the problem of the lack of training templates, we also propose a novel approach for human recognition by combining statistical gait features from real and synthetic templates. We directly compute the real templates from training silhouette sequences, while we generate the synthetic templates from training sequences by simulating silhouette distortion. We use a statistical approach for learning effective features from real and synthetic templates. We compare the proposed GEI-based gait recognition approach with other gait recognition approaches on USF HumanID Database. Experimental results show that the proposed GEI is an effective and efficient gait representation for individual recognition, and the proposed approach achieves highly competitive performance with respect to the published gait recognition approaches.  相似文献   

16.
17.
贾宁  张全 《计算机工程》2007,33(9):31-33
最大熵模型可以对非常广泛的自然语言现象建立概率模型,该文提出了一种使用统计模型的中文姓名识别方法,采用最大熵原则建立统计模型,并运用该模型计算姓名概率。系统采用真实语料进行开放测试的结果表明,在保证一定准确率的情况下,系统召回率可达90%以上。  相似文献   

18.
藏文地名识别是藏文命名实体识别中必须要解决的问题。通过分析藏文地名的特点及识别难点,阐述了藏文地名的音节、触发词、地名后续词和格助词等特性适用基于CRF模型的地名识别,通过实验,验证了6种特征对藏文地名识别的有效性。实验结果表明该方法对藏文地名识别的准确率、召回率和[F]值分别达到了96.12%、81.92%和88.45%,实验结果与已有的系统相比,取得了较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号