共查询到19条相似文献,搜索用时 78 毫秒
1.
2.
基于篇章的中文地名识别研究 总被引:1,自引:0,他引:1
该文介绍了以篇章为单位的中文地名识别方法和系统实现。地名识别包括简单地名识别和复杂地名识别两个阶段。简单地名识别由基于条件随机场的识别模块和基于篇章地名关系的识别模块顺序构成,以原始文本为输入,直接利用地名内部结构和相邻字信息进行地名识别和文本分词,然后利用篇章地名关系和地名性判断进一步处理。复杂地名识别以简单地名识别结果为输入,采用条件随机场识别。系统在封闭测试和开放测试中F-1值分别达到92.87%和89.76%。研究发现,在地名性判断中地名确信度低的字串对于地名识别干扰性较大,篇章地名关系能够在不降低识别精确度的情况下有效提高召回率,综合利用地名短距离和长距离依存关系可以有效提高地名识别效果。 相似文献
3.
《计算机应用与软件》2016,(12)
基于链式条件随机场模型的序列标注中文分词方法随着中文分词评测Bakeoff的展开得到广泛应用。词位标注集和特征模板集对该模型的学习至关重要,但当前的研究大多采用单一的标注集和特征模板集进行实验,缺乏标注集和特征模板集结合的尝试,使得中文分词中未登录词识别率不高,从而影响互联网领域语料的分词效果。首次采用六词位标注集结合TMPT-10和TMPT-10`特征模板,并与常见标注集和特征模板集的组合在Bakeoff语料上进行实验对比,结果表明,改进的方法 6tag-tmpt10取得更好的未登录词召回率,在互联网领域中文分词能取得很好的效果;同时在F值上也与其他最好结果相当。 相似文献
4.
5.
6.
7.
8.
本文使用条件随机场模型解决中文命名体识别问题,探讨了特征的选择对命名体识别的影响。实验证明,词的边界特征、构词特征(词的首字和尾子)、词性特征、词的上下文特征(尤其是前缀和后缀)对识别命名体具有非常大的帮助。 相似文献
9.
10.
对中文地名未登录词识别而言,首先充分挖掘地名用字本身的特征,及其上下文用字的特征,其次通过最大熵模型把这些来源不同的知识整合。在特征选择和知识获取时,通过对中文地名这个特定群体进行针对性分析,得到了更多的信息,如中文地名更常用哪些字以及这些字如何搭配更常见等。最终使得系统在真实语料的封闭测试和开放测试中分别达到了F值87%和83%的较好效果。 相似文献
11.
用支持向量机进行中文地名识别的研究 总被引:3,自引:0,他引:3
用支持向量机(SVM)方法对中文地名的自动识别进行了探讨,对于舍特征词的地名和非地名用支持向量机进行分类:结合中文地名的特点,抽取地名构词可信度及其前后词的词性作为特征向量的属性,建立了一定规模的训练集,并通过对不同kernel函数的测试,得到了地名分类的机器学习模型.实验表明,对于切分正确的地名,本方法具有良好的效果. 相似文献
12.
基于统计的中文姓名识别方法研究 总被引:13,自引:2,他引:13
该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。 相似文献
13.
14.
论文介绍在HENU汉语自动分词系统中对中文人名的自动识别算法。该算法在常用的规则和统计相结合方法基础之上,采用了局部回溯分词的思想,较好地解决了同姓异名对的冲突问题。在开放测试中,该方法取得了90.9%的准确率和95.9%的召回率。 相似文献
15.
该文通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法。根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特征基础之上,引入音节、词向量获取的相似单词、常用地名词典、地名特征词、地名词缀等特征进行实验,结果表明这些特征对识别性能有较大的影响。通过对错误识别结果分析,该文提出了基于规则的后处理,进一步提高了识别性能,准确率达到94.68%,召回率达到89.52%,F值达到92.03%。 相似文献
16.
17.
基于词性探测的中文姓名识别算法 总被引:1,自引:0,他引:1
本文提出了一种新的基于统计和规则相结合的中文姓名识别方法,即词性探测算法。该方法的特点是在对文本进行分词和词性标注一体化处理的基础上,通过探测候选中文姓名后的词性和比较单字的相对成词能力,能够对分词碎片中的姓名进行有效识别。 相似文献
18.
中文组织机构名识别的精确率一直是影响自然语言处理的因素之一.根据中文组织机构名的特点,提出采用最大熵的识别方法.实验系统在较大规模的数据集上对比了不同特征选择方法对模型的影响,同时考查了词面、词性、语法等信息对模型的贡献.实验结果表明,不同的特征选择算法,开放测试的平均值只相差0.2~0.5个百分点. 相似文献