首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 125 毫秒
1.
基于统计方法的中文姓名识别   总被引:27,自引:4,他引:23  
专有名词的识别对自动分词有重要意义。本文针对如何识别中文姓名做了有益的尝试,主要采用基于统计方法,进行中文姓名识别。本文建立了有监督学习机制,提出了句子切分结果可信度等概念,并在此基础上建立了较好的统计模型,系统闭式精确率和召回率分别达95.97%和95.52% ,开式精确率和召回率分别达92.37%和88.62%。  相似文献   

2.
SVM与规则相结合的中文地名自动识别   总被引:4,自引:0,他引:4  
在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对错误识别结果的分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面导致召回率偏低的不足。实验表明,用SVM与规则相结合的机制识别中文文本中的地名是有效的:系统开式召回率、精确率和F-值分别达89.57%、93.52%和91.50%。  相似文献   

3.
中文地名的自动识别   总被引:8,自引:0,他引:8  
以带特征词的中文地名和不带特征词的中文地名作为识别对象,通过构建地名识别规则库,以及对规则库中规则的量化处理来体现规则在识别地名中的可信程度的不同;为提高识别的召回率,采用了两级处理策略,其中每级采用不同的识别方法。开放测试结果表明,召回率为92.23%,精确率为83.88%。  相似文献   

4.
冯丽萍 《福建电脑》2006,(1):147-147,124
本文针对有特征词的中文组织机构名进行了研究,以搜狐网站的2004年11—12月人民日报网页中涉及社会、经济、法律、教育等内容的50万字语料为基础。通过计算中文组织机构名的构词可信度对组织机构名进行识别。经测试准确率达90%以上。召回率达93.5%以上。  相似文献   

5.
近十多年来,中文自动校对取得了许多重要进展,但是单字错别字识别精度和召回率低一直是该领域的一个重要问题。该文提出一种基于BiLSTM-CRF的神经网络模型和单字分组策略识别中文错别字的方法。首先,该文提出一种构建分组单字混淆集的方法,并根据采集的分组单字混淆集自动生成错别字识别训练语料,构造了一个含有13组的汉字单字错别字识别训练语料。其次,针对传统的错别字识别方法在单字错别字召回率较低的问题,该文对错别字识别训练语料中错别字采用多标签标记的策略。再次,针对训练样本存在的数据稀疏问题,该文对训练数据集中的人名、地名、时间和机构名称这四类词语进行抽象。最后,该文利用BiLSTM-CRF的模型在错别字识别训练语料上进行训练。实验结果表明,该文提出的单字错别字识别方法在13组单字上的平均识别精确率为87.30%,平均召回率为84.36%。  相似文献   

6.
搜索日志中人名识别一直是日志挖掘中的一个重点和难点,其结果好坏直接关系搜索引擎的检索效率和准确率。由于分析了长文本中人名识别方法在搜索日志中使用存在很多困难与不足,因而该文提出了一种在搜索日志中识别中文人名的方法。该方法将搜索日志中人名内部用字的概率特征引入条件随机场,再根据搜索日志的特点计算人名可信度提取搜索日志中的中文人名。在搜狗查询日志上进行实验,正确率平均达到了81.97%、召回率平均达到了85.81%,综合指标F值平均达到了83.79%。  相似文献   

7.
利用搜索日志中查询串自身信息和用户点击信息,提出了双层模型识别领域查询串的方法。第一层模型采用贝叶斯法则和词典相结合的方法对查询串进行识别;针对搜索日志查询串内容简短、信息量少的特点,提出基于域名可信度的第二层识别模型。在搜狗2012版用户查询日志上对双层模型进行了开放测试,召回率和准确率分别达到了85.2%和94.6%,实验结果表明了该方法的有效性。  相似文献   

8.
双层CRF与规则相结合的中文地名识别方法研究   总被引:2,自引:0,他引:2  
采用一种基于双层CRF模型与规则相结合的方法提高中文地名的识别性能。第一层CRF模型使用单字特征识别地名,将其结果添加至词典。第二层CRF模型利用词性、左指界词、右指界词和处理后的词典特征对地名进行识别。最后利用规则对识别结果进行过滤修剪和补召。通过双层CRF模型获取文本的远距离特征,解决了同一词汇因位置不同而标记不一致的问题,结合依据地名语言学特点制定的规则提高召回率。实验表明,双层CRF与规则相结合的方法对中文地名的识别取得了较好的效果。对Bakeoff2007的MSRA语料进行开放测试,得到的准确率、召回率、F值分别为95.32%、90.34%、94.12%。  相似文献   

9.
基于篇章的中文地名识别研究   总被引:1,自引:0,他引:1  
该文介绍了以篇章为单位的中文地名识别方法和系统实现。地名识别包括简单地名识别和复杂地名识别两个阶段。简单地名识别由基于条件随机场的识别模块和基于篇章地名关系的识别模块顺序构成,以原始文本为输入,直接利用地名内部结构和相邻字信息进行地名识别和文本分词,然后利用篇章地名关系和地名性判断进一步处理。复杂地名识别以简单地名识别结果为输入,采用条件随机场识别。系统在封闭测试和开放测试中F-1值分别达到92.87%和89.76%。研究发现,在地名性判断中地名确信度低的字串对于地名识别干扰性较大,篇章地名关系能够在不降低识别精确度的情况下有效提高召回率,综合利用地名短距离和长距离依存关系可以有效提高地名识别效果。  相似文献   

10.
基于语料库的英语从句识别研究   总被引:2,自引:0,他引:2  
为改善英汉机译系统复杂句的翻译效果,针对英语复杂句中从句的边界界定问题,本文提出一种基于语料库的方法识别从句,该方法利用词性信息,将规则方法和统计方法结合用于识别从句的边界,获得良好的实验结果,封闭测试的精确率为92.69% ,召回率91.04%;开放测试的精确率为80.34% ,召回率83.93%。  相似文献   

11.
基于贝叶斯网络的二元语法中文分词模型   总被引:2,自引:1,他引:1       下载免费PDF全文
提出基于贝叶斯网络的中文分词模型,使用性能更好的平滑算法,可同时实现交叉、组合歧义消解以及译名、人名识别。应用字齐Viterbi算法求解,在保证精度和召回率的前提下,有效提高了分词效率。实验结果显示,该模型封闭测试的精度、召回率分别为99.68%和99.7%,分词速度约为每秒74 800字。  相似文献   

12.
基于统计的中文姓名识别方法研究   总被引:13,自引:2,他引:13  
该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。  相似文献   

13.
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎NutchEnhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。  相似文献   

14.
张鑫  周小平  王佳 《图学学报》2021,42(2):316-324
建筑信息模型(BIM)已经成为建筑行业信息技术应用的有效方案。随着 BIM 数据不断增长,为 了高效使用 BIM 数据,很多研究将自然语言处理(NLP)引入 BIM 应用中。在中文环境中,由于缺乏建筑行业 的术语特征,导致基础环节的中文分词在建筑领域 BIM 应用中的适应性较差。通过分析当前流行的 BIM 数据 格式工业基础类(industry foundation class, IFC)文件,从中提取 BIM 模型特征,配合建筑领域术语特征加入分词 模型中,以提高中文分词在建筑领域的性能。实验结果表明,与原始条件随机场(CRF)分词模型相比,在建筑 领域测试集上,分词模型的 F-measure 提高了 1.26%,其中,在仅加入 BIM 模型特征时,F-measure 提升了 0.10%, 说明在分词模型中加入 BIM 模型特征对于提高中文分词在建筑领域的性能是有效的。同时,在 BIM 模型测试 集上,相较于仅加入建筑领域术语特征,在加入 BIM 模型特征后,准确率从 46.97%提升至 87.74%,召回率从 67.60%提升至 94.77%,F-measure 从 55.43%提升至 91.12%,提升了 35.69%,有效提高了中文分词在建筑领域 的 BIM 模型自适应性。  相似文献   

15.
基于CRF的先秦汉语分词标注一体化研究   总被引:2,自引:0,他引:2  
该文探索了古代汉语,特别是先秦文献的词切分及词性标注。首先对《左传》文本进行了词汇处理(分词和词性标注)和考察分析,然后采用条件随机场模型(CRF),进行自动分词、词性标注、分词标注一体化的对比实验。结果表明,一体化分词比单独分词的准确率和召回率均有明显提高,开放测试的F值达到了94.60%;一体化词性标注的F值达到了89.65%,比传统的先分词后标注的“两步走”方法有明显提高。该项研究可以服务于古代汉语词汇研究和语料库建设,以弥补人工标注的不足。  相似文献   

16.
基于统计和规则的未登录词识别方法研究   总被引:8,自引:0,他引:8       下载免费PDF全文
周蕾  朱巧明 《计算机工程》2007,33(8):196-198
介绍了一种基于统计和规则的未登录词识别方法.该方法分为2个步骤:(1)对文本进行分词,对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,利用贪心算法获得每个碎片的最长路径,从而提取未登录词;(2)在上一步骤的基础上,建立二元模型,并结合互信息来提取由若干个词组合而成的未登录词(组).实验证明该方法开放测试的准确率达到81.25%,召回率达到82.38%.  相似文献   

17.
错别字自动识别是自然语言处理中一项重要的研究任务,在搜索引擎、自动问答等应用中具有重要价值。尽管传统方法在识别文本中多字词错误方面的准确率较高,但由于中文单字词错误具有特殊性,传统方法对中文单字词检错准确率较低。该文提出了一种基于Transformer网络的中文单字词检错方法。首先,该文通过充分利用汉字混淆集和Web网页构建中文单字词错误训练语料库。其次,在实际测试过程中,该文对实际的待识别语句采用滑动窗口方法,对每个滑动窗口中的句子片段分别进行单字词检错,并且综合考虑不同窗口的识别结果。实验表明,该方法具有较好的实用性。在自动生成的测试集上,识别准确率和召回率分别达到83.6%和65.7%;在真实测试集上,识别准确率和召回率分别达到82.8%和61.4%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号