共查询到18条相似文献,搜索用时 125 毫秒
1.
2.
3.
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。 相似文献
4.
5.
SVM与规则相结合的中文地名自动识别 总被引:4,自引:0,他引:4
在分析中文文本中地名特点的基础上,提出了一种支持向量机(SVM)与规则相结合的中文地名自动识别方法:按字抽取特征向量的属性,然后将这些属性转换成二进制向量并建立训练集,采用多项式Kernel函数,得到SVM识别地名的机器学习模型;通过对错误识别结果的分析,构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面导致召回率偏低的不足。实验表明,用SVM与规则相结合的机制识别中文文本中的地名是有效的:系统开式召回率、精确率和F-值分别达89.57%、93.52%和91.50%。 相似文献
6.
采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据驱动的,不需要姓名识别模板和规则。试验结果表明,该方法的召回率为82.7%,准确率为89.6%。 相似文献
7.
基于姓氏驱动的中国姓名自动识别方法 总被引:3,自引:3,他引:3
文章基于姓氏驱动和上下文信息,利用从真实姓名样本库和文本语料库中得到的大量统计数据,提出了一种中国姓名识别的分级加权筛选模型,利用基于这一模型的识别算法和冲突解决策略,实现中国人名的自动识别。通过从《人民日报》随机抽取的500个含有人名的句子进行测试,表明:中国姓名召回率达89.2%,精确率达93.15%。 相似文献
8.
研究中文微博情感分析中的观点句识别及要素抽取问题。在观点句识别方面,提出了一种利用微博中的情感词和
情感影响因子计算微博语义情感倾向的新算法;在观点句要素抽取方面,利用主题词分类及关联规则,辅以一系列剪枝、筛选和定界规则抽取评价对象。通过观点句识别和观点句要素抽取结果的相互过滤,进一步提高召回率。实验数据采用第六届中文倾向性分析评测所发布的数据,结果表明,本文方法在观点句识别和要素抽取方面能够取得较好的效果,观点句识别的精确率、召回率入F值分别为95.62%,54.10%及69.10%;观点句要素抽取的精确率、召回率以及F值分别为22.07%,12.66%和16.09%。 相似文献
9.
10.
论文在对大规模姓名样本库、姓名语料库进行统计的基础上,将姓氏库中的姓氏按优先级分类,并研究了前300个姓氏作普通单字时其上下文用字规律,将确定真姓氏并识别姓名的过程看作对句子的姓氏用字集进行划分的过程,设计实现了一个中文姓名自动识别试验系统。同时提出多级阈值的概念,即姓名右边界阈值和识别阈值均是优先级的函数。对系统的开放测试召回率和准确率分别为80.62%、89.27%。 相似文献
11.
12.
13.
基于统计的中文姓名识别方法研究 总被引:13,自引:2,他引:13
该文在大规模标注语料的基础上统计分析了中文姓名前置词频率、中文姓氏用字频率、中文名字用字频率、中文姓名后置词频率。利用这些统计数据在词语粗分的基础上实现了中文姓名的自动识别,实验测试结果:准确率93.82%、召回率89.37%。 相似文献
14.
建筑信息模型(BIM)已经成为建筑行业信息技术应用的有效方案。随着 BIM 数据不断增长,为
了高效使用 BIM 数据,很多研究将自然语言处理(NLP)引入 BIM 应用中。在中文环境中,由于缺乏建筑行业
的术语特征,导致基础环节的中文分词在建筑领域 BIM 应用中的适应性较差。通过分析当前流行的 BIM 数据
格式工业基础类(industry foundation class, IFC)文件,从中提取 BIM 模型特征,配合建筑领域术语特征加入分词
模型中,以提高中文分词在建筑领域的性能。实验结果表明,与原始条件随机场(CRF)分词模型相比,在建筑
领域测试集上,分词模型的 F-measure 提高了 1.26%,其中,在仅加入 BIM 模型特征时,F-measure 提升了 0.10%,
说明在分词模型中加入 BIM 模型特征对于提高中文分词在建筑领域的性能是有效的。同时,在 BIM 模型测试
集上,相较于仅加入建筑领域术语特征,在加入 BIM 模型特征后,准确率从 46.97%提升至 87.74%,召回率从
67.60%提升至 94.77%,F-measure 从 55.43%提升至 91.12%,提升了 35.69%,有效提高了中文分词在建筑领域
的 BIM 模型自适应性。 相似文献
15.
论文介绍在HENU汉语自动分词系统中对中文人名的自动识别算法。该算法在常用的规则和统计相结合方法基础之上,采用了局部回溯分词的思想,较好地解决了同姓异名对的冲突问题。在开放测试中,该方法取得了90.9%的准确率和95.9%的召回率。 相似文献
16.
17.
随着微博等社交网络的普及,新词源源不断涌现,分词系统经常将新词错误切分为单字.新词发现已经成为中文自然语言处理领域的研究热点.现有新词识别方法依赖大规模语料统计数据,对低频新词识别能力差.本文提出一种扩展Skip-gram模型和词向量投影方法,将两者结合后能缓解自然语言处理中常见的数据稀疏问题,有效识别低频新词,进而提高分词系统的准确率和召回率. 相似文献
18.
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎NutchEnhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。 相似文献