共查询到20条相似文献,搜索用时 140 毫秒
1.
机构名称层出不穷,本文以高校名称为例,采用一种结合决策树的方法对机构名称进行识别,实验结果表明该方法效果良好,能应用于一定范围的中文专名识别工作. 相似文献
2.
3.
中文机构名称识别是中文自然语言处理的一项重要的研究课题。以中文医疗机构名识别为目标,从因特网上抓取了30余万条机构名和1 500篇包含医疗机构名的文本语料,对医疗机构名的组成特点和上下文信息进行详细的分析,总结出若干模式、规则和特征,最后结合条件随机场模型,建立了一个统计和规则相结合的中文医疗机构名识别模型。实验结果表明,该模型的识别效果很好。 相似文献
4.
针对机构命名实体识别效率低的问题,提出一种基于隐马尔科夫模型(HMM)的京剧机构命名实体识别算法.利用HMM模型标注文本切分结果的词性消除歧义,通过Viterbi算法计算某种分词结果所对应的可能性最大的词性序列.根据定制的名称识别规则,借助机构前缀词库、后缀词库获得机构名称左右边界,通过自动机算法识别语料中的机构命名实体,并将新词加载到分词词典中.针对京剧领域语料进行开放测试验证,结果表明,该算法的识别正确率可达到99%. 相似文献
5.
本文主要从计算语言学角度分析维吾尔语的句子结束形式,研究维吾尔语句子边界规则[1],简单句与复合句的划分规则,探讨划分思路,进行句型分类。以维吾尔语简单句中的陈述句为例,通过基于语料库的语义处理和语法处理,实现了现代维吾尔语简单句识别研究的算法与程序。 相似文献
6.
本文主要从计算语言学角度分析维吾尔语的句子结束形式,研究维吾尔语句子边界规则[1],简单句与复合句的划分规则,探讨划分思路,进行句型分类。以维吾尔语简单句中的陈述句为例,通过基于语料库的语义处理和语法处理,实现了现代维吾尔语简单句识别研究的算法与程序。 相似文献
7.
本文在传统语言学知识基础上,总结维吾尔语KP短语构造规则,提出了维吾尔语KP短语的自动识别方法,建立了构造规则库并对此方法进行了实验测试。实验结果显示,基于规则的方法能够保证正确率和召回率,可以更好地完成KP短语的识别任务,同时研究有关短语和句子及其识别带来好多便利并提供良好的理论和实践基础。 相似文献
8.
基于人工智能技术,陆汝钤院士提出了全过程计算机辅助动画自动生成技术。该技术需要对能在动画中具体表现的特殊类型命名实体进行识别,如学校名称、餐馆名称、商场名称等。提出了一种基于隐马尔科夫模型(HMM)和规则相结合的特殊类型命名实体识别方法,利用词性、特征词和词义等信息对HMM模型进行训练,并用自动提取的规则对统计模型的识别结果进行补充和修正。开放性测试实验的最高准确率、召回率和F值分别达到了79.89%、86.6%、83.11%。 相似文献
9.
双层CRF与规则相结合的中文地名识别方法研究 总被引:2,自引:0,他引:2
采用一种基于双层CRF模型与规则相结合的方法提高中文地名的识别性能。第一层CRF模型使用单字特征识别地名,将其结果添加至词典。第二层CRF模型利用词性、左指界词、右指界词和处理后的词典特征对地名进行识别。最后利用规则对识别结果进行过滤修剪和补召。通过双层CRF模型获取文本的远距离特征,解决了同一词汇因位置不同而标记不一致的问题,结合依据地名语言学特点制定的规则提高召回率。实验表明,双层CRF与规则相结合的方法对中文地名的识别取得了较好的效果。对Bakeoff2007的MSRA语料进行开放测试,得到的准确率、召回率、F值分别为95.32%、90.34%、94.12%。 相似文献
10.
在研究法律文书书写错误的语言表述特征后,将法律文书中的文本错误分为叙事陈述时的直接错误和行文书写时的隐含错误,并构建一组正则匹配规则和字词识别规则来进行错字错词识别。通过对法律文书语言学特征的研究,提出一种规则与概率统计相结合的方法实现对法律文书的文本校对。实验结果显示,该方法的召回率和准确率均达到80%,具有较好的使用前景。 相似文献
11.
12.
13.
14.
本文提出了一种基于框架结构的专有名词统一识别方法。该方法首先根据专有名词的成词特点及出现的上下文环境,重新定义语料属性;然后,提出了属性标注点(AP)的概念,对训练语料进行初次标注,并采用错误驱动的学习方法来获取规则;最后,结合规则和实例对文本进行专名识别。实验表明,该方法在测试样本集上准确率最高可以达到
到92.3%,召回率最高可以达到80.4%,是一种有效的专有名词识别方法。 相似文献
到92.3%,召回率最高可以达到80.4%,是一种有效的专有名词识别方法。 相似文献
15.
在对大规模姓名样本库统计的基础上,研究了各种中文人名的姓氏、名字用字规律,并通过对大规模语料库的统计分析,得到了每个姓氏用字在真实文本中用作真实姓氏的概率及其上下文规律;针对汉族人名和少数民族人名及音译人名,分别提出了多级姓氏阈值和多级首字阈值的概念,并使用3σ法则确定阈值。实验结果表明,基于多级阈值的中文人名识别模型是有效的。 相似文献
16.
一种基于可信度的人名识别方法 总被引:10,自引:0,他引:10
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998 年1 月、2000 年12 月(共约379 万字) 语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。 相似文献
17.
18.
19.
20.
该文利用搜索引擎从网络中挖掘英语人名的中文翻译。该方法综合利用翻译辅助词、英中人名共现规则、音译相似度和翻译概率。首先,利用搜索引擎从互联网上搜索英文人名的中文翻译候选。把汉语人名标注结果、翻译辅助词、英中人名共现规则和英文人名的发音音节长度结合起来提取翻译候选词。翻译辅助词有助于搜索与英文人名更相关的信息,英中人名共现规则和发音音节长度进一步缩小英文人名的翻译范围,使得英文人名的翻译搜索符合人名共现规律和发音规律。然后,根据音译相似度和翻译概率对候选词进行排序。人名翻译的绝大部分是根据发音翻译过来的,音译相似度是帮助判断两个词在发音上的相似性。翻译概率从统计上判断两个词互为翻译的可能性。实验结果表明,翻译辅助词、规则、音译相似度和翻译概率都有助于提高人名翻译的正确率。 相似文献