首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到20条相似文献,搜索用时 140 毫秒
1.
叶琳莉  黄日茂 《福建电脑》2007,(12):184-184,161
机构名称层出不穷,本文以高校名称为例,采用一种结合决策树的方法对机构名称进行识别,实验结果表明该方法效果良好,能应用于一定范围的中文专名识别工作.  相似文献   

2.
提出了一种基于类语言模型的中文机构名称自动识别方法,将分词和机构名称自动识别有机地结合起来。在机构名称识别的类语言模型中采用等级结构,使得嵌套有人名、地名等实体的机构名称能够较好地识别出来。在实验过程中,逐步增加实验条件,依次加入启发信息、缓存模型和机构名缩写处理,使得实验结果显著提高。在开放测试中,中文机构名称最终识别的查准率和查全率分别为85.47%和72.81%。  相似文献   

3.
中文机构名称识别是中文自然语言处理的一项重要的研究课题。以中文医疗机构名识别为目标,从因特网上抓取了30余万条机构名和1 500篇包含医疗机构名的文本语料,对医疗机构名的组成特点和上下文信息进行详细的分析,总结出若干模式、规则和特征,最后结合条件随机场模型,建立了一个统计和规则相结合的中文医疗机构名识别模型。实验结果表明,该模型的识别效果很好。  相似文献   

4.
针对机构命名实体识别效率低的问题,提出一种基于隐马尔科夫模型(HMM)的京剧机构命名实体识别算法.利用HMM模型标注文本切分结果的词性消除歧义,通过Viterbi算法计算某种分词结果所对应的可能性最大的词性序列.根据定制的名称识别规则,借助机构前缀词库、后缀词库获得机构名称左右边界,通过自动机算法识别语料中的机构命名实体,并将新词加载到分词词典中.针对京剧领域语料进行开放测试验证,结果表明,该算法的识别正确率可达到99%.  相似文献   

5.
本文主要从计算语言学角度分析维吾尔语的句子结束形式,研究维吾尔语句子边界规则[1],简单句与复合句的划分规则,探讨划分思路,进行句型分类。以维吾尔语简单句中的陈述句为例,通过基于语料库的语义处理和语法处理,实现了现代维吾尔语简单句识别研究的算法与程序。  相似文献   

6.
本文主要从计算语言学角度分析维吾尔语的句子结束形式,研究维吾尔语句子边界规则[1],简单句与复合句的划分规则,探讨划分思路,进行句型分类。以维吾尔语简单句中的陈述句为例,通过基于语料库的语义处理和语法处理,实现了现代维吾尔语简单句识别研究的算法与程序。  相似文献   

7.
本文在传统语言学知识基础上,总结维吾尔语KP短语构造规则,提出了维吾尔语KP短语的自动识别方法,建立了构造规则库并对此方法进行了实验测试。实验结果显示,基于规则的方法能够保证正确率和召回率,可以更好地完成KP短语的识别任务,同时研究有关短语和句子及其识别带来好多便利并提供良好的理论和实践基础。  相似文献   

8.
基于人工智能技术,陆汝钤院士提出了全过程计算机辅助动画自动生成技术。该技术需要对能在动画中具体表现的特殊类型命名实体进行识别,如学校名称、餐馆名称、商场名称等。提出了一种基于隐马尔科夫模型(HMM)和规则相结合的特殊类型命名实体识别方法,利用词性、特征词和词义等信息对HMM模型进行训练,并用自动提取的规则对统计模型的识别结果进行补充和修正。开放性测试实验的最高准确率、召回率和F值分别达到了79.89%、86.6%、83.11%。  相似文献   

9.
双层CRF与规则相结合的中文地名识别方法研究   总被引:2,自引:0,他引:2  
采用一种基于双层CRF模型与规则相结合的方法提高中文地名的识别性能。第一层CRF模型使用单字特征识别地名,将其结果添加至词典。第二层CRF模型利用词性、左指界词、右指界词和处理后的词典特征对地名进行识别。最后利用规则对识别结果进行过滤修剪和补召。通过双层CRF模型获取文本的远距离特征,解决了同一词汇因位置不同而标记不一致的问题,结合依据地名语言学特点制定的规则提高召回率。实验表明,双层CRF与规则相结合的方法对中文地名的识别取得了较好的效果。对Bakeoff2007的MSRA语料进行开放测试,得到的准确率、召回率、F值分别为95.32%、90.34%、94.12%。  相似文献   

10.
在研究法律文书书写错误的语言表述特征后,将法律文书中的文本错误分为叙事陈述时的直接错误和行文书写时的隐含错误,并构建一组正则匹配规则和字词识别规则来进行错字错词识别。通过对法律文书语言学特征的研究,提出一种规则与概率统计相结合的方法实现对法律文书的文本校对。实验结果显示,该方法的召回率和准确率均达到80%,具有较好的使用前景。  相似文献   

11.
中文姓名的自动辨识   总被引:48,自引:16,他引:32  
中文姓名的辨识对汉语自动分词研究具有重要意义。本文提出了一种在中文文本中自动辨识中文姓名的算法。我们从新华通讯社新闻语料库中随机抽取了300个包含中文姓名的句子作为测试样本。实验结果表明, 召回率达到了99.77%。  相似文献   

12.
北京大学现代汉语语料库基本加工规范   总被引:25,自引:12,他引:25  
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外, 还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库墓本加工规范》是为了抛砖引玉, 更广泛地向专家、同行征询意见, 以便进一步修订。  相似文献   

13.
北京大学现代汉语语料库基本加工规范(续)   总被引:6,自引:3,他引:6  
北京大学计算语言学研究所已经完成了一个有2700万汉字的现代汉语语料库的基本加工。加工项目除词语切分和词性标注外,还包括专有名词(人名、地名、团体机构名称等)标注、语素子类标注以及动词、形容词的特殊用法标注。这项大规模语言工程的顺利完成得益于事先制订并不断完善的规范。发表《北京大学现代汉语语料库基本加工规范》是为了抛砖引玉,更广泛地向专家、同行征询意见,以便进一步修订。  相似文献   

14.
本文提出了一种基于框架结构的专有名词统一识别方法。该方法首先根据专有名词的成词特点及出现的上下文环境,重新定义语料属性;然后,提出了属性标注点(AP)的概念,对训练语料进行初次标注,并采用错误驱动的学习方法来获取规则;最后,结合规则和实例对文本进行专名识别。实验表明,该方法在测试样本集上准确率最高可以达到
到92.3%,召回率最高可以达到80.4%,是一种有效的专有名词识别方法。  相似文献   

15.
在对大规模姓名样本库统计的基础上,研究了各种中文人名的姓氏、名字用字规律,并通过对大规模语料库的统计分析,得到了每个姓氏用字在真实文本中用作真实姓氏的概率及其上下文规律;针对汉族人名和少数民族人名及音译人名,分别提出了多级姓氏阈值和多级首字阈值的概念,并使用3σ法则确定阈值。实验结果表明,基于多级阈值的中文人名识别模型是有效的。  相似文献   

16.
一种基于可信度的人名识别方法   总被引:10,自引:0,他引:10  
罗智勇  宋柔 《中文信息学报》2005,19(3):68-72,86
专名识别技术是影响中文自动分词精度的一个重要方面,也是自动分词技术的难点之一。本文以人名识别为例,分析了目前流行的基于语料库和统计语言模型的专名识别方法中在概率估值问题上存在的弊端;同时在规则和统计相结合的基础上,提出了一种基于可信度的人名识别方法,并给出了一个渐进式模型训练方法,克服了人工标注语料库规模的限制。从我们对《人民日报》1998 年1 月、2000 年12 月(共约379 万字) 语料的测试结果来看,基于可信度的人名识别方法比传统的概率估值方法识别效果有一定的提高。  相似文献   

17.
18.
给出基于LSC模型的EM方法进行汉语语义优选的学习。具体步骤是首先随机为参数模型赋予初值;然后迭代运行EM算法,直到收敛;最后计算动词和名词的语义关联度,以此衡量其搭配的可能性。大量实验结果表明LSC模型能够较好地体现动、名词的搭配模式,且算法迭代收敛速度快。该方法无需语法标注的语料库,适合应用于汉语。  相似文献   

19.
该文研究了一种维吾尔语中汉族人名的识别和翻译方法。该方法在词典等传统方法的基础上,运用语言模型实现维语中的汉族人名的识别和翻译。针对维语人名的构词和拼写特点,增加了名词词缀识别预处理模块,补充了维语字母到汉语拼音的映射规则,有效提高了人名识别的正确率及召回率。在1 000句含有汉族人名的维语语料上进行测试,汉族人名识别的正确率和召回率分别达到75.2%和91.5%。  相似文献   

20.
该文利用搜索引擎从网络中挖掘英语人名的中文翻译。该方法综合利用翻译辅助词、英中人名共现规则、音译相似度和翻译概率。首先,利用搜索引擎从互联网上搜索英文人名的中文翻译候选。把汉语人名标注结果、翻译辅助词、英中人名共现规则和英文人名的发音音节长度结合起来提取翻译候选词。翻译辅助词有助于搜索与英文人名更相关的信息,英中人名共现规则和发音音节长度进一步缩小英文人名的翻译范围,使得英文人名的翻译搜索符合人名共现规律和发音规律。然后,根据音译相似度和翻译概率对候选词进行排序。人名翻译的绝大部分是根据发音翻译过来的,音译相似度是帮助判断两个词在发音上的相似性。翻译概率从统计上判断两个词互为翻译的可能性。实验结果表明,翻译辅助词、规则、音译相似度和翻译概率都有助于提高人名翻译的正确率。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号