首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 78 毫秒
1.
基于最大熵模型的中国人名自动识别   总被引:1,自引:0,他引:1       下载免费PDF全文
用最大熵模型自动识别中国人名。首先对语料库的词性进行角色替换,然后用特征模板从角色替换后的语料库中提取出特征集,接着用IIS算法训练特征集的最大熵参数,最后用viterbi算法对初分词文本进行角色标注,并在角色序列的基础上进行模式最大匹配,从而实现中国人名的自动识别。在封闭测试实验中,识别准确率、召回率、F-值分别达到了85.4%、91.2%、88.2%。  相似文献   

2.
王蕾  杨季文 《微机发展》2006,16(11):195-198
提出了一种新的基于属性标记的专有名词统一识别方法。其基本思想是:根据专有名词的成词特点,利用标注语料库,设定词语属性作为标准属性重新进行标注,在此语料基础上进行专有名词成词结构、成词环境的实例提取,并采用基于转换的错误驱动方法对提取的实例进行适用规则提取。在提取的实例和规则的基础上进行属性标注,是一种基于转换的错误驱动规则自学习方法与基于实例的学习方法相结合的基于浅层句法分析的一种新的识别专有名词的方法。实验证明该方法在测试样本集上准确率达到95.3%,召回率达到92.5%,是一种有效的专有名词识别方法。  相似文献   

3.
提出了一种新的基于属性标记的专有名词统一识别方法。其基本思想是:根据专有名词的成词特点,利用标注语料库,设定词语属性作为标准属性重新进行标注,在此语料基础上进行专有名词成词结构、成词环境的实例提取.并采用基于转换的错误驱动方法对提取的实例进行适用规则提取,在提取的实例和规则的基础上进行属性标注,是一种基于转换的错误驱动规则自学习方法与基于实例的学习方法相结合的基于浅层句法分析的一种新的识别专有名词的方法。实验证明该方法在测试样本集上准确率达到95.3%.召回率达到92.5%.是一种有效的专有名词识别方法。  相似文献   

4.
中文文本中外国人名与中国人名同步识别方法   总被引:1,自引:0,他引:1  
根据中国人名和外国人名的构成特点产生潜在中国人名和外国人名,然后把它们作为节点词加入到句子的分词有向图中,利用上下文信息对有向图的边赋值.使有向图最短路径对应句子正确切分.在确定句子正确切分时识别出句子中的外国人名和中国人名,该方法可以避免由分词结果造成的人名不能被召回的现象,提高了人名识别的召回率.通过对真实语料的测试,在封闭测试中该方法对中国人名和外国人名识别的综合指标F值为97.30%.  相似文献   

5.
基于改进的隐马尔科夫模型的汉语词性标注   总被引:1,自引:0,他引:1  
王敏  郑家恒 《计算机应用》2006,26(Z2):197-198
基于传统隐马尔科夫(HMM)模型的基础上,对词语的词汇发射概率做出了新的假设,从而更好地体现了该词语与上下文依赖关系.还利用指数线性插值平滑算法对参数进行了有效平滑,并且给出了未登录词词汇发射概率估计模型.实验结果证明,改进后的模型明显优于传统HMM词性标注模型的效果.  相似文献   

6.
中文名词性谓词语义角色标注   总被引:2,自引:0,他引:2  
研究了中文名词性谓词的语义角色标注(semantic role labeling,简称SRL).在使用传统动词性谓词SRL相关特征的基础上,进一步提出了名词性谓词SRL相关的特征集.此外,探索了中文动词性谓词SRL对中文名词性谓词SRL的影响,并且联合谓词自动识别实现了全自动的中文名词性谓词SRL.在中文NomBank上的实验结果表明,中文动词性谓词的SRL合理使用能够大幅度提高中文名词性谓词的SRL性能;基于正确句法树和正确谓词识别,中文名词性谓词的SRL性能F1值达到了72.67,大大优于目前国内外的同类系统;基于自动句法树和自动谓词识别,性能F1值为55.14.  相似文献   

7.
基于SVMTool的中文词性标注   总被引:4,自引:0,他引:4  
SVMTool是建立在支持向量机(SVM)原理上的序列标注工具,具有简单、灵活、高效的特点,可以融入大量的语言特征。该文将SVMTool应用于中文词性标注任务,将基于隐马尔科夫模型的基线系统准确率提升了2.07%。针对未登录词准确率不高的问题,该文加入了中文字、词的特征,包括构成汉字的部首特征和词重叠特征,并从理论上分析了这两个特征的可行性,实验显示加入这些特征后,未登录词标注的准确率提升了1.16%,平均错误率下降了7.40%。  相似文献   

8.
在英文TTS系统中,未登录词的重音标注是除字音转换外另一个十分重要的环节。由于主重音的重要性要远远大于次重音,且主重音的情况要比次重音的情况简单一些,因而将主重音的标注与次重音的标注分开进行。主重音的标注采用形态规则和机器学习相结合的标注算法;而次重音的标注完全通过机器学习算法来进行。经过10轮交叉验证,主重音的平均标注正确率为94.4%,次重音的平均标注正确率为86.9%,总的标注正确率为83.6%。  相似文献   

9.
周蕾  朱巧明 《计算机工程》2007,33(8):196-198
介绍了一种基于统计和规则的未登录词识别方法。该方法分为2个步骤:(1)对文本进行分词,对分词结果中的碎片进行全切分生成临时词典,并利用规则和频度信息给临时词典中的每个字串赋权值,利用贪心算法获得每个碎片的最长路径,从而提取未登录词;(2)在上一步骤的基础上,建立二元模型,并结合互信息来提取由若干个词组合而成的未登录词(组)。实验证明该方法开放测试的准确率达到81.25%,召回率达到82.38%。  相似文献   

10.
本文主要介绍了一个利用最大熵进行实体名识别的系统以及所采用的模型和选取的特征。这些特征包括单词本身的词法词态特征和上下文信息。利用这些在任何语言的文本上都极易获得的特征,我们采用最大熵分类器构建了一个基准系统。在此基础上,我们首先通过网络资源建立了实体名词典知识库;并利用词典和基准系统在未标注语料上抽取出现的实体名作为辅助的训练语料;最后再将这些语料加入训练。实验结果表明,辅助的训练语料能够在一定程度上提高系统的性能。  相似文献   

11.
李波  张蕾 《计算机工程》2012,38(12):179-181
针对统计与规则这2种方法的优缺点,提出一种基于转换的错误驱动学习与知网相结合的中文人名自动识别方法。利用标注语料库,根据在人名识别中的作用对人名上下文环境进行角色标注,提取标注后的实例,并采用基于转换的错误驱动方法和知网对提取的实例进行可用规则提取,结合规则和实例对文本进行人名识别。实验结果表明,与其他方法相比,该方法的中文人名识别准确率、召回率和 F值均有明显提高。  相似文献   

12.
提出了一种与分词一体化的人名识别方法,根据中文人名内部用字产生潜在人名,可信度较高的潜在人名与其它候选切分词共同组成分词有向图的节点。利用Bigram和Trigram给有向边赋值,使有向图的最短路径对应句子的正确切分,确定了句子的切分路径即可识别出句子中的人名。实验结果表明,该方法取得了较好的人名识别正确率。  相似文献   

13.
采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据驱动的,不需要姓名识别模板和规则。试验结果表明,该方法的召回率为82.7%,准确率为89.6%。  相似文献   

14.
提出了一种基于类语言模型的中文机构名称自动识别方法,将分词和机构名称自动识别有机地结合起来。在机构名称识别的类语言模型中采用等级结构,使得嵌套有人名、地名等实体的机构名称能够较好地识别出来。在实验过程中,逐步增加实验条件,依次加入启发信息、缓存模型和机构名缩写处理,使得实验结果显著提高。在开放测试中,中文机构名称最终识别的查准率和查全率分别为85.47%和72.81%。  相似文献   

15.
CLP2010(CIPS-SIGHAN Joint Conference on Chinese Language Processing)的人名消歧评测的任务是个 聚类问题:对给定的一组文档,按照文档中出现的指定查询词所指向的人进行聚类.由于是用"字"串匹配的方法从新华社的语料库中抽出所有含有该查询词的文档.所以对于这个...  相似文献   

16.
基于变换的中国地名自动识别研究   总被引:14,自引:0,他引:14       下载免费PDF全文
谭红叶  郑家恒  刘开瑛 《软件学报》2001,12(11):1608-1613
专有名词中的中国地名的自动识别是中文信息处理中要解决的一个重要问题.完全依靠统计方法只能保证一定的召回率,而准确率偏低.提出了一种基于变换的策略,可以有效地克服这一缺陷.经测试,系统最终的准确率提高了7%,达到了90.9%.  相似文献   

17.
基于完全二阶隐马尔可夫模型的汉语词性标注   总被引:12,自引:0,他引:12  
梁以敏  黄德根 《计算机工程》2005,31(10):177-179
该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法,实验表明,完全二阶隐马尔可夫模型比标准的二元,三元模型有更高的词性标注正确率和消歧率。  相似文献   

18.
一种利用统计语义单元识别中文人名的方法   总被引:1,自引:0,他引:1  
从语义语言的角度提出一种利用统计语义单元识别中文人名的方法.在该方法中没有词的概念,一切单位都是语义单元,语义单元有参数和类型等属性.通过语义单元对句子进行语义切分,获得句子的语义单元图,并利用联合概率模型求得语义单元图中概率最大的路径,然后根据人名模式集在该路径上识别人名.初步实验表明,该方法是一种值得探索的新方法.  相似文献   

19.
中文姓名自动识别系统的设计与实现   总被引:1,自引:1,他引:0  
论文在对大规模姓名样本库、姓名语料库进行统计的基础上,将姓氏库中的姓氏按优先级分类,并研究了前300个姓氏作普通单字时其上下文用字规律,将确定真姓氏并识别姓名的过程看作对句子的姓氏用字集进行划分的过程,设计实现了一个中文姓名自动识别试验系统。同时提出多级阈值的概念,即姓名右边界阈值和识别阈值均是优先级的函数。对系统的开放测试召回率和准确率分别为80.62%、89.27%。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号