共查询到19条相似文献,搜索用时 78 毫秒
1.
用最大熵模型自动识别中国人名。首先对语料库的词性进行角色替换,然后用特征模板从角色替换后的语料库中提取出特征集,接着用IIS算法训练特征集的最大熵参数,最后用viterbi算法对初分词文本进行角色标注,并在角色序列的基础上进行模式最大匹配,从而实现中国人名的自动识别。在封闭测试实验中,识别准确率、召回率、F-值分别达到了85.4%、91.2%、88.2%。 相似文献
2.
提出了一种新的基于属性标记的专有名词统一识别方法。其基本思想是:根据专有名词的成词特点,利用标注语料库,设定词语属性作为标准属性重新进行标注,在此语料基础上进行专有名词成词结构、成词环境的实例提取,并采用基于转换的错误驱动方法对提取的实例进行适用规则提取。在提取的实例和规则的基础上进行属性标注,是一种基于转换的错误驱动规则自学习方法与基于实例的学习方法相结合的基于浅层句法分析的一种新的识别专有名词的方法。实验证明该方法在测试样本集上准确率达到95.3%,召回率达到92.5%,是一种有效的专有名词识别方法。 相似文献
3.
提出了一种新的基于属性标记的专有名词统一识别方法。其基本思想是:根据专有名词的成词特点,利用标注语料库,设定词语属性作为标准属性重新进行标注,在此语料基础上进行专有名词成词结构、成词环境的实例提取.并采用基于转换的错误驱动方法对提取的实例进行适用规则提取,在提取的实例和规则的基础上进行属性标注,是一种基于转换的错误驱动规则自学习方法与基于实例的学习方法相结合的基于浅层句法分析的一种新的识别专有名词的方法。实验证明该方法在测试样本集上准确率达到95.3%.召回率达到92.5%.是一种有效的专有名词识别方法。 相似文献
4.
中文文本中外国人名与中国人名同步识别方法 总被引:1,自引:0,他引:1
根据中国人名和外国人名的构成特点产生潜在中国人名和外国人名,然后把它们作为节点词加入到句子的分词有向图中,利用上下文信息对有向图的边赋值.使有向图最短路径对应句子正确切分.在确定句子正确切分时识别出句子中的外国人名和中国人名,该方法可以避免由分词结果造成的人名不能被召回的现象,提高了人名识别的召回率.通过对真实语料的测试,在封闭测试中该方法对中国人名和外国人名识别的综合指标F值为97.30%. 相似文献
5.
基于改进的隐马尔科夫模型的汉语词性标注 总被引:1,自引:0,他引:1
基于传统隐马尔科夫(HMM)模型的基础上,对词语的词汇发射概率做出了新的假设,从而更好地体现了该词语与上下文依赖关系.还利用指数线性插值平滑算法对参数进行了有效平滑,并且给出了未登录词词汇发射概率估计模型.实验结果证明,改进后的模型明显优于传统HMM词性标注模型的效果. 相似文献
6.
中文名词性谓词语义角色标注 总被引:2,自引:0,他引:2
研究了中文名词性谓词的语义角色标注(semantic role labeling,简称SRL).在使用传统动词性谓词SRL相关特征的基础上,进一步提出了名词性谓词SRL相关的特征集.此外,探索了中文动词性谓词SRL对中文名词性谓词SRL的影响,并且联合谓词自动识别实现了全自动的中文名词性谓词SRL.在中文NomBank上的实验结果表明,中文动词性谓词的SRL合理使用能够大幅度提高中文名词性谓词的SRL性能;基于正确句法树和正确谓词识别,中文名词性谓词的SRL性能F1值达到了72.67,大大优于目前国内外的同类系统;基于自动句法树和自动谓词识别,性能F1值为55.14. 相似文献
7.
8.
在英文TTS系统中,未登录词的重音标注是除字音转换外另一个十分重要的环节。由于主重音的重要性要远远大于次重音,且主重音的情况要比次重音的情况简单一些,因而将主重音的标注与次重音的标注分开进行。主重音的标注采用形态规则和机器学习相结合的标注算法;而次重音的标注完全通过机器学习算法来进行。经过10轮交叉验证,主重音的平均标注正确率为94.4%,次重音的平均标注正确率为86.9%,总的标注正确率为83.6%。 相似文献
9.
10.
11.
12.
13.
采用统计方法来识别中文姓名。该方法将中文姓名的识别过程分为姓名候选和姓名确认两个阶段。采用隐马尔可夫模型(HMM)分类器从未经切分的汉字串中候选姓名。利用人名与上下文词汇的互信息对候选人名进行最后的确认。该方法是完全数据驱动的,不需要姓名识别模板和规则。试验结果表明,该方法的召回率为82.7%,准确率为89.6%。 相似文献
14.
15.
16.
17.
基于完全二阶隐马尔可夫模型的汉语词性标注 总被引:12,自引:0,他引:12
该文基于隐马尔可夫理论,提出了一种三元词汇概率和词性概率相结合的汉语词性标注模型,并对传统的Viterbi算法进行了扩展。对统计模型中出现的数据稀疏问题,给出了基于线性插值法的平滑算法,实验表明,完全二阶隐马尔可夫模型比标准的二元,三元模型有更高的词性标注正确率和消歧率。 相似文献
18.
一种利用统计语义单元识别中文人名的方法 总被引:1,自引:0,他引:1
从语义语言的角度提出一种利用统计语义单元识别中文人名的方法.在该方法中没有词的概念,一切单位都是语义单元,语义单元有参数和类型等属性.通过语义单元对句子进行语义切分,获得句子的语义单元图,并利用联合概率模型求得语义单元图中概率最大的路径,然后根据人名模式集在该路径上识别人名.初步实验表明,该方法是一种值得探索的新方法. 相似文献
19.
中文姓名自动识别系统的设计与实现 总被引:1,自引:1,他引:0
论文在对大规模姓名样本库、姓名语料库进行统计的基础上,将姓氏库中的姓氏按优先级分类,并研究了前300个姓氏作普通单字时其上下文用字规律,将确定真姓氏并识别姓名的过程看作对句子的姓氏用字集进行划分的过程,设计实现了一个中文姓名自动识别试验系统。同时提出多级阈值的概念,即姓名右边界阈值和识别阈值均是优先级的函数。对系统的开放测试召回率和准确率分别为80.62%、89.27%。 相似文献