首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到17条相似文献,搜索用时 156 毫秒
1.
贾宁  张全 《计算机工程》2007,33(9):31-33
最大熵模型可以对非常广泛的自然语言现象建立概率模型,该文提出了一种使用统计模型的中文姓名识别方法,采用最大熵原则建立统计模型,并运用该模型计算姓名概率。系统采用真实语料进行开放测试的结果表明,在保证一定准确率的情况下,系统召回率可达90%以上。  相似文献   

2.
正确标记短语间的停顿,对提高文语转换系统合成语音的自然度起着重要作用。介绍一种采用最大熵模型从真实自然的语音流中自动识别汉语短语间停顿的方法。模型的特征集包含语音和词法两类特征,采用半自动的方式获得。首先由人工根据经验设计候选特征集,然后采用特征选择算法对候选特征进行筛选,选择更有效的特征构成最终特征集,并训练生成用于汉语短语间停顿识别的最大熵模型。3组实验的结果表明,模型能够取得比较满意的短语间停顿识别效果。  相似文献   

3.
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。  相似文献   

4.
构建了一个基于最大熵原理的不良文本识别模型,该模型分为训练和测试两个模块,先从训练语料中抽取特征,利用最大熵方法对特征进行训练,然后使用经过训练的特征,对测试集中的不良文本进行识别,达到了比较满意的识别效果,最后对实验结果进行了分析。  相似文献   

5.
基于最大熵的维吾尔语句子边界识别模型   总被引:1,自引:1,他引:1       下载免费PDF全文
采用最大熵模型实现维吾尔语句子边界识别,该模型的训练过程不需要提供手工收集规则、词性标注及形态分析,仅使用较容易获取的单词长度和音节等特征。为确定最佳特征模板,在特征空间上组合出不同特征模板进行测试。实验结果表明,最佳特征模板具有较强的鲁棒性,召回率可达97.72%。  相似文献   

6.
牛晓妍 《福建电脑》2008,24(4):72-74
本文针对人名的特点,建立了特征模板,并在此基础上提取了特征集,利用特征选择算法提取了有效特征,并建立了一个基于最大熵的人名识别模型。基于最大熵模型,探索性地构建了一个人名识别的系统,取得了较好的效果。该系统将潜在人名发现和使用最大熵模型进行标注两个阶段的工作有机地结合到一起。较好地解决了人名竞争问题;并对重点模块的算法进行了详细描述。  相似文献   

7.
融合多特征的最大熵汉语命名实体识别模型   总被引:2,自引:0,他引:2  
最大熵模型能有效整合多种约束信息,对于汉语命名实体识别具有很好的适用性,因此,将其作为基本框架,提出一种融合多特征的最大熵汉语命名实体识别模型,该模型集成局部与全局多种特征,同时为降低搜索空间并提高处理效率,而引入了启发式知识,基于SIGHAN 2008命名实体评测任务测试数据的实验结果表明,所建立的混合模式是一种组合统计模型与启发式知识的有效汉语命名实体识别模式,基于不同测试数据的实验说明,该方法针对不同测试数据源具有一致性.  相似文献   

8.
基于最大熵模型的汉语依存分析   总被引:1,自引:0,他引:1  
刘贵全  曾宇斌 《计算机工程》2006,32(11):216-218
采用最大熵模型实现中文依存语法的分析。用自底而上的方式构建语句的依存关系树,构建过程每一步在向左连接、向右连接以及不连接3种动作选取其一。用最大熵原理判断每个动作的概率,得到依存树中各边的概率,然后找出具有最大概率的依存关系树。实验结果表明,该模型具有较好的分析精度。目前,该模型已被应用于基于自然语言的信息检索项目中。  相似文献   

9.
基于最大熵的汉语人名地名识别方法研究   总被引:7,自引:0,他引:7  
构建了一个基于最大熵原理的汉语人名地名自动识别混合模型.该模型分为训练和识别两个模块.先从训练语料中抽取特征,利用最大熵方法对特征进行训练.然后使用经过训练的特征,并结合动态词表和少量规则,对测试文本中的汉语人名地名进行识别.达到了比较满意的识别效果.最后对实验结果进行了分析.  相似文献   

10.
提出一种基于最大熵模型和投票法的汉语动词与动词搭配识别方法.该方法通过组合目标动词与候选搭配词的上下文词性信息以及关联程度的统计信息构成5种复合特征模板,然后利用最大熵方法获得它们对应搭配识别器,最后采用最好搭配识别器占优的投票法构造组合识别器.实验结果表明,同时包含上下文词性信息和统计信息的识别器优于单纯包含上下文词性信息或统计信息的识别器,但最好搭配识别器占优的组合识别器效果更佳.  相似文献   

11.
基于最大熵方法的中英文基本名词短语识别   总被引:33,自引:2,他引:33  
使用了基于最大熵的方法识别中文基本名词短语。在开放语料Chinese TreeBank上,只使用词性标注,达到了平均87.43%/88.09%的查全率/准确率。由于,关于中文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别的结果没有很好的可比性,又使用相同的算法,尝试了英文的基本名词短语识别。在英文标准语料TREEBANKⅡ上,开放测试达到了93.31%/93.04%的查全率/准确率,极为接近国际最优水平。这既证明了此算法的行之有效,又表明该方法的语言无关性。  相似文献   

12.
基于最大熵的依存句法分析   总被引:1,自引:0,他引:1  
该文提出并比较了三种基于最大熵模型的依存句法分析算法,其中最大生成树(MST)算法取得了最好的效果。MST算法的目标是在一个带有权重的有向图中寻找一棵最大的生成树。有向图的每条边都对应于一个句法依存关系,边的权重通过最大熵模型获得。训练和测试数据来源于CoNLL2008 Share Task的公用语料。预测的F1值在WSJ和Brown两个测试集上分别达到87.42%和80.8%,在参加评测单位中排名第6。  相似文献   

13.
研究了英语语法中冠词错误的计算机自动纠正. 首先对冠词使用的错误进行定义分类, 并考虑到可能出现冠词缺失的情况, 通过采用基于最大熵模型的分类器, 选择包含上下文、上下文词性、短语结构等特征, 在训练集上进行模型预的训练, 然后使用模型对于输入句子进行预测并纠正存在的使用错误. 在NUCLE语料的实验中, 给出了语料处理、模型特点、训练语料的大小对于测试集效果的影响, 并且比较了自然语言处理中非常通用的朴素贝叶斯模型的结果, 还根据英语语法中存在的错误特点对模型进行改进, 最后在测试数据达到35.48%的F值, 相较于CoNLL2013的shared task中最好结果有小幅提升.  相似文献   

14.
中文名词短语识别在自然语言处理已经得到了广泛应用。该文首先对名词短语识别问题进行描述,然后利用最大熵模型建立名词短语识别系统,通过实验选取最大熵模型的特征,最后利用选取的特征进行名词短语识别,实验结果表明系统达到了较高的准确率和召回率。  相似文献   

15.
庞宁  杨尔弘 《中文信息学报》2008,22(2):24-27,54
共指是突发事件新闻报道中的常见现象。良好的处理共指现象,是进行信息提取的基本必要过程。本文采用最大熵模型对汉语突发事件新闻报道中的共指现象进行消解,目的是提取出突发事件新闻报道中指向同一实体的名词、代词和名词短语。根据问题特点,算法选择了8类特征作为模型的特征,该模型在20万字的新闻语料上进行训练,在10万字规模的语料上进行测试,最终的测试得到系统的F值为64.5%。  相似文献   

16.
杜秀全  程家兴  宋杰 《计算机工程》2010,36(18):203-204
蛋白质相互作用位点的预测是当前生物信息学的一个研究热点。针对蛋白质序列中对界面残基有影响的各种因素,提出将蛋白质的进化信息和保守性作为特征函数,此类信息体现了蛋白质序列中氨基酸之间短程和长程相互作用的影响。采用最大熵模型作为蛋白质作用位点识别的分类器,将多源信息融合成一个概率模型。实验结果表明该方法与其他传统机器学习方法相比,在特异度和精度上分别提高了2%~8%、3%~11%,且获得了较高的相关系数。  相似文献   

17.
基于最大熵模型的韵律短语边界预测   总被引:7,自引:3,他引:7  
语音合成系统中,由于韵律短语边界预测的水平不高,阻碍了合成语音自然度的进一步提高。本文根据韵律短语边界预测的特点,提出了基于最大熵模型的预测方法。为考察该方法的能力,在较大规模的数据集上,使用相同的属性集,对比了其与主流的决策树方法的预测效果。还考察了词面信息的贡献,以及选择特征时的不同阈值对最大熵模型的影响。实验表明,使用相同的属性信息,最大熵方法比传统的决策树方法在F-Score上有5.5%的提高,加入了词面信息的最大熵模型则有9.4%的提高。最后指出,最大熵模型相当于一个带权重的规则系统,可以很好的解决规则冲突问题。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号