期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

程节华段汉根《微机发展》2008,18(4):67-69

在自然语言处理中,短语在汉语分析中占有举足轻重的地位。短语作为汉语句子中的一个基本组成单位,在整个汉语句子的句法分析与语义分析中具有特别重要的意义。为了提高汉语分析的质量,文中在借鉴他人算法的基础上,提出了一种规则和统计相结合的短语识别方法。首先利用词或词语之间的互信息进行短语边界的预测,然后根据词语的词汇和词类信息进行边界调整,最后进行括号匹配和短语标注。实验结果表明：该方法提高了短语的识别率和准确率,提高了汉语分析的质量。相似文献

2.

基于最大熵的汉语短语结构识别方法

下载免费PDF全文

霍亚格黄广君《计算机工程》2011,37(16):206-208

为提高计算机对汉语信息的处理能力,更好地进行浅层句法分析,提出一种基于最大熵的汉语短语结构识别方法.利用词语之间的互信息知识对句子的短语结构边界进行预测,应用最大熵模型建立原子模板与复合模板,选择有效的特征构成特征集,实现对句子短语结构的识别.实例证明,基于互信息的最大熵模型能取得较好的精确率和召回率. 相似文献

3.

统计机器翻译中短语切分的新方法 总被引：1，自引：0，他引：1

何中军刘群林守勋《中文信息学报》2007,21(1):85-89

基于短语的统计机器翻译是目前主流的一种统计机器翻译方法,但是目前基于短语的翻译系统都没有对短语切分作专门处理,认为一个句子的所有短语切分都是等概率的。本文提出了一种短语切分方法,将句子的短语切分概率化: 首先,识别出汉语语料库中所有出现次数大于2次的词语串,将其作为汉语短语; 其次,用最短路径方法进行短语切分,并利用Viterbi算法迭代统计短语的出现频率。在2005年863汉英机器翻译评测测试集上的实验结果(BLEU4)是: 0.1764(篇章),0.2231(对话)。实验表明,对于长句子(如篇章),短语切分模型的加入有助于提高翻译质量,比原来约提高了0.5个百分点。相似文献

4.

一个汉语短语自动界定模型 总被引：8，自引：1，他引：7

周强《软件学报》1996,7(A00):315-322

本文提出了一个汉语短语自动界定模型，它通过基于统计的自动界定处理，利用通过错误驱动自动学习而得到的调整规则界定情况局部调整，利用人工总结的全局调整规则进行精调整等３个处理阶段，可以较邹地确定一句经过正确切分和词性注处理的汉语句子中不同短语的边界位置，从而为时一步的汉语短语自动划分和标注处理打下了良好的基础，对１０００多句句子的实验结果表明，模型的界定正确率达到了９６．３３％（封闭测试）、９４．５５相似文献

5.

汉语最长名词短语的自动识别 总被引：22，自引：0，他引：22

周强孙茂松黄昌宁《软件学报》2000,11(2):195-201

通过对包含5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析,提出了两种有效的汉语最长名词短语自动识别算法：基于边界分布概率的识别算法和基于内部结构组合的识别算法.实验结果显示,后者的识别正确率和召回率分别达到了85.4%和82.3%,取得了较好的自动识别效果. 相似文献

6.

一个汉语短语自动界定模型^* 总被引：5，自引：1，他引：4

周强《软件学报》1996,7(Z1):315-322

本文提出了一个汉语短语自动界定模型，它通过基于统计的自动界定处理．利用通过错误驱动自动学习而得到的调整规则进行界定情况局部调整，利用人工总结的全局调整规则进行精调整等3个处理阶段，可以较好地确定一句经过正确切分和词性标注处理的汉语句子中不同短语的边界位置。从而为进一步的汉语短语自动划分和标注处理打下了良好的基础．对1000多句句子的实验结果表明，模型的界定正确事达到了96.33％(封闭测试)、94.54％(开放测试)．相似文献

7.

基于边界感知的复杂名词短语的识别和转换研究

刘小蝶《计算机科学》2021,48(z1):299-305

为了改善专利机器翻译中复杂名词短语的翻译效果,提出了一种基于规则的复杂名词短语识别和转换方法.通过分析汉英复杂名词短语的语义块和组合单元,利用边界感知策略,抽取汉语语言特征词,为汉语复杂名词短语中组合单元边界识别编制了57条识别规则,设计了合并策略,得到汉语复杂名词短语的形式化结构.通过对比汉英复杂名词短语的差异,确定了汉英复杂名词短语的转换策略.最后,将识别规则、合并策略和转换策略应用到一个机器翻译系统中.测试结果表明,所提方法可以有效地实现复杂名词短语的识别和转换,提高专利文本中复杂名词短语的机器翻译效果. 相似文献

8.

采用无标注语料和词“粘连”剔除策略的韵律短语识别

钱揖丽蔡滢滢《计算机科学》2016,43(2):51-56

针对人工标注韵律结构获取大规模语料的困难和问题,利用标点符号能够表示停顿的性质,提出一种采用无标注语料和词“粘连”剔除策略的韵律短语识别方法。对标点符号划分等级,并在利用其模拟韵律边界时对其赋予不同的权重。基于无标注语料构建最大熵模型,并采取Top-K方法实现句子韵律短语边界的自动预测。通过计算相邻语法词词性间的互信息对句子进行“粘连”处理,生成“粘连”单元,并对出现在其内部的韵律边界进行剔除,实现韵律短语的自动识别。实验结果表明,获取无标注语料时对标点进行分级利用及采用“粘连”剔除策略能够明显提升模型性能,该方法能够获得较好的识别效果。相似文献

9.

基于双语协同训练的最大名词短语识别研究

李业刚黄河燕史树敏鉴萍苏超《软件学报》2015,26(7):1615-1625

针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的两个不同的视图进行双语协同训练.在协同训练中,把双语对齐标注一致率作为标记置信度估计依据,进行增量标记数据的选择.实验结果表明:该算法显著提高了双语最大名词短语的识别能力,在跨领域测试和同领域测试中,F值分别比目前最好的最大名词短语识别模型提高了4.52%和3.08%. 相似文献

10.

基于双向标注融合的汉语最长短语识别方法

鉴萍宗成庆《智能系统学报》2009,4(5):406-413

汉语最长短语（最长名词短语和介词短语）具有显著的语言学特点.采用基于分类器的确定性标注方法进行双向标注,其结果能够显示最长短语识别在汉语句子正（由左至右）反（由右至左）2个方向上的互补性.基于此,利用确定性的双向标注技术来识别汉语最长短语,并提出了一种基于“分歧点”的概率融合策略以融合该双向标注结果.实验表明,这一融合算法能够有效发掘这2个方向的互补特性,从而获得较好的短语识别效果. 相似文献