首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
汉语最长短语(最长名词短语和介词短语)具有显著的语言学特点.采用基于分类器的确定性标注方法进行双向标注,其结果能够显示最长短语识别在汉语句子正(由左至右)反(由右至左)2个方向上的互补性.基于此,利用确定性的双向标注技术来识别汉语最长短语,并提出了一种基于“分歧点”的概率融合策略以融合该双向标注结果.实验表明,这一融合算法能够有效发掘这2个方向的互补特性,从而获得较好的短语识别效果.  相似文献   

2.
李业刚  黄河燕  史树敏  鉴萍  苏超 《软件学报》2015,26(7):1615-1625
针对传统方法对双语最大名词短语识别一致性差以及跨领域识别能力弱的缺点,提出一种基于半监督学习的双语最大名词短语识别算法.利用汉英最大名词短语的互译性和识别的互补性,把平行的汉语句子和英语句子这两个数据集看作一个数据集的两个不同的视图进行双语协同训练.在协同训练中,把双语对齐标注一致率作为标记置信度估计依据,进行增量标记数据的选择.实验结果表明:该算法显著提高了双语最大名词短语的识别能力,在跨领域测试和同领域测试中,F值分别比目前最好的最大名词短语识别模型提高了4.52%和3.08%.  相似文献   

3.
本文针对统计方法和规则方法各自的特点,提出基于最大熵方法和转换规则方法相结合的中文基本名词短语识别算法,该算法是在一定词性标注的基础上实现的.在训练和测试两个阶段中,均先采用最大熵方法识别基本名词短语,然后将已具有一定精度的识别结果作为初始标注结果运用于转换规则方法中.实验表明,该方法具有一定的可行性.  相似文献   

4.
张建莉 《福建电脑》2006,(4):112-113
本文采用《知网》作为语义知识资源,将语义知识形式化,实现了三个层次上的语义匹配度的计算,提出一种基于《知网》语义知识的汉语名词短语识别过程中的排歧方法。在利用词性搭配规则对名词短语进行标注的基础上,考察识别结果词语序列各成分间语义组合的合法性,实现了识别过程中的排歧。  相似文献   

5.
命名实体识别是自然语言处理领域的一个重要任务,为许多上层应用提供支持。本文主要研究汉语开放域命名实体边界的识别。由于目前该任务尚缺乏训练语料,而人工标注语料的代价又太大,本文首先基于双语平行语料和英语句法分析器自动标注了一个汉语专有名词语料,另外基于汉语依存树库生成了一个名词复合短语语料,然后使用自学习方法将这两部分语料融合形成命名实体边界识别语料,同时训练边界识别模型。实验结果表明自学习的方法可以提高边界识别的准确率和召回率。  相似文献   

6.
李荣  郑家恒  郭梅英 《计算机科学》2009,36(10):244-246
为了进一步提高名词短语的识别精度,针对遗传算法和隐马尔可夫模型各自的特点,提出一种基于遗传算法的隐马尔可夫模型识别方法。该方法是在高准确率词性标注的基础上实现的。在训练阶段,用遗传算法获取HMM参数;识别阶段先用一种改进的Viterbi算法进行动态规划,识别同层名词短语,然后用逐层扫描算法和改进Viterbi算法相结合来识别嵌套名词短语。实验结果表明,此联合算法达到了94.78%的准确率和94.29%的召回率,充分融合了遗传算法和隐马尔可夫模型的优点,证明它较单一的隐马尔可夫模型识别法具有更好的识别效果。  相似文献   

7.
以哈萨克语基本名词短语识别为目标,实现了哈萨克语基本名词短语自动识别系统。采用基于规则自动识别及人工标注的方法建立基本名词短语标注语料库,在此基础上,采用统计和规则相结合的识别方法,利用互信息进行基本名词短语边界预测,然后根据哈萨克语基本名词短语构成规则对预测边界进行调整,加入标注符,得到最终的识别结果。实验结果表明,两种方法封闭测试的识别精确率分别为80.2%和82.5%。  相似文献   

8.
汉语最长名词短语的自动识别   总被引:22,自引:0,他引:22  
周强  孙茂松  黄昌宁 《软件学报》2000,11(2):195-201
通过对包含5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析,提出了两种有效的汉语最长名词短语自动识别算法:基于边界分布概率的识别算法和基于内部结构组合的识别算法.实验结果显示,后者的识别正确率和召回率分别达到了85.4%和82.3%,取得了较好的自动识别效果.  相似文献   

9.
采用一种基于混合统计模型的方法来实现中文基本名词短语识别。首先简要分析目前的研究现状,明确中文Base NP识别的任务,然后采用以基于转换的标注和条件随机域模型为底层,支持向量机模型为高层的混合统计模型来进行中文BaseNP的识别。在ACE2005中文语料上的实验表明,F值比使用单一模型提高了1.37%,达到了88.67%,能提高中文基本名词短语的识别性能。  相似文献   

10.
提出了一种基于词义相似度和最近邻算法的"N1+N2"结构短语语法关系判定方法.首先从"N1+N2"结构中两对名词间的语义相似度定义了短语结构间的相似度,在此基础上给出最近邻分类算法所需要的短语结构间距离的概念;然后建设了一个标注了词语语义类别和短语语法关系的"N1+N2"结构的样本语料库,建立了一种能够标注"N1+N2"结构关系的最近邻分类算法;最后用测试集中计算机标注结果与人工标注结果比较来测试算法效果.实验结果显示,基于论文所提算法的计算机自动标注结果正确率达到97.55%,该结果证明了论文设计算法的有效性.  相似文献   

11.
基于条件随机域的复杂最长名词短语识别   总被引:3,自引:1,他引:3  
识别句子中的最长名词短语是一个对机器翻译等任务具有重要实际价值的难题.为了克服传统方法在处理词之间的长程关联的不足和标注偏置等问题,本文采用条件随机域建立统计模型,有针对性的研究了复杂最长名词短语的识别,并给出了一种带置信度估计的解码算法,提高了本文工作的实用性.  相似文献   

12.
统计和规则相结合的汉语最长名词短语自动识别   总被引:2,自引:0,他引:2  
在分析汉语最长名词短语特点的基础上,提出了一种统计和规则相结合的汉语最长名词短语自动识别方法 通过实验词及词性的不同组合选择特征集合,基于该特征训练得到条件随机场(CRF)识别模型;分析错误识别结果,结合最长名词短语的边界信息和内部结构信息构建规则库对识别结果进行后处理,弥补了机器学习模型获取知识不够全面的不足。实验结果表明,用统计和规则相结合的方法识别最长名词短语是有效的,系统开放测试结果F值达到了90.2%。  相似文献   

13.
提出一种统计和规则相结合的最 长评价短语自动识别算法。将评价短语的识别问题转化为序列标注问题,结合条件随机场模型进行简单结构的评价短语识别,在此基础上进一步建立和应用规则库,自动识别结构复杂的最长评价短语,其测试的F值达到72.38%。在最长评价短语自动识别的基础上,构建用于 评价对象抽取和情感评价单元抽取的规则库,提出基于规则的评价搭配自动抽取算法,实现评价对象和最长评价短语搭配的自动抽取,在网易汽车门户网站进行了系统测试,得到了较高的准确率。  相似文献   

14.
中文人称名词短语单复数自动识别   总被引:2,自引:1,他引:1  
名词短语的单复数信息在共指消解中是必不可少的特征. 与英语不同, 中文属于汉藏语系, 名词本身不能明显体现单复数信息, 需要借助其所在的名词短语来进行体现. 本文在自动内容抽取(Automatic content extraction, ACE)语料上抽取得到人称名词短语的单复数信息, 分别采用了基于规则和机器学习的方法来进行人称名词短语的单复数自动识别. 基于规则的方法, 在一些知识资源的基础上定义了规则模板库, 每条规则采用槽和槽值的方法来进行体现; 机器学习方法采用最大熵模型组合考察了词形、词性、词义、数量关系等特征. 两种方法分别达到了48.24\%和87.48\%的正确率. 实验结果显示, 基于规则的方法能够保证精确率而不能保证召回率, 机器学习的方法可以更好地完成单复数信息的识别任务.  相似文献   

15.
韩汉双语语料库短语对齐对于基于实例的韩汉机器翻译系统具有重要意义,该文从韩国语名词短语结构特点出发,在基于统计和基于词典的词对齐方法进行试验分析的基础上,提出了基于词对齐位置信息的韩汉双语语料库名词短语对齐方法。该方法通过基于统计的方法获得词对齐位置信息,在此基础上利用基于词典方法的相似度计算进行词对齐校正;根据以上结果,该文通过韩国语名词短语左右边界规则抽取名词短语及其汉语译文,利用关联度度量方法进行过滤,实现名词短语对齐。实验结果表明,在较大规模语料库情况下,该方法取得了较好的短语对齐结果。  相似文献   

16.
中文Base NP识别: 错误驱动的组合分类器方法   总被引:2,自引:0,他引:2  
本文采用一种新的错误驱动的组合分类器方法来实现中文Base NP识别。本文首先对中文和英文Base NP识别技术现状进行了简要分析和概述,明确了中文Base NP识别的任务,然后,基于前人的工作提出了错误驱动的组合分类器方法,其基本思路是: 通过对比两种不同类型的分类器—基于转化的方法和条件随机场方法的分类结果,再利用支持向量机学习其中的错误规律,对两分类器产生的不同结果进行纠错,从而达到提高系统整体性能的效果。我们在宾州中文树库转化得到的Base NP语料集上进行了Base NP识别交叉验证实验,与单独使用基于转化的方法、条件随机场方法以及支持向量机方法相比较,错误驱动的组合分类器方法的实验结果都有所提高,最佳结果F值达到了89.72%,相对于文中Base NP识别的其他方法,最大提高幅度为2.35%。  相似文献   

17.
中文微博的评价对象抽取作为中文微博情感分析的基础任务,受到研究者的广泛关注,有着重要的研究价值。本文结合微博文本的特点,对微博文本进行预处理,利用句法分析构建包括名词、名词短语、微博话题在内的评价对象候选集,再分别利用SVM模型、加权模型,实现多特征融合的筛选候选评价对象方法,所用特征包括语义角色信息、最小距离和词频。算法经实验证明有效,在对候选评价对象进行筛选后,采用SVM模型的F值达到0.3573,加权模型的F值达到0.4059。  相似文献   

18.
组块分析的主要任务是语块的识别和划分,它使句法分析的任务在某种程度上得到简化。针对长句子组块分析所遇到的困难,该文提出了一种基于分治策略的组块分析方法。该方法的基本思想是首先对句子进行最长名词短语识别,根据识别的结果,将句子分解为最长名词短语部分和句子框架部分;然后,针对不同的分析单元选用不同的模型加以分析,再将分析结果进行组合,完成整个组块分析过程。该方法将整句分解为更小的组块分析单元,降低了句子的复杂度。通过在宾州中文树库CTB4数据集上的实验结果显示,各种组块识别结果平均F1值结果为91.79%,优于目前其他的组块分析方法。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号