首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到18条相似文献,搜索用时 187 毫秒
1.
基于条件随机域的复杂最长名词短语识别   总被引:3,自引:1,他引:3  
识别句子中的最长名词短语是一个对机器翻译等任务具有重要实际价值的难题.为了克服传统方法在处理词之间的长程关联的不足和标注偏置等问题,本文采用条件随机域建立统计模型,有针对性的研究了复杂最长名词短语的识别,并给出了一种带置信度估计的解码算法,提高了本文工作的实用性.  相似文献   

2.
刘小蝶 《计算机科学》2021,48(z1):299-305
为了改善专利机器翻译中复杂名词短语的翻译效果,提出了一种基于规则的复杂名词短语识别和转换方法.通过分析汉英复杂名词短语的语义块和组合单元,利用边界感知策略,抽取汉语语言特征词,为汉语复杂名词短语中组合单元边界识别编制了57条识别规则,设计了合并策略,得到汉语复杂名词短语的形式化结构.通过对比汉英复杂名词短语的差异,确定了汉英复杂名词短语的转换策略.最后,将识别规则、合并策略和转换策略应用到一个机器翻译系统中.测试结果表明,所提方法可以有效地实现复杂名词短语的识别和转换,提高专利文本中复杂名词短语的机器翻译效果.  相似文献   

3.
GLR算法模型翻译识别结果存在数据点重合的情况,精确度无法得到有效保障。为了准确的识别短语,设计了基于改进GLR算法的短语智能识别算法,该算法构建标记规模约74万个英汉单词的短语语料库,使短语具备可搜索功能,通过短语中心点构建短语结构,可获得词性识别结果,依据解析线性表的句法功能校正词性识别结果中的英汉结构歧义,最终获得识别的内容。实际测评结果显示,该算法克服了GLR的弊端,相对统计算法和动态记忆算法提高了运算速度和处理性能,更加适合机器翻译任务,为在智能机器翻译领域提供了新的思路。  相似文献   

4.
数学形态学的图象分割算法   总被引:19,自引:0,他引:19       下载免费PDF全文
图象分割在图象分析、机器视觉、目标识别中都将直接影响到后续的理解和识别工作。本文着重讨论了基于数学形态学变换的图象分割算法,提出了基于图象最大内切圆的数学形态学形状描述图象分割算法和基于目标最小闭包结构元素的数学形态学形状描述图象分割算法。  相似文献   

5.
本文运用规则和统计相结合的方法构造了一个汉语介词短语识别算法。首先,根据介词和介词短语右边界组成的搭配模板自动提取可信搭配关系,并用这些搭配关系对介词短语进行识别。之后,用基于词性的三元边界统计模型和规则相结合的方法识别其它未处理的介词短语。通过对含有7323 个介词短语的语料作交叉测试,精确率达到87148 % ,召回率达到87127 %。  相似文献   

6.
马佩勋  高琰 《计算机应用研究》2013,30(12):3610-3613
传统的TF*PDF方法提取的关键短语可精确地描述话题并进行新闻报道的追踪, 但存在误将噪声数据识别为关键短语的情况。提出了一种基于位置权重TF*PDF的两段式关键短语提取方法滤除噪声数据。该方法将传统的TF*PDF算法与位置权重相结合, 计算词汇与短语的权重, 获取候选关键短语列表, 关键短语的脉冲值则用于过滤列表中的噪声。通过关键短语识别进程根据位置信息、频率信息等将热点词汇组合成短语。TF*PDF位置权重算法同时也用于为短语分配权重, 排名前K的短语被认为是热点关键短语。以真实网络数据为基础的实验结果表明, 该提取方法与传统的TF*PDF提取方法相比, 可更好地去除关键词短语中的绝对噪声, 较好地改善了热点话题检测的准确度。  相似文献   

7.
为降低现代汉语句法分析的难度,以北大和哈工大语料为基础,利用改进的Viterbi算法对汉语真实文本进行了短语识别研究.提出了在隐马尔可夫模型(HMM)框架下,训练阶段依据统计概率信息,以极大似然法获取HMM参数,识别阶段用一种改进的Viterbi算法进行动态规划,识别同层短语;在此基础上,运用逐层扫描算法和改进Viterbi算法相结合的方法来识别汉语嵌套短语.实验结果表明,识别正确率在封闭测试中可达93.52%,在开放测试中达到77.529%,证明该算法对短语识别问题具有良好的适应性和实用性.  相似文献   

8.
中文名词短语识别在自然语言处理已经得到了广泛应用。该文首先对名词短语识别问题进行描述,然后利用最大熵模型建立名词短语识别系统,通过实验选取最大熵模型的特征,最后利用选取的特征进行名词短语识别,实验结果表明系统达到了较高的准确率和召回率。  相似文献   

9.
汉语句子的组块分析体系   总被引:26,自引:1,他引:25  
周强  孙茂松  黄昌宁 《计算机学报》1999,22(11):1158-1165
介绍了一种描述能力介于线性词序列和完整句法树表示之间的浅层句法知识描述体系-组块分析体系,并详细讨论了其中两大部分;词界块和成分组的基本内容及其自动识别算法,在此基础上,提出了一种分阶段构造汉语树库的新设想,即先构造组块库,再构造树库,进行了一系列句法分析和知识获取实验,包括1)自然识别汉语最长名词短语;2)自动获取汉语句法知识等。所有这些工作都证明了这种知识描述体系的实用性和有效性。  相似文献   

10.
句子成分分析是自然语言处理研究中的重点和难点。首先陈述现代维吾尔语短语和句子之间的关系、语类间的相互关系等现代维吾尔语单句成分划分问题;其次讨论现代维吾尔语语料库的预处理、短语标记集、句子成分划分基本思路、句子成分分析算法;探索现代维吾尔语谓语的识别算法设计、其他句子成分的识别、自动界定预测算法等研究现代维吾尔语句子成分分析问题;解决现代维吾尔语句子成分分析系统实现、实验数据分析等现代维吾尔语句子成分分析问题。  相似文献   

11.
固定短语的自动识别和标注是进行蒙古语文本处理的基础和前提条件。词类标注、短语标注、句法分析、语义分类及语义角色标注等基础研究和机器翻译、文本校对等应用系统的开发均以正确标注固定短语的文本为处理对象。该文在“蒙古语固定短语语法信息词典”的基础上采用基于有限状态自动机和规则的方法设计实现了固定短语识别和标注算法。经实验,其识别率已达到90%以上,在处理中,词均用时与基于字符串匹配的算法相比提高较多,达到0.005 0ms。  相似文献   

12.
13.
The suffix-signature method for searching for phrases in text   总被引:1,自引:0,他引:1  
We present a new algorithm to find all occurrences of a given phrase based on the data structure known as a suffix array and using a corresponding array of signatures. With this algorithm, matches to phrases of moderate length can be found with expected search time of one disk access to the text and one disk access to its index. To achieve this performance for phrases of up to five words in length requires an index having total size of approximately 120% of the size of the text. The algorithm guarantees a worst case search performance of two disk accesses to the text per phrase search. Experiments with actual data ranging in size from 6Mb to 550Mb and with actual query patterns derived from logs of searches on the World Wide Web show that the approach is applicable in practice to a variety of texts and realistic phrase searches.  相似文献   

14.
汉语篇章时间短语的分析与时制验算   总被引:5,自引:0,他引:5  
汉英机器翻译中,汉语篇章的时间信息是生成正确英语词时态的基础,时制是时间信息重要组成部分,需要在篇间中通过时间短语的语义分析获得,首先对汉语篇章时间短时间了语义分类,然后设计了时间短语语义表示结构TPSRS,用概念信息体关联网络CIURN表示了汉语篇间语境知识,给出了在篇章语境中分析时间短语的算法TPPA,提出了通过时制验算来推导汉语篇章中时间短语的时制和事件的时制,最后在汉英机译系统ICENT中进行了实现,对已知写作时间的汉语篇章取得了较好的实验结果。  相似文献   

15.
In this paper, an automatic image–text alignment algorithm is developed to achieve more effective indexing and retrieval of large-scale web images by aligning web images with their most relevant auxiliary text terms or phrases. First, a large number of cross-media web pages (which contain web images and their auxiliary texts) are crawled and segmented into a set of image–text pairs (informative web images and their associated text terms or phrases). Second, near-duplicate image clustering is used to group large-scale web images into a set of clusters of near-duplicate images according to their visual similarities. The near-duplicate web images in the same cluster share similar semantics and are simultaneously associated with a same or similar set of auxiliary text terms or phrases which co-occur frequently in the relevant text blocks, thus performing near-duplicate image clustering can significantly reduce the uncertainty on the relatedness between the semantics of web images and their auxiliary text terms or phrases. Finally, random walk is performed over a phrase correlation network to achieve more precise image–text alignment by refining the relevance scores between the web images and their auxiliary text terms or phrases. Our experiments on algorithm evaluation have achieved very positive results on large-scale cross-media web pages.  相似文献   

16.
该文提出一种融入简单名词短语信息的介词短语识别方法。该方法首先使用CRF模型识别语料中的简单名词短语,并使用转换规则对识别结果进行校正,使其更符合介词短语的内部短语形式;然后依据简单名词短语识别结果对语料进行分词融合;最后,通过多层CRFs模型对测试语料进行介词短语识别,并使用规则进行校正。介词短语识别的精确率、召回率及F-值分别为: 93.02%、92.95%、92.99%,比目前发表的最好结果高1.03个百分点。该实验结果表明基于简单名词短语的介词短语识别算法的有效性。
  相似文献   

17.
连词能够连接词语、短语、小句、句子乃至句群,连词结构短语是连词所连接对象的一种,不同的连词形成不同长度、不同关系的连词结构短语。该文根据虚词用法知识库中的连词用法,构建了连词结构短语识别规则,实现了基于规则的连词结构短语识别,并将连词用法作为特征采用条件随机场模型实现了基于统计的连词结构短语识别。实验结果表明,统计的识别效果高于规则的识别效果,连词用法能够较好地用于连词结构短语的识别中。  相似文献   

18.
该文提出了一种多模型融合的介词短语识别方法,不仅能识别并列型介词短语,而且提高了嵌套型介词短语的识别精度。首先,利用简单名词短语识别模型识别出语料中的短语信息并进行融合,简化语料,降低介词短语内部复杂性;其次,用CRF模型识别嵌套的内层介词短语,即若存在嵌套则识别嵌套的内层,若无嵌套则识别该介词短语;最后,将初始语料中识别出来的内层介词短语进行分词融合并修改其特征信息,重新训练外层介词短语识别模型进行识别。在内外层介词短语自动识别后,利用双重错误校正系统对识别的介词短语进行校正。在2000年《人民日报》语料中的7 028个介词短语进行五倍交叉实验,结果表明,该方法识别的介词短语的正确率、召回率、F值分别为94.11%、94.02%、94.06%,比基于简单名词短语的介词短语识别方法(baseline)分别提高了1.09%、1.07%、1.08%,有效提高了介词短语识别的性能。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号