共查询到18条相似文献,搜索用时 46 毫秒
1.
藏语句法功能组块分析旨在识别出藏语句子的句法成分,为后续句子级深入分析提供支持。根据藏语的语言特点,该文在藏语句法功能组块描述体系基础上,提出基于错误驱动学习策略的藏语功能组块边界识别方法。具体思路为,首先基于条件随机场(Conditional Random Fields,CRFs)识别组块,然后分别基于转换规则的错误驱动学习(Transformation-based Error-driven Learning,TBL)及基于新特征模板的CRFs错误驱动学习进行二次识别,并对初次结果进行校正,F值分别提高了1.65%、 8.36%。最后通过实验分析,进一步将两种错误驱动学习机制融合,在18073词级的藏语语料上开展实验,识别性能进一步提高,准确率、召回率与F值分别达到94.1%、94.76%与94.43%,充分验证了本文提出方法的有效性。 相似文献
2.
3.
针对现代藏语句法,在参照宾大中文树库的基础上,构建藏语短语句法树库,并建立了树库编辑工具,为藏汉机器翻译服务。在短语句法树库的基础上,提出一种融合藏语句法特征的藏汉机器翻译方法。实验分析结果表明,该方法可以很好地应用于藏汉机器翻译系统。 相似文献
4.
该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F值大小顺序处理类型冲突。实验结果表明,基于CRFs的分布式策略及错误驱动方法识别汉语组块是有效的,系统开放式测试的精确率、召回率、F值分别达到94.90%、91.00%和92.91%,好于单独的CRFs方法、分布式策略方法及其他组合方法。 相似文献
5.
针对藏语自然语言形式化的实际需求,分析了用复杂特征描述藏语句子的必要性,引入了复杂特征集和合一运算的概念。以形式化为出发点,以现代语言学理论为后盾,以实例举证的方式对藏语词汇、句法、语义的规则及句子合一运算提出了探索性的研究思路,并且采用框式表示的方法,力求从形式化的角度为藏语自然语言处理提供便利。 相似文献
6.
7.
名词短语识别在句法分析中有着重要的作用,而英汉机器翻译的瓶颈之一就是名词短语的歧义消解问题。研究英语功能名词短语的自动识别,则将名词短语的结构消歧问题转化成名词短语的识别问题。基于名词短语在小句中的语法功能来确定名词短语的边界,选择商务领域语料,采用了细化词性标注集和条件随机域模型结合语义信息的方法,识别了名词短语的边界和句法功能。在预处理基于宾州树库细化了词性标注集,条件随机域模型中加入语义特征主要用来识别状语类的名词短语。实验结果表明,结合金标准词性实验的F值达到了89.04%,改进词性标注集有助于提高名词短语的识别,比使用宾州树库标注集提高了2.21%。将功能名词短语识别信息应用到NiuTrans统计机器翻译系统,英汉翻译质量略有提高。 相似文献
8.
9.
现代藏语动词的句法语义分类及相关语法句式 总被引:1,自引:3,他引:1
本文突破了传统藏文文法关于动词分类的简单描述,建立起以句法语义为纲要的动词类别和相关句法规则。本文区分了藏语12大类动词,各类动词都有不同论元数量和不同句法性质的要求。因此,动词的句法语义类别划分能够较细致和全面反映各种类型藏语句式的语法结构框架,包括句子的语序、词格标记和句法助词。动词的句法语义分类结果可以直接应用于藏语语法信息词典的构建,是藏语计算处理的重要基础。 相似文献
10.
藏语句子分割是藏语自然语言处理中的一项重要且基础性的研究工作。该文根据藏语句子结构特征,在分析藏语句子分割规则与难点的基础上,提出一种融合依存句法的藏语句子分割模型。该模型首先通过词嵌入和藏语依存句法信息嵌入将输入序列映射成实值向量;然后构建融合藏语依存句法的双向LSTM,拼接词语和句法信息特征,提高上下文时序特征的学习能力;最后利用CRF预测出最佳句子分割点。通过对比实验,验证了该模型对藏语句子分割的有效性。实验结果表明,该模型的F1值为99.4%。 相似文献
11.
12.
语义角色标注研究对自然语言处理具有十分重要的意义。英汉语语义角色标注研究已经获得了很多成果。然而藏语语义角色标注研究不管是资源建设,还是语义角色标注的技术探讨都鲜有报道。藏语具有比较丰富的句法标记,它们把一个句子天然地分割成功能不同的语义组块,而这些语义组块与语义角色之间存在一定的对应关系。根据这个特点,该文提出规则和统计相结合的、基于语义组块的语义角色标注策略。为了实现语义角色标注,文中首先对藏语语义角色进行分类,得到语义角色标注的分类体系;然后讨论标注规则的获得情况,包括手工编制初始规则集和采用错误驱动学习方法获得扩充规则集;统计技术上,选用了条件随机场模型,并添加了有效的语言特征,最终语义角色标注的结果准确率、召回率和F值分别达到82.78%、85.71%和83.91%。 相似文献
13.
基于流形特征的镜头边界检测后处理算法 总被引:1,自引:0,他引:1
镜头是视频分析和检索的基础,为了有效检测镜头边界,并对镜头边界进行分类,提出一种新的镜头边界描述子:镜头边界流形.视频流可以看做一个高雏空间,镜头边界流形是隐含在该空间中的局部结构,它能够有效区分镜头边界和非镜头边界,以及区分不同类型的镜头边界.采用这种特征,提出一种后处理算法,一方面去除预检测镜头边界的虚警,另一方面将真正的镜头边界分类.实验结果证实了镜头边界流行的有效性以及后处理算法的优异性能. 相似文献
14.
15.
虚词作为藏文文献中重要成分,对文献识别过程也造成了很大的难度。本文通过传统藏文文法和语法规则,主要研究并提出了三种藏文历史文献中大量藏文自由虚词的识别算法,同时建立了具有284条规则的藏文自由虚词消歧规则库。使文献数字化过程中快速地识别并消除藏文句子中不自由虚词的歧义问题,提高藏文文献自动识别的准确率。 相似文献
16.
提出了一种针对MPEG视频的精确定位镜头边缘的方法,结合视频非压缩域和压缩域中相关视频帧的信息来定位镜头边缘。首先利用解压后的I帧信息来粗略定位镜头边缘,然后利用视频序列压缩域中的B帧的运动趋势来精确定位镜头边缘,而不用对其解压缩。实验结果表明此方法能精确地检测到视频的镜头边缘。 相似文献
17.
提出了一种针对MPEG视频的精确定位镜头边缘的方法,结合视频非压缩域和压缩域中相关视频帧的信息来定位镜头边缘。首先利用解压后的I帧信息来粗略定位镜头边缘,然后利用视频序列压缩域中的B帧的运动趋势来精确定位镜头边缘,而不用对其解压缩。实验结果表明此方法能精确地检测到视频的镜头边缘。 相似文献
18.
提出了一种快速的稀有类检测算法——CATION(rare category detection algorithm based on weighted boundary degree)。通过使用加权边界度(weighted boundary degree,简称WBD)这一新的稀有类检测标准,该算法可利用反向k近邻的特性来寻找稀有类的边界点,并选取加权边界度最高的边界点询问其类别标签。实验结果表明,与现有方法相比,该算法避免了现有方法的局限性,大幅度地提高了发现数据集中各个类的效率,并有效地缩短了算法运行所需要的运行时间。 相似文献