排序方式: 共有8条查询结果,搜索用时 31 毫秒
1
1.
藏语句子分割是藏语自然语言处理中的一项重要且基础性的研究工作。该文根据藏语句子结构特征,在分析藏语句子分割规则与难点的基础上,提出一种融合依存句法的藏语句子分割模型。该模型首先通过词嵌入和藏语依存句法信息嵌入将输入序列映射成实值向量;然后构建融合藏语依存句法的双向LSTM,拼接词语和句法信息特征, 提高上下文时序特征的学习能力;最后利用CRF预测出最佳句子分割点。通过对比实验,验证了该模型对藏语句子分割的有效性。实验结果表明,该模型的F1值为99.4%。 相似文献
2.
班智达藏文语料切分词典的建立与算法研究 总被引:2,自引:0,他引:2
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。而语料文本的处理与加工以语法信息词典作基础。结合藏文语料库切分标注规范,论述了对藏文语料库切分与标注用的藏文语法信息词典的建立和设计,重点讨论了该词典的内容建设、语法信息的标注、索引结构及查找算法。 相似文献
3.
近年来,随着计算机技术的发展,电子词典作为一种移动学习和翻译的数码工具,在国内外开始广泛地普及,其经济效益和社会效益也随之得到广大用户的关注。论文结合《班智达汉藏机器翻译系统》(国家863计划项目,编号为863-306-ZT04-05-2)的后续项目《班智达藏汉英电子词典》(国家自然科学基金,编号为69663001)的研发实践,论述了该电子词典在网络上的设计方案,重点讨论了电子词典的内容建设和结构描述以及网络中的开发模式和应用技术,最后对系统所选的平台进行了详细描述并给出了该电子词典的使用方法。 相似文献
4.
5.
才藏太 《计算机工程与科学》2012,34(6):187-190
藏文句子的边界识别是藏文文本分析的基础性研究,是藏文与其他语种之间建立句子级平行语料库的必要工作,也是进一步进行藏汉机器翻译的基础。本文通过分析藏文句子的结束形式,研究藏文句子边界规则,提出了一种藏文句子的边界识别方法。该方法首先利用特殊规则和词表对藏文句子进行识别,然后利用最大熵模型对有歧义的句子进一步识别。从而提高藏文句子的边界识别率。 相似文献
6.
7.
班智达汉藏公文翻译系统中基于二分法的句法分析方法研究 总被引:3,自引:0,他引:3
机器翻译系统是一种典型的自然语言处理系统,语言技术是机器翻译系统中居于核心地位的技术。本文结合863 项目《班智达汉藏公文机器翻译系统》的研制实践,论述了词项信息同语法规则相结合的原则,提出了以动词为中心的句法分析二分法,从而在受限语言的范围内,为建立有较大适应性的机器翻译规则系统,有效地提高机器翻译语法分析的效率提供了有益的方法。 相似文献
8.
才藏太 《计算机工程与应用》2012,48(26):127-130,147
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。结合973前期项目《藏文语料库分词标注规范研究》的开发经验,论述了班智达大型藏文语料库的建设,分词标注词典库和分词标注软件的设计与实现,重点讨论了词典库的索引结构及查找算法、分词标注软件的格词分块匹配算法和还原算法。 相似文献
1