期刊界 All Journals 搜尽天下杂志传播学术成果专业期刊搜索期刊信息化学术搜索

1.

龙从军周毛克刘汇丹《中文信息学报》1986,34(10):33

词向量在自然语言处理研究的各个领域发挥着重要作用。该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库。该文以哈尔滨工业大学的《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词。该文分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词,通过对自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,这说明词向量计算结果与人的语言直觉具有较高的一致性。总体来说,该文所采用的方法有助于提高藏文语义相似词知识库构建效率。相似文献

2.

汉藏短语对抽取中短语译文获取方法研究 总被引：1，自引：0，他引：1

诺明花吴健刘汇丹丁治明《中文信息学报》2011,25(3):112-118

该文从法律法规和公文领域汉藏语料中对待翻译汉语短语提取藏语译文。目前普遍采用的短语对抽取方法需要依赖于词性或句法分析等资源或词对齐技术。考虑现阶段藏文资源不足,词法句法相关技术不成熟,该文提出藏文词串频率统计方法(TSM)和藏文词序列相交算法(TIA)两种方法来获取藏语译文。其中TSM抽取1-1连续和非连续短语准确率达到90%左右,但遗漏1-n情况。TIA能够抽取1-n连续和非连续藏文语块,准确率达到81%。相似文献

3.

汉—藏人名用字音译规则研究

龙从军豆格才让刘汇丹《中文信息学报》2018,32(3):71-76

随着信息技术的发展,藏文在互联网上广泛使用,政府主办的报刊、杂志也逐渐有了网络版,大量的汉文材料被翻译成藏文。翻译者在音译汉文人名用字时,未能遵从统一的音译规范,导致同一人名存在多种音译形式。该文统计了五家藏文网站,发现一些公众人物的人名用字音译形式比较混乱,不但影响信息交流,而且不利于藏文自然语言处理。该文详细分析了音译混乱的原因,提出在汉—藏人名用字音译时,需要制定一一对应的音译原则;同时注重原则实践的可行性和一致性。翻译者在音译汉—藏人名用字时必须严格遵从音译原则;推行音译原则还需要依靠相关政府机构和部门。相似文献

4.

基于藏语字性标注的词性预测研究

龙从军刘汇丹诺明花吴健《中文信息学报》2015,29(5):211-216

该文选取了藏语文中小学教材的部分语料,构建了带有藏语字性标记、词边界标记和词性标记的语料库,通过比较不同的分词、标注方法,证明分词、词性标注一体化效果比分步进行的效果好,准确率、召回率和F值分别提高了0.067、0.073和0.07。但词级标注模型难以解决词边界划分的一致性和未登录词的问题。基于此,作者提出可以利用字性和字构词的规律预测合成词的词性,既可以融入语言学知识又可以减少由未登录词导致的标注错误,实验结果证明,作为词性标注的后处理模块,基于字性标注的词性预测准确率提高到了0.916,这个结果已经比分词标注一体化结果好,说明字性标注对纠正词性错误标注有明显的效果。
相似文献

5.

国际音标输入软件的设计与实现

江荻刘汇丹吴兵《中文信息学报》2011,25(2):111-117

文章以蓝蝶国际音标(形类)输入法为对象论述了国际音标输入系统的编码思想、算法设计和字体制作.输入编码的基本原则是字形的分类,合理的分类能产生适合用户的键盘操作习惯;算法设计提出了高频优先的动态连续输入效果;字体制作能及时添加所需字符,并完善字句行距等多文种混排版面质量. 相似文献

6.

现代藏语助动词结尾句子边界识别方法

赵维纳于新刘汇丹李琳王磊吴健《中文信息学报》2013,27(1):115-120

藏语句子边界的正确识别是藏文文本处理首先要解决的问题。而藏语书面语中标点符号的特殊性是造成藏语句子边界识别困难的主要原因。该文主要对现代书面藏语中常见的以藏语助动词结尾的藏语句子边界识别进行研究,结合藏文标点符号的特点提出藏语助动词结尾句子边界识别方法。相似文献

7.

基于短语串实例的汉藏辅助翻译

熊维吴健刘汇丹张立强《中文信息学报》2013,27(3):84-91

目前汉藏机器翻译的研究主要集中在基于规则的方法上,主要原因在于汉藏的平行语料等基础资源相对匮乏,不方便做大规模的基于统计的汉藏机器翻译实验。该文依据汉藏辅助翻译项目的实际需求,在平行语料资源较少的情况下,提出了一种基于短语串实例的机器翻译方法,为辅助翻译提供候选译文。该方法主要利用词语对齐信息来充分挖掘现有平行语料资源信息。实验结果表明,该文提出的基于短语串实例方法优于传统基于句子实例的翻译,能够检索出任意长度的短语串翻译实例。在实验测试集上,该方法与默认参数下的Moses相比,翻译的BULE值接近Moses,短语翻译实例串的召回率提高了约9.71%。在平均句长为20个词的测试语料上,翻译速度达到平均每句0.175s,满足辅助翻译实时性的要求。相似文献

8.

藏语音节标注研究

龙从军刘汇丹吴健《中文信息学报》2017,31(4):89-93

藏语的“音节”在词汇语法研究和文本信息处理研究中都十分重要,尤其在解决未登录词切分问题和标注中能够发挥积极的作用。然而在现有的研究中,对音节的重视还不够。该文提出在文本标注时,可以先进行音节的性质标注,然后通过音节构词的规律预测复合词的词性,尤其是未登录词的词性。该文作者对藏语音节的定义进行了界定,提出音节的性质分类及标注原则,利用统计模型,在约24万音节的中小学语文教材语料库上进行实验,音节性质标注的正确率为93.520 8%。在此基础上,把音节性质标注信息用到词性标注中。实验结果表明: 即使在音节性质标注存在一定错误的情况下,词性标注的正确率也提高到94.196 7%;如果在保证音节性质标注完全正确的情况下,词性标注的正确率可以提高到97.775 4%,这说明音节性质标注信息对词性标注有帮助。相似文献

9.

基于深度学习的藏文分词方法

李博涵刘汇丹龙从军吴健《计算机工程与设计》2018,(1):194-198

重点研究将深度学习技术应用于藏文分词任务,采用多种深度神经网络模型,包括循环神经网络(RNN)、双向循环神经网络(Bi RNN)、层叠循环神经网络(Stacked RNN)、长短期记忆模型(LSTM)和编码器-标注器长短期记忆模型(Encoder-Labeler LSTM)。多种模型在以法律文本、政府公文、新闻为主的分词语料中进行实验,实验数据表明,编码器-标注器长短期记忆模型得到的分词结果最好,分词准确率可以达到92.96%,召回率为93.30%,F值为93.13%。相似文献

10.

新标准体系下蒙古文变形显现模型的设计与实现

王震刘汇丹吴健《中文信息学报》2013,27(1):108-115

国家标准GB 25914-2010的提出,为蒙古文变形规则提供了统一的可实施的标准。目前还缺乏完全符合该标准的蒙古文变形引擎和OpenType蒙古文字库。针对这一问题,该文提出了一种符合新标准的蒙古文变形模型,该模型具有高效率和通用性。我们利用蒙古文变形模型分别在KDE平台下的复杂文本布局引擎Qt4和GNOME平台下的Pango中实现了对蒙古文的变形支持。实验结果证明了该模型的有效性。其中,通过对Pango增加蒙古文变形支持,GNOME平台下的Firefox等应用程序也能正确显示蒙古文。该模型的实现,为研制符合新标准的以GNOME或者KDE为桌面环境的蒙古文操作系统奠定了基础。相似文献