首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 390 毫秒
1.
自动拼写检查是自然语言处理领域一项极具挑战性的研究课题,在语料库建设、文本编辑、语音和文字识别等诸多方面具有广阔的应用前景。藏文字是一种表音拼音文字,由1~7个基本构件横向和纵向拼接而成。藏文文本中非真字出现的频率很高,是藏文字拼写检查的基础和重点。该文通过分析藏文文法中的构字规则,利用藏文字向量模型将藏文字用计算机易于操作的数字(向量)表示,建立基于规则约束的藏文字向量模型,进而设计该模型下的藏文字拼写检查模型及算法。算法简单易实现,经测试算法拼写检查的平均准确率达99.995%,平均每秒检查1 060个字。  相似文献   

2.
词向量表示是机器学习的基础性工作,其目标是以优化的向量表示词,以便计算机能更好地理解自然语言。随着神经网络技术的发展,词向量在自然语言处理领域发挥着重要作用。藏文词向量表示技术的研究对藏文特征分析以及用深度学习技术处理藏文具有重要意义。该文提出了一种构件、字和词多基元联合训练的藏文词向量表示方法,设计了多基元联合训练藏文词向量的模型TCCWE,并采用内部评测中的词相似度/相关性评价方式验证了其有效性。实验表明,该文提出的藏文词向量表示方法有效,其性能在TWordSim215上提高了3.35%,在TWordRel215上提高了4.36%。  相似文献   

3.
该文通过研究国内外相关的拼写错误查错和纠错方法的理论,再结合维吾尔语自身的特点,提出了基于词典和统计相结合的维吾尔语拼写查错方法。首先,提出基于词典的方法进行词库和词干提取的拼写检查;其次,提出基于N元语法的词缀连接有效性判断模型,对未登录词提出基于N元语法的拼写检查模型;最后,结合以上几种方法各自的优点提出基于混合策略的拼写检查方法,该方法在准确性和检查结果可靠性等方面得到了较显著的提高。  相似文献   

4.
循环神经网络语言模型能解决传统N-gram模型中存在的数据稀疏和维数灾难问题,但仍缺乏对长距离信息的描述能力。为此文中提出一种基于词向量特征的循环神经网络语言模型改进方法。该方法在输入层中增加特征层,改进模型结构。在模型训练时,通过特征层加入上下文词向量,增强网络对长距离信息约束的学习能力。实验表明,文中方法能有效提高语言模型的性能。  相似文献   

5.
《新电脑》2001,(6)
设置拼写检查默认语言 在创建一个规模较大的演示文稿时。难免会发生键入文字错误的情况。与Office2000的其他工具一样PowefPoint2000也提供了文字拼写检查的功能.不过它只根据默认系统语言来进行拼写检查。 要设置拼写检查的默认语言.首先选择“工具”菜单中的“语言”选项,这时会弹出“语言”对话框,从“将选取文本定义为”列表框中选择所需的语言类型如“英语(美国)”。然后单击“默认”按钮此时Office助手将提示该设置会影响所有的演示文稿(见图1),最后点击“确定”按钮。这样,就可以将美国英…  相似文献   

6.
拼写检查作为文本处理中的重要内容,在字处理软件、文字识别、语音识别、搜索引擎等领域具有广泛的应用。该文以藏文语音特性建立的字组织法为依据,以藏文音节规则为模型,提出了藏文音节规则模型(TSRM)的藏文音节拼写检查算法,并通过2组实验验证了算法的有效性。在没有考虑梵音转写藏文的情况下,拼写错误检查的准确率可以达到99.8%。  相似文献   

7.
藏文音节拼写检查是藏语自然语言处理的基本任务,在藏文文字处理、文字识别、文本生成等领域具有广泛的应用。该文首先针对藏文音节的结构提出了音节向量化的方法,即音节矩阵。然后构建了适合于藏文音节拼写检查的CNN模型,使用1 364 880个藏文音节进行训练。最后对68 244个藏文音节进行测试。实验结果显示,藏文音节拼写检查CNN模型的结果优于规则、RNN和LSTM等模型,不仅对符合藏文文法的音节能正确识别外,而且对梵音藏文音节也能有效识别,正确率、召回率以及F值分别为99.52%、99.30%和99.41%。  相似文献   

8.
在以国际标准编码存储的传统蒙古文电子文本中,拼写错误十分普遍。人工校对这些错误不仅速度慢而且成本高。该文提出了一种基于统计翻译框架的传统蒙古文自动拼写校对方法,将拼写校对看作是从错误词到正确词的翻译。该文使用改进的基于短语的统计机器翻译模型来构建拼写校对模型,然后对测试文本进行校对。实验结果表明,该方法可以快速、有效地校对拼写错误,而且不依赖于特定语言的语法知识。使用该方法对包含1 026个正确词、1 102个错误词的测试集进行拼写校对,校对后文本中的正确词所占比例最高可达97.55%。  相似文献   

9.
N-gram模型综述   总被引:1,自引:0,他引:1  
N-gram模型是自然语言处理中最常用的语言模型之一,广泛应用于语音识别、手写识别、拼写纠错、机器翻译和搜索引擎等众多任务.但是N-gram模型在训练和应用时经常会出现零概率问题,导致无法获得良好的语言模型,因此出现了拉普拉斯平滑、卡茨回退和Kneser-Ney平滑等平滑方法.在介绍了这些平滑方法的基本原理后,使用困惑度作为度量标准去比较了基于这几种平滑方法所训练出的语言模型.  相似文献   

10.
该文针对藏文语料稀缺的问题,在藏汉双语、藏文单语文本改写检测任务中使用数据增强的方法,在一定程度上解决了低资源语言训练语料规模小的问题。在藏汉跨语言文本改写检测任务中,该文使用数据增强方法,有效利用目前公开的藏汉平行语料,扩充藏汉跨语言文本改写检测训练语料,当扩充至20万句对时,藏汉改写检测模型的皮尔森系数(pearson correlation)达到0.547 6,比基线系统的皮尔森系数提升了0.397 1,表明藏汉改写检测模型检测出的句对相似度值与人工标注的相似度值已达到中等程度相关。在藏文单语言任务中,该文采用训练藏文音节向量的方法,以缓解语料稀缺带来的词向量稀疏问题。实验结果表明,基于藏文音节向量的藏文改写检测模型的皮尔森系数可达到0.678 0,比相应的基于藏文词向量实验的结果提升了0.1,使得藏文单语言文本改写检测模型的检测结果与人工标注的结果达到了强相关程度。  相似文献   

11.
藏医药文本字符嵌入对藏医药医学实体识别有着重要意义,但目前藏文缺少高质量的藏文语言模型。本文结合藏文结构特点使用普通藏文新闻文本训练基于音节的藏文BERT模型,并基于藏文BERT模型构建BERT-BiLSTM-CRF模型。该模型首先使用藏文BERT模型对藏医药文本字符嵌入进行学习,增强字符嵌入对藏文字符及其上下文信息的表示能力,然后使用BiLSTM层进一步抽取藏医药文本中字符之间的依赖关系,最后使用CRF层强化标注序列的合法性。实验结果表明,使用藏文BERT模型初始化藏医药文本字符嵌入有助于提高藏医药医学实体识别效果,F1值达96.18%。  相似文献   

12.
该文结合链接分析技术和藏文编码识别技术,使用网络爬虫实现对互联网上藏文文本资源的挖掘,分析了Web藏文文本资源的分布情况。统计数据显示,国内藏文网站50%以上在青海省;约87%的藏文网页集中分布在31个大型网站中;人们正在逐步弃用旧有藏文编码,使用Unicode编码来制作网页。利用HTML标记、栏目归属、标点符号等自然标注信息对这些文本进行抽取,可以构建篇章语料和文本分类语料,可以抽取互联网藏文词库,进行词频统计和训练藏文语言模型,结合双语词典和搜索引擎技术抽取双语平行语料。这些语料可用于藏文分词、命名实体识别、信息检索、统计机器翻译等研究领域。  相似文献   

13.
藏文字符排序将被广泛应用于藏文文字信息处理的各个方面,包括字、词典的排序、系统软件和其他应用软件.试图对藏文的书写笔画排序规则做出较为正确、合理的归纳和富有逻辑性的描述,目的是为了找到一种在计算机里自动实现藏文笔画排序的算法模型,并打破了藏文字符仅依赖于音节部首结构排序的传统思维定式和框架.  相似文献   

14.
藏文词性自动标注是藏文信息处理后续句法分析、语义分析及篇章分析必不可少的基础工作。词性歧义问题的处理是藏文词性自动标注的关键所在,也是藏文信息处理的难点问题。对藏文词性标注中词性歧义问题进行了分析研究,提出了符合藏丈语法规则实用于藏文词性标注的解决词性排岐方法。实验证明:该处理方法在藏文词性自动标注中对词性排岐方面有较好的效果,使藏文词性标注正确率有了一定的提高。  相似文献   

15.
藏语语料库TEI标记规范探讨   总被引:1,自引:0,他引:1  
在语言信息处理过程中,大规模真实文本处理已成为一个研究热点。藏语语料库的标记在汉藏英机器翻译、信息检索、文本数据挖掘、词典编纂的研究工作中占很重要的地位。为了便于数据交换和共享,该文基于TEI编码的藏语语料,对藏语语料库中文本的属性信息和结构信息标记做了系统而全面的探讨。  相似文献   

16.
移动互联网时代已经到来,各种移动终端成为了人们交流与沟通的重要工具,然而少数民族文化信息的传递因为输入法的缺失而受到了一定的限制,推动和发展少数民族文化需要从最基本的文字输入法开始。针对以上问题,本文通过对藏文的特点、藏文文字的组成、国内外对藏文文字信息编码等方面进行了探讨和研究,在此基础上分析了Android系统输入法框架IMF的特点、组成及工作原理。最后依据Android系统输入法的框架通过使用各种开发工具和方法,开发出了一款藏文输入法,并通过了在Android系统终端上的测试。文章阐述了藏文在Android系统下输入法的设计思想以及实现过程,介绍了该技术的设计原理以及流程。  相似文献   

17.
藏语微博是目前流行的藏文网络媒体形式。对藏文微博文本进行情感挖掘,能够有效提高政府对藏语言的监测能力。传统的文本分类方法对中文微博能够达到不错的效果,但由于藏文具有自身的语言特点,传统方法对藏语的分类效率并不高。本文提出了一种基于语义空间的藏文微博情感分析方法。该方法首先使用句法树生成句法结构;然后结合句法结构和语义特征向量构建语义特征空间,在特征空间中通过K-means方法聚类形成语义簇质心;最后计算基于簇的TF-IDF值作为最终的微博情感特征值。实验结果表明,与目前常用的SVM TF-IDF和Naive Bayes 最大熵方法相比,该方法能更准确地对藏文微博进行情感分类。  相似文献   

18.
班智达藏文语料切分词典的建立与算法研究   总被引:2,自引:0,他引:2  
才藏太 《计算机应用》2009,29(7):2019-2021
随着自然语言信息处理的不断发展和完善,大规模语料文本处理已经成为计算语言学界的一个热门话题。一个重要的原因是从大规模的语料库中能够提取出所需要的知识。而语料文本的处理与加工以语法信息词典作基础。结合藏文语料库切分标注规范,论述了对藏文语料库切分与标注用的藏文语法信息词典的建立和设计,重点讨论了该词典的内容建设、语法信息的标注、索引结构及查找算法。  相似文献   

19.
藏语声纹识别技术的研究刚刚起步,建设一个用于藏语声纹识别的语料库迫在眉睫。结合藏语特点,设计、建立了一个面向藏语声纹识别的语料库。语料库包含文本相关、文本无关两部分,文本语料来自新闻报刊、文学类、教育类、科技类、佛学类、历史类和传统文化五明类等文献资料,录音者由来自多个不同藏语方言地区的50人组成,产生了语音语料9 500条,为藏语的声纹识别研究奠定了一定的基础。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号