首页 | 本学科首页   官方微博 | 高级检索  
相似文献
 共查询到19条相似文献,搜索用时 140 毫秒
1.
2.
中文文本自动校对技术现状及展望   总被引:6,自引:5,他引:6  
本文概述了中文文本自动校对技术的产生背景,分析了预校对文本常见的错误类 型及文本自动校对(自动查错和确认纠错)的难点,探讨了当前商品化的文本校对软件的校对策略和发展趋势。  相似文献   

3.
4.
维吾尔文字编辑方向与汉、英文编辑方向相反,字符变形、连笔复杂,OpenType字形技术的出现使维吾尔文字计算机处理看到了新的契机。本文在研究了OpenType字形技术的基础上,结合维吾尔文字结构特征及语法特征,提炼出维吾尔文字组合规律及变形显现替换规则,通过OpenType脚本描述维吾尔文文字属性,利用字模编辑软件与脚本编辑软件生成维吾尔文OpenType字库。  相似文献   

5.
维吾尔文OpenType字库设计与实现   总被引:2,自引:0,他引:2  
维吾尔文字编辑方向与汉、英文编辑方向相反,字符变形、连笔复杂,OpenType字形技术的出现使维吾尔文字计算机处理看到了新的契机。本文在研究了OpenType字形技术的基础上,结合维吾尔文字结构特征及语法特征,提炼出维吾尔文字组合规律及变形显现替换规则,通过OpenType脚本描述维吾尔文文字属性,利用字模编辑软件与脚本编辑软件生成维吾尔文OpenType字库。  相似文献   

6.
Excel正广泛地用于数据管理,对大量数据而言,校对工作可是令人头痛的事。下面就说说怎样校对。  相似文献   

7.
随着社会的发展,语言也在不断地发展变化。为了切实掌握维吾尔语当前使用情况,及时把握维吾尔语年度用词的第一手资料,对网络媒体的现代维吾尔语用词进行研究。首先对现代维吾尔语词语的结构进行分析,并给出描述现代维吾尔语词法的结构模型;然后介绍调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法以及统计结果讨论。  相似文献   

8.
针对维吾尔文情感语料库标注体系不规范、语料库规模小、没有合适的标注平台等问题,分析英文和中文比较著名情感语料库的优点,结合维吾尔语文本的特点,建立维吾尔文情感语料标注规范,利用Python语言构建集数据采集与标注为一体的情感标注平台,最后构建在舆情分析和舆情监控中可以应用的维吾尔文情感语料库。实验结果表明,该标注规范具有可扩展性和实用性,标注平台可以有效地减轻标注人员的工作量,提高情感语料库的质量,情感语料库可以用于舆情分析任务。   相似文献   

9.
特征提取方法的选择是影响识别率的一个至关重要的因素。而印刷识别中的分类特征很多,让每一类特征具有良好的分类能力和稳定性是仍需要解决的问题。现就以具有高稳定性和抗干扰能力的八方向码特征为例,对其提取方法进行了全面的阐述。  相似文献   

10.
介绍了一种基于PDA和手机上的维吾尔文字母输入方法,确定了数字键盘上维吾尔文字母键盘布局,采用键位加数字选择的方法完成维吾尔文字符的输入。  相似文献   

11.
主题抽取是意见挖掘的核心任务之一。该文面向维吾尔语评论文本, 针对显式主题和隐式主题, 提出了一种陈述级的主题抽取方法。该方法采用GLR-Cascaded LDA模型抽取段落级的局部主题、篇章级的全局主题, 建立全局—局部主题关系, 并将这些关系对应到每个意见陈述中; 然后运用Bootstrapping和模式匹配的方法进行显式陈述的主题抽取; 最后使用隐式主题推断算法推断隐式陈述的主题。主题抽取的最终目标是为每个意见陈述建立意见陈述—主题四元组。实验结果证明了该方法在主题抽取任务中的有效性。  相似文献   

12.
首先简要介绍语音合成技术的总体概念及研究状况,然后提出用不同长度的单元进行拼接的维吾尔语语音合成方法。该方法能更好地利用自然语流的原始信息.提高合成语音的自然度,同时也能提高系统的灵活性。  相似文献   

13.
首先简要介绍语音合成技术的总体概念及研究状况,然后提出用不同长度的单元进行拼接的维吾尔语语音合成方法。该方法能更好地利用自然语流的原始信息,提高合成语音的自然度,同时也能提高系统的灵活性。  相似文献   

14.
为了方便维文图像的切分和识别工作, 提出将基于凸多边形的最小面积外接矩形法和基线拟合法相结合的检测和校正图像方法。首先提取边缘像素生成凸多边形, 利用基于凸多边形的最小面积外接矩形法实现初步的倾斜校正, 再根据维文沿基线书写的特点, 将图像细化后采用基线拟合的方法完成维文文本的精确校正。实验结果表明, 该方法能够精确地检测出文本图像的倾斜角并校正, 是行之有效的方法。  相似文献   

15.
阐述了在中文文本校错系统研究和实现过程中 ,面向文本错误查找与纠错建议产生的语言知识获取及知识库构建的思想及其实现算法 .针对数据稀疏问题探讨了查错知识库的存取技术 ,针对不同错误源 ,重点研究了相似码词典、字驱动双向词典和骨架键词典的构造方法 .基于所构建的知识库而实现的中文文本校错系统 ,其查错的召回率和精确率以及纠错建议的有效率都得到很大的提高  相似文献   

16.
文本自动校对是自然语言处理的一个挑战性的研究课题,也是一个难题。该文对中文的错误类型和原因进行分析,提出了一种基于领域问答系统用户问题日志的错别字自动发现方法。该方法首先对语料进行分词,然后对分词的结果中出现的散串进行合并,对分词中的多字词和合并的串进行相似词串聚类,对相似词串的上下文语境进行统计分析,从中自动获取错别字对。实验表明,该系统获得71.32%的召回率,82.6%的准确率。  相似文献   

17.
文本校对是自然语言处理领域的重要分支。深度学习技术因强大的特征提取与学习能力被广泛应用于中文文本校对任务。针对现有中文文本错误检测模型忽略句子连续词间的局部信息、对于长文本的上下文语义信息提取不充分等问题,提出一种基于多通道卷积神经网络(CNN)与双向门控循环单元(BiGRU)的字词级文本错误检测模型。利用Word2vec向量化待检错文本,采用CNN挖掘待检错文本的局部特征,使用BiGRU学习待检错文本的上下文语义信息及长时依赖关系,并通过Softmax处理后输出文本分类结果以判断文本中是否含有字词错误,同时采取L2正则化和dropout策略防止模型过拟合。在SIGHAN2014和SIGHAN2015中文拼写检查任务数据集上的实验结果表明,与基于长短时记忆网络的文本错误检测模型相比,该模型的检错F1值提升了3.01个百分点,具有更优的字词级文本错误检测效果。  相似文献   

18.
维吾尔文属于粘连文字,而且其字母形式变化多样,如果逐一识别其每一个字母及其变体是比较困难的,而且其识别效果也不理想。提出一种三层树型分类的方法,将维吾尔文字母分为若干个子集进行识别,取得比较理想的效果。  相似文献   

19.
情感分类是一项具有实用价值的分类技术。目前英语和汉语的情感分类的研究比较多,而针对维吾尔语的研究较少。以n-gram模型作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,选择不同的特征数量,以Naǐve Bayes、ME(最大熵)和SVM(支持向量机)作为不同的文本分类方法,分别进行了维吾尔语情感分类实验,并对实验结果进行了比较,结果表明:采用UniGrams特征表示方法、在5 000个特征数量和合适的特征选择函数,ME和SVM对维吾尔语情感分类能取得较好的效果。  相似文献   

设为首页 | 免责声明 | 关于勤云 | 加入收藏

Copyright©北京勤云科技发展有限公司  京ICP备09084417号