共查询到19条相似文献,搜索用时 109 毫秒
1.
2.
中文文本自动校对技术现状及展望 总被引:6,自引:5,他引:6
本文概述了中文文本自动校对技术的产生背景,分析了预校对文本常见的错误类 型及文本自动校对(自动查错和确认纠错)的难点,探讨了当前商品化的文本校对软件的校对策略和发展趋势。 相似文献
4.
维吾尔文字编辑方向与汉、英文编辑方向相反,字符变形、连笔复杂,OpenType字形技术的出现使维吾尔文字计算机处理看到了新的契机。本文在研究了OpenType字形技术的基础上,结合维吾尔文字结构特征及语法特征,提炼出维吾尔文字组合规律及变形显现替换规则,通过OpenType脚本描述维吾尔文文字属性,利用字模编辑软件与脚本编辑软件生成维吾尔文OpenType字库。 相似文献
5.
维吾尔文OpenType字库设计与实现 总被引:2,自引:0,他引:2
维吾尔文字编辑方向与汉、英文编辑方向相反,字符变形、连笔复杂,OpenType字形技术的出现使维吾尔文字计算机处理看到了新的契机。本文在研究了OpenType字形技术的基础上,结合维吾尔文字结构特征及语法特征,提炼出维吾尔文字组合规律及变形显现替换规则,通过OpenType脚本描述维吾尔文文字属性,利用字模编辑软件与脚本编辑软件生成维吾尔文OpenType字库。 相似文献
6.
7.
随着社会的发展,语言也在不断地发展变化。为了切实掌握维吾尔语当前使用情况,及时把握维吾尔语年度用词的第一手资料,对网络媒体的现代维吾尔语用词进行研究。首先对现代维吾尔语词语的结构进行分析,并给出描述现代维吾尔语词法的结构模型;然后介绍调查使用的语料媒体来源、应用领域、采集的语料时间跨度与统计方法以及统计结果讨论。 相似文献
8.
9.
10.
介绍了一种基于PDA和手机上的维吾尔文字母输入方法,确定了数字键盘上维吾尔文字母键盘布局,采用键位加数字选择的方法完成维吾尔文字符的输入。 相似文献
11.
主题抽取是意见挖掘的核心任务之一。该文面向维吾尔语评论文本, 针对显式主题和隐式主题, 提出了一种陈述级的主题抽取方法。该方法采用GLR-Cascaded LDA模型抽取段落级的局部主题、篇章级的全局主题, 建立全局—局部主题关系, 并将这些关系对应到每个意见陈述中; 然后运用Bootstrapping和模式匹配的方法进行显式陈述的主题抽取; 最后使用隐式主题推断算法推断隐式陈述的主题。主题抽取的最终目标是为每个意见陈述建立意见陈述—主题四元组 。实验结果证明了该方法在主题抽取任务中的有效性。 相似文献
12.
首先简要介绍语音合成技术的总体概念及研究状况,然后提出用不同长度的单元进行拼接的维吾尔语语音合成方法。该方法能更好地利用自然语流的原始信息.提高合成语音的自然度,同时也能提高系统的灵活性。 相似文献
13.
首先简要介绍语音合成技术的总体概念及研究状况,然后提出用不同长度的单元进行拼接的维吾尔语语音合成方法。该方法能更好地利用自然语流的原始信息,提高合成语音的自然度,同时也能提高系统的灵活性。 相似文献
14.
15.
阐述了在中文文本校错系统研究和实现过程中 ,面向文本错误查找与纠错建议产生的语言知识获取及知识库构建的思想及其实现算法 .针对数据稀疏问题探讨了查错知识库的存取技术 ,针对不同错误源 ,重点研究了相似码词典、字驱动双向词典和骨架键词典的构造方法 .基于所构建的知识库而实现的中文文本校错系统 ,其查错的召回率和精确率以及纠错建议的有效率都得到很大的提高 相似文献
16.
17.
文本校对是自然语言处理领域的重要分支。深度学习技术因强大的特征提取与学习能力被广泛应用于中文文本校对任务。针对现有中文文本错误检测模型忽略句子连续词间的局部信息、对于长文本的上下文语义信息提取不充分等问题,提出一种基于多通道卷积神经网络(CNN)与双向门控循环单元(BiGRU)的字词级文本错误检测模型。利用Word2vec向量化待检错文本,采用CNN挖掘待检错文本的局部特征,使用BiGRU学习待检错文本的上下文语义信息及长时依赖关系,并通过Softmax处理后输出文本分类结果以判断文本中是否含有字词错误,同时采取L2正则化和dropout策略防止模型过拟合。在SIGHAN2014和SIGHAN2015中文拼写检查任务数据集上的实验结果表明,与基于长短时记忆网络的文本错误检测模型相比,该模型的检错F1值提升了3.01个百分点,具有更优的字词级文本错误检测效果。 相似文献
18.
情感分类是一项具有实用价值的分类技术。目前英语和汉语的情感分类的研究比较多,而针对维吾尔语的研究较少。以n-gram模型作为不同的文本表示特征,以互信息、信息增益、CHI统计量和文档频率作为不同的特征选择方法,选择不同的特征数量,以Naǐve Bayes、ME(最大熵)和SVM(支持向量机)作为不同的文本分类方法,分别进行了维吾尔语情感分类实验,并对实验结果进行了比较,结果表明:采用UniGrams特征表示方法、在5 000个特征数量和合适的特征选择函数,ME和SVM对维吾尔语情感分类能取得较好的效果。 相似文献
19.
维吾尔文属于粘连文字,而且其字母形式变化多样,如果逐一识别其每一个字母及其变体是比较困难的,而且其识别效果也不理想。提出一种三层树型分类的方法,将维吾尔文字母分为若干个子集进行识别,取得比较理想的效果。 相似文献