共查询到16条相似文献,搜索用时 154 毫秒
1.
中文文本自动校对的语义级查错研究 总被引:4,自引:0,他引:4
目前中文文本自动校对的研究集中在词级和句法查错两方面,语义级查错仍是其中的薄弱环节。文章讨论了中文文本自动校对中的语义错误校对技术,综合使用了基于实例、基于统计和基于规则的搭配关系进行检查,提出统计和规则相结合的校对策略,既能检查局部语义限制,也能检查长距离的语义搭配,收到了较好的效果,也为中文自动校对的发展提供了新的思路。 相似文献
2.
3.
中文文本自动校对技术的研究 总被引:5,自引:0,他引:5
传统的自动校对技术多是基于字、词级的统计方法,有很多局限,通过讨论中文文本自动校对技术的设计思想与实现方法及中英文自动校对的异同,提出了词法、句法、语义多层次结合校对策略,从而能够检查以往无法查出的错误,描述了自动校对系统的整体框架,并具体给出可操作的实现方法。这些方法针对非受限领域的文本,为中文自动校对技术的发展提供了新的思路。 相似文献
4.
中文文本自动校对技术现状及展望 总被引:6,自引:5,他引:6
本文概述了中文文本自动校对技术的产生背景,分析了预校对文本常见的错误类 型及文本自动校对(自动查错和确认纠错)的难点,探讨了当前商品化的文本校对软件的校对策略和发展趋势。 相似文献
5.
6.
提出了一种从正确标注的训练语料中自动获取兼类词词性较对规则的方法 ,并设计和实现了相应的词性自动校对系统。通过对中文文本进行自动校对 ,进一步提高其词性标注质量 相似文献
7.
中文真词错误自动校对是自然语言理解的一项重要的基础研究课题,油田数字化过程中利用图像识别及人工录入产生的中文真词错误会直接影响后期数据综合分析准确度。对中文真词错误成因和统计语言模型进行分析,提出一种面向油田领域的中文真词错误自动校对方法。该方法首先构建通用领域和油田领域混淆集,再引入同义词集丰富知识库,对语料分词后,综合统计分析目标词与混淆词、周边词的同义词之间关系,自动校对真词错误。实验表明,提出的方法能有效校对油田领域的中文真词错误。 相似文献
8.
9.
基于Bigram的特征词抽取及自动分类方法研究 总被引:1,自引:1,他引:1
王笑旻 《计算机工程与应用》2005,41(22):177-179,210
用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题。该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性。此外,通过采用基于统计学习原理和结构风险最小原则的支持向量机算法对一些文本进行了分类,验证了由所提出的算法得到的特征词的有效性和可行性。 相似文献
10.
基于规则与统计相结合的中文文本自动查错模型与算法 总被引:7,自引:0,他引:7
中文文本自动校对是自然语言处理领域具有挑战性的研究课题。本文提出了一种规则与统计相结合的中文文本自动查错模型与算法。根据正确文本分词后单字词的出现规律以及“非多字词错误”的概念,提出一组错误发现规则,并与针对分词后单字散串建立的字二元、三元统计模型和词性二元、三元统计模型相结合,建立了文本自动查错模型与实现算法。通过对30篇含有578个错误测试点的文本进行实验,所提算法的查错召回率为86.85%、准确率为69.43% ,误报率为30.57%。 相似文献
11.
中文校对系统中纠错知识库的构造及纠错建议的产生算法 总被引:5,自引:1,他引:4
本文依据待校对文本中的常见错误类型介绍了纠错知识库的构造方法以及基于该纠错知识库的自动纠错算法。该算法通过利用出错字串的特征,结合上下文启发信息,可有效地对文本中的别字、漏字、多字、易位、多字替换等错误提供纠错建议。文中还对纠错建议的排序算法进行了讨论。 相似文献
12.
该文首先分析了蒙古文电子文本中存在的错误类型、出错原因以及常用的查错纠错方法,然后根据蒙古文特有的书写习惯和编码特点提出一种基于不确定有限自动机的校对算法。该算法采用有限自动机的方法对校对算法所依据的知识词典进行描述,大大提高了文本查错和纠错速度。 相似文献
13.
文本自动校对技术研究综述* 总被引:3,自引:1,他引:2
概述了文本自动校对技术的产生背景,分析了中西文文本的各自特点以及它们之间的异同,对中西文文本校对的技术难点和解决方法以及国内外的研究现状进行了回顾和评述,探讨了文本校对技术未来的发展方向及需要解决的问题。 相似文献
14.
15.
文本校对是自然语言处理领域的重要分支。深度学习技术因强大的特征提取与学习能力被广泛应用于中文文本校对任务。针对现有中文文本错误检测模型忽略句子连续词间的局部信息、对于长文本的上下文语义信息提取不充分等问题,提出一种基于多通道卷积神经网络(CNN)与双向门控循环单元(BiGRU)的字词级文本错误检测模型。利用Word2vec向量化待检错文本,采用CNN挖掘待检错文本的局部特征,使用BiGRU学习待检错文本的上下文语义信息及长时依赖关系,并通过Softmax处理后输出文本分类结果以判断文本中是否含有字词错误,同时采取L2正则化和dropout策略防止模型过拟合。在SIGHAN2014和SIGHAN2015中文拼写检查任务数据集上的实验结果表明,与基于长短时记忆网络的文本错误检测模型相比,该模型的检错F1值提升了3.01个百分点,具有更优的字词级文本错误检测效果。 相似文献
16.
在目前的电视台采访和录音中,有大量的文本任务需要使用语音识别软件进行从语音向文字的转换。如今语音识别的准确率虽然已经足够出色,但对于电视台等严谨的专业领域效果一般,其结果还不能完全信任。由于缺少自动有效地对识别结果进行校对的方法,电视台需要花费大量的人力和物力进行人工校对。因此,本文希望设计并开发一个录音采访文字校对软件来解决此问题。该软件开发的主要工作是构建通用领域和专业领域的语言模型、融合基于统计方法的N-Gram模型和基于特征与学习的Seq2Seq模型相结合的查错纠错算法、构建新闻播报和电视台录音采访等专业领域的查错规则库。 相似文献